Vous êtes sur la page 1sur 428

Faculté des LETTRES

UR 1939 Linguistique, Langues et Parole-LiLPa


ER Parole et Cognition & Institut de Phonétique de Strasbourg (IPS)

THESE
Présentée pour l’obtention du doctorat de Sciences du Langage
Spécialité : Phonétique Générale et Expérimentale
par

Fayssal BOUAROUROU
soutenue le 08 décembre 2014

La gémination en tarifit : considérations phonologiques,


étude acoustique et articulatoire

JURY

M. le Professeur Pascal PERRIER (Rapporteur)


Laboratoire Grenoble Images Parole Signal Automatique, Gipsa-Lab, Université de Grenoble

M. Shinji MAEDA, Directeur de Recherche au CNRS (Rapporteur)


Laboratoire de Phonétique et Phonologie - Sorbonne Nouvelle, Paris III

M. Yves LAPRIE, Directeur de Recherche au CNRS (Examinateur)


LORIA/ Groupe Parole, Nancy

Mme le Professeur Beatrice VAXELAIRE (Examinatrice)


IPS & U.R. 1339 LiLPa, ER Parole et Cognition, Université de Strasbourg

M. Rachid RIDOUANE, Chargé de Recherche au CNRS (Co-encadrant)


Laboratoire de Phonétique et Phonologie - Sorbonne Nouvelle, Paris III

M. le Professeur Rudolph SOCK (Directeur)


IPS & U.R. 1339 LiLPa, ER Parole et Cognition, Université de Strasbourg
2
Remerciements

Tout d’abord, je tiens à remercier mon directeur de thèse, M. le Professeur Rudolph


Sock, de m’avoir initié à la phonétique à travers ses cours passionnants et de m’avoir apporté
ses conseils. Il m’a transmis au fil des ans son savoir, ses connaissances. Travailler à ses côtés
a été une véritable chance, cela a été très fructueux pour moi, ces années ont été extrêmement
riches. Aussi, sa présence et son soutien au quotidien, sa bienveillance, m’ont été d’une aide
inestimable. Je tiens ici à souligner les qualités humaines de cette personne exceptionnelle.

Je remercie aussi beaucoup mon co-directeur M. Rachid Ridouane, CR au CNRS, pour


ses conseils, ses recommandations sur le plan phonétique et phonologique du berbère. Nos
discussions scientifiques m’ont permis d’approfondir ce travail de thèse, particulièrement au
niveau méthodologique et pour la littérature portant sur la linguistique berbère.

Je n’oublie pas de remercier également Mme le Professeur Béatrice Vaxelaire,


Directrice de l’Institut de Phonétique de Strasbourg, qui m’a initié aux analyses
cinéradiographiques et à la précision et rigueur que ces analyses requièrent. Je la remercie
pour tous ses conseils, ses encouragements et surtout son sourire.

Je remercie vivement les membres du jury, qui ont accepté d’évaluer mon travail.
Un grand merci aux rapporteurs, M. le Professeur Pascal Perrier et M. Shinji Maeda,
DR au CNRS, pour le temps qu’ils ont consacré à la lecture et l’évaluation de ce travail.
Un grand merci également à M. Yves Laprie, DR au CNRS, pour cette collaboration
fructueuse et ses conseils d’analyses des données cinéradiographiques avec le logiciel X-
articule. Merci pour les nombreuses heures qu’il a réservées à ma formation.

Merci à mes locuteurs : Khalifa, Hind, Sarah, Yassin et Karim. Ils n’ont pas compté les
heures d’enregistrement, malgré la difficulté de cette tâche.

Je remercie Aline et Saïd pour le travail technique. L’aide et le soutien de ces deux
personnes, chères à mes yeux, ont été particulièrement précieux.
Merci à Saïd, son amitié m’a aidé à traverser les moments difficiles tout au long de ces
années de recherche.
Un merci spécifique à Aline, qui a été présente en tout temps et a su me faire avancer.
Sa présence à mes côté a été essentielle pour l’aboutissement de ce travail de thèse.
Je remercie mes relecteurs : Marion Béchet, Fabrice Hirsch, Fabrice Marsac, Cécile
Merckel, Camille Fauth, Dominique Hamm, Nourdine Combo, Fatima Rami, et Elodie Lang.

Merci,
A tous mes collègues de l’Institut de Phonétique de Strasbourg : Said, Obama, Hasna,
Xuelu, Saoussan, Lucie, Marion, Cyril, Thomas, Camille, Ming, Nadjia, Fatima, Insaf,
Dominique, Tomoki, Célistine, Soucila, Amel, Naïma, Mélanie et Nabu.

A mes collègues de LILPA : Angelina, Anna, Elodie, Constance, Julien …

A ma famille, qui bien qu’éloignée physiquement, a toujours su être là pour moi, et a


toujours cru en moi et dont le soutien est inconditionnel. Aux membres de ma famille présents
à Strasbourg.

A mes amis de pasta : Mohamed, Rachid, Boussif, Baghdad et Mounir. Et les autres...

4
Table des matières
1 Le berbère : présentation générale ................................................................................... 12
1.1 Le berbère au Maroc .................................................................................................. 12
1.1.1 Les différentes variétés du berbère..................................................................... 13
1.1.2 Spécificités phonologiques du berbère ............................................................... 14
1.2 Tarifit : le système phonologique .............................................................................. 16
1.2.1 Les labiales ......................................................................................................... 16
1.2.2 Les dentales ........................................................................................................ 17
1.2.3 Les alvéolaires .................................................................................................... 18
1.2.4 Les palato-alvéolaires ......................................................................................... 18
1.2.5 Les nasales.......................................................................................................... 18
1.2.6 Les liquides ........................................................................................................ 18
1.2.7 Les affriquées ..................................................................................................... 19
1.2.8 Les vélaires ......................................................................................................... 19
1.2.9 Les uvulaires ...................................................................................................... 20
1.2.10 Les pharyngales .................................................................................................. 20
1.2.11 La laryngale ........................................................................................................ 21
1.2.12 Les semi-consonnes............................................................................................ 21
1.2.13 Les emphatiques ................................................................................................. 21
1.2.14 Les labialisées .................................................................................................... 22
1.2.15 Le système vocalique du tarifit : ........................................................................ 22
1.2.16 L’influence de l’emphase sur la qualité des voyelles adjacentes : ..................... 23
1.2.17 L’amuïssement de la liquide  .......................................................................... 24
1.2.18 La gémination : quelques remarques préliminaires............................................ 26
1.2.19 Les fonctions lexicales, morphologiques et phonologiques de la gémination ... 27
2 Gémination : représentation, comportement et implémentation phonétique ................... 30
2.1 Quelle représentation pour les géminées ? ................................................................ 30
2.1.1 S’agit-il d’un seul segment ou d’une suite de deux segments ? ......................... 30
2.1.2 Longueur ou tension ? ........................................................................................ 32
2.1.3 Représentation X-slot ou représentation moraïque ............................................ 35
2.1.4 La question des géminées initiales et finales ..................................................... 38
2.2 comportements pour les géminées ? .......................................................................... 40
2.2.1 L’ambivalence .................................................................................................... 42
2.2.2 Intégrité : ............................................................................................................ 46
2.2.3 L’inaltérabilité des géminées ............................................................................. 48
3 Dimension typologique de la gémination......................................................................... 58
3.1 Analyses perceptives et acoustiques .......................................................................... 58
3.2 Analyses articulatoires ............................................................................................... 64
3.3 Les consonnes géminées en vitesses d’élocution normale et rapide ......................... 73
4 Les grands courants théoriques en phonétique ................................................................. 78
4.1 La Théorie Motrice de la Perception ......................................................................... 78
4.2 La Théorie Quantique de Stevens (1985 ; 1989 ; 1991 ; 2002 ; 2005)................... 79
4.3 La Théorie de la Variabilité Adaptative de Lindblom (1987 ; 1990) ........................ 83
4.4 Le modèle de la dynamique des tâches -The Task Dynamics Model (Saltzman et al.,
1987) ................................................................................................................................... 87
5 Théories et modèles qui intègrent la variabilité dans leur conception ............................. 92
5.1 Le Modèle statistique (Maeda, 1990) ........................................................................ 92
5.2 Le Modèle de Laprie : construction et évaluation d’un modèle articulatoire du
conduit vocal ........................................................................................................................ 94
5.3 Le modèle biomécanique de production de la parole selon l'hypothèse du Point
d’Équilibre ............................................................................................................................ 95
5.4 Phonologie articulatoire ............................................................................................. 99
5.4.1 Geste articulatoire : propriétés ......................................................................... 100
5.4.2 Geste articulatoire et notion d’oppositions phonologiques .............................. 102
5.4.3 La Théorie de la Viabilité en production-perception de la parole.................... 103
5.4.4 Notions et concepts .......................................................................................... 104
5.5 Notions et outils pour l’analyse de la gémination ................................................... 107
5.5.1 Généralités sur la vitesse d’élocution ............................................................... 107
5.5.2 La vitesse d’élocution : un perturbateur naturel par excellence ....................... 108
5.5.3 VOT : « Voice Onset Time » ........................................................................... 110
5.5.4 VTT : « Voice Termination Time » ................................................................. 112
6 Etude acoustique ............................................................................................................ 116
6.1 Corpus ...................................................................................................................... 116
6.2 Les sujets ................................................................................................................. 118
6.3 Enregistrements ....................................................................................................... 118
6.4 Mesures et analyses acoustiques.............................................................................. 118
6.5 L’analyse statistique. ............................................................................................... 121
7 La radiocinématographie, acquisition et traitements des radiofilms .............................. 123
7.1 Description de l'appareillage et d'une séance d'enregistrement ............................... 124
7.2 Extraction des contours, tracés radiologiques, méthodes manuelles, semi-
automatiques et automatiques ............................................................................................ 128
8 Etude des paramètres temporels : durées absolues......................................................... 140
8.1 Les occlusives sourdes............................................................................................. 146
8.1.1 Les occlusives sourdes en position intervocalique ........................................... 146
8.1.2 Les occlusives sourdes en position initiale ...................................................... 151
8.1.3 Les occlusives sourdes en position finale ........................................................ 154
8.2 Les occlusives sonores............................................................................................. 158
8.2.1 Les occlusives sonores en position intervocalique ........................................... 158
8.2.2 Les occlusives sonores en position initiale ...................................................... 162
8.2.3 Les occlusives sonores en position finale ........................................................ 165
8.3 Les constrictives sourdes ......................................................................................... 168
8.3.1 Les constrictives sourdes en position intervocalique ....................................... 168
8.3.1 Les constrictives sourdes en position initiale ................................................... 170
8.3.2 Les constrictives sourdes en position finale ..................................................... 171
8.4 Les constrictives sonores ......................................................................................... 173
8.4.1 Les constrictives sonores en position intervocalique ....................................... 173
8.4.2 Les constrictives sonores en position initiale ................................................... 175
8.4.3 Les constrictives sonores en position finale ..................................................... 176
9 Le contrôle spatiotemporel de la gémination ................................................................. 180
10 Gestes du larynx et de l’os hyoïde ................................................................................. 224
11 L’étendue de contact : un paramètre pertinent pour l’étude de la gémination ? ............ 239
12 Paramètres articulatoires et/ou articulatori-acoustiques ................................................. 251
13 Synthèse Générale et discussion .................................................................................... 257

6
14 Conclusions et perspectives… ....................................................................................... 265
15 Bibliographie .................................................................................................................. 271
16 Index des figures ............................................................................................................ 299
17 Index des tableaux .......................................................................................................... 311
18 Annexe 1 ........................................................................................................................ 315
19 Annexe 2 ........................................................................................................................ 355
20 Annexe 3 ........................................................................................................................ 368
21 Annexe 4 ........................................................................................................................ 419
Introduction
L’objectif de notre travail est d’étudier le phénomène phonologique de la gémination en
berbère du tarifit parlé au Maroc, dans la province de Nador.

L’étude repose sur des investigations acoustiques et articulatoires, menées


principalement dans le domaine temporel. Il s’agit essentiellement d’identifier des indices
acoustiques et articulatoires potentiels qui pourraient sous-tendre ce trait phonologique de la
gémination.

Ces investigations seront précédées de considérations phonologiques sur le statut de la


gémination, non seulement dans certaines variantes du berbère attestées dans la littérature,
mais aussi dans certaines langues qui connaissent ce trait phonologique.

Quelques hypothèses seront formulées, aussi bien dans le domaine acoustique que dans
le domaine articulatoire. De manière générale, nous pensons que l’analyse du substrat
physique, articulatoire et acoustique, devrait nous permettre de mettre au jour des indices
articulatoires et acoustiques qui sont sous-jacents au trait phonologique. La gémination étant
principalement un phénomène temporel, ces indices devraient être plus remarquables au
niveau du contrôle temporel des gestes articulatoires et de leurs conséquences acoustiques.

Une première originalité du travail réside dans le fait qu’il combine données
acoustiques et données articulatoires cinéradiographiques. En effet, des investigations dans le
domaine de la production de la parole, reposant sur l’analyse de données cinéradiographiques,
sont relativement rares. Or, les données cinéradiographiques sont d'une grande utilité. Ce sont
les seules à offrir actuellement, en même temps, une résolution spatio-temporelle correcte sur
l'ensemble du conduit vocal dans le plan sagittal. Elles sont à la base de l'élaboration de
modèles géométriques (Maeda, 1988 ; Berger,1996), et sont d'une grande utilité pour l'étude
de la coordination spatio-temporelle des articulateurs de la parole (Wood, 1991 ; Vaxelaire,
1999), ainsi que pour l’étude de l’inversion (Laprie et al., 2003). L'exploitation de données
cinéradiographiques peuvent aussi servir à valider des modèles biomécaniques (Perrier et al.,
2011).

Une seconde originalité de ce travail tient au fait que la gémination est étudiée dans le
cadre du paradigme de la variation de la vitesse d’élocution. La variation de la vitesse
d’élocution est retenue comme moyen naturel de perturbation du système de production de la
parole. Elle devrait nous permettre de repérer ces patrons spatio-temporels résistants et
phonologiquement pertinents des gestes des articulateurs, lors de la réalisation de la
gémination. Elle devrait aussi offrir la possibilité d’évaluer le degré de flexibilité du système
8
de production de la parole, en dévoilant les réaménagements ou les réajustements possibles
aux niveaux intra-articulateur et inter-articulateur. Cela reviendra à analyser les différentes
stratégies cognitivo-motrices utilisées par nos sujets pour maintenir la distinctivité des
catégories phonologiques de la gémination, dans cette condition « difficile » de la vitesse
d’élocution rapide, en mettant en jeu de potentiels phénomènes de compensation (Sock &
Vaxelaire, 2004 ; Vaxelaire, 2006).

La thèse parcourt certaines théories qui prônent l’invariance en production-perception


de la parole, posant qu’il existerait un invariant physique en parole qui serait de nature
articulatoire (précisément gestuel) avec une prise en compte des dynamiques des mouvements
articulatoires. Nous verrons aussi que d’autres théories soutiennent le fait que l’invariance soit
d’ordre acoustico-auditive, ou mettent en avant, au contraire, les variations possibles en
production de parole, c’est-à-dire que le locuteur possèderait la capacité à adapter la
production de la parole à la situation de communication.

Nos résultats seront discutés brièvement dans le cadre de ces approches théoriques,
même si nous préférerons rationaliser nos données en termes de relations articulatori-
acoustiques. C’est dans cette perspective articulatori-acoustique que nous ferons quelques
propositions pour le traitement du phénomène phonologique de la gémination en tarifit.
Organisation de la thèse
Notre étude s’articule en trois parties. Dans la première partie, nous présentons l’état de
la question sous forme de cinq chapitres. Dans le premier chapitre, nous abordons le système
phonologique du tarifit (berbère). Le chapitre deux traite de la gémination et ses
considérations phonologiques, à savoir les différentes représentations et comportements des
géminées. Le troisième chapitre porte sur la dimension typologique de la gémination et
comporte des analyses perceptives, acoustiques et articulatoires. Le quatrième présente les
théories phonétiques majeures de la perception et la production de la parole. Dans le chapitre
cinq, nous exposons les théories et modèles intégrant la variabilité de la parole dans leur
conception : 1) le modèle statistique (Maeda, 1990) ; 2) le modèle de Laprie & Busset (2011),
3) le modèle biomécanique de production de la parole selon l’hypothèse du point d’Équilibre
(Perrier et al., 1996) ; 4) le modèle de la phonologie articulatoire de Browman & Goldstein
(1986). Nous introduisons également dans ce chapitre quelques notions et outils nécessaires à
l’analyse de la gémination.

La deuxième partie est consacrée au protocole expérimental et à l’étude acoustique de la


gémination. Elle est composée de trois chapitres. Le chapitre six expose le protocole
expérimental avec le corpus, les sujets, les enregistrements, les mesures et les analyses
acoustiques de la gémination. Le chapitre sept présente la méthode d’acquisition et de
traitement des films cinéradiographiques. Nous consacrons le chapitre huit à l’étude des
paramètres temporels des durées absolues.

La dernière partie est dédiée à l’étude articulatoire de la gémination. Le chapitre neuf


présente le contrôle spatiotemporel de la gémination en étudiant différents paramètres, tels
que l’ouverture de la constriction, la constriction pharyngale et l’aperture labiale, et ce dans
les trois positions : intervocalique, initiale et finale (non-absolues). Dans le chapitre dix, nous
étudions les gestes du larynx et de l’os hyoïde dans les trois positions indiquées supra. Dans
le chapitre onze, nous effectuons la comparaison de l’étendue de contact des consonnes
simples et des consonnes géminées. Et enfin, les relations entre les paramètres articulatori-
acoustiques sont traitées dans le chapitre douze.

Nous proposons, tout au long de la thèse, des résumés et des bilans partiels afin de
faciliter la lecture et la compréhension du travail.

10
PARTIE 1

État de la question
1 Le berbère : présentation générale
La langue berbère ou tamazight est, à l'heure actuelle, présente dans une dizaine de pays
du Maghreb-Sahara-Sahel : Maroc, Algérie, Tunisie, Libye, Égypte, Niger, Mali, Burkina-
Faso et Mauritanie. Mais l'Algérie et le Maroc sont de loin les deux pays qui comptent les
populations berbérophones les plus importantes. Signe fort de l'identité berbère face à
l'arabisation, la langue berbère est riche d'une tradition orale qui a su intégrer les médias
modernes. De plus, la renaissance volontariste de l'alphabet traditionnel, les tifinaghs, a
permis de suppléer à la mémoire collective, de traduire les œuvres majeures du patrimoine
mondial et de développer une littérature berbère qui répond à une forte demande.
Selon Chaker (1992), l'évaluation du nombre de berbérophones est une question
difficile et controversée, car il n'existe pas de recensements linguistiques systématiques et
fiables dans les pays concernés. De plus, la situation générale (objective, institutionnelle et
idéologique de la langue berbère) rend problématique toute évaluation. En fait, le nombre de
berbérophones constitue en lui-même un enjeu politique important dans les pays du Maghreb.
Il a donc toujours fait l'objet de vives polémiques et d'estimations très divergentes. Pourtant,
si l'on soumet à la critique l'ensemble des chiffres avancés par les diverses sources, des débuts
de la présence coloniale française jusqu'à nos jours, on peut raisonnablement estimer les
berbérophones à :
- un pourcentage d'environ 40 % de la population au Maroc, soit 12 à 13 millions de
berbérophones sur une population globale de 32 millions ;
- un pourcentage d'environ 25 % de la population en Algérie, soit entre 7 et 8 millions de
locuteurs sur un total de 31 ou 32 millions d'habitants.

1.1 Le berbère au Maroc


Au Maroc, la berbérophonie est répartie en trois grandes zones dialectales, qui couvrent
l'ensemble des régions montagneuses :
- le tarifit, le parler du Rif, la zone Nord et Nord-Est du Maroc,
- le tamazight, le parler de la zone Centre et Sud-Est du Maroc,
- le tachelhit, le parler de la zone Sud et Sud-Ouest du Maroc.

Le Rif est une région de 2 500 000 habitants. Les plus grandes villes rifaines sont
Nador, Alhoceima, Berkane, Driouch et Melilla. Dans ce travail, nous nous focalisons sur le
tarifit parlé dans la province de Nador, et plus précisément sur le parler des Iqerâayen (la ville
de Nador et ses alentours).

12
La province de Nador est d'une superficie de 3 263 km2 et de 788 221 habitants (selon
l’office de tourisme de Nador en 2010). Cette province est située au nord-est du Maroc, dans
la région montagneuse du Rif. Elle est limitée :
 au nord, par la mer Méditerranée ;
 à l'est, par la province de Berkane ;
 au sud, par les provinces de Taourirt et de Guercif (région de Taza-Al Hoceïma-
Taounate) ;
 à l'ouest, par la province de Driouch.

Selon Cadi (1987, p. 9), « l’unité spatiale de territoire des Iqerâayyen est une
conséquence historique due au phénomène de l’alliance entre cinq tribus : At-sidar, At-
chichar, At-bouyehyi, At-bouyafar, et Imezzoujen. Ces cinq tribus ont donné la confédération
Iqerâayyen. Ce territoire fait partie de ce qu’il est convenu d’appeler le Rif oriental et
constitue une zone frontière entre le Haut-Rif central et le Maroc oriental. C’est un espace
essentiellement montagneux délimité au nord par la méditerranée, au sud par At-bouyehyi, à
l’est par Ichebdanen et Oulad-Settout, à l’ouest par At-sâid et une partie des Ibdarsen. »

Toujours selon Cadi (1987), le parler des Iqerâayyen est l’un des parlers qui constituent
le dialecte rifain (au sens large), dont les isoglosses sont encore mal définies. Ce problème a
été abordé depuis longtemps dans les travaux de Laoust (1927, p. 137) : « Ce que l’on connaît
mal c’est son aire d’extension, plus difficile encore à délimiter que les frontières linguistiques
de tout autre groupe marocain ».

Les tribus de l’est et du sud-est (At-bouyehyi, Oulad-settout, Ibdarsen et Ichebdanen)


ont des caractéristiques phonétiques et lexicales spécifiques, qui les rattachent au parler des
Beni-Iznassen.

À l’ouest, les tribus limitrophes (particulièrement At-sâid et At-touzine) ne représentent


pas de différence notoire avec le groupe. Cadi (1987, pp. 9–10) affirme qu’« au fur et à
mesure qu’on avance vers l’Ouest (tribus de Temsamane, Ibeqqouyen et At-ouriagher) et le
sud-ouest (At-ourichcht, et At-âmmar), des différences phonétiques et lexicales se font sentir,
sans jamais compliquer sérieusement la communication».

1.1.1 Les différentes variétés du berbère


Le berbère est l'une des branches de la grande famille linguistique chamito-sémitique1,
qui comprend, outre le berbère : le sémitique, le couchitique, l'égyptien (ancien) et, avec un

1
Chamito-sémitique ou afro-asiatique, selon la terminologie américaine initiée par Greenberg (1963).
13
degré de parenté plus éloigné, le groupe « tchadique ». Le berbère peut être considéré comme
la langue « autochtone » de l’Afrique du Nord, et il n’existe actuellement pas de trace positive
d’une origine extérieure ou de la présence d’un substrat pré-berbère dans cette région. Aussi
loin que l’on puisse remonter, le berbère est déjà installé dans son territoire actuel. La
toponymie, notamment, n’a pas permis jusqu’ici d’identifier un quelconque sédiment pré-
berbère.

1.1.2 Spécificités phonologiques du berbère


Selon Chaker (1984, p. 78), le système phonologique fondamental du berbère a été
étudié depuis longtemps par Basset (1946, 1952), Galand (1960) et Prasse (1972). La
comparaison inter-dialectale permet de considérer ce système primitif comme étant commun
à tous les systèmes dialectaux particuliers attestés. Les systèmes phonologiques effectifs
peuvent être beaucoup plus riches et divers. En plus des phonèmes empruntés à l'arabe
(principalement les consonnes pharyngales et certaines emphatiques), et de la tendance à la
spirantisation, les phénomènes de palatalisation et de labio-vélarisation, plus ou moins
étendus, contribuent à donner à chaque parler une identité phonétique voire phonologique
particulière. Ce système fondamental « berbère » s'organise autour de quelques grandes
corrélations : la gémination, la pharyngalisation, la labialisation, le mode d’articulation, le
voisement et la nasalité.

Une opposition de gémination (simple/géminée) traverse tout le système, et ce pour


toutes les variétés du berbère. Tout phonème berbère a un correspondant géminé, caractérisé
par une énergie articulatoire plus forte et, souvent, une durée plus longue. Notons cependant
qu’à notre connaissance, la notion d’énergie articulatoire plus forte n’a pas toujours été
démontrée de manière expérimentale. Galand (1953) considère cette opposition comme une
corrélation de tension. Cette corrélation demeure partout la véritable « colonne vertébrale » du
système consonantique des dialectes berbères, même là où les occlusives simples ont
tendance à connaître un affaiblissement de leur mode d'articulation.

Une discussion sur la nature des géminées, plutôt longues ou plutôt tendues, segments
uniques ou suites de deux segments, anime le monde linguistique berbère. Il s’agit d’un
problème théorique fondamental auquel le berbère apporte un éclairage supplémentaire,
puisque la gémination est un problème central de sa phonologie. Nous reviendrons sur cette
question dans le chapitre 0.

La pharyngalisation ou l’emphase, marquée conventionnellement par le signe API en


exposant //, se définit au niveau articulatoire comme la surimposition d’une articulation
14
secondaire à une articulation primaire. L’articulation secondaire est considérée comme la
rétraction de la racine de la langue qui entraîne ainsi la constriction de la cavité pharyngale.
Le trait de pharyngalisation est phonologiquement associé aux consonnes coronales. Pour
Berkat-Defradas & Embarki (2009, p. 22), la pharyngalisation ne concerne que les consonnes
coronales, autant en berbère qu’en arabe. En effet, il semble que des consonnes
pharyngalisées palatales ou vélaires soient irréalisables, puisque le dos de la langue qui doit se
rapprocher du palais pour ces deux articulations devrait en même temps être abaissé pour
l’articulation pharyngalisée. Toutefois, les consonnes labiales peuvent apparaître
pharyngalisées, de même que les post-alvéolaires, autant en berbère qu’en arabe. Ces
dernières n’accèdent généralement pas au statut de phonème.

Le mode articulatoire oppose les constrictives aux occlusives, c'est sans doute sur ce
point que le berbère présente les évolutions et les divergences les plus importantes. Tous les
dialectes de la bande méditerranéenne du Maghreb (Aurès, Kabylie, Algérie centrale et
occidentale, Rif, la majeure partie du Maroc central, etc.) connaissent, à des degrés divers,
une forte tendance à la spirantisation des occlusives : /b, t, d, , k, g/ deviennent
respectivement [, , , , , ]. Dans de nombreux dialectes (Aurès, Algérie centrale, Maroc
central, Mzab, Rif), le phénomène va encore plus loin : la fricative [] peut aboutir à la
fricative laryngale [h] ou disparaître totalement (Aurès). Dans ce cas, en tarifit, [] et [] sont
des variantes libres de /t/ et les fricatives palatales [] et [] finissent souvent en fricatives
post-alvéolaires [] et [], ou en semi-consonne palatale []. Les mêmes lexèmes peuvent donc
se rencontrer sous trois ou quatre formes différentes :

(1) /akal/ > [aal] > [aal] = « terre »

en tarifit : [] ou []


(2) /tamttut/ > [] > [] > [] = « femme »

en tarifit : [] ou []


(3) /argaz / > [] > [araz] > [araz] = « homme »

en tarifit : [] ou [araz]

15
Au Maroc, on distingue trois grandes variétés du berbère parlées par environ 40% de la
population. Les variétés en question sont :
 le tarifit, parlé dans le Nord et Nord-Est du Maroc ;
 le tamazight, parlé dans la zone Centre et Sud-Est du Maroc ;
 le tachelhit, parlé dans la zone Sud et Sud-Ouest du Maroc.
Le berbère se distingue par ses spécificités phonologiques, notamment par la gémination, la
pharyngalisation, la labialisation et la spirantisation des occlusives.
Ce travail se focalise sur le parler du tarifit de la province de Nador afin d’étudier la
gémination dans cette variante.

1.2 Tarifit : le système phonologique


Dans cette section, nous dressons l’inventaire des sons qui se rencontrent dans les divers
parlers du tarifit. Les sons que nous allons inventorier ne se réalisent pas tous dans la
performance de tous les locuteurs. Il s’agit d’un inventaire consonantique englobant toutes les
consonnes des parlers du tarifit en comparaison avec quelques autres variantes du berbère. En
analysant de près ce système global, nous constaterons que la divergence concerne
principalement l’opposition entre occlusives et constrictives, qui caractérise les parlers dits
constrictifs en les opposant aux parlers dits occlusifs. Pour une meilleure clarté, nous
présentons la liste de tous les phonèmes avec des exemples.

1.2.1 Les labiales


La bilabiale fricative /β/, la géminée /bb/ et les labiodentales /f/ et /ff/ sont attestées en
tarifit.

(4) arid « chemin »


(5) aqbbar « couvercle »
(6) fus « main »
(7) iffus « à droit »

L’usage de la bilabiale sourde /p/ est limité à des mots empruntés.

(8) aplatu « le plateau »

La labiodentale sonore /v/ n’existe pas en tarifit. Elle est remplacée par [β] quand il s’agit
d’un /v/ dans un mot emprunté.

(9) ttiliizjun « télévision »

16
Il est à noter que la bilabiale occlusive simple /b/ n’existe pas en tarifit. Elle est toujours
constrictive /β/ quand il s’agit d’une simple, et occlusive quand il s’agit d’une géminée /bb/.
C’est le cas lors du passage de l’aoriste à l’inaccompli.

aoriste inaccompli

(10)   « écraser »

1.2.2 Les dentales


Les occlusives dentales non pharyngalisées du tarifit /t/ et /d/ sont réalisées comme des
spirantes, sauf dans quelques environnements, entre autres quand elles sont géminées /tt/ et
/dd/.

(11) atun « le thon »


(12) adas « je viens »
(13) ittu « il a oublié »
(14) swadda « en bas »

Remarque : les consonnes /t/ et /d/ en tarifit restent des occlusives dentales devant les
nasales coronales comme dans les mots /ndh/ « conduire », /ndu/ « battre le lait », /nti/
« enfouir dans la terre ». Mais elles sont spirantisées, i.e. réalisées // et // dans d’autres
contextes. Ces spirantes2 //et // deviennent occlusives quand il s’agit des géminées /tt/ et
/dd/ :

aoriste inaccompli

(15) fr fttr « rouler »


(16)  ddar « couvrir »

Les occlusives dentales pharyngalisées du tarifit sont les coronales /t/et /d/ : la
consonne /d/ se réalise comme une spirante interdentale //, sauf devant les nasales
coronales.

(17) u « voler »


(18)  « œil »
(19) ndr « enterrer »
(20) attas « beaucoup »

2
Pour plus de détail voir la partie sur la spirantisation (section 2.2.3)

17
Notons que le /dd/ n’existe pas en tarifit, et que la contrepartie géminée de /d/ correspond à
/tt/.

aoriste inaccompli

(21) ndr n « enterrer »

La contrepartie géminée de l’interdentale pharyngalisée // devient occlusive et non voisée


/tt/.

aoriste inaccompli

(22) u ttaw « voler »

1.2.3 Les alvéolaires


Les simples /s/ et /z/ et leurs correspondantes géminées /ss/ et /zz/ :

(23) asam « jalousie »


(24) assam « l’éclaire »
(25) azar « figues »
(26) azzar « fourche »

1.2.4 Les palato-alvéolaires

// et // et leurs correspondantes géminées :

(27) maa conjonction « mais »


(28) maa « nourriture »
(29) ama « faucille »
(30) amun « oreille »

1.2.5 Les nasales


/n/ et /m/ et leurs homologues géminées /nn/ et /mm/ :

(31) anu « puis »


(32) asnnan « épine »
(33) aman « eau »
(34) asmmam « acide »

1.2.6 Les liquides


Les latérales /l/ et /ll/ et les non-latérales /r/ et /rr/ :

(35) walu « rien »

18
(36) llamun « citron »
(37) arifi « rifain »
(38) arraw « descendants »

En tarifit, à l’exception des parlers des tribus de l’est et du sud-est, la consonne latérale
simple /l/ se réalise comme une non-latérale /r/ dans toutes les positions, lorsqu’il s’agit du /l/
emprunté à l’arabe. Selon Cadi (1987, p. 24), « le changement phonétique de /l/ arabe en [r]
rifain est opératoire pour la quasi-totalité des termes empruntés ».

Parlers des tribus de l’est et du sud-est :

(39) => /lna/ « paix » et /lmal/ « bétail »

Parlers du reste du Rif oriental :

(40) => /r/ « paix » et /rmar/ « bétail ».

En ce qui concerne la géminée /ll/, elle se transforme en affriquée sonore géminée /d/
(à l’exception des parlers des tribus de l’est et du sud-est).

Parlers des tribus de l’est et du sud-est :

(41) => /lluz/ « j’ai faim » et /alli/ « cervelle »

Parlers du reste du Rif oriental :

(42) => /ddu/ « j’ai faim » et /adi/ « cervelle »

1.2.7 Les affriquées

Les affriquées /t/ et /d/ sont des variantes libres en tarifit de// et // respectivement :

(43) [ita] ou [ia] = il a mangé


(44) [ida] ou [ia] = il a laissé

1.2.8 Les vélaires


Les vélaires sont /k/, /g/, /kk/, /gg/ et // :

(45) ak « avec »


(46) kkar « se lever »
(47) agra « propriété »
(48) igga « il a fait »
(49) ia « il est cuit »

19
En tarifit, la production de la consonne vélaire nasale géminée est labialisée //. C’est
probablement le résultat de la labio-vélarisation de la consonne /n/, comme dans le verbe //
« cuire » en kabyle /bb/ « cuire ». [] est issue d’une assimilation de la consonne /n/
lorsqu’il s’agit de la préposition « de » devant les voyelles /i/, /u/ et la semi-consonne /w/, elle
a tendance à se labialiser [] devant la voyelle /a/, comme dans les exemples suivants :

(50) n wa => wa « de celui-là »


(51) n ina => ina « de ceux-là »
(52) n uzzar => uzzar « du fer »
(53) n arjaz => arjaz « d’homme »

Il reste un point important à signaler : la préposition « n » provoque la gémination


lorsque la consonne qui suit « n » est non coronale. Il s’agit des géminées issues d’une
assimilation complète :

(54) /n farid/ ==> [ffarid] « de Farid »,


(55) /n karim/ ==> [kkarim] « de Karim »

1.2.9 Les uvulaires

/x/, //, /q/ et leurs homologues géminées /xx/, // et // :

(56) rm « travail »


(57) Axxam « chambre »
(58) arum « pain »
(59) aqra « sac »
(60) aqqa « le voici »

Commentaire : la géminée // est très rare en tarifit. Elle existe dans les mots comme :

(61) i « cendre »


(62) amari « couleur cendrée »
(63)  « canne »

1.2.10 Les pharyngales


Les pharyngales présentes en tarifit sont // et // :

(64) aruar « dos »


(65) ima « il est chaud »

Leurs correspondantes géminées sont marginalement attestées. Elles ne semblent être


attestées que dans les emprunts à l’arabe et dans certaines formes d’interjections.
20
1.2.11 La laryngale
La laryngale /h/ est attestée dans tous les parlers :

(66) hwa «descendre »


(67) /hh/ géminée est marginalement attestée.

1.2.12 Les semi-consonnes


Les semi-consonnes présentes en tarifit sont /j/ et /w/ et leurs homologues géminées /jj/
et /ww/ :

(68) ajarziz « lièvre »


(69) ajjaw « petit-fils »
(70) iwan « les Hommes »
(71) awwar « la porte »

1.2.13 Les emphatiques

Le tarifit possède les emphatiques /t/, //, //, /s/ et /z/ :

(72) attas « elle viendra »


(73) attas « beaucoup »
(74) ndu « battre le lait »
(75) ndu « sauter »
(76) a « commencer »
(77) a « partager »
(78) izi « mouche»
(79) izi « bile »

L’emphatique /s/ et les emphatisées /l/ et /r/ sont attestées surtout dans les formes
empruntées à l’arabe :

(80) /ssif/ « été »


(81) /ssif/ « épée »
(82) [ullah] « par Dieu »
(83) [arbbi] « Dieu »

L’emphase ne se limite pas à la consonne emphatique sous-jacente, mais s’étend aux


sons voisins. Tout son apparaissant au voisinage d’une emphatique peut être emphatisé :

(84) /azru / ==> [azru] « la pierre »


(85) /izi/ ==> [ii] « la bile »

21
1.2.14 Les labialisées

Les labialisées attestées dans le tarifit sont les labio-vélaires /gg/ et /kk/ et les labio-
uvulaire qq :

(86) ikkar « il s’est levé »


(87) ikkar « il a insulté »
(88) iqqar « il lit »
(89) iqqar « il est épais »
(90) itgg « il fait »
(91) itgg « il pétrit »

1.2.15 Le système vocalique du tarifit :


Étant donné que la gémination peut influencer les voyelles adjacentes, et que ces
dernières peuvent, dans certains contextes, avoir un impact sur l’opposition simples vs.
géminées, il nous paraît utile de présenter brièvement le système vocalique du tarifit dans ce
qui suit.

La majorité des études sur le berbère se contentent de mentionner que le vocalisme du


berbère se réduit à un système de trois voyelles /i, a, u/, plus une voyelle dite neutre ou schwa
[] de nature purement phonétique. Les phonèmes d'aperture moyenne (/e/, /o/, //) qui
existent dans certains dialectes « orientaux » (touareg, Libye, Tunisie) sont d'apparition
récente (Prasse, 1984) et proviennent certainement de la transformation phonologique
d'anciennes variantes contextuellement conditionnées. Malgré les travaux de Prasse (1984),
on peut douter de leur pertinence réelle en synchronie dans toutes les variantes du berbère.
Quand il ne s'agit pas de simples variantes régionales (ce qui est souvent le cas pour [e] et
[o]), il n'est pas exclu que leur apparition soit en fait conditionnée, soit par le contexte
phonétique (présence d'une consonne ouvrante, notamment vélaire ou pharyngalisée : /i/ =>
[e] et /u/ => [o]), soit par le contexte accentuel. Si oppositions il y a, leur rendement
fonctionnel est en tout état de cause très limité.

Il en va probablement de même pour la durée vocalique qui a un statut distinctif dans


les dialectes « orientaux » (notamment le touareg). Plusieurs études récentes dans le domaine
ont confirmé et révélé la richesse vocalique d’autres variantes du berbère, comme les dialectes
touaregs en usage au Niger (Tayirt et Tawellemmet) (Louali & Puech, 1992).

22
1.2.16 L’influence de l’emphase sur la qualité des voyelles adjacentes :
Les corrélats acoustiques de l’emphase, comme indiqué dans la littérature, consistent en
une élévation de F1 et un abaissement de F2, et cet effet, uniforme sur les voyelles fermées,
semble prendre la même direction pour les voyelles ouvertes.

La Figure 1 ci-dessous illustre les différentes réalisations des voyelles /i, a, u /du tarifit,
dans le contexte emphatique/neutre.

Figure 1 : Ellipses de dispersion sur F1/F2 pour les voyelles du tarifit en contexte neutre (en majuscules) et
emphatique (en minuscules) ; (adapté de Louali & Puech, 1998)

La Figure 1 montre la formation de couples dans l’espace vocalique suivant que les
voyelles sont en contexte neutre ou emphatique :

(92) [] et [] pour 


(93) [] et [] pour 
(94) [] et [] pour 

Le dédoublement s’opère sur l’axe F2 : les voyelles [], [] et [] (contextes neutres)
présentent un F2 plus élevé que les voyelles [], [] et [] (contextes emphatiques). La
séparation entre les deux catégories est particulièrement nette pour la voyelle ouverte.
L’incidence sur F1 contribue certainement à la discrimination des allophones, mais cette
contribution est liée à la partition opérée sur F2.

23
1.2.17 L’amuïssement de la liquide 

L’une des particularités marquantes des parlers du Rif est le phénomène de


l’amuïssement de . Les parlers rifains ont connu une évolution particulière de la liquide 
au sein du domaine berbère. Cette particularité est rendue chez les berbérisants par
l’évocation de la « grande instabilité » de ce segment.

La comparaison avec le tamazight, variante du berbère parlée au centre du Maroc,


montre les correspondances suivantes en position coda non emphatique :

Tableau 1 : L’amuïssement du r en position coda en tarifit comparé au tamazight

tarifit tamazight

  « ogresse »


  
  « mulet »

     « meule »

     « enjamber »

Ce phénomène se maintient dans les positions :

Tableau 2 : Le maintien du r dans les autres positions en tarifit comparé au tamazight

Position tarifit tamazight

Initiale   « stabilité »

ii  « cou »


Intervocalique
uu  « poignée »

Appui d’attaque sur ii  « grotte »


syllabe

Louali & Puech (1998) expliquent ce phénomène dans un travail sur les voyelles du
tarifit de Temsamane. Ils ont montré qu’en position coda, un  rhotacise le noyau vocalique,
l’allonge ou altère son timbre et sa structure (monophtongue ou diphtongue). Cette répartition
peut être envisagée comme gardant la trace de différentes étapes d’une évolution
diachronique, aboutissant à l’amuïssement du  dans cette position. La réalisation de la
diphtongue [] correspondant à //, et celle de son homologue [] correspondant à //
pointent vers une même voyelle ouverte. Quant à la réalisation de //, elle se transforme en
24
[]. Cadi (1987) confirme ce phénomène en tenant compte d’un autre paramètre, à savoir la
durée de la voyelle. En effet, il s’est rendu compte que // en position coda précédé de /a/
devient [], avec une durée plus importante que la voyelle de base. Alors que le timbre des
voyelles fermées n’est pas affecté lorsque le /r/ est maintenu, la voyelle ouverte se réalise
également [] quand elle est suivie d’un /r/ maintenu à l’intervocalique, comme dans [ri]
« écris ». La réalisation de la diphtongue [] correspondant à // et celle de son homologue
[] correspondant à // pointent vers une même voyelle ouverte, comme le montre la figure
ci-après.

Figure 2 : Trajectoire de diphtongues [] (ir) et [] (ur) d’un locuteur du tarifit de Temsamane (adapté de
Louali & Puech, 1998)

Chtatou (1994, p. 177) est, à notre connaissance, le premier à avoir approfondi la notion
de durée. Son interprétation des faits du tarifit se caractérise par un système phonologique
comportant deux sous-ensembles : le triangle vocalique élémentaire et un second marqué par
la durée vocalique. Le deuxième triangle est dérivé du premier par le biais d’un phénomène
universellement connu, l’allongement compensatoire « compensatory lengthening », qui se
manifeste par exemple dans les parlers anglais du sud de l’Angleterre. Ce phénomène de
compensation se produit dans l’environnement d’une séquence consonantique, composée
d’une voyelle élémentaire et suivie de la liquide /r/ (Vr) ; il est dû au contexte vocalique. La
liquide en question s’efface, et sa disparition est compensée par l’augmentation de la durée
vocalique de la voyelle qui la précède, ce qui aboutit à une nouvelle gamme vocalique.

Pour Chtatou (1994), les voyelles compensées ne sont pas seulement sujettes à
l’augmentation de leurs durées, elles changent aussi d’identité sur l’échelle vocalique (il s’agit
25
ici de la notion de « raising-lowering », souvent retenue par les phonologues anglo-saxons).
L’analyse phonologique, menée sur le tarifit de Temsamane par Louali & Puech (1998), met
en évidence que le système vocalique du tarifit ne s’organise pas autour d’une opposition de
quantité. Il existe une différence de durée entre les voyelles /, , , u/ et les diphtongues /,
/.
Chtatou (1994) n’a pas pris en considération un autre contexte important, en
l’occurrence la position coda, car le /r/ subit le phénomène de l’allongement compensatoire
dans ladite position, mais se maintient dans le reste des positions.

1.2.18 La gémination : quelques remarques préliminaires


L’une des caractéristiques partagées par les systèmes consonantiques de toutes les
langues berbères est le fait que toutes les consonnes brèves ont des correspondantes longues.
Les consonnes brèves réfèrent généralement aux simples et les consonnes longues aux
géminées.

Une discussion sur la nature des géminées, plutôt longues ou plutôt tendues, segments
uniques ou suites de deux segments, anime le monde linguistique berbère. Il s’agit d’un
problème théorique fondamental pour lequel le berbère apporte un éclairage supplémentaire,
puisque la gémination est un problème central de sa phonologie.

Beaucoup d’auteurs préfèrent analyser ces consonnes comme « tendues » (Chaker,


1984, p. 64 ; Galand, 1988, p. 215). Toutefois, nous noterons que les mesures acoustiques
récentes faites par Ridouane (2009) indique que la durée consonantique est le corrélat
principal de tous les types de consonnes et dans toutes les positions. Les corrélats secondaires
sont l’abrégement de la voyelle qui précède les géminées et une plus importante amplitude du
relâchement. Nous reviendrons sur cette question plus loin dans la section longueur ou tension
(Section 2.1.2).

Ce qui nous intéresse le plus ici à propos des géminées sont les « irrégularités » qu’elles
présentent au sein du domaine linguistique berbère. En effet, certaines consonnes ont des
correspondantes géminées qui impliquent d’autres traits que la longueur, et certaines de ces
« irrégularités » se retrouvent dans une très large majorité du domaine berbère :

- un trait occlusif peut ainsi être ajouté à la gémination. Aussi, trouve-t-on dans presque
toutes les langues et variétés de berbères une correspondance entre la fricative uvulaire
sonore simple, notée //, et la géminée occlusive uvulaire sourde /qq/.

26
- un dévoisement peut aussi avoir lieu dans la correspondance entre // et /qq/. En outre,
la correspondante géminée du phonème pharyngalisé // est généralement // dans
les langues berbères.

aoriste inaccompli

(95)   « lire, étudier »


(96) u  « sauter »
(97) u aw « voler »

Ces variations sont des irrégularités « normales » du domaine linguistique berbère, mais
certaines langues font figure d’exception, et on peut alors trouver des alternances
« régulières », qui sont les plus notables, certainement issues d’évolutions différentes et plus
tardives. Notons à ce propos le cas du zenaga, qui nous intéresse particulièrement ici pour
illustrer ce phénomène.

La gémination « irrégulière » que l’on retrouve dans tout le domaine berbère, faisant
correspondre la consonne simple voisée /d/ à la géminée non voisée //, est « régulière » en
zenaga, et // est alors géminée en //.

Étant donné que seul le zenaga présente cette particularité et que les langues ne rejettent
pas les emprunts contenant des consonnes géminées voisées [], on peut faire l’hypothèse
qu’il s’agit plutôt d’une innovation du zenaga.

Ce processus de régularisation n’est cependant pas complètement isolé. Le kabyle


d’Ihbachen, décrit par Rabdi (2004), présente un fait un peu similaire par rapport à la
correspondance // => /qq/. Selon lui, cette dernière n’est plus productive dans cette variété,
et elle est régularisée le plus souvent en une alternance // => //.

Malgré ces quelques entorses au système de base, celui-ci est toutefois très bien attesté
dans le domaine berbère, et les correspondances « irrégulières » // => /qq/, /w/ => /gg/ et
// => //, ainsi que // => /tt/, peuvent être considérées comme des correspondances
« normales » entre consonnes simples et consonnes géminées dans les langues berbères.

1.2.19 Les fonctions lexicales, morphologiques et phonologiques de la gémination


En tarifit, il existe trois types de géminées : lexicales, morphologiques et
phonologiques. Les géminées lexicales, dont les occurrences sont imprédictibles, doivent être
représentées dans le lexique. Des exemples illustrant cette opposition sont présentés dans les
exemples ci-dessous :

27
(98) maa «prep. mais » maa « nourriture »
(99) asam « jalousie » assam « éclaire »
(100) azar « figue » azzar « fourche »
(101) amatar « masacre » amattar « demandeur »

Les géminées morphologiques dérivent des processus morphologiques comme la


formation des inaccomplis (102a) ou la dérivation des pluriels (102b) :

(102)

a. aoriste inaccompli

ngz nggz « sauter »

rz rbbz « écraser »

ksi kssi « porter »

b. singulier pluriel

fus ifassn « main »

fu ifaddn « genou »

Les géminées phonologiques dérivent d’une assimilation entre deux segments adjacents.
Dans (103-105) ci-dessous, nous présentons quelques exemples où les suffixes du féminin (ou
de la forme diminutive) ou les préfixes, comme les particules du futur ad, sont attachés à des
mots se terminant par des consonnes partageant le même lieu d’articulation :

(103) ai-t aitt « oiseau femelle »


(104) azi-t azitt « poule »
(105) ad-as attas « elle viendra »

Pour ce qui concerne les géminées hétéromorphémiques dérivées par concaténation, on


peut citer l’exemple suivant : ak-karim « avec Karim », lorsque deux segments identiques
sont séparés par une frontière morphologique, à l’instar de ce qui se produit dans plusieurs
langues.

28
Cette partie présente un aperçu général du système phonologique du tarifit, c’est-à-dire
l’inventaire consonantique et vocalique englobant toutes les consonnes et les voyelles des
parlers du tarifit, en comparaison avec quelques autres variantes du berbère. L’inventaire est
accompagné d’exemples et d’explications plus détaillées pour les simples et les géminées.
Nous avons aussi traité d’autres phénomènes, tels que la spirantisation des occlusives, que
nous développerons plus tard. Enfin, nous avons présenté les fonctions (a) lexicale, (b)
morphologique, avec les changements qui surviennent dans le cas de l’aoriste et de
l’inaccompli, du singulier et du pluriel, et (c) phonologique, avec le phénomène de
l’assimilation.

29
2 Gémination : représentation, comportement et implémentation
phonétique

2.1 Quelle représentation pour les géminées ?


2.1.1 S’agit-il d’un seul segment ou d’une suite de deux segments ?
Depuis les années trente, la question de la gémination est clairement posée et débattue :
les géminées se composent-t-elles d’un ou de deux segments identiques ? Swadesh (1937) a
distingué les géminées dérivées d’une séquence de deux consonnes identiques des consonnes
longues. Selon lui, seules les consonnes longues peuvent être en opposition phonémique.
Troubetzkoy (1939) a développé, pour la première fois, une analyse formelle de la gémination
d’un point de vue purement phonologique. Les géminées sont, selon lui, des segments longs
et non pas des séquences de deux segments simples identiques. (Hockett, 1955) propose une
analyse différente : pour lui, toutes les géminées sont des séquences de deux consonnes
identiques.

Pour l’approche générative de Chomsky & Halle (1968), il existe deux manières de
décrire les géminées : comme un seul segment spécifié par le trait [+long] ou comme une
séquence de deux segments simples spécifiés par des traits identiques. Ce modèle linéaire
permet donc les deux représentations (1a) et (1b) ci-dessous :

(1.a) Segment [+long] (1.b) Deux segments [-long]

+cons +cons +cons


+long -long -long

Delattre (1971) voit la gémination en termes de structure syllabique. La gémination


serait un processus de ré-articulation de consonnes, où la première consonne occupe la
position coda alors que la seconde occupe le début de la syllabe suivante. Selon lui, les
consonnes géminées sont différentes des consonnes longues. Dans ce cas, les géminées
comportent deux phases dans leur articulation comme le montre /b/ dans la représentation
(2.a) :

(2.a) Représentation des géminées

X X

30 b b
De ce point de vue, une géminée est un groupe de deux consonnes identiques. La
première occupe une syllabe coda et la seconde est reformulée comme le début d'une syllabe
suivante. D'autre part, les consonnes longues sont considérées comme un seul segment
occupant les deux phases comme dans la représentation (2.b).

(2.b) Représentation des consonnes longues

X X

McCarthy (1979) et Leben (1980) adoptent une approche autosegmentale des géminées.
Ils considèrent la géminée comme une seule consonne mappée sur deux niveaux
squelettiques, comme cela sera discuté dans la section (2.1.3) Ces auteurs voient ainsi une
géminée comme un segment unique quand Delattre (1971) affirme qu'une géminée devrait
être représentée comme deux segments identiques.

Autrement dit, les géminées sont des sons produits en deux phases avec deux
emplacements au niveau de la tire squelettale. Des linguistes se sont mis d'accord sur le fait
que, dans les deux représentations 2.a et 2.b ci-dessus, les géminées sont des consonnes
longues qui s’opposent aux simples (Ball & Rahilly 1999, Ladefoged & Maddieson 1996).
Toutefois, le terme « long » pourrait être illusoire. Il s’appuie sur l'opinion générale qui
postule que « la plupart des langues, avec une distinction de la longueur de consonnes, n’ont
que deux longueurs distinctives » (Ladefoged & Maddieson, 1996, p. 93). Cette distinction est
plus apparente en position intervocalique.

La représentation des géminées a soulevé des questions également en berbère. Saïb


(1977) et Guerssel (1977) ont été, à notre connaissance, les premiers berbérisants à
s’intéresser à cette question et à la traiter en profondeur. Saïb (1977) a énuméré un ensemble
d’arguments qui militent en faveur de la représentation séquentielle des géminées. Mais il en
a aussi fournis qui plaident pour une représentation des géminées en un seul segment spécifié
par le trait [+ tendu].

31
2.1.2 Longueur ou tension ?
Tension3 et durée :

Dans la littérature phonétique et phonologique apparaît bien souvent une confusion


entre le concept de la gémination et celui de la tension consonantique. Dans les travaux de
Jakobson et al. (1952), Jakobson & Halle (1968) et Jakobson & Waugh (1987), les auteurs ont
mentionné que les langues à deux types d’opposition étaient généralement transcrites comme
/b, d, g, etc./ vs. /p, t, k, etc./. Pour ces deux types d’opposition, certains auteurs emploient le
trait distinctif [voice], d’autres le trait distinctif [tense]. Jakobson & Waugh (1987) ont montré
que les langues slaves, comme dans les séries des occlusives du russe, se distinguent au
niveau du voisement dans les différents contextes, ce qui permet une opposition phonétique.
En outre, ils ont mentionné l’exemple de l’anglais avec le trait distinctif [tense]. En effet, les
sons de l’anglais /b, d, g/ vs. /p, t, k/ se distinguent dans quelques contextes (souvent en
position intervocalique) mais pas dans tous les contextes dans lesquels cette opposition est
possible. La durée permet de distinguer les classes des sons dans les différents contextes dans
les langues comme l’anglais et l’allemand, avec la durée de l’aspiration, la durée d’occlusion
et la durée de la voyelle qui précède la consonne occlusive. Selon Jakobson et al. (1952), ces
propriétés de la durée qui distinguent /b, d, g/ de /p, t, k/ en anglais sont des corrélats
différents du trait [tense].

Pour Jakobson et al. (1952), il est possible d’employer les deux traits [tense] et [voice]
pour une langue particulière. C’est le cas des langues qui utilisent l’aspiration et le voisement,
permettant trois voire quatre sortes de distinctions (Jakobson & Waugh, 1987). Par exemple,
le thai distingue phonologiquement les occlusives sonores non aspirées des sourdes non
aspirées et des sourdes aspirées. Le hindi également fait la distinction phonologique entre les
occlusives sonores non aspirées, les sourdes non aspirées, les sonores aspirées et les sourdes
aspirées. Kim (1965) considère, au contraire, que la tension est indépendante de la sonorité et
de l’aspiration : « […] by claiming the autonomy of the tense / lax category, I will not insist
upon discarding the voicing category. I will only claim that it is necessary to recognize both
categories, tensity and voicing, for the precise description of stops and that they are across-
cutting categories, just as gender and number are cross-cutting of noun » (Kim, 1965, p.
357).

Fischer-Jørgensen (1968, p. 106), s’appuyant sur ses propres recherches expérimentales,


préconise l’indépendance des trois traits, à savoir le voisement, l’aspiration et la tension : « I

3
Voir (Bothorel-Witz & Pétursson, 1972) et (Jessen, 1998) pour une revue de la littérature très détaillée sur cet
aspect.
32
am inclined to keep voicing, aspiration and tenseness as three separate features ». Ainsi, il
est justifié, d’après Fischer-Jørgensen, de pendre partie pour :

- la séparation des traits de tension et d’aspiration (1968, p. 88), car les occlusives dites
tendues et les occlusives aspirées ne sont pas caractérisées par les mêmes indices :
« […] the articulatory mechanism for subglottal and supraglottal tension is different
and independent and the two types must be kept apart » (Fischer-Jørgensen, 1968, p.
88), la séparation des traits de sonorité et d’aspiration, car la combinaison des deux
traits en un seul ne permettrait aucunement de définir les aspirées sonores des langues
indiennes (1968, p. 93) ;

- la séparation des traits de sonorité et de tension, car dans certaines langues telles que
le coréen, les occlusives ne peuvent être décrites au seul moyen de la sonorité et de
l’aspiration. En français, par exemple, sous l’effet de l’assimilation de sonorité, [p, t,
k] deviennent sonores tout en restant tendues (1968, p. 106).

Ladefoged (1968) utilise les termes de tense/lax et Lisker & Abramson (1964) utilisent
ceux de fortis/lenis dans un but purement pratique et sans leur attribuer de contenu précis.
Cette opposition ne repose, selon eux, sur aucune base physiologique. Notons ainsi que
Ladefoged n’applique ce trait qu’aux voyelles.

Le trait [tendu] fonctionne rarement seul dans une langue donnée. C’est-à-dire que
plusieurs autres traits – sonorité, aspiration, durée – lui sont souvent associés. Chomsky &
Halle (1968, p. 324) décrivent ces trois différences phonétiques au moyen de quatre traits :

- tense / non tense (manner of articulation feature)

- voiced / non voiced (source feature)

- heightened subglottal pressure (source feature)

- glottal constriction (cavity feature)

Selon Chomsky & Halle (1968, p. 326), l’aspiration est autonome car elle est soumise à
un mécanisme diffèrent de celui qui commande la tension. « The tenseness of the supraglottal
muscles is evidently controlled by a different mechanism than its tenseness in the supraglottal
cavities ». Les auteurs définissent l’aspiration au moyen de deux variables :

+ heightened subglottal pressure


- glottal constriction

33
Ce constat a été critiqué par plusieurs études. Ladefoged (1967), notamment, déplore
que Chomsky & Halle (1968) ne citent aucun travail de recherche établissant le lien entre
l’aspiration et la pression sous-glottique. (Fant, 1969, p. 11), à son tour, fait remarquer que la
position de Chomsky et Halle sur la nécessité du trait « heightened subglottal pressure » pour
l’aspiration n’est pas défendable. Fant (1969) propose plutôt le trait « glottal relaxation » qui
recouvrirait l’aspiration en général.

En ce qui concerne la durée, Jessen (1998) affirme que Jakobson et al. (1952)
considèrent la durée comme le corrélat primaire de la tension « in consonants tenseness is
manifested primarily by the length for their sounding period, and in stops, in addition, by the
greater strength of the explosion » (Jakobson et al., 1952, p. 36). Il souligne que Jakobson &
Halle (1961) voient la durée non seulement comme un corrélat primaire mais probablement
comme le seul corrélat du trait [tendu]. « The relative duration of the consonant and the
antecedent phoneme may remain for certain contextual or optional variants of tense and lax
consonants the chief or even the only cue to their distinction. » (p. 60).

Le trait de tension a été contesté par plusieurs chercheurs à cause de la complexité des
propriétés acoustiques, articulatoires et physiologiques qui lui sont attribuées. Ces
divergences se reflètent dans la terminologie même : [tendu], [fortis], [force d’articulation],
[lenis], [lâches] et [long]. À notre connaissance, aucun phénomène phonétique censé être le
même n’a été caractérisé par autant de termes différents. Comme nous l’avons souligné supra,
plusieurs facteurs peuvent expliquer les divergences qui entourent l’emploi de ce trait. Cette
divergence est tout d’abord liée à la nature même des segments analysés. Elle caractérise aussi
bien les oppositions de type /t/ vs. /d/, traditionnellement définies comme une opposition de
voisement, que les contrastes de type /t/ vs. /tt/, qui se distinguent en termes de durée. Un
autre problème méthodologique est associé aux mesures de la tension musculaire comme un
des corrélats du trait [tendu]. Braun (1988), cité par Jessen (1998), a montré que les mesures
électromyographiques n’avaient pas encore permis de dégager un corrélat convaincant et
consistant de ce trait. « As a first problem, electromyography (EMG) is among the methods in
instrumental phonetics that is very difficult to apply. Secondly, it is not clear which of the
muscles involved in speech production provides the most likely correlate of the feature
[tense]. EMG measurements of supralaryngeal muscles have so far not revealed a convincing
correlate of [tense]. » (p. 119).

34
Longueur ou tension : le cas du berbère

Depuis longtemps, les berbérisants se sont intéressés à la question de la spécification de


la corrélation de la longueur et de la tension. Basset (1952) adopte la terminologie
« consonnes longues », mais depuis l’apparition du terme « tension », dès 1953, quelques
berbérisants adoptaient la terminologie de « tension ». Galand (1988, 1997), Mitchell (1957),
Cadi (1987), Ouakrim (1993, 1994, 1999) et Louali & Puech (1994) considèrent /t/ et /tt/
comme des segments simples qui se distinguent en un trait distinctif [+tense] pour /tt/ et [-
tense] pour /t/. Pour ces auteurs, la longueur des consonnes géminées est une conséquence
automatique de leur force articulatoire ou de la « tension » (Galand, 1997, p. 57) : « En
berbère, toute consonne peut se présenter comme simple ou comme épaisse, opposition
exploitée par la morphologie et par le lexique. On veut montrer ici que le trait
phonologiquement pertinent des consonnes épaisses n'est pas la gémination, comme on le dit
traditionnellement, mais la tension, tandis que la durée (ou la longueur) peut jouer un rôle
secondaire. Puisque les géminées, strictement définies, chevauchent une limite de syllabe, la
tension peut seule rendre compte de la présence de consonnes épaisses (même occlusives) en
position initiale ou finale. De plus, elle permet d'expliquer pourquoi les consonnes épaisses
correspondant à des sonores et/ou à des fricatives sont souvent sourdes et/ou occlusives ».

D’autres études, telles que Saïb (1977) et Guerssel (1977), s’inspirant du modèle
génératif, posent le problème en d’autres termes et s’intéressent davantage à la question de la
représentation de ces consonnes comme un ou deux segments. À partir de données
acoustiques du kabyle, Chaker (1975) conclut que la durée est le corrélat acoustique principal,
mais n’exclut pas le caractère tendu de ces consonnes.

D’autres, comme Ridouane (2007) par exemple, à partir de données acoustiques et


articulatoires du tachelhit, confirment que la durée plus longue des géminées est une
caractéristique universelle de ces segments. Les données articulatoires et acoustiques sur le
tarifit (Bouarourou et al., 2011) montrent que les locuteurs ne font pas deux « choses » mais
une seule et même « chose » en un temps plus long. Par le terme « chose », il faut comprendre
« geste ». Nous développerons ses résultats plus loin (Chapitre 13).

2.1.3 Représentation X-slot ou représentation moraïque

Au milieu des années 1970, l’émergence de la phonologie autosegmentale (Goldsmith,


1976) et la réintroduction de la syllabe (Kahn, 1976) dans les analyses phonologiques se sont
avérées cruciales pour le type de processus qui nous intéresse ici, à savoir la structure

35
syllabique de la gémination. La phonologie linéaire issue de SPE (Sound Pattern of English)
repose sur des séquences de matrices de traits. En revanche, la phonologie autosegmentale
suppose que les représentations phonologiques ne soient pas formées uniquement de
séquences de matrices de traits et que certaines structures supplémentaires puissent être prises
en compte sur différents paliers autonomes. L’autosegmentation a changé le statut de
certaines unités telles que le ton et la syllabe. Ainsi, certains processus tonals ont suggéré que
les tons devaient être considérés comme des unités séquentielles pouvant figurer sur leur
propre tire autosegmentale. Dans les représentations phonologiques, ces tons peuvent être
associés à des segments par l’intermédiaire de lignes d’association. Les lignes d’association
traduisent en quelque sorte une notion de simultanéité de deux propriétés. Outre les tons, le
développement de la phonologie autosegmentale a démontré que certains traits figurant dans
les matrices segmentales pouvaient être également autosegmentalisés. À ce titre, l’un des
développements les plus importants vis-à-vis de cette manipulation a été d’attribuer un statut
autonome à la syllabicité, qui n’avait aucun statut théorique particulier dans la phonologie
générative issue de SPE.

La représentation X-slot

La tire CV est apparue peu de temps après la théorie CV dans les représentations
phonologiques. Levin (1985) et Lowenstamm & Kaye (1986) considèrent qu’il est possible de
dériver la structure syllabique non pas d’une tire squelettique CV mais d’une tire temporelle.
À ce titre, toutes les unités squelettiques peuvent être représentées par une suite monotone de
X (Levin, 1985) ou de ● (Lowenstamm & Kaye, 1986). Les suites sont alors formellement
interprétées comme des positions pures. Levin (1985) suppose par exemple que la structure
syllabique peut être considérée de la même manière que les structures syntaxiques de type X-
bar. Selon elle, la notion de syllabe peut être interprétée en termes de projection d’une
catégorie primitive N essentielle à la syllabe : le noyau. Dans une telle approche de la
structure syllabique, l’attaque constitue le spécificateur du noyau et la coda son complément.
En ce qui concerne la rime, qu’elle considère non pas comme un constituant universel mais un
constituant spécifique, celle-ci est interprétée comme la première projection de la catégorie N.
En revanche, la projection du nœud syllabique N est quant à elle universelle. Dans la théorie
X de Levin (1985), chaque projection est associée à un segment par l’intermédiaire d’une tire
squelettique. Par ailleurs, Levin (1985), qui fournit des arguments à l’encontre de la théorie
CV de Clements & Keyser (1983), propose de remplacer la tire squelettique CV par une tire
uniquement constituée d’unités temporelles qu’elle symbolise par X.

36
La représentation moraïque

Dans les années 1980, les théories segmentales de la syllabe ont été concurrencées par
une théorie moraïque de la syllabe. Ainsi, certains auteurs comme Hyman (1985), McCarthy
& Prince (1986), Hayes (1989) et Itô (1989) ont rejeté un niveau de représentation
squelettique en faveur d’une structure reposant sur le poids syllabique, essentiellement
exprimé par l’intermédiaire de la more (symbolisée par μ).

Du point de vue formel, la notion traditionnelle de more a été introduite dans les
analyses phonologiques issues de la phonologie générative de Hyman (1985) et de McCarthy
& Prince (1986).

Dans l’approche développée par Hyman (1985), tous les segments d’une représentation
sous-jacente sont associés à une more. L’approche développée par McCarthy & Prince (1986)
favorise une représentation dans laquelle le statut moraïque d’un segment découle
généralement de son comportement vis-à-vis du poids syllabique diagnostiqué dans une
langue particulière. En lardil (parlée au nord de l’Australie) par exemple, seules les voyelles
longues (CVV) comptent comme des syllabes lourdes, alors qu’en kwakwala (wakashan,
Vancouver), seules les voyelles longues (CVV) et les voyelles brèves suivies par une sonante
(CVR) sont lourdes. Le modèle moraïque, sans doute le plus répandu aujourd’hui dans la
littérature phonologique, est celui développé par Hayes (1989). Son approche est fondée en
grande partie sur les modèles moraïques précédents. Selon Hayes (1989), les langues ne
diffèrent que dans la manière dont les structures moraïques sont phonologiquement
contrastives.

Comme le souligne Hayes (1989), la more possède un double rôle dans la théorie.
Premièrement, elle encode un contraste de poids syllabique relativement répandu qui
distingue les syllabes légères des syllabes lourdes. Ainsi, les recherches portant sur les
systèmes accentuels, la versification ainsi que d’autres processus tels que l’allongement
compensatoire ont révélé une distinction fondamentale entre deux types de syllabes : les
syllabes légères et les syllabes lourdes. Généralement, les syllabes lourdes contiennent une
voyelle longue (CVV) ou une consonne finale (CVC), alors que les syllabes légères
contiennent une voyelle brève (CV). Dans la théorie moraïque, une syllabe légère possède une
more et une syllabe lourde en possède deux. Deuxièmement, la more représente une position
phonologique identique aux positions pures des théories segmentales de la syllabe : un
segment simple est associé à une more alors qu’un segment long est généralement associé à
deux mores. En ce sens, la more encode aussi bien le poids que la quantité segmentale. La

37
conséquence d’une telle théorie est que seuls certains segments sont associés à des éléments
de la tire temporelle comme dans la représentation ci-dessous.

Distinction de quantité consonantique (Hayes, 1989, p. 257)

a. Consonne simple b. Consonne géminée


     

V C V V C V

2.1.4 La question des géminées initiales et finales


La gémination en position intervocalique est plus commune que la gémination en
position périphérique (Thurgood, 1993 ; Muller, 2001). Cette typologie est généralement
corrélée avec des preuves montrant que les géminées en positon initiale et en position finale
sont perceptivement moins saillantes, puisque la différence de durée entre les géminées et les
simples est moins perceptible. La durée indique généralement que les géminées sont de 1,5 à
3 fois plus longues que les simples (Ladefoged & Maddieson, 1996). Ce ratio devient plus
faible lorsque la gémination survient en périphérie, explique Pająk (2009).

Les géminées initiales, très rares à travers les langues, sont néanmoins attestées dans des
langues comme le suisse alémanique, le chypriote, le pattani malais, le berbère et certains
dialectes de l’arabe. Ces géminées initiales ont soulevé un certain nombre de problèmes
phonologiques par rapport à la représentation des géminées dans les modèles moraïques les
plus répandus (McCarthy & Prince, 1986 ; Hayes, 1989). Dans ces modèles, les attaques, qui
ne prennent part à aucun processus phonologique, ne peuvent être associées à une more dans
les représentations. Pour cela, les consonnes géminées initiales ont reçu différentes
interprétations dans la littérature. Selkirk (1990), par exemple, considère qu’une consonne
géminée en position initiale est une suite de deux consonnes associées à deux nœuds racines
qui partagent les mêmes traits. L’une des manières d’éviter une telle configuration dans la
représentation des géminées initiales consiste à attacher la more à laquelle cette consonne est
associée à un constituant prosodique supérieur à la syllabe. Pour Curtis (2003), par exemple,
les géminées initiales sont des segments dont la première partie est associée à une more elle-
même associée au mot prosodique, et dont la seconde partie est directement associée à un
nœud syllabique. Quant à Topintzi (2008), il considère la représentation dans lesquelles les
géminées initiales sont interprétées comme des segments monomoraïques directement
associés au nœud syllabique. « Initial geminates pose a serious problem for the theory since
word-initially no coda exists to host the first half of the geminate. Previous proposals have
38
addressed this issue but have not resolved it satisfactorily, because they have created new
difficulties pertaining to prosodification, syllabification or generation of insufficient or
incorrect patterns. I propose that treating the geminate as a moraic onset simultaneously
resolves all the issues above, provided we dispense with the stipulation that onsets are never
moraic. » (Topintzi, 2008, p. 147).

Mitchell (1993) passe en revue les sources de géminées initiales en arabe vernaculaire.
Il en conclut qu’une voyelle anaptyctique peut être entendue dans la plupart des cas de
gémination initiale, mais qu’elle n'est jamais essentielle et qu’il convient de l’omettre : « an
anaptyctic vowel may be heard in most cases of initial gemination but it is never essential and
better omitted » (pp. 93,94). Guerssel (1978), dans un travail sur le parler tamazight, montre
que le schwa est inséré dans les formes CCV et C:V mais pas dans la forme CV, comme dans
les exemples suivants :

(106) bdu [bdu] « commencer »


(107) ddu [ddu] « partir »
(108) su *su « boire »

Au niveau acoustique, il est important de mentionner les travaux d’Abramson (1986,


1987, 1991, 1998, 1999) sur le patani malais, une langue austronésienne parlée dans les
provinces de l’est de la Thaïlande. Dans cette langue, toutes les consonnes possèdent un
contraste de longueur en position initiale de mot. Comme nous allons le voir, ce cas existe
également dans les langues berbères. L’indice perceptif principal, comme pour les autres
langues à gémination, est la durée d’occlusion, mais cet indice-là ne peut pas s’appliquer aux
occlusives sourdes en position initiale absolue, puisque la durée de l’occlusion n’y est pas
perceptible : «[…]no direct signal of the relative durations of stop closures in utterance-
initial position[…] » (Abramson, 1999, p. 591). Pourtant, selon Abramson (1999), les
locuteurs natifs du pattani malais identifient parfaitement de tels mots. Cela suppose donc que
ces locuteurs utilisent des indices autres que la durée de l’occlusion. Après plusieurs
expériences, Abramson (1999) finit par identifier des différences significatives entre les
occlusives sourdes simples et leurs homologues géminées en position initiale, au niveau de
l’amplitude du burst et la fréquence fondamentale de la voyelle suivante. Ouakrim (1999), sur
les données du tachelhit, a trouvé qu’en position initiale, les occlusives sourdes géminées sont
produites avec un VOT plus bref et une intensité plus haute de la voyelle suivante par rapport
à leurs homologues simples. Galand (1997), à son tour, défend le fait que la durée en position
initiale ne permet pas de distinguer de telles paires, puisque rien n'est entendu jusqu'au
relâchement. Cela implique que d'autres corrélats sont utilisés par les locuteurs du tachelhit
39
comme, par exemple, une plus grande force articulatoire. Ces corrélats sont considérés
comme des manifestations de la fonction [+tendu], qui caractérise ces segments et permet de
les distinguer de leurs homologues [-tendu].

Au niveau articulatoire, il est important de mentionner les travaux de Kraehenmann &


Lahiri (2008) sur le suisse alémanique et ceux de Ridouane (2007) sur le tachelhit. Dans leurs
études électropalatographiques des occlusives simples et géminées en position initiale
absolue, il a été montré que ce sont les géminées, en position initiale, qui étaient
systématiquement plus longues dans leur articulation que leurs homologues simples. Armosti
(2009) a mené les mêmes études électropalatographiques sur des occlusives alvéolaires
sourdes, simples et géminées du chypriote en position initiale absolue. Les mêmes résultats
ont été obtenus dans ce travail, mais uniquement dans des environnements inaccentués.

Pour les géminées en position finale, en hongrois par exemple, il existe un processus
optionnel de dégémination qui touche les glides et les liquides en position finale. Dans ce cas,
la dégémination provoque régulièrement l’allongement de la voyelle précédente (Curtis,
2003).

Selon Ridouane (2003), il existe des différences significatives entre les durées
d’occlusion des simples et des géminées en fonction de la position qu’elles occupent dans le
mot. Il a montré que les occlusives en position finale (simples ou géminées) avaient une durée
d’occlusion plus longue qu’en position intervocalique.

Pour résumer,

(1) Il s’agissait d’abord de montrer les différents arguments concernant la représentation des
géminées en un seul segment ou en une suite de deux segments. Nous avons ensuite évoqué
les débats contradictoires concernant les notions de tension et de gémination.

(2) Dans le cadre de la phonologie CV, il existe deux représentations : la représentation X-


slot et la représentation moraïque. La première est basée sur la durée et la deuxième sur le
poids de la syllabe.

(3) Enfin, nous avons présenté les caractéristiques phonétiques et phonologiques des
géminées en positions initiale et finale.

2.2 comportements pour les géminées ?


Dans la phonologie CV, une géminée est représentée comme une seule unité mélodique
(un ensemble de traits distinctifs qui caractérisent un segment) associée à deux positions

40
prosodiques (Leben, 1980). Cette représentation s'appuie sur le principe de la syllabicité
représentée sur la couche prosodique, appliqué ensuite à l'analyse des consonnes géminées, y
compris les géminées post-lexicales (Kenstowicz, 1994). Les schémas sous-jacents
représentent :

- une occlusive simple (a),

- une géminée lexicale (b),

- une géminée créée par concaténation de deux occlusives identiques à travers un


morphème frontière (c),

- et une géminée dérivée d’une assimilation totale (d).

(3) a. b. c. d.
X X X X X X X
=
k k k k d t

Les représentations ci-dessus appliquées au tarifit donnent lieu aux exemples suivants :

a) simple

(109) /amatar/ [amatar] « massacre »

b) géminée lexicale

(110) /amattar/ [amattar] « demandeur »

c) géminée issue d’une concaténation

(111) / / [ ] « avec Karim »

d) géminée issue d’une assimilation

(112) /ad as/ [at.tas] « elle viendra »

Ici, nous essaierons de traiter les trois comportements des géminées. Tout d’abord, nous
verrons la notion d’ambivalence : c’est-à-dire leur comportement à certains égards, comme si
elles constituaient deux segments, et dans d'autres, comme si elles n’en formaient qu’un seul
(cf. (Kenstowicz, 1970). Ensuite, nous présenterons la notion d’intégrité. Cette approche
permet de montrer que dans la mesure où ils constituent deux segments, les segments longs ne
peuvent pas être divisés par des règles d’épenthèses. Enfin, nous introduirons la notion

41
d’inaltérabilité. Le processus permet d’observer l’impossibilité de modifier les géminées
lexicales tout en affectant les simples et les fausses géminées (Hayes, 1986).

2.2.1 L’ambivalence
Les deux représentations différentes de l’approche générative des géminées (1a) et
(1b) plus haut reflètent une ambiguïté inhérente à leur comportement. Les géminées se
comportent comme un seul segment dans un cas, et comme une suite de deux segments dans
l’autre. Ce phénomène a été traité par Chomsky & Halle (1968) en termes de règles qui
modifient la représentation (1a) en (1b) ou vice-versa. Mais ces règles sont ad hoc. Les
travaux post-SPE ont rapidement mis en lumière les lacunes d’une telle description et ont
démontré qu’aucune des deux représentations ne peut adéquatement rendre compte de la
manière dont les géminées se comportent vis-à-vis de certains processus phonologiques (cf.
Kenstowicz, 1970 , Sampson, 1973 et Barkai, 1974).

Ce comportement est parfois attesté au sein d’une même langue, comme c’est le cas
pour le tarifit et quelques variantes du berbère. Nous allons nous servir d’exemples très
connus et utilisés par plusieurs auteurs pour illustrer cette ambiguïté. Nous proposerons
d’abord des exemples tirés de l’hébreu tibériade, puis nous reviendrons sur des exemples
attestés en tarifit pour illustrer ce phénomène. Sampson (1973) décrit le processus de
spirantisation qui affecte les segments simples mais pas les géminées, comme l’atteste aussi
(Kenstowicz, 1994, p. 411) : « A process of stop spirantization turns postvocalic stops into
fricatives. This phonological process affects short stops but not long stop ‘geminates’ ».
Ainsi, la spirantisation serait un processus phonologique par lequel certaines occlusives
simples (113) et (114) se réalisent comme les constrictives correspondantes. Leurs
homologues géminées (115) résistent à cette règle.

(113) /katab/ → [kaθav] « écrire »


(114) /yi-ktob/ [yixtov] « écrire, imp »
(115) /gibbor/ → [gibbor] « héros »

Dans les exemples (113) à (115), les occlusives deviennent des constrictives en position
postvocalique. Cependant, les géminées résistent à la spirantisation. Ce phénomène est attesté
également en tarifit, et ce dans tous les contextes. Si l’on observe le corpus suivant :

42
(116) /→  « femme »
(117)  →  « celle-là »
(118)  →  « ici »
(119)  →  « elle écrit »
(120)   « larme »
(121)   « la maison »

Dans les formes (116-118), les occlusives dentales se réalisent comme les constrictives
correspondantes. Le /t/ du féminin, qui est à la fois préfixe et suffixe (116), et le préfixe (117),
se réalisent comme . Le /d/, qui désigne l’adverbe de lieu (118), se réalise comme . En
revanche, dans les formes (119-121), leurs homologues géminées résistent à l’application de
cette règle. L’incapacité des géminées à se spirantiser est un aspect universel qui reflète
« l’inaltérabilité » de ces segments Hayes, 1986 ; Schein & Steriade, 1986 ; Churma 1988 ;
Kirchner, 2000).

Kenstowicz (1994) montre également qu’en hébreu biblique, les géminées ne se


comportent pas seulement comme des consonnes longues, mais aussi comme des séquences
de consonnes. Cette langue a une règle de réduction vocalique qui réduit une voyelle en
schwa dans le contexte ___ CVCV pour marquer le pluriel des noms, comme dans le corpus
suivant :

- Réduction vocalique en hébreu tibériade

(122) /malak-im/ [məlaxim] « rois »


(123) /galgal-im/ [galgalim] « roues »
(124) /sappir-im/ [sappirim] « saphir »

Dans (122), la réduction vocalique réduit une voyelle en schwa dans le contexte ___
CVCV pour marquer le pluriel du mot « roi ». Cependant, la réduction est bloquée quand la
voyelle est suivie d’un groupe de consonnes (123) ou d'une géminée (124).

Ainsi, dans la phonologie linéaire, une géminée est représentée soit comme une
consonne longue, soit comme une séquence de deux consonnes identiques. Les géminées
constituent donc un problème pour le modèle linéaire. La période post-SPE n’a certes pas
apporté de réponse satisfaisante au problème de l’ambiguïté des géminées, à cause du cadre
théorique de l’époque qui ne le permettait pas. Mais, les différents travaux qui ont traité ce
sujet ont eu le mérite d’avoir identifié le problème. Certains auteurs, notamment Kenstowicz
(1970), ont remarqué que les règles phonologiques qui faisaient appel à la représentation
séquentielle étaient des règles prosodiques qui affectaient la durée ou l’accent. Les règles qui

43
requièrent des spécifications en terme de trait [+long] sont souvent des règles qui affectent la
qualité des segments. Cette distinction entre règles prosodiques et règles qualitatives a été
traitée et développée d’une manière formelle dans le cadre de la phonologie CV.

Dans le modèle non linéaire, le dilemme auquel est confrontée la représentation des
géminées dans le cadre linéaire n'existe plus. Dans ce cadre-ci, les géminées sont associées à
deux positions squelettiques, comme le montre la représentation ci-dessous :

(4) Représentation de géminées en phonologie non linéaire


C C

b
La théorie de la phonologie CV, telle qu'elle est appliquée à la quantité, s’inscrit dans le
cadre plus large de la phonologie autosegmentale (cf. Leben, 1980 ; McCarthy, 1981 ;
Steriade, 1982 ; Clements & Keyser, 1983). Elle a fourni des solutions définitives pour
résoudre le problème de l’ambiguïté des géminées. L’idée de base de la phonologie CV est
que la propriété de la syllabicité est représentée sur une couche autosegmentale (couche
prosodique) séparée de la couche mélodique. Selon Clements et Keyser (1983), les deux
niveaux de représentation sont liés par des lignes d’association. Cette approche permet les
représentations suivantes :

(5) a. b. c.
C C C C

[] [] [] []

(5a) est une représentation d’un segment simple lié à une seule position prosodique. La
représentation (5b) est celle des affriquées, par exemple, ou des occlusives pré-nasalisées. La
représentation (5c) est celle des consonnes géminées. Les consonnes géminées se distinguent
des simples, non pas par un trait distinctif, mais par le nombre de positions prosodiques
qu’elles comportent : la simple est associée à une position prosodique (5a, voir aussi 6a) et la
géminée à deux positions prosodiques (5b, voir aussi 6b) :

(6) a. Simple b. Géminée

C C C

[ traits] [ traits]
44
Les représentations (5-6) sont gouvernées par un certain nombre de principes comme le
Principe du Contour Obligatoire (PCO ou Obligatory Contour Principle). Ce principe a été
développé dans le cadre de la phonologie tonale par Leben (1973), et repris ensuite par
Goldsmith (1976). Le principe PCO interdit l’adjacence de deux éléments identiques sur un
même niveau autosegmental. Une telle suite est remplacée par un segment simple doublement
lié. C’est principalement à travers l’analyse de la structure de la racine en arabe que la valeur
explicative de ce principe a été développée. En effet, le PCO combiné aux principes
d’association gauche / droite permet d’expliquer l’asymétrie entre les mots de type
« samam », qui sont très largement répandus et les mots de type « sasam » qui sont exclus
McCarthy (1979, 1981). Ainsi, McCarthy (1981) le précise brièvement comme suit : « In
brief, Arabic allows roots of two, three, and four consonants, all of them subject to the
Obligatory Contour Principle. Biconsonantal roots are realized on the surface with
gemination of the second consonant as a direct consequence of the universal left-to-right
association convention. » (McCarthy, 1981, pp. 396–397)

D’autres principes incluent la contrainte contre le chevauchement des lignes


d’association : les configurations comme dans (7) sont universellement incorrectes. Les règles
sont bloquées lorsque de telles configurations sont dérivées :

(7)
C V C

a t
Assimilation = propagation « assimilation as spreading ». Halle et Flanagan (1980)
soutiennent que les règles d'assimilation totale ne changent pas un segment pour qu’il
devienne identique à un autre, mais impliquent plutôt la propagation de la mélodie du
segment déclencheur sur la position du segment cible sur la tire CV, exactement de la façon
dont les autosegments tonals se propagent. Ainsi, le processus d’assimilation totale de /t/ à /k/
implique la propagation des traits mélodiques de /k/ vers la position C de l’élément cible,
créant ainsi une structure avec deux positions prosodiques liées à un seul élément mélodique.
Le /t/ sous-jacent s’efface par convention « Stray Erasure » (McCarthy, 1981). L’output de
cette ré-association a la même représentation que celle d’une géminée lexicale. Cette règle est
formulée dans (8) :

(8)
C C C C

t k t k
45
2.2.2 Intégrité :
Dans les langues ayant des géminées et des règles d'épenthèse, il a toujours été constaté
que les segments épenthétiques ne pouvaient pas être insérés entre les deux moitiés des
géminées.

Abu-Salim (1980) décrit un cas intéressant tiré de l’arabe palestinien. De façon


générale, l’épenthèse dans cette langue fonctionne comme suit:

(9)
 V/C C C

i #
Exemples de l’épenthèse en arabe palestinien :

(125) /akl/ → akil « nourriture »


(126) /akl-kum/ → akilkum « votre nourriture »
(127) /isr kbir/ → isrikbir « grand pont »
(128) /lakl l-mni/ → lakllimni → lakillimni « la bonne nouriture »

La règle d'épenthèse (9) est insuffisante sur un point. Elle ne parvient pas à montrer
qu’elle est bloquée quand il s’agit d’insérer un /i/ au milieu de la géminée, comme dans les
exemples ci-dessous :

(129) imm (*imim) « mère »


(130) sitt-na (*sititna) « notre grand-mère »

Comme indiqué ci-dessus (voir 7), la règle de l’épenthèse ne peut pas diviser les deux
parties d'une géminée. Il s'agit du phénomène d’inséparabilité ou d'intégrité des géminées.
Guerssel (1977, 1978), dans son analyse de la syllabisation en berbère, a montré que le
processus d’épenthèse de schwa avait lieu dans une suite de consonnes C---CC. C’est le cas
par exemple de / amə.tfu.nast/4 « comme une vache ». Il affirme cependant que lorsque les
deux premières consonnes de la séquence forment une géminée, comme dans tazzla
« course », *tazəzla, l’épenthèse est bloquée. En revanche, l’insertion du schwa est permise en
position pré-géminée (CCiCi) ou entre deux consonnes géminées (CiCi  CiCi). Ce
phénomène est attesté aussi en tarfit, comme dans le cas des géminées morphologiques
permettant d’exprimer l’inaccompli (Bouarourou, 2006) :

4
Les points marquent les frontières syllabiques.
46
aorist inaccompli
(131) / bna / / bnna / « construire »
(132) / ngz / / nggz / « sauter »
(133) / nkar / / nkkar / « nier »
(134) / rz / / rbbz / « écraser »
(135) / ttu / / ttttu / « oublier »
L’impossibilité d’application de la règle d’insertion du schwa dans le cas de (tazzla)
« courir », (*tazəzla) et dans les formes (129-130) de l’arabe palestinien est une conséquence
de la contrainte universelle contre le chevauchement des lignes d’association. Il est en effet
impossible de scinder les géminées sans violer cette contrainte :

(10) L'interdiction du chevauchement des lignes d’association

C C *C V C

k i k

L'interdiction du Chevauchement des lignes d’association a été jugée problématique Itô


(1986) note que dans la morphologie non-concatenative, les voyelles et les consonnes sont
représentées sur deux niveaux distincts (McCarthy, 1979, 1981). En conséquence,
l'interdiction du Chevauchement des lignes d’association ne peut pas bloquer l’épenthèse
puisque les lignes associées ne se croiseront jamais (10).

(11) L'inefficacité de l'interdiction du chevauchement des lignes d’association

C C C V C

k k
Itô (1986) conclut donc qu'une structure liée comme la géminée est « pleinement
syllabée », et que l’épenthèse n'est pas nécessaire. Le processus de « tier conflation »
(Younes, 1983 ; McCarthy, 1986) devient alors un facteur important pour expliquer cette
adhésion apparente des deux niveaux à l’intégrité des géminées.

Le problème du comportement ambigu des géminées est parfaitement résolu dans le


cadre de la représentation autosegmentale, puisque de telles représentations permettent de
rendre compte aussi bien des règles qualitatives que quantitatives. L’insécabilité des géminées
est également déductible des représentations qui définissent les géminées comme un seul

47
segment lié à deux positions prosodiques. Une autre particularité des géminées est leur
inaltérabilité.

2.2.3 L’inaltérabilité des géminées


Hayes (1986) a été un des premiers à avoir traité la question de l’« inaltérabilité » des
géminées de manière systématique et approfondie. Les géminées résistent à certains processus
phonologiques auxquels leurs contreparties simples ne résistent pas. Parmi les cas cités dans
la littérature (Guerssel, 1978 ; Hayes, 1986 ; Schein & Steriade, 1986), le blocage de la
spirantisation des géminées apparaît comme universel.

Tableau 3 : Résumé du blocage de la spirantisation dans les géminées dans différentes langues du monde
(Kirchner, 2000)

Langue Référence Description du processus


Florentine Italia Giannelli & Lénition (allant de spirantisation pour compléter
Savoia, 1979 l’élision, selon la vitesse d’élocution et le registre),
bloquée pour les géminées occlusives
Hausa Klingenheben, b, d, g => w, r, w dans la coda, bloquée pour les
1928 géminées
Malayalam Mohanan, 1986 Les occlusives => approximantes dans le
contexte/[+son,-nas] __V, bloquée pour les
géminées.
Proto-Berbère Saïb, 1977 Les occlusives => constrictive (contexte libre),
bloquée pour les géminées
Somali Armstrong, 1964 Spirantisation en position intervocalique des
occlusives sonores, bloquée pour les géminées
Tamil Christdas, 1988 Voisement et spirantisation en position médiane,
bloquée pour les géminées
Hébreu Malone, 1993 Spirantisation des occlusives non emphatiques en
Tibériade position postvocalique, bloquée pour les géminées
Tigrinya Kenstowicz, 1982 Occlusives vélaires => constrictives uvulaires en
position postvocalique, bloquée pour les géminées
Tümpisa Dayley, 1989 Spirantisation, le flapping est bloqué après une
Shoshone nasale homorganique et pour les géminées, le
voisement est bloqué pour les géminées

48
Comme dans les exemples de l’hébreu tibériade (Sampson, 1973 ; Leben, 1980), du
tigrinya (Schein, 1981), du tümpisa, du shoshone (Dayley, 1989), de l’ibibio (Connell, 1991),
du tamoul (Christdas, 1988), du wolof du Sénégal (Ka, 1994) et du berbère (Saïb,1977 ;
Elmedlaoui, 1993 ; Ridouane, 2008) le processus de la spirantisation est bloqué quand il s’agit
d’une géminée.

Sampson (1973) et Leben (1980) ont retenu l’exemple de l’hébreu tibériade pour
illustrer ce propos. Ils ont montré que les occlusives /p, t, k, b, d, g/ étaient en distribution
complémentaire avec les constrictives /f, , , , , /. Les occlusives se trouvent en position
initiale et post-consonantique et les constrictives se trouvent en position post-vocalique. Dans
le corpus suivant, Sampson (1973) montre la spirantisation post-vocalique de l’hébreu
tibériade :

(136) kâa « il a écrit » mixtâ « lettre »


(137) malkâ « reine » melex « roi »

Leben (1980) représente la conception de Sampson (1973) dans la règle suivante :

[-son] [+cont] / V 

Le corpus de Sampson (1973), ci-dessous, montre que la spirantisation n’affecte pas les
géminées dans l’hébreu tibériade, même si elles sont en position postvocalique :

(138) âal « il est devenu grand »


(139) iel « il a soulevé »
(140) , , , 

Hayes (1986) a analysé des données tirées du tigrinya dont quelques exemples sont
reproduits dans le corpus ci-dessous :

Tableau 4 : La spirantisation en position post-vocalique des occlusives en Tigrinya

Singulier Pluriel
klbi axalb « chien »
a
gni aan « terrain »
b fkkr fkkr « il s’est vanté »
c mrak-ka mrax-ka « veau, 2sg. masc. »
d y-t-kft ykkft « ouvrir, passive »

Dans cette langue, comme dans l’hébreu tibériade, les occlusives simples
postvocaliques se spirantisent. Notons qu’en hébreu tibériade, le processus de la spirantisation
49
affecte toutes les consonnes occlusives (Sampson, 1973). En tigrinya, seules les consonnes
vélaires se spirantisent. En revanche, la spirantisation n’affecte pas les géminées, même si la
première moitié de ce segment est post-vocalique. Hayes (1986) postule la règle suivante pour
rendre compte de ces données :

(12) La spirantisation en tigrinya :

V C
C
- son [+ continu]
+ arrière

Selon Hayes (1986), il est possible de prédire les règles phonologiques qui ne peuvent
pas affecter les géminées. Il s’agit de règles qui mentionnent dans leurs descriptions
structurelles la couche mélodique et la couche prosodique. Les règles qui échappent à
l’inaltérabilité ne mentionnent qu’une seule de ces couches. Voici les critères établis par
Hayes (1986) pour déterminer dans quels cas une règle doit mentionner une couche
particulière :

a) Toute règle qui mentionne les traits distinctifs autres que le trait [syllabique] doit
mentionner la couche mélodique.

b) Toute règle qui fait appel à une classe de consonnes ou une classe de voyelles doit
mentionner la couche prosodique où la syllabicité est représentée.

c) Toute règle qui fait référence à la position au sein de la syllabe doit mentionner la
couche prosodique.

Selon Hayes (1986), le nombre de couches mentionnées dans une règle ne doit pas être
stipulé, mais découle naturellement de principes indépendants. Un aspect important
caractérisant les règles qui mentionnent les deux couches est qu’elles incluent les lignes
d’association dans leurs descriptions structurelles :

(13) Contrainte d’association (Linking constraint):

« Association lines in structural descriptions are interpreted as exhaustive. »

Regardons à présent comment Hayes (1986) rend compte de la spirantisation en tigrinya


(12). La règle mentionne les deux couches : la couche prosodique pour identifier la position
post-vocalique et la couche mélodique pour identifier l’occlusive vélaire. Cette règle ne
pourra pas s’appliquer aux géminées, car la description structurelle de cette règle fait
référence à une seule ligne d’association entre la cible et son unité prosodique, la géminée
50
étant associée à deux unités prosodiques. Comme l’illustrent les représentations en (14 b, c),
la contrainte d’association prédit la spirantisation du premier /k/ dans les formes :

(141) merak-ka merax-ka

Ainsi que l’inaltérabilité des géminées issues d’une assimilation complète :

(142) y-t-kft ykkft

(14) a. Inaltérabilité de /kk/

(143) /fkkr/ (*fxxr)

C C

(14) b. Spirantisation de /k-k/

(144) /mrak-ka/ mrax-ka

V C C V C C

k k x k

(14) c. Inaltérabilité de /kk/ issu d’assimilation complète :

(145) /y-t-kft/ ykkft

V C C V C C

t k k

Schein & Steriade (1986) ont développé une analyse légèrement différente de celle de
Hayes (1986). Selon eux, les règles qui s’appliquent aussi bien aux simples qu’aux géminées
tendent à appartenir à une même classe de règles qui ne requièrent que des informations
segmentales.

L’inaltérabilité des géminées est donc entièrement prédictible à partir de la façon dont
les règles, qui s’appliquent aux simples, sont formulées. Ainsi, les structures (15) ci-dessous
peuvent être affectées différemment selon la description structurelle de la règle.
51
(15) couche A a. b.

couche B   

Si la règle affectant  impose des conditions qui sont satisfaites par  et non par , alors
la règle ne pourra pas s’appliquer aux formes ayant la structure (15b). Si, en revanche, la règle
affecte un élément  de la couche A et qu’aucune condition n’est imposée sur les éléments 
associés à cet , alors la règle s’appliquera aussi bien à (15a) qu’à (15b), sans distinction entre
segments simples ou segments doublement liés.

Les effets de l’inaltérabilité des géminées ne sont pas limités à la spirantisation. Hayes
(1986) a indiqué d’autres blocages dans les géminées. Se basant sur un travail effectué par
Cowan & Yarmohammadi (1978) sur le persan, Hayes (1986) traite de la transformation de
/v/ à /w/ qu’il nomme l’affaiblissement de /v/ (« /v/-weakening ») en position finale de la
syllabe. De façon inattendue, l’affaiblissement de /v/ n’arrive pas à affecter /v/ en position
finale de la syllabe à chaque fois qu'il constitue la première moitié d'une géminée, comme le
montre le corpus ci-après :

(146) /novru:z/ ==> nowru:z « nouvel an »


(147) /v/ ==> w « à peine »
(148) /vvl/ « premier »
(149) /morovvt/ « générosité »
(150) /qolovv/ « exagération »

Un autre processus illustrant le comportement différent entre les simples et les géminées
concerne le processus de dévoisement qui affecte les géminées, mais pas les simples. En
tarifit, par exemple, la correspondante géminée de // et /d/ est /tt/ et non /dd/.

Ce phénomène est attesté dans d’autres langues, comme l’illustre le tableau suivant tiré
de Kirchner (2000) :

52
Tableau 5 : description des processus de dévoisement affectant les géminées dans différentes langues (Kirchner,
2000)

Langue Référence Description du processus


Berbère Saïb, 1977 Les obstruantes emphatiques voisées (contexte-
Guerssel, 1977 libre), bloquées pour les géminées
Cuna Sherzer, 1975 Voisement en position intervocalique, bloqué pour
les géminées
Florentine Giannelli & En vitesse d’élocution rapide, les occlusives
Italienne Savoia, 1979 sourdes, qui se spirantisent aussi aux constrictives
ou aux approximantes, se réduisent aux
approximantes voisées, bloquées pour les géminées
Gallo-Romance Bourciez & Changement de voisement : /t/ en position
Bourciez, 1967 intervocalique devient voisée, bloquée pour les
géminées
Malaylam Mohanan, 1986 Les occlusives deviennent voisées dans le contexte /
+ son  V ou / + nas  ; bloquées pour les
géminées
Tamil Christdas, 1988 Voisement (et spirantisation) en position
intervocalique, bloqué pour les géminées
Tümpisa Shoshone Dayley, 1989 Les obstruantes non initiales sont voisées, bloquées
pour les géminées

En ce qui concerne le tarifit, nous avons observé une autre sorte d’inaltérabilité. C’est le
processus de l’amuïssement de la liquide /r/ en position coda, qui n’affecte pas les géminées
correspondantes. Rappelons que Louali et Puech (1998) ont traité du statut du /r/ en position
coda et ont montré que dans cette position  rhotacise le noyau vocalique, l’allonge ou altère
son timbre et sa structure (monophtongue ou diphtongue). Chtatou (1994) qualifie ce
processus d’allongement compensatoire, identique à celui qui se manifeste dans les parlers
anglais du sud de l’Angleterre (cf., plus haut, Section : 1.2.17). On a constaté que ce
processus était bloqué pour les géminées.

53
aoriste inaccompli

(151) /far/ ==> [f] /farr/ « être heureux »


(152) /far/ ==> [f] /farr/ « balayer »
(153) /arm/ ==> [m] /arrm/ « offrir »
(154) /ar/ ==> [] /arr/ « inviter »

La spirantisation en berbère

La gémination résiste à certaines règles, entre autres la spirantisation, comme par


exemple /* /bb. Ce phénomène est attesté en kabyle et en tarifit (en plus de l’hébreu).
Pour l’expliquer, Elmedlaoui (1993) évoque le PDI, le Principe de Développement Inertiel,
initié par Foley (1977). Le PDI gouverne un processus de fortition qui est la règle
d’occlusivation. Parmi les principes du PDI, les deux ci-dessous ont été légèrement adaptés
par Elmedlaoui (ibid. : 140) :

a. Les segments forts et les positions fortes ont priorité dans les processus de fortition de
trait et dans la distribution des traits fortis.

b. Les segments faibles et les positions faibles ont priorité dans les processus
d’affaiblissement de trait et dans la distribution des traits faibles.

Elmedlaoui, (1993) explique ce phénomène par deux processus historiques :

a. La réduction très importante du point de vue quantitatif d’un nombre considérable de


géminées lexicales dans des environnements qui ne peuvent plus être « systématisés ».

b. L’emprunt, essentiellement aux dialectes arabes, d’un nombre important de mots


contenant des occlusives simples sans les spirantiser. L’émergence d’occlusives
simples, résultant des géminées, a facilité la non-spirantisation des occlusives simples
des emprunts.

La spirantisation des occlusives a attiré beaucoup de linguistes, et, entre autres, a servi
de facteur discriminant pour élaborer la classification des parlers berbères. Biarnay (1917),
par exemple, considère la spirantisation des occlusives comme un des traits les plus
importants qui permettent de distinguer les parlers du Nord des parlers chleuhs. Le tamazight
et le tarifit sont considérés comme des parlers spirants et le chleuh comme un parler occlusif.
Ridouane (2009) explique que les parlers chleuhs ne sont pas tous des parlers occlusifs. Le
tachelhit parlé dans le Haut-Atlas spirantise la bilabiale sonore, les vélaires et les
labiovélaires.

54
La spirantisation en tarifit, comme l’a indiqué Saïb (1977) sur le proto-berbère 5 ,
entraine une modification des occlusives en constrictives dans un contexte libre, mais celle-ci
est bloquée pour les géminées, contrairement à quelques langues, où la spirantisation est
conditionnée par le contexte. Prenons l’exemple de l’hébreu tibériade (Malone, 1993). Les
occlusives non emphatiques deviennent des constrictives en position postvocalique, mais la
transformation est bloquée aussi pour les géminées. En tarifit, la labiale sonore /b/, les
dentales /t, d/ et les vélaires /k, g/ se spirantisent. En revanche, selon Ridouane (2009), pour le
tachelhit, les dentales ne se spirantisent pas.

Le tarifit présente une alternance entre les spirantes simples et les occlusives géminées
comme dans l’exemple ci-dessous.

aoriste inaccompli

(155) aru arbbu « porter sur le dos »


(156) r ddar « couvrir »
(157) fr fttr « rouler »
(158) sf skkf « aspirer »

Pour rendre compte de l’alternance spirante simple ~ occlusive géminée, illustrée ci-
dessus, on a a priori le choix entre deux règles : une règle d’occlusivation ou une règle de
spirantisation, selon le statut phonologique attribué aux constrictives. Comme signalé
auparavant, différents auteurs considèrent que la direction historique du changement occlusive
/ constrictive ne peut plus rendre compte des données synchroniques. Ils postulent à l’inverse
une règle d’occlusivation (constrictive => occlusive). Dans le parler rifain de Beni Iznassen,
décrit par El Kirat (1987), les coronales simples /t, d/ se réalisent /, / sauf quand elles sont
immédiatement au contact de /m, n, l/, auquel cas les coronales simples restent occlusives.
Les vélaires et leurs homologues labialisées se spirantisent dans tous les contextes. La
gémination, comme en tachelhit, bloque la spirantisation. Un ensemble d’arguments justifie le
statut phonémique des constrictives, selon El Kirat (1987).

1- Ces segments sont attestés dans la forme verbale de base, qui est la catégorie la moins
marquée.

2- Le tarifit contient une grande quantité d’emprunts arabes qui sont intégrés au lexique
local, tout en gardant l’aspect occlusif de leurs segments. Cette adaptation des
occlusives sans les spirantiser a été facilitée par la réduction quantitative qui a affecté

5
Le proto-berbère est la langue première dont toutes les langues berbères modernes sont issues. Elle fait partie à
son tour de la famille afro-asiatique.
55
les géminées. Lorsqu’on compare le tachelhit au tarifit, on constate que la gémination
est maintenue pour le tachelhit, mais pas pour le tarifit, comme le montrent les formes
ci-après :

tarifit tachelhit

(159) arat taratt


(160) azzat tusditt
(161) addit talitt

3- L’argument majeur, selon El Kirat (1987), est que la spirantisation n’est plus un
processus synchroniquement productif.

En tachelhit, la situation est différente, un ensemble d’arguments indique plutôt que les
constrictives dérivent d’occlusives sous-jacentes. Selon Ridouane (2009), un premier
argument est lié à la tendance universelle des langues à préférer les occlusives aux fricatives
dans la structure sous-jacente. Un système phonologique avec une occlusive /k/ est plus
naturel qu’un système contenant une constrictive /x/. L’existence de /x/ présuppose
l’existence de sa contrepartie occlusive /k/ et non pas l’inverse. Un deuxième argument
important est que les géminées occlusives labiales et vélaires en tachelhit restent géminées et
se distinguent des constrictives simples aussi bien en termes de durée qu’en termes de mode
d’articulation. Cela n’est pas le cas pour les occlusives géminées en tarifit ou en kabyle.

Les différents types de géminées ne réagissent pas tous de la même manière vis-à-vis de
la spirantisation. Les géminées lexicales, et c’est là une tendance universelle, ne se
spirantisent jamais. Les géminées issues d’une assimilation complète résistent aussi à
l’application de cette règle. En revanche, les géminées issues d’une concaténation se
spirantisent (Hayes, 1986).

Ridouane (2009) a mené une étude comparative des trois types de géminées du
tachelhit. Il a démontré que :

a. les géminées lexicales présentaient les caractéristiques d’une articulation tendue ;

b. des différences existaient au niveau phonétique entre les géminées lexicales et issues
d’une assimilation complète d’un côté et les géminées par concaténation de l’autre ;

c. la différence dans leur comportement vis-à-vis de la spirantisation était due aux


différents types de géminées mentionnés ci-dessus. Une telle analyse phonétique est
fournie dans Ridouane (2009). Les résultats d’un ensemble d’analyses acoustiques et

56
articulatoires montrent que la gémination lexicale est phonétiquement implémentée
par différents corrélats, dont le principal est la durée.

Dans la phonologie CV, une géminée est représentée comme une seule unité mélodique
associée à deux positions prosodiques. Les comportements des géminées, à savoir leur
ambivalence, leur intégrité et leur inaltérabilité, ont été observés ; les traits suivants ont été
retenus :
 Ambivalence : dans certains cas les géminées se comportent comme si elles
constituaient deux segments, et dans d'autres, comme si elles n’en constituaient qu’un
seul.
 Intégrité : dans la mesure où ils constituent deux segments, les segments longs ne
peuvent pas être divisés par des règles d’épenthèses.
 Inaltérabilité : l'échec de certains processus phonologiques à modifier les géminées
lexicales, tout en affectant les simples et les « fausses » géminées.

57
3 Dimension typologique de la gémination
Cette partie dresse une vue globale des études phonétiques sur la gémination dans
diverses langues. Tout d’abord, seront présentés des travaux acoustiques et perceptifs qui ont
permis de dégager des indices acoustiques responsables de la distinction entre consonnes
simples et consonnes géminées. Ensuite, nous énumérerons les études articulatoires et
physiologiques des géminées qui montrent des comportements différents aux niveaux
glottique et supraglottique. Enfin, nous présenterons l’impact de la vitesse d’élocution sur les
consonnes simples et les consonnes géminées.

3.1 Analyses perceptives et acoustiques


Dans la littérature traitant de la gémination, de nombreuses études portent sur la mise au
jour des corrélats acoustiques et perceptifs de la gémination.

À titre d’exemple, Lahiri & Hankamer (1988) et Hankamer, et al. (1989) ont analysé la
durée des occlusives sourdes simples et géminées dans deux langues différentes : le turc et le
bengali. L’objectif de cette étude était de déterminer l’indice acoustique principal responsable
de l’opposition entre ces deux types d’occlusives et de vérifier s’il s’agissait du même indice
pour les deux langues. Leurs résultats montrent que la durée de l’occlusion est l’indice
perceptif significatif qui permet de distinguer les simples des géminées. En revanche, le VOT
ne permet pas, à lui seul, de différencier ces deux classes de consonnes. Pour le bengali et le
turc, la durée de l’occlusion des géminées est significativement différente de celle des
simples.

Ham (1998) a fait les mêmes remarques lors d’une analyse acoustique de la gémination
dans quatre langues typologiquement différentes : l’arabe levantin, le hongrois standard, le
madourais (parlé en Indonésie) et le bernois. La conclusion principale de cette étude est que ni
la durée du VOT positif ni la durée du burst ne contribuent acoustiquement à l’opposition
simple vs. géminée dans ces langues. Le seul indice acoustique qui permet de distinguer les
simples des géminées est la durée de l’occlusion. Ladefoged & Maddieson (1996) sont allés
dans le même sens en montrant que le corrélat phonétique le plus saillant des contrastes
phonologiques entre les simples et les géminées réside dans la tenue consonantique. En
moyenne, les occlusives géminées ont entre 1,5 à 3 fois plus de tenue consonantique que les
occlusives simples en parole soignée : « The most salient phonetic correlate of phonological
contrasts between singleton and geminate consonants is closure duration. On average, long
stops have between 1.5-3 times the closure duration of short stops in careful speech. »
(Ladefoged & Maddieson, 1996, p. 92).
58
Kraehenmann (2001) a présenté des preuves pour deux affirmations :

a) le contraste entre les occlusives dans les dialectes suisses alémaniques repose
uniquement sur la quantité ;

b) au niveau acoustique, seule la durée de la tenue consonantique permet l’opposition


consonnes simple vs. consonnes géminées.

Kraehenmann (2001) utilise les données de production et de perception pour les


occlusives initiales, médianes et finales du thurgovien, un dialecte parlé dans le nord-est de la
Suisse. L’auteur a montré que le modèle de neutralisation de l’opposition en position médiane
de la phrase prend en compte les arguments suivants : lorsque la position de longueur
phonologique supplémentaire d'une géminée n'est pas syllabifiable, les durées de la tenue
consonantique raccourcissent, les géminées sous-jacentes et les simples deviennent difficiles à
distinguer. Les données de perception, en particulier, permettent de montrer que la durée de la
tenue consonantique est le facteur essentiel de l'opposition sous-jacente car, en l'absence de
cet indice phonétique, les auditeurs ne peuvent plus discriminer une géminée sous-jacente
d'une simple. Les résultats portent non seulement sur les questions centrales de la
représentation des géminées mais aussi sur certaines subtilités de l'interface phonologique et
phonétique.

McKay (1980) a mené une étude spectrographique pour déterminer la légitimité


d’interpréter l’opposition des occlusives en rembarrnga (langue nord-australienne) comme
étant une opposition entre géminées et simples plutôt qu’entre sourdes ou fortis et voisées ou
lenis. La comparaison des durées d’occlusion pour les simples et les géminées montre
clairement que les occlusives géminées sont largement plus longues que les simples. En plus
de la durée de l’occlusion, McKay (1980) a aussi observé une variation de durée des voyelles
qui précédent les occlusives. Les voyelles sont plus courtes devant les géminées que devant
les simples. Cette différence n’est cependant pas significative. Les spectrogrammes montrent
aussi que les géminées se caractérisent par un « burst » (ou explosion/frictions) remarquable
au moment du relâchement. Ces caractéristiques, selon McKay (1980), peuvent être
considérées comme des indicateurs d’une articulation forte. Les langues nord australiennes
reflètent particulièrement bien le cas que nous traitons dans la partie précédente, notamment
la difficulté d’interprétation des oppositions entre différentes séries d’occlusives : s’agit-il de
géminées vs. simples ou de tendues vs. lâches, ou tout simplement d’une opposition de
voisement ? Ces trois analyses différentes ont été une à une adoptées.

59
Les analyses acoustiques des géminées impliquent fréquemment la durée, mais un
nombre important d’autres corrélats phonétiques a été signalé. Parmi ces corrélats, on trouve
l’amplitude du burst, la fréquence fondamentale et la qualité des voyelles adjacentes. Ce
phénomène a déjà été mentionné dans d’anciens travaux. Signalons, par exemple, un travail
pionnier de Lisker (1958) qui a montré que les différences de durée sont combinées avec des
différences de voisement et de tension pour les occlusives du tamil. Par la suite, ce même
phénomène a fait l’objet d’études dans Abramson (1987, 1998) sur le pattani malais. Lahiri et
Hankamer (1988) et Hankamer, et al. (1989) ont étudié le même phénomène pour le turc et le
bengali (cité supra).

Esposito & Benedetto (1999) allient des considérations théoriques aux résultats
d’analyses acoustiques et perceptives. Ils ont fait l'hypothèse que la durée de la tenue
consonantique est le principal indice de la gémination en italien. Les résultats d'une analyse
acoustique d'un grand nombre de consonnes simples et géminées de l’italien mettent en
évidence deux corrélats acoustiques de la gémination : la longueur de la tenue consonantique
et la longueur de la voyelle précédant la consonne. D'autres paramètres acoustiques ne sont
pas systématiquement liés à la gémination. Ces résultats ont été validés au niveau perceptif.
Au niveau de la perception, les indices ci-dessus ont été utilisés par les auditeurs pour la
discrimination simple/géminée. À ce niveau, la durée de la tenue consonantique jouait un rôle
majeur. En outre, il a été constaté que l’allongement significatif de la consonne n'a été que
partiellement compensé par la réduction de la voyelle précédente et par un petit allongement
de l’énoncé de la géminée, par rapport à celle de la simple. Ce résultat suggère que les
intervenants suivent une sorte de timing (rythme) qui est fixe dans le temps et dépend du
nombre de syllabes dans le mot. Les mots avec un nombre égal de syllabes ne changent pas la
longueur de l’occurrence, un segment allongé étant en partie compensé par le
raccourcissement de l'autre. Ce processus semble être appliqué également au niveau perceptif,
ce qui suggère que le timing (rythme) d'une langue est aussi une attitude auditive.

Arvaniti & Tserdanelis (2000, 2001) et Arvaniti (2001) ont effectué plusieurs mesures
incluant la durée des consonnes simples et géminées, la durée de la voyelle précédente,
l’amplitude RMS des géminées, ainsi que les différences spectrales des voyelles précédant et
suivant les géminées (plus particulièrement le F1 et le F2 de ces voyelles). Les résultats
obtenus montrent que la durée est le corrélat le plus robuste et le plus consistant permettant de
distinguer les simples des géminées. Aucune différence n’a été relevée en terme d’amplitude
entre les simples et les géminées. La gémination n’affecte pas non plus ni la durée de la
voyelle précédente, ni la qualité des voyelles précédant ou suivant la consonne géminée.

60
Payne & Eftychiou (2006) ont examiné les variations de la durée des géminées
alvéolaires et latérales lexicales et post-lexicales sous différentes conditions de l’accent. Leurs
résultats révèlent que les géminées lexicales sont beaucoup plus longues que les géminées
post-lexicales, et que les deux catégories (simples et géminées) sont plus longues en position
initiale. La différence de durée est robuste dans toutes les conditions, et particulièrement pour
les géminées lexicales en position initiale. Les géminées lexicales et les géminées post-
lexicales sont significativement plus longues quand elles sont en position pré-accentuelle. Les
géminées en position initiale sont plus longues quand elles sont précédées d’une nasale en
position finale. Par conséquent, cela crée une sorte de consonne « super-géminée » et indique
que les nasales en position finale ne sont pas supprimées.

Cohn et al. (1999) ont analysé les caractéristiques de durée dans l’opposition simples vs.
géminées présentes dans trois langues indonésiennes : le bougi, le madourais et le toba batak.
Les géminées se caractérisent par une durée plus longue que les simples. Le VOT ne
contribue pas à la distinction de longueur dans les trois langues. Dans les trois langues en
revanche, la voyelle précédant les géminées a une durée clairement plus brève que lorsqu’elle
est devant une simple.

Hassan (2002) a mené une étude instrumentale et comparative des consonnes simples et
géminées en suédois et en arabe en se focalisant sur la durée de la voyelle précédente. Les
résultats obtenus indiquent, dans les deux langues, une durée plus importante pour les
géminées que pour les simples. De plus, en suédois, les voyelles précédant les simples ont une
durée nettement plus longue par rapport aux voyelles précédant les géminées. En revanche, la
différence de durée des voyelles n’a pas été significative en arabe. Ces résultats appellent
quelques remarques, relatives principalement au système vocalique dans les deux langues. Le
système vocalique suédois, traditionnellement considéré comme un système à 9 voyelles,
oppose les longues aux brèves. Les voyelles longues sont situées devant les consonnes
simples et les brèves devant les géminées ou devant les séquences de deux consonnes
successives. Il s’agit là de la distribution complémentaire des quantités. Les mêmes faits de
« distribution complémentaire des quantités » ont été observés par Sock et al. (1996) et Sock
(1998) lors d’une étude cinématique et acoustique des corrélats de la quantité en suédois et en
wolof du Sénégal. Les résultats obtenus dans cette étude montrent qu’en suédois la voyelle est
longue en position finale, ou quand elle est suivie d’une consonne brève dans un contexte
VVC. Elle est brève quand elle est suivie d’une consonne longue dans un contexte VCC. En
revanche, le wolof de Gambie n’a pas montré cette distribution complémentaire des quantités.

61
Les voyelles brèves et longues du wolof de Gambie sont toujours suivies d’une consonne
simple VC ou VVC.

Sur la gémination en japonais, Kawahara (2012) cite, parmi les travaux menés sur les
corrélats secondaires de la gémination, certains auteurs que nous mentionnons ci-après. Ces
auteurs ont montré que les voyelles sont plus longues devant les géminées que devant les
simples (Campbell, 1999 ; Fukui, 1987 ; Han, 1994 ; Hirata, 2007 ; Hirose & Ashby, 2007 ;
Idemaru & Guion, 2008 ; Kawahara, 2006 ; Ofuka, 2003 ; Port et al., 1987 ; Takeyasu, 2012).
Port et al. (1987), par exemple, trouvent que le [] dure en moyenne 68 ms devant les
simples et 86 ms devant les géminées. Contrairement aux simples, les voyelles suivantes sont
moins longues après les géminées (Campbell, 1999 ; Han, 1994 ; Hirata, 2007 ; Idemaru &
Guion, 2008 ; Ofuka, 2003). Selon Idemaru & Guion (2008), la moyenne de la durée de la
voyelle qui suit les géminées est de 63 ms, tandis que celle qui suit les simples est de 76 ms.
En ce qui concerne le VOT, Han (1994) affirme que le VOT des géminées est légèrement
moins long que celui des simples.

Kawahara (2006) a montré, dans un travail sur trois locuteurs, que les occlusives
géminées sonores sont généralement « semi-dévoisées » en japonais, et cela, à cause de
contraintes aérodynamiques : si le voisement est présent tout au long de la tenue
consonantique de [g], il s’arrête au milieu de la tenue totale de [gg] (40% de voisement sur
l’ensemble de la tenue totale). Hirose & Ashby (2007) ont appliqué la même méthode. Ils ont
trouvé une moyenne de 47% de voisement sur la tenue totale. Contrairement aux résultats
obtenus par Cohn et al. (1999) sur le bougi, le madourais et le toba batak, Hirose et Ashby
(2007) ont observé que le voisement des géminées occlusives se maintient durant toute la
durée de l’occlusion.

Pour les études menées sur le berbère, il est important de signaler les résultats des
travaux de Ridouane (2003) sur cinq locuteurs du parler tachelhit. Ces travaux prennent en
considération des mesures d’un ensemble de paramètres temporels et non temporels.
Ridouane (2003) a obtenu des résultats que nous présentons ci-dessous.

Tout d’abord, la durée (de l’occlusion pour les occlusives) est le paramètre principal qui
permet de distinguer les simples des géminées. Ce paramètre est présent pour toutes les
consonnes et dans toutes les positions. Les mesures de débit d’air oral ont montré que ce
paramètre permet de distinguer acoustiquement les occlusives sourdes simples des géminées,
en position initiale absolue aussi, même si cette différence n’est pas perçue.

62
Ensuite, la durée du VOT ne permet pas de distinguer les occlusives sourdes simples de
leurs contreparties géminées. Les occlusives sonores géminées, selon les positions et les
locuteurs, présentent parfois des durées de VOT significativement plus longues que celles de
leurs contreparties simples. L’allongement du VOT est dû au dévoisement qui les affecte et
donc indirectement à leurs durées d’occlusion plus longues.

De plus, la voyelle tend à s’abréger lorsqu’elle précède une consonne géminée, plus
particulièrement une occlusive géminée ou une fricative. Ridouane (2003) a observé
néanmoins des variations selon les locuteurs. L’aspect simple ou géminé des obstruantes n’a
aucun effet sur la durée de la voyelle suivante.

De surcroît, aucun paramètre acoustique non temporel n’indique de différence


systématique entre les simples et les géminées. Ce constat reste valable, même s’il a été
observé que les occlusives simples ont parfois tendance à se produire avec une occlusion
incomplète et parfois sans burst, principalement pour les simples sonores. Toutes les
occlusives géminées sont en revanche produites avec une occlusion complète et un burst très
net. Ainsi, ces deux aspects sont considérés comme une manifestation d’une articulation forte
caractérisant ces segments, par opposition aux simples réalisées avec une articulation moins
forte. Le dévoisement partiel affecte certaines géminées. Son importance varie selon les
locuteurs, les lieux d’articulation et le contexte. Ridouane (2003) attribue ce dévoisement
partiel à l’augmentation de la pression intraorale concomitante à l’augmentation de la durée
de l’occlusion des géminées sonores. Par ailleurs, la gémination n’a eu aucun effet sur les
valeurs formantiques des voyelles adjacentes. Des différences significatives ont été observées
en comparant les valeurs formantiques des voyelles selon les différents lieux d’articulation
des consonnes adjacentes.

Enfin, aucune différence de durée n’a été observée entre les géminées
tautomorphémiques, les géminées issues d’une concaténation et celles qui résultent d’une
assimilation complète. La durée de la voyelle précédente est également identique. Elle est plus
longue uniquement pour un locuteur qui réalise la voyelle précédant les géminées issues
d’une concaténation avec une durée significativement plus longue. La durée de cette voyelle
est presque la même que celle qui précède les segments simples.

63
Sur le plan acoustico-perceptif, nous avons mentionné quelques travaux menés sur
différentes langues qui possèdent la distinction simple / géminée afin de dégager les indices
acoustiques responsables de cette opposition. Plusieurs tests ont été effectués sur plusieurs
paramètres comme la durée des voyelles adjacentes, la durée de l’occlusion, la durée du
VOT, la durée des fricatives, l’amplitude du burst et la fréquence fondamentale de la voyelle
suivante. Ces auteurs ont dégagé plusieurs indices qui permettent de distinguer les simples
des géminées. La plupart des travaux cités trouvent que la durée de la tenue consonantique
est l’indice principal pour distinguer les deux catégories. D’autres indices trouvés sur
certaines langues restent secondaires.

3.2 Analyses articulatoires


La plupart des investigations menées dans le domaine de la phonétique articulatoire
tâchent de savoir si la production de consonnes géminées implique une ré-articulation de la
consonne ou non. Comme le précise Ridouane (2003), nous avons affaire à une question qui a
longtemps préoccupé des chercheurs pionniers en production de la parole. Selon ces
chercheurs, l’indice de prédilection servant à distinguer les consonnes géminées des
consonnes longues était la ré-articulation. Pour certains, ce qui caractérisait les géminées était
la ré-articulation de la consonne, celle-ci comportant deux phases. La première phase
occuperait la position finale de la syllabe et la seconde l’attaque de la syllabe suivante. Pour
d’autres, il était inutile de retenir l’existence de deux phases articulatoires, puisqu’il n’y aurait
aucune différence entre consonnes longues et consonnes géminées.

Parmi ces chercheurs pionniers, on peut citer Sievers (1876) qui, en retenant des
considérations perceptives et kinesthésiques, fut le premier à avoir proposé la notion de ré-
articulation des géminées. Quelques années plus tard, Rousselot (1891) devait réfuter cette
notion de ré-articulation des géminées, en se fondant sur ses données kymographiques pour
des consonnes géminées d’un dialecte gallo-roman. Ses dernières ne présentaient pas de
caractéristiques de consonnes doublement articulées. Cependant, l’étude de Stetson (1951) sur
les géminées hétéromorphémiques de l’anglais a permis de mettre au jour une double
articulation lors de la production des géminées /p+p/. En effet, les courbes correspondant à la
pression intra-orale ont nettement indiqué deux maxima pour les labiales géminées.
Cependant, Hegedüs (1959) n’a trouvé aucun indice qui puisse démontrer la ré-articulation
des géminées à partir de mesures acoustiques de la courbe de l’intensité pour les simples vs.
les géminées tautomorphémiques.

64
Précisons toutefois que Hegedüs (1959) avait analysé des consonnes
tautomorphémiques, tandis que d’autres auteurs avaient plutôt analysé des géminées séparées
par une frontière de mot. Afin de pouvoir comparer des choses comparables, Lehiste et al.
(1973) se sont proposés d’étudier deux types de géminées dans le cadre d’une même langue.
Leur étude a été faite à partir de données électromyographiques pour l’estonien et l’anglais.
L’électromyographie avait été retenue pour déterminer si les géminées impliquent une ré-
articulation ou non. La langue estonienne offre, d’une part, la possibilité de comparer les
géminées tautomorphémiques avec les géminées hétéromorphémiques. Elle permet, d’autre
part, de comparer les géminées aux super-géminées parce que cette langue présente un
système à trois degrés de longueur consonantique (brève vs. longue vs. extra-longue). Nous
reviendrons à quelques détails relatifs à cette étude ainsi qu’aux résultats, infra.

Delattre (1971) a analysé les corrélats acoustiques et articulatoires de la gémination


consonantique dans quatre langues : l’italien, l’anglais, le français et l’espagnol. Le corpus
analysé par Delattre contient des géminées aussi bien tautomorphémiques
qu’hétéromorphémiques. Les formes anglaises contiennent, entre autres formes, le triplet
suivant « it will end », « it will lend » et « we lend ». Dans les quatre langues, c’est la durée
de la consonne qui contribuerait le plus à la gémination. Il y aurait cependant d’autres facteurs
tels que l’intensité et la tension des cordes vocales qui joueraient un rôle significatif dans
l’émergence de la gémination. Delattre a également utilisé la méthode cinéradiographique
pour observer des mouvements articulatoires par rayons-X. Il a ainsi démontré que les
géminées nécessitent deux phases articulatoires. La première phase contiendrait les traits
d’une consonne finale. La seconde comprendrait les traits d’une consonne initiale. La
cinéradiographie a aussi permis de détecter deux mouvements anticipatoires. La première
phase se caractériserait par une anticipation consonantique (la deuxième partie de la géminée).
La seconde se caractériserait, elle, par une anticipation de la voyelle suivante. La pression de
la langue serait différente selon les deux phases, celle-ci étant plus faible lors de la première
phase de l’articulation. Les mesures d’intensité effectuées par Delattre (1971), à partir de
spectrogrammes, montrent que la variation de l’intensité jouerait également un rôle important
dans la distinction des consonnes simples et des géminées. Cependant, la durée reste l’indice
le plus important dans l’opposition linguistique de ces consonnes. Delattre a également
procédé à des analyses perceptives qui confirment la prédominance de la durée comme indice
principal dans la perception des géminées.

Dans l’étude de Lehiste et al. (1973), évoquée supra, le quadruplet estonien suivant :
/taba/ / tapa/ /tappa / /lapp peal / a été analysé. Les consonnes bilabiales de ce quadruplet

65
sont toutes des occlusives sourdes. /b/ est une labiale simple sourde (sic), /p/ une géminée
courte et /pp/ une géminée longue. Ils ont effectué des enregistrements électromyographiques,
associés à l’occlusion labiale, et des mesures de pression d’air intra orale. Les données de
l’estonien montrent que la durée de l’occlusion différencie clairement les simples des
géminées et des super-géminées. Le nombre de sommets sur les courbes
électromyographiques (sommets EMG) permet aussi de distinguer les géminées des super-
géminées, ainsi que les simples des géminées. En ce qui concerne l’opposition super longues
et géminées hétéromorphémiques, la différence ne semble pas significative. Dans la paire
/tappa/ vs. /lapp peal/, seule l’amplitude du sommet EMG semble différencier les deux
formes. Mais cela est probablement dû au fait que la deuxième syllabe de /tappa/ n’est pas
accentuée tandis que le deuxième mot de /lapp peal/ l’est. En outre, le contexte, ceteris
paribus, n’est pas contrôlé.

La différence entre les géminées courtes et les géminées longues serait clairement
établie. Elle se manifeste, en plus de la durée, par le nombre de sommets EMG sur les courbes
électromyographiques. En ce qui concerne l’aspect réarticulé des géminées, l’étude de Lehiste
et al. (1973) apporte des observations qui confirment la double articulation lors de la
production des géminées en estonien (courtes, longues, ainsi que la séquence CC+C).
Contrairement aux observations faites par Delattre (1971), les géminées en anglais ne sont pas
réalisées avec une double articulation.

Parmi les travaux menés sur des consonnes doubles, nous pouvons citer à titre
d’exemple l’étude cinéradiographique de Vaxelaire (1995b) sur des consonnes simples et
doubles du français. Vaxelaire montre que l’étendue de contact (la zone de contact
palais/langue) est plus importante pour les occlusives longues que pour les occlusives brèves.
En vitesse d’élocution rapide, les différences au niveau de l’étendue de contact s’accroissent
puisqu’une augmentation nette de l’aire de contact entre la langue et le palais est observée
notamment pour les occlusives longues.

66
Figure 3 : coupes sagittales du conduit vocal pour /aka/ (lignes continues) vs. /akka/ (lignes discontinues), en
vitesse d’élocution normale (à gauche) et pour /ada / (lignes continues) vs. /adda/ (lignes discontinues), en
vitesse d’élocution normale (à droite). D’après Vaxelaire, (1995a).

Les mesures obtenues des profils sagittaux, en vitesse d’élocution normale, montrent
que les étendues de contact correspondent à chaque fois à la valeur maximale de contact :
lèvre-lèvre et langue-palais (apex et dos). Les étendues pour les consonnes doubles,
hétéromorphémiques homorganiques, sont égales ou éventuellement plus longues que celles
des simples. Des résultats similaires ont été relevés dans le travail de Bouarourou et al. (2008)
présentant une étude cinéradiographique sur les consonnes simples et les consonnes géminées
du tarifit. Nous y reviendrons dans le chapitre 11.

Les études électropalatographiques sur les consonnes occlusives de l’italien montrent


que le contact entre la langue et le palais est plus large pour les géminées que pour les
simples. Aussi y-a-t-il une augmentation générale du contact de la langue avec le palais lors
de l’augmentation de la durée de l’occlusion (Farnetani, 1990). Des résultats comparables ont
été obtenus et présentés par Byrd (1995) pour l’anglais américain, par Kraehenmann & Lahiri
(2008) pour le suisse alémanique et par Ridouane (2007) pour le tachelhit.

Payne (2006) a présenté des résultats d'une enquête électropalatographique de la


gémination consonantique de l’italien. Les résultats suggèrent une articulation plus palatalisée
des géminées sonantes coronales et occlusives que leurs homologues non géminées. Une
différence est également constatée pour l'articulateur actif, qui présente une caractéristique
articulatoire laminale pour la production des géminées, et apicale pour la production des non-
géminées.

Dunn (1993) a étudié les mouvements des lèvres pendant la tenue des consonnes
longues et courtes de l’italien et du finnois, en utilisant les mesures dérivées de l’aperture des
lèvres. Elle a trouvé que les lèvres restent en contact plus longtemps pour les sons longs, le

67
mouvement cinématique n’étant pas remarquablement différent pour les consonnes longues
par rapport aux consonnes courtes. Smith (1995) a fait une étude reliée à cette dernière. Elle a
examiné les mouvements des lèvres et de la langue pour les consonnes simples et les
consonnes géminées du japonais et de l’italien. Ses résultats indiquent que les mouvements de
fermeture des lèvres sont plus lents pour les géminées que pour les simples.

Gili-Fivela et al. (2007) ont réalisé des études articulatoires sur le contraste de la
longueur des consonnes simples et géminées de l’italien. Ces auteurs se sont focalisés sur la
cinématique des lèvres et de la langue. Leur objectif était de tester directement des hypothèses
sur l'organisation gestuelle des consonnes géminées et de recueillir des observations sur la
position possible des objectifs gestuels des consonnes simples et géminées. Leurs données
montrent que les géminées de l’italien semblent être mieux expliquées par un modèle hybride
qui utilise à la fois le modèle de Öhman (1966) « Voyelle à Voyelle » et celui de Browman &
Goldstein (1986) « Voyelle Consonne ». Concrètement, certains de leurs résultats montrent
une stabilité du cycle vocalique de « Voyelle à Voyelle », que la cible consonantique soit
simple ou géminée, alors que d’autres montrent une variabilité de ce cycle vocalique. De plus,
les données confirment en partie l'existence d'un objectif virtuel plus élevé chez les géminées
par rapport aux simples.

Pour ce qui concerne le berbère, il est important de mentionner les recherches de


Ridouane (2007) sur le tachelhit. Dans ses travaux, Ridouane démontre, à l’aide de
l’électropalatographie, que les différences de durée valent même pour les occlusives sourdes
après pause. Cette distinction temporelle est renforcée par des corrélats secondaires comme
l’abrègement de la voyelle précédente, l’amplitude du relâchement, le dévoisement des
géminées occlusives, le maintien systématique d’une occlusion complète, etc. Ces corrélats
sont interprétés comme des manifestations de la force articulatoire qui caractérisent ces
segments. En ce qui concerne la comparaison entre les différents types de géminées, les
résultats montrent que les trois types de segments présentent pratiquement les mêmes durées
(ce qui soutiendrait leur représentation identique au niveau du palier prosodique, si l’on
interprète ces positions comme des unités de durée). En revanche, des différences notables ont
été observées entre les géminées lexicales et celles issues d’une assimilation complète d’un
côté, et les géminées par concaténation de l’autre. Tandis que les géminées par assimilation,
comme les géminées lexicales, sont renforcées par les attributs acoustiques de la force
articulatoire (abrègement de la voyelle, amplitude du relâchement, etc.), les géminées par
concaténation ne le sont pas. Il y a donc lieu de distinguer les vraies géminées,
phonétiquement implémentées par des corrélats secondaires, responsables de leur aspect

68
tendu, des fausses géminées qui résultent uniquement de l’adjacence entre deux segments
identiques (Hayes, 1986).

Nous proposons de nous attarder un peu plus ici sur quelques travaux de Löfqvist &
Gracco (1997 ; 2002) et de Löfqvist (2005 ; 2006 ; 2007 ; 2009). Leurs résultats semblent
particulièrement pertinents pour illustrer nos propos sur le contrôle de l’opposition simple vs.
géminée.

À l’aide de données cinématiques, Löfqvist & Gracco (1997) ont analysé des
événements moteurs durant la production d’occlusives bilabiales, couplées avec des
informations sur la pression d'air orale, et la force de contact labial. Leurs résultats montrent
que la vélocité du mouvement des lèvres était plus élevée durant la tenue consonantique avec
une cible pour les lèvres qui pouvait correspondre à une région d’ouverture labiale. Une telle
stratégie de contrôle laisse penser que les lèvres formeraient un ensemble hermétique
indépendamment de toute variabilité contextuelle. Löfqvist & Gracco (2002) ont appliqué la
même expérience sur le mouvement de la langue, chez quatre sujets, au cours de la production
de consonnes occlusives vélaires et alvéolaires. L’intérêt était d’examiner les événements
cinématiques avant, pendant et après la tenue consonantique. Les résultats obtenus sont
semblables à ceux qu’ils ont obtenus sur les lèvres. La langue se déplace souvent à une vitesse
élevée au début de la fermeture. Le mouvement de la langue était plus complexe, avec des
composants à la fois horizontaux et verticaux. La vitesse du mouvement de fermeture et de
relâchement des occlusives est influencée à la fois par les voyelles précédentes et par les
voyelles qui suivent. Pendant la tenue consonantique, la langue se déplace à travers une
trajectoire généralement de moins de 1 cm. L'ampleur du mouvement est encore dépendante
du contexte. Globalement, la langue adopte des trajectoires antérieure/postérieure. Ces
résultats sont compatibles avec l'idée que les mouvements de la langue sont libres pendant la
fermeture tant que celle-ci est hermétique. Une nouvelle interprétation repose sur le principe
d’effort minimal qui avait été appliqué, avec succès, dans certaines études des mouvements de
la main lors de la préhension (cf. Jeannerod (1988) ou Berthoz (1997)).

Löfqvist (2005) a mené une étude cinématique de la production des consonnes


occlusives et fricatives labiales. Dans cette étude, Löfqvist prend en considération les lèvres et
la mâchoire pour lesquelles la durée de la fermeture/constriction des consonnes orales varie à
des fins linguistiques. Les sujets sont des locuteurs japonais et suédois. Les deux langues
possèdent un contraste entre consonnes courtes et consonnes longues. Les mouvements des
lèvres et de la mandibule ont été enregistrés à l’aide d’un magnétomètre. Löfqvist (2005) part
de travaux antérieurs qui montraient que les lèvres se déplaçaient à une vitesse élevée lors de
69
la fermeture. Il a émis l'hypothèse que les locuteurs pouvaient contrôler la durée de la tenue
consonantique et de la constriction en faisant varier la position d'une cible virtuelle pour les
lèvres. Selon cette hypothèse, la position du pic vertical de la lèvre inférieure, lors de la
fermeture / rétrécissement, devrait être plus haute pour les consonnes longues que pour les
courtes. Cela se traduirait par un contact labial plus long. Les résultats montrent que ce n'est
pas le cas pour les sujets japonais et un sujet suédois qui produisent des durées de fermeture et
de constriction sans chevauchement entre les deux catégories. Cependant, la vitesse du
mouvement d’élévation de la lèvre inférieure ne diffère pas entre les deux catégories. Ainsi, si
les mouvements des lèvres lors de la production de la parole sont contrôlés en spécifiant une
cible virtuelle, le contrôle doit impliquer des variations dans la position et le timing de la
cible.

Löfqvist (2006) a également procédé à des analyses de la coordination des mouvements


des lèvres et de la langue dans des séquences voyelle-consonne bilabiale-voyelle. Dans ces
séquences, la durée de fermeture de la consonne orale varie dans un objectif linguistique. Les
sujets étaient des locuteurs natifs japonais. Le corpus se composait de paires de mots japonais
qui ne différaient que par la durée de la consonne labiale. Cette dernière était soit longue, soit
courte. Les mouvements des lèvres et de la langue ont été enregistrés avec un magnétomètre.
Les résultats montrent une différence de la durée de fermeture entre les consonnes longues et
courtes. Le mouvement de la langue de la première à la deuxième voyelle avait une durée plus
longue pour les consonnes longues que pour les brèves. Sa vitesse moyenne était plus lente
pour la consonne longue. La taille de la trajectoire du mouvement de la langue entre les
voyelles n’est pas systématiquement différente entre les consonnes longues et courtes. Le
mouvement de la langue débute presque toujours avant la fermeture labiale pour la consonne,
tandis que le début du mouvement d’occlusion des lèvres, dans la plupart des cas, commence
avant le début du mouvement de la langue. La fin du mouvement de la langue a lieu après le
relâchement de la fermeture, mais aucune tendance claire n’a émergé pour les consonnes
longues et courtes.

Löfqvist (2007) a étudié aussi les mouvements de la langue pour les consonnes
occlusives et fricatives, dans des conditions similaires à l’étude menée en 2006, citée supra.
Les résultats montrent une différence robuste dans la durée de fermeture pour les consonnes
longues et courtes. Globalement, lors de la production de la consonne, la trajectoire du
mouvement de la langue a été plus longue pour la consonne longue que pour la consonne
courte. Aussi, la vitesse du mouvement de la langue a diminué chez tous les locuteurs lors de
la production de la consonne longue. Ces ajustements dans les mouvements de la langue

70
étaient les plus susceptibles de maintenir le contact entre la langue et le palais, lors de la
fermeture et/ou de la constriction.

Toujours dans les mêmes conditions que ses études antérieures (relatées supra),
Löfqvist (2009) s’est consacré à l’étude de la coarticulation linguale voyelle-à-voyelle dans la
séquence voyelle-consonne bilabiale-voyelle. Dans cette séquence, la durée de la tenue
consonantique est soit longue, soit courte. Il a émis l'hypothèse qu'il y aurait davantage de
coarticulation de voyelle-à-voyelle dans le contexte d'une consonne brève, puisqu’une
consonne longue demanderait un mouvement lingual plus long. L'ensemble des résultats ne
corroborent cependant pas cette hypothèse. Toutefois, les sujets modulent la vitesse du
mouvement de la langue entre les deux voyelles, ce qui la rend plus lente durant la production
des consonnes longues que durant la production des consonnes brèves.

Une autre étude sur des géminées (à comprendre « consonnes doubles »), effectuée par
Benguerrel et al. (1978), peut être citée. Cette recherche a examiné, entre autres, les
ajustements glottiques pendant la production des occlusives et fricatives du français, à partir
d’un corpus réalisé par deux locuteurs. L’étude repose sur une analyse acoustique,
fibroscopique et électromyographique en se focalisant plus spécifiquement sur les aspects
suivants : sonore vs. sourde, accentuée vs. non accentuée, position initiale vs. position finale et
simple vs. géminée. Signalons que les géminées examinées par Benguerrel et al. sont des
géminées séparées par des frontières de mot, le français n’opposant pas les consonnes simples
aux géminées à l’intérieur du mot. Benguerrel et al. (1978) ont analysé, entre autres, le corpus
suivant : /terrible/ /c’est éristique/ /c’est terrible/ /sept terrines/.

Pour ce qui concerne l’opposition simple vs. géminée, ces chercheurs trouvent une
différence assez remarquable en termes de degré d’ouverture de la glotte. Les géminées se
réalisent avec une glotte plus ouverte que les simples. L’ouverture maximale de la glotte,
atteinte pendant l’occlusion orale des occlusives sourdes simples, est une fonction de la durée
de l’ouverture glottique (et de la durée de l’occlusion orale qui est concomitante). En d’autres
termes, plus la durée entre l’initiation du geste d’abduction et la fin du geste d’adduction est
longue, plus la largeur maximale atteinte sera grande. Pour les géminées, en revanche,
l’ouverture maximale atteinte n’est pas liée, selon les auteurs, à la durée de l’ouverture
glottique ou de l’occlusion orale.

Ces mêmes résultats ont été confirmés dans les travaux de Ridouane (2003) portant sur
des occlusives géminées, en relation avec la largeur de l’ouverture glottique. Selon lui, deux
hypothèses peuvent expliquer pourquoi les occlusives géminées sont systématiquement
produites avec une ouverture glottique aussi large. La première hypothèse est que le degré de
71
l’ouverture glottique est une fonction de la durée de l’ouverture glottique pour les occlusives.
Autrement dit, plus la durée de l’ouverture glottique est longue, plus son amplitude est
importante. Une deuxième hypothèse est de postuler que la largeur de l’ouverture glottique est
un aspect inhérent aux géminées occlusives sourdes qui sont produites avec une forte
augmentation de la pression intraorale et/ou avec un contact très fort entre le palais et la
langue. Une autre question, liée à la première, concerne l’intérêt phonétique ou phonologique
d’une telle ouverture systématique. Ridouane (2003) rappelle que d’un point de vue
biologique, le contrôle de l’ouverture glottique est généralement partie intégrante d’autres
activités comme la respiration, les réflexes de protection, ou la parole. Louali & Puech (1994)
ont analysé la pression intraorale lors de la tenue des occlusives géminées sourdes et ont
montré que ces occlusives géminées sourdes nécessitent effectivement une augmentation de la
pression orale. À noter que Löfqvist et al. (1981) ont également démontré que l’augmentation
de la pression intraorale est étroitement liée à la largeur de l’ouverture glottique.

Sur le plan articulatoire et physiologique, nous avons mentionné quelques travaux menés sur
différentes langues qui possèdent la distinction simple / géminée, afin de dégager les indices
articulatoires responsables de cette opposition. Différentes méthodes ont été testées sur le
phénomène de la gémination aux niveaux glottique et supraglottique. La méthode
fibroscopique permet de tester la durée et le degré d’ouverture glottale pendant la tenue des
consonnes simples et des consonnes géminées. Quant à la méthode électromyographique,
elle s’appuie sur le nombre de sommets des courbes pour distinguer les simples des géminées
et pour vérifier si les géminées impliquent une ré-articulation ou non. En ce qui concerne la
méthode électropalatographique, elle est utilisée pour déterminer la durée et l’étendue du
contact entre la langue et le palais. Enfin, la méthode cinématique vise à observer les
différents contacts et les différents mouvements des articulateurs, afin de comparer les
consonnes simples aux consonnes géminées.
Les principaux résultats sont les suivants : a) une durée acoustique de la tenue consonantique
plus longue pour les géminées ; b) des occlusions (contacts ou étendues de contact) plus
longues pour les géminées ; c) une forte augmentation de la pression intraorale ; un
mouvement de la langue de la première à la deuxième voyelle ayant une durée plus longue
pour les consonnes longues que pour les brèves.

72
3.3 Les consonnes géminées en vitesses d’élocution normale et rapide
Il s’agit maintenant de tester la robustesse des oppositions simples vs. géminées avec la
variation de la vitesse d’élocution. Rappelons que l’augmentation de la vitesse d’élocution est
un moyen de prédilection pour apprécier l’élasticité des segments phonétiques et
phonologiques (voir, par ex., Gaitenby (1965) ou Sock (1998)).

Ainsi, plusieurs études ont examiné les consonnes simples et les consonnes géminées en
vitesses d’élocution normale et rapide pour observer l’impact de la vitesse d’élocution, en tant
que perturbateur du contrôle temporel des segments consonantiques.

Arvaniti (1999) a mené une étude acoustique des sonantes simples et géminées (/ m, n,
l, r/) du grec chypriote en vitesses d’élocution normale et rapide, comparées à des sonantes du
grec standard. Ces dernières n’ont pas de distinction de longueur. Toutes les consonnes
simples et géminées du chypriote ont été compressées en vitesse d’élocution rapide, à
l'exception de []. Malgré cette compression, on n’observe pas de chevauchement entre les
simples et les géminées. La durée des sonantes grecques était intermédiaire entre les deux
catégories chypriotes. Ces résultats sur la consonne [] montrent que les effets des asymétries
de la vitesse d’élocution sont dus à l'incompressibilité de certaines catégories et ne sont pas
imposées par le système linguistique. Cependant, le contraste entre une catégorie au sein d'un
système affecte les valeurs de cette catégorie ; ce constat est visible dans la plus grande
longueur des sonantes grecques. Enfin, les résultats montrent que lorsque la durée est l’indice
principal pour une distinction catégorielle, il n’y a pas de chevauchement temporel qui
survient entre les catégories, contrairement à ce que certaines études sur la longueur vocalique
contrastive semblent suggérer. Nous reviendrons sur ce dernier point dans (la Section 5.5.1).

Pickett et al. (1999) ont examiné l’effet de la vitesse d’élocution sur les consonnes
simples et des consonnes géminées de l’italien. Ils ont analysé les labiales et les dentales
produites dans des mots isolément, et dans des phrases porteuses, en vitesses d’élocution
normale et rapide. Afin de distinguer les deux catégories de consonnes, la durée de
l’occlusion a été mesurée. Pour un locuteur, en vitesse d’élocution rapide, la durée de
l’occlusion des consonnes géminées était comparable à celle de la durée des consonnes
simples produites isolément. Les mesures qui reflètent la relation entre les deux durées, à
savoir le rapport entre la durée de la consonne et la durée de la voyelle précédente, distinguent
les simples des géminées, quelle que soit la vitesse d’élocution. Les auteurs ont aussi vérifié
expérimentalement, au niveau de la perception, si le fait de modifier le rapport entre la durée
de la consonne et celle de la voyelle pouvait mener à un changement perceptif. Les résultats

73
indiquent que le changement de ces rapports n’affecte pas systématiquement et de manière
cohérente la perception des distinctions simples vs. géminées. En d’autres termes, ces effets
varient significativement chez les auditeurs. Ces résultats soutiennent l’idée qu’il existerait
des propriétés acoustiques stables correspondant aux traits phonétiques et cela malgré les
variations temporelles au niveau de la durée des occlusions, en fonction des changements de
la vitesse d’élocution.

Dans Bouarourou et al. (2010), nous avons analysé d’un point de vue acoustique la
production des occlusives non-voisées simples et géminées de deux locuteurs du tarifit. Nous
avons confirmé une mesure pertinente pour la gémination, à savoir la durée de la tenue
consonantique. Les autres paramètres acoustiques retenus (durée des voyelles adjacentes,
VTT, VOT) n’ont pas révélé de comportement différent selon que l’on ait affaire aux simples
ou aux géminées. L’augmentation de la vitesse d’élocution a provoqué la compression des
segments acoustiques mesurés, y compris celle du paramètre pertinent de la gémination : la
tenue consonantique. Malgré le réaménagement temporel de ce paramètre critique, la
distinction des deux classes reste possible par la tenue consonantique, aussi bien en termes
absolus que relatifs (le pourcentage de temps pris par la tenue consonantique dans la syllabe
CV). Cela semble démontrer la résistivité de la gémination en tarifit. L’étude de Bouarourou
et al. (2010) a tenté d’établir des liens articulatori-acoustiques, en suggérant des corrélations
entre la tenue consonantique acoustique et l'étendue de contact articulatoire. L’étendue du
contact articulatoire est un autre paramètre robuste, puisqu’il a permis de distinguer, chez les
deux locuteurs, les deux catégories linguistiques à travers différents contextes consonantiques,
et cela dans différentes positions à l’intérieur du mot (Bouarourou et al., 2008).

Amano et Hirata (2010) ont testé la théorie de l'invariance acoustique relationnelle, avec
la distinction de quantité des occlusives du japonais, en dissyllabes prononcées avec des
vitesses d’élocution différentes. Les questions étaient de savoir : a) si la limite de perception
entre les deux catégories phonologiques des occlusives simples et géminées est invariante,
malgré la variation de ces conditions de vitesse d’élocution, et b) s'il existe une
correspondance étroite entre la perception et les frontières de production, dans le cadre d’un
mot. Le ratio des durées d’occlusion du mot (où «le mot» a été défini comme dissyllabique) a
été précédemment jugé un paramètre invariant qui permet de distinguer les deux catégories,
simples et géminées. Mais la présente étude a constaté que ce ratio pouvait varier avec
différents scores au niveau de la perception. Cependant, les analyses de régression et de
discrimination de données de perception et de production ont montré que le traitement de
l’occlusion, en fonction de la durée du mot, représente très bien les frontières de perception et

74
de production. Ce résultat indique que le ratio de la durée de la tenue des occlusives (par
exemple la fermeture avec une constante d’intégration) par rapport au mot était invariant et
distingue clairement les deux catégories phonémiques. Pris ensemble, ces résultats appuient la
théorie d’invariance relative acoustique, et aident à affiner la théorie en ce qui concerne
exactement la forme que peut prendre cette invariance.

Munhall et Löfqvist (1992) ont observé des variations dans les ajustements glottaux
pendant la production de sons non voisés dans la séquence [s t] en vitesse d’élocution rapide.
Les sujets étaient des locuteurs américains qui ont prononcé une séquence du type ‘kiss Ted’.
Ces auteurs ont remarqué qu’il y a des gestes d’ouverture et de fermeture glottales pendant
toute la séquence. En vitesse d’élocution lente, ils ont constaté un geste d’ouverture et de
fermeture pour [s] distinct de celui du [t]. En vitesse d’élocution intermédiaire, la phase
d’ouverture pour [t] est absorbée, en partie, par le geste de fermeture pour le [s]. Munhall &
Löfqvist (1992) concluent que les locuteurs réalisent habituellement deux gestes d’ouverture
et de fermeture glottale pendant la tenue de ce type de séquence. Mais en vitesse d’élocution
rapide, il y a tant de chevauchements entre les deux gestes qu’un seul pic apparaît dans le
mouvement glottal pendant la séquence. La même analyse semble correspondre parfaitement
aux mouvements mandibulaires des séquences consonantiques. Au niveau glottique, nous
pensons, toutefois, que les résultats devraient être différents pour une géminée
hétéromorphémique homorganique du type [t#t], puisque le geste glottique d’un [s] est
différent de celui d’un [t], celui du [s] étant habituellement plus large.

Dans cette même perspective, Ridouane et al. (2006) ont mené une étude sur les
ajustements laryngés lors de la production de groupes consonantiques obstruantes sourdes du
tachelhit. Les observations ont été faites simultanément par transillumination, à l’aide de films
obtenus par fibres optiques et d‘enregistrements acoustiques. Cette langue possède une riche
variété de groupes de consonnes sourdes. Plusieurs combinaisons de groupes de /s/ et /k/ ont
été examinés, y compris des consonnes simples et géminées. Dans ce travail, Ridouane et al.
(2006) ont observé le nombre de gestes d'ouverture-fermeture de la glotte, l'influence du mode
d'articulation et les effets de frontières de mots. Les résultats de cette étude fournissent la
preuve que le mode d'articulation des segments et leur position dans le groupe de mots ont un
impact majeur sur le nombre et la localisation des mouvements d’abduction de la glotte. Les
frontières de mots n'ont pas autant d'influence sur les ajustements laryngés.

Vaxelaire (1995a et b) a analysé le comportement des consonnes simples et doubles en


français, ainsi que la coordination des articulateurs dans la production de séquences
consonantiques hétéromorphémiques homorganiques. Elle a mené cette expérience à partir
75
des données cinéradiographiques de deux locuteurs (un homme et une femme) qui ont
prononcé les séquences /aka/ vs. /akka/ et /ada/ vs. /adda/ en vitesses d’élocution normale et
rapide. Dans un deuxième temps, elle a comparé les consonnes doubles à des séquences
consonantiques. Elle a analysé les différences géométriques et acoustiques en termes de
différences de stratégies motrices. À l’aide d’une grille développée par Bothorel et al. (1986),
elle a déterminé des paramètres de mesures (mm) des configurations du conduit vocal liés à
l’étendue du contact entre les lèvres, et entre la langue (point, dos) et le palais. L’écartement
du maxillaire et le diamètre de la constriction, habituellement liés à la voyelle précédente, ont
été également mesurés. Des événements temporels ont été détectés sur le signal acoustique.
Ainsi elle a pu déterminer, à partir de relations temporelles spécifiques entre ces événements,
des durées acoustiques correspondant au noyau vocalique précédent et à la tenue
consonantique. Aucune des réalisations de consonnes doubles ne montrait de relâchement
détectable lors de la tenue d’occlusion. Elle a ainsi pu obtenir des consonnes homorganiques
doubles présentant véritablement un seul relâchement. En ce qui concerne les séquences
consonantiques hétérorganiques, elle a obtenu un seul intervalle acoustique correspondant
aux deux gestes articulatoires. En effet, le relâchement de la première consonne a rarement été
visible sur le signal acoustique. D’après Vaxelaire (1995b), dans ce travail, les mesures
obtenues des profils sagittaux, en vitesse d’élocution normale, montrent que les étendues de
contact (correspondant à chaque fois à la valeur maximale de contact) lèvre-lèvre et langue-
palais (apex et dos) pour les consonnes doubles sont égales ou éventuellement plus longues
que celles des simples. Cette remarque est valable, bien entendu, dans le cadre d’une
comparaison terme à terme et intra-locuteur seulement pour toutes les catégories linguistiques
examinées, à savoir bilabiale, apicale ainsi que vélaire, et cela pour les deux locuteurs. En
vitesse d’élocution rapide, une tendance se dégage, suggérant que l’étendue du contact est
plus longue pour les consonnes doubles. Cela indique la pertinence de ce paramètre dans la
différenciation des deux catégories linguistiques. C’est-à-dire même lorsque le système
linguistique est sujet à une perturbation prosodique avec l’augmentation de la vitesse
d’élocution. Pour argumenter ce phénomène, Vaxelaire (1995b) explique qu’en vitesse
d’élocution normale, la position « convenable » de la langue, lors de la réalisation de
l’occlusion, est atteinte aussi bien pour les simples que pour les doubles. Le locuteur, non
soumis à une quelconque contrainte prosodique d’augmentation de la vitesse d’élocution,
dispose de suffisamment de temps pour réaliser l’occlusion consonantique. En vitesse
d’élocution rapide, afin de maintenir les différences linguistiques de durée, le locuteur doit
diminuer les temps de transition. Cette stratégie semble provoquer une augmentation de la
force d’exécution du geste, résultant en une augmentation de l’écrasement de la langue contre
76
le palais pour les consonnes doubles. Cette dernière hypothèse reste, bien entendu, à être
vérifiée expérimentalement (peut-être à l’aide de données cinématiques, par exemple).

Plusieurs études ont examiné les consonnes simples et les consonnes géminées au niveau
acoustique et au niveau articulatoire en variant la vitesse d’élocution. L’objectif est de vérifier
l’impact de la vitesse d’élocution sur ces consonnes : la compressibilité, l’incompressibilité de
certaines catégories et la résistivité de la gémination à l’augmentation de la vitesse d’élocution.
Quelques résultats principaux montrent : a) lorsque la durée est l’indice principal pour une
distinction catégorielle, il n’y a pas de chevauchement temporel qui survient entre les
catégories, malgré une augmentation de la vitesse d’élocution ; b) le changement des rapports
voyelle/consonne n’affecte pas systématiquement et de manière cohérente la perception des
distinctions simples vs. géminées ; c) le ratio de la durée de la tenue des occlusives par rapport
au mot était invariant et distingue clairement les deux catégories phonémiques.
Nous proposons, dans ce qui suit, d’examiner certaines théories en production de la parole,
théories qui pourraient nous être utiles pour rationaliser certains de nos résultats. Les sections
qui suivent doivent beaucoup à Sock (1998).

77
4 Les grands courants théoriques en phonétique

4.1 La Théorie Motrice de la Perception


Comme l’écrit Sock (1998), cette théorie a été développée par (Liberman et al., 1967 ;
Liberman & Mattingly, 1985). Selon ces auteurs, il y aurait un invariant physique en parole
qui serait de nature articulatoire, et plus précisément de nature gestuelle, avec une prise en
compte de la dynamique des mouvements articulatoires. À partir d’une série d’expériences, ils
ont pu démontrer qu’un auditeur ne peut faire la sommation des deux parties ou composants
acoustiques d’un percept, à savoir la transition de F3 d’une part, et les transitions de F1 et de
F2 avec les trois premiers formants, d’autre part, pour reconstituer les stimuli synthétiques
d’origine (/da/ et /ga/). En effet, nous savons, depuis le travail de Harris et al. (1958), qu'il est
possible de faire la distinction entre ces deux syllabes en manipulant la direction de la
transition du F3 : elle est montante pour /ga/ et descendante pour /da/. Lorsque ces stimuli
sont présentés à des sujets, ils perçoivent toujours et clairement soit /ga/ soit /da/ pour les
extrêmes de la série, ou une catégorie ambiguë pour les stimuli situés au milieu du continuum.

Sock (1998) souligne que pour Liberman (1984), le fait que l’auditeur n’arrive pas à
reconstituer auditivement le percept vient du fait qu’il intégrerait les deux parties du percept
dans un classement catégoriel qui serait de nature phonétique, et plus précisément gestuelle.
Selon Liberman (1984), il existerait un module spécialisé de perception de la parole, et plus
généralement du langage. Celui-ci fonctionnerait de bas en haut, empêchant que les modules
cognitifs de décodage de haut niveau aient accès aux différentes composantes du percept.

Suivant le raisonnement de Liberman & Mattingly (1989), une question importante se


pose alors : pourquoi le langage, une capacité considérée comme étant hautement cognitive,
semble fonctionner à un niveau clairement pré-cognitif.

Selon ces derniers, l’efficacité perceptive de la parole serait liée à deux phénomènes : 1)
tout d’abord, il existe un nombre réduit d’unités phonologiques de base, qui sont rassemblées
en combinaisons plus ou moins libres pour constituer les parties du discours. 2) Ensuite, la
relative inertie des articulateurs est compensée par une coarticulation des segments
phonologiques à produire. Ils en concluent que le chevauchement spatial et temporel des
unités du code est indispensable pour permettre la production de la parole à une vitesse
d'élocution raisonnable. Ce serait, en réalité, ce phénomène de coarticulation qui
compliquerait le processus de perception de la parole, rendant non-linéaire la correspondance
entre les gestes phonétiques successifs et les segments acoustiques successifs.

78
Le signal acoustique étant de nature hautement complexe, étant donné les divers
facteurs coarticulatoires, Liberman et Mattingly (1985) proposent alors de rechercher un
invariant dans le domaine articulatoire, et notamment gestuel, où la correspondance entre
représentations phonologiques et gestes est moins complexe. Cette proposition d’analyses du
phénomène de la parole, sous forme de structures articulatoires élémentaires plus petites a été
exploitée, tel que nous le développons infra, par Browman & Goldstein (1989), dans leur
Phonologie Articulatoire, où les gestes correspondent à des structures coordinatives, c’est-à-
dire à des entités ayant une spécification spatio-temporelle. Cette théorie s’est établie
également grâce au modèle mathématique qu’est le « Task Dynamic Model », décrit infra, et
élaboré au sein des Laboratoires Haskins (Saltzman, 1986 ; Saltzman et Munhall, 1989 ;
Saltzman & Byrd, 2000).

Pour appuyer ce point de vue, Fujimura (1991) explique que le passage d'une
description articulatoire à une description acoustique de la parole est particulièrement non-
linéaire, au sens où une superposition linéaire de gestes ne se traduit pas par une combinaison
linéaire de paramètres acoustiques. En revanche, l'information au niveau moteur, selon
Fujimura (1991), se présente de telle sorte que la relation entre l'articulatoire et la
représentation phonologique est quasi-linéaire.

Pour Fowler & Saltzman (1993), il semblerait que les auditeurs emploient une
«constellation» de conséquences acoustiques de gestes linguistiquement signifiants du conduit
vocal, comme étant une information sur la source. Les auditeurs trieraient alors les gestes et
ne garderaient que ceux qui sont linguistiquement signifiants. Cependant Sock & Vaxelaire
(2001) émettent quelques réserves en montrant que le système de production et de perception
de la parole combinerait un espace de contrôle moteur avec un espace de contrôle acoustique.

Nous proposons maintenant d’examiner un autre courant théorique, où l’on défend


l’idée de l’existence de espace de contrôle acoustico-auditif.

4.2 La Théorie Quantique de Stevens (1985 ; 1989 ; 1991 ; 2002 ;


2005)
La Théorie Quantique (Quantal Theory) prône, elle, l’existence de l’invariance
acoustico-auditive dans le signal de la parole. Stevens (1985) définit les cibles comme étant
des régions dans l’espace acoustique et articulatoire, par les principes quantiques, dynamiques
et distributionnels. Les propriétés acoustiques, ayant un rôle perceptif, resteraient invariantes
quels que soient les locuteurs et les contextes phonétiques. Le but acoustique devient alors
plus important que le geste lui-même.

79
Selon Stevens (1985 ; 1991), il existerait une organisation hiérarchique des traits
phonologiques qui structurent le lexique, ainsi qu’une représentation directe de ces indices
sous forme de caractéristiques acoustiques invariantes du signal de parole. Pour lui, le
locuteur doit apprendre les différents modèles de coordination des articulateurs, afin de
remplir les exigences acoustico-auditives du code phonologique.

« Given this view of the feature-based structure of the lexicon and the way in which the
various features are represented in the sound, we can speculate on the implications for
strategies for speech production. […] [In producing speech sounds] speakers must learn
patterns of coordination of the various articulators that satisfy [the] acoustic requirements. »
(Stevens, 1991, p. 86).

De ce fait, et par opposition à la proposition de la Théorie Motrice de (Liberman et al.,


1967 ; Liberman & Mattingly, 1985), l’espace de contrôle, selon Stevens (1991), serait
acoustique, étant donné que le locuteur coordonnerait ses mouvements au mieux pour doter le
signal acoustique d’indices spectraux et temporels invariants, directement associés au code
phonologique.

L’ensemble des conclusions de Stevens (1991) repose sur ses travaux, menés en
collaboration avec Blumstein depuis les années 70. Suite à une série d’expériences sur la
perception du lieu d’articulation des consonnes occlusives /b, d, g/ dans des stimuli de
synthèse du type consonne-voyelle, Stevens & Blumstein (1978) tentent de prouver
l’existence de propriétés acoustiques invariantes permettant la caractérisation du lieu
d’articulation de la consonne, indépendamment du contexte vocalique. Leurs données
montrent que la forme globale du spectre, calculé au relâchement (soit la détente acoustique)
de la consonne, diffère selon le lieu d’articulation. Ainsi, ils observent :

- un pic spectral proéminent dans les fréquences moyennes (1 à 3 kHz) pour les
vélaires,

- un spectre "diffus" et montant pour les dentales,

- un spectre "diffus" et descendant pour les labiales.

Sock (1998) rappelle qu’il fallait cependant passer d’un invariant statique à un invariant
dynamique, plus tard, pour pouvoir se rendre compte de distinctions phonologiques plus fines
telles que la distinction entre /b/ et /w/ (Blumstein, 1986). Toutefois, l’hypothèse de base ne
change pas avec ce réaménagement de la théorie. Pour Blumstein (1986), il existerait une
invariance acoustique dans le signal de parole correspondant aux traits phonétiques d’une
langue. Cette dernière établit que le signal de parole serait hautement structuré, dans le sens
80
où il contiendrait des modèles acoustiques invariants. Ces modèles correspondent à la
dimension phonétique de la langue, associés aux segments linguistiques et aux traits
phonétiques. En outre, ces modèles resteraient invariants, quels que soient les locuteurs, les
contextes phonétiques et les langues : « There is acoustic invariance in the speech signal
corresponding to the phonetic features of natural language. That is, it is hypothesized that the
speech signal is highly structured in that it contains invariant acoustic patterns for the
phonetic dimension of language relating in particular to linguistic segments and to phonetic
features, and that these patterns remain invariant across speakers, phonetic contexts, and
languages. » ( Blumstein, 1986, p. 178).

Il s’agit alors de rendre compte des facteurs qui façonnent les caractéristiques
acoustiques et articulatoires utilisées pour signaler les distinctions linguistiques. Comme le
font par ailleurs remarquer Lindblom & Engstrand (1989), la Théorie Quantique est une
théorie des traits distinctifs qui, contrairement à la théorie relativement axiomatique de
Jakobson (1961), tente de rationaliser l’origine des traits à partir de l’observation des
phénomènes articulatoires et des résultats acoustiques associés.

Ce constat fait, il importe de signaler que le lien entre une théorie de l’invariance
acoustique et la Théorie Quantique n’est pas clairement défini chez Stevens (1989).
Blumstein, (1989) souligne ce fait, en disant que les propriétés invariantes ne sont pas
intrinsèques aux paramètres acoustiques dans la Théorie Quantique et que seule la stabilité de
l’acoustique par rapport à l’articulatoire peut être inférée. Elle admet, toutefois, qu’une théorie
de l’invariance acoustique ne peut être viable sans une Théorie Quantique sous-jacente,
puisqu’elle requiert l’émergence d’un nombre défini de propriétés acoustiques invariantes à
partir d’un nombre potentiellement infini de configurations articulatoires. Ainsi, l’existence
d’invariants acoustiques dans le signal de parole apparaît dans le cadre de la Théorie
Quantique (Quantal Theory) proposée par Stevens (1972 ; 1989). Le raisonnement de base de
cette théorie consiste en la non-linéarité du passage de l’articulatoire à l’acoustique,
responsable de l’existence de zones dans l’espace articulatoire pour lesquelles le résultat
acoustique est stable (Zones I et III dans la Figure 4), et de zones où une petite variation du
paramètre articulatoire implique une variation abrupte du paramètre acoustique (zone quantale
(Zone II)). Lorsqu’un paramètre articulatoire varie de manière linéaire, il arrive que les
conséquences acoustiques varient de façon non régulière. Autrement dit, dans certaines zones
articulatoires, des mouvements qui seront sans conséquences acoustiques (résultat stable) sont
observables.

81
Figure 4 : Non-linéarité du passage d’un paramètre de commande articulatoire à un paramètre de sortie
acoustique dans le paradigme de base de la Théorie Quantique. (Adaptée de Stevens, 1989).

Les relations articulatori-acoustiques sont de nature quantale dans la mesure où les


variations acoustiques se font par paliers et les variations articulatoires de manière continue.
La théorie suggère que ces relations quantales entre les paramètres acoustiques, articulatoires
et perceptifs sont un facteur déterminant pour la sélection des attributs articulatoires et
acoustiques employés par le locuteur pour signaler les distinctions linguistiques.

Ladefoged (1983), lui, s’oppose à cette théorie. Il considère que si les locuteurs
favorisent certains points dans la zone de dispersion possible, c’est simplement qu’ils sont
plus faciles à réaliser et non pas du fait de leur nature quantale. En effet, il n’existerait pas de
qualité vocalique préférentielle, en dehors, peut-être, des voyelles [i, a, u], qui offrent un
maximum de distinction dans la mesure où ce sont des points extrêmes dans l’espace
articulatoire (et non du fait qu’une grande variation articulatoire aurait peu de conséquences
acoustiques). Aussi, il signale que certains objets peuvent être regroupés selon un « air de
famille » (family resemblance) au niveau articulatoire, sans que ceux-ci soient nécessairement
corrélés.

Clements et Ridouane (2006), dans leur revue de la Théorie Quantique, proposent deux
grandes familles de définitions des traits quantiques :

1. pour les définitions contextuelles, les indices acoustiques ou auditifs seraient détectés
uniquement lorsque les traits ont une position dans un contexte approprié ;

82
2. pour les définitions intrinsèques, les indices se trouveraient alors dans le segment lui-
même.

Nous pensons que cette théorie est une illustration adéquate de relations non linéaires
entre les gestes articulatoires et leurs conséquences acoustiques. Effectivement, la variation de
certains paramètres articulatoires n’a aucune conséquence au niveau acoustique, tandis que
d’autres, même plus minimes, peuvent entrainer une réorganisation remarquable de l’espace
acoustique et donc du message linguistique. La production de certains sons tolère une plus
grande variabilité des gestes articulatoires sans pour autant que le résultat acoustique soit
modifié. Nous dirions alors que, pour cette catégorie de sons, leur espace de viabilité est plus
large. C’est le cas par exemple de la production de la voyelle [a], où le paramètre critique du
contrôle est la constriction pharyngale, les autres régions du conduit vocal ayant des degrés de
liberté plus grands. Certains sons auront alors des zones de viabilité plus étendues que
d’autres. En d’autres termes, la réalisation de tels sons implique moins de contraintes
articulatoires pour obtenir un résultat acoustique désiré Sock (1998).

Il existe aussi d’autres perspectives en production de la parole qui tentent de d’expliquer


et de concilier la tension entre la constance du niveau phonologique et la variabilité inhérente
aux substrats physiques du niveau phonétique ; c’est le cas de la théorie de la Variabilité
Adaptative, par exemple.

4.3 La Théorie de la Variabilité Adaptative de Lindblom (1987 ; 1990)


Cette théorie met en exergue la capacité des locuteurs à adapter leur production de
parole, suivant la situation de communication.

Les variabilités liées à la parole entrainent des différences de timing dans les différents
contextes. Les « cibles » articulatoires et acoustiques ne sont pas toujours atteintes, et sont
alors considérées comme un phénomène de ratage de la cible articulatoire, ou « undershoot »
(Stevens & House, 1963). Même lorsque ce « ratage » est lié à la durée, ou au contexte de la
réalisation du geste (Lindblom, 1963a ; 1963b), la cible articulatoire fondamentale d’un
phonème quelconque resterait invariante.

En effet, plusieurs expériences indiquent que les cibles articulatoires et acoustiques


peuvent être atteintes en vitesse d’élocution rapide, malgré la courte durée du segment
(Engstrand, 1987 ; Gay, 1978 ; Kuehn & Moll, 1976 ; Mefferd & Green, 2010). En outre,
Nord (1986) a observé un « ratage » lors de la production d’un énoncé en suédois, en parole
non accentuée, dans le cas d’un allongement final de voyelle. L’aptitude du système de
production de la parole à se réorganiser selon des variables internes ou externes est alors
83
clairement apparue. La notion de hypo-hyper speech, sur laquelle nous reviendrons, souligne
encore la capacité de réajustement en production de la parole.

Dans les années 60 et 70, une grande partie des variabilités dévoilées dans les signaux
de parole, telles que les coarticulations vocaliques et consonantiques (Öhman, 1967), était
expliquée en termes de chevauchements spatio-temporels de commandes adjacentes
(MacNeilage, 1970). Ainsi, des études relatives à l’articulation compensatoire ont démontré
que des énoncés produits avec un « bite-block » ne présentaient que très peu de variabilité par
rapport aux productions canoniques. Cela permet de conclure à la capacité compensatoire du
locuteur, grâce à ces commandes qui gèreraient les chevauchements spatio-temporels de
manières invariantes. Le succès des compensations implique une réorganisation des gestes
articulatoires qui doit être contrôlée par des représentations cibles ou des commandes liées à
ces productions.

La notion de cible devrait être définie, selon Lindblom (1987), comme le rendement
acoustique que le locuteur veut atteindre, plutôt qu’en termes de simples invariants
articulatoires. Si l’invariance n’est pas articulatoire, se peut-il qu’elle soit acoustique ?

Nous avons vu supra que Stevens et Blumstein (1978) prônent que le signal acoustique
contient de véritables invariances physiques correspondant aux segments et aux traits
phonétiques.

Lindblom (1987) se pose judicieusement la question de savoir si l’invariance acoustique


ne serait pas qu’une invariance auditive globale.

Plusieurs études ont démontré que l’invariance acoustique présuppose forcément un


processus auditif. De plus, il a été montré que le langage est un processus très souple. En
effet, nous sommes capables de faire varier nos productions de façon plus ou moins rapide,
avec ou sans un certain relâchement, nonchalamment ou clairement, et cela en fonction du
public auquel nous nous adressons. Labov (1972) affirme que nous changeons également
notre prononciation en fonction des règles sociales gouvernant les interactions entre le
locuteur et l’auditeur. Cependant, cette dernière considération est plutôt sociologique, en
conséquence nous n’en parlerons pas davantage ici.

Nous retiendrons trois types d’invariance supputées : 1) une invariance articulatoire, 2)


une invariance acoustique et 3) une invariance auditive. Mais quelles sont les implications de
la variabilité et de l’invariance, par rapport aux différents styles d’élocution ?

Lindblom (1987) répond à cette question en disant que toutes les informations se
trouvent dans le signal, et plus particulièrement dans sa dynamique, lorsqu’il affirme : « All
84
the information is in the signal, particularly in its dynamics ». Mais pour valider ces propos, il
faut accepter le fait que les locuteurs, en faisant varier leur style d’élocution, contribuent à
augmenter la variabilité des aspects physiques de la parole. Or des énoncés dans lesquels les
unités linguistiques sont intelligibles révèleront toujours un « noyau invariant »
d’informations linguistiques physiques. C’est le noyau même d’une voyelle ou d’une
consonne qui devrait être conservé.

Le problème de l’invariance ne serait pas une question acoustique. Finalement,


l’invariance ne saurait être définie qu’au niveau de la compréhension globale de l’auditeur.

Si la stratégie de la Variabilité Adaptative fonctionne réellement lorsque deux


interlocuteurs communiquent efficacement, il est possible de résoudre certains paradoxes liés
à la question de l’invariance. La variabilité phonétique intra-locuteur est une caractéristique
qui montre, dans un cadre écologique d’échanges linguistiques, qu’il ne saurait y avoir
d’invariance physique absolue, mais plutôt de la variabilité limitée au domaine du viable.
Nous reviendrons sur la notion de viabilité lorsqu’il s’agira de présenter la Théorie de la
Viabilité décrite infra.

MacNeilage (1970) écrivait, à propos de la question de l’invariance, « …the essence of


the speech production process is not an inefficient response to invariant central signals, but
an elegantly controlled variability of response to the demand for a relatively constant end ».
En d’autres termes, le processus de production de la parole n’est pas qu’une réponse à un
signal invariant central mais une variabilité élégamment contrôlée en réponse à la demande
d’une cible relativement stable. Nous pensons que cette formulation peut être considérée
comme plausible dans la mesure où la cible « relativement stable » n’est plus définie de façon
articulatoire ou acoustique, ni auditive, mais est spécifiée uniquement au niveau de la
compréhension globale du locuteur.

Analysant un corpus de parole spontanée (self generated speech), Lindblom &


Lindgren, (1985) considèrent que la notion d’invariant physique n’est pas pertinente dans le
domaine de la phonétique, puisqu’elle ne peut être définie qu’au niveau de la compréhension
globale de l’auditeur ; « The invariance problem is not a phonetic issue at all for ultimately
invariance can be defined only at the level of listener comprehension » (Lindblom, 1987).

Ainsi, contrairement aux théories Motrice et Quantique (développées supra), qui toutes
les deux postulent l’existence d’un invariant associé à un invariant phonologique, la théorie de
la Variabilité Adaptative s’appuie sur la notion d’adaptabilité du locuteur, et renonce à
l’hypothèse de l’existence d’une Invariance Physique Absolue (Absolute Physical Invariance,

85
(Lindblom, 1987) dans le signal de la parole. Les paramètres physiques décrivant la parole
seraient variables à tous les niveaux pour un message linguistique invariant.

Selon Lindblom (1987), l’exigence de distinctivité perceptive de la part de l’auditeur et


la demande d’économie articulatoire du locuteur seraient les deux forces antagonistes
caractéristiques du fonctionnement du système moteur de production de la parole. Et le
concours de ces deux forces serait le principal responsable des phénomènes de variabilités
obtenues en production de la parole. Pour les illustrer, Lindblom (1987) réalise un schéma
représentant les domaines d’hyper- et hypo-articulation en parole, qui correspondent aux
possibilités de compensation dans l’interaction entre le locuteur et l’auditeur, en fonction des
informations provenant du contexte et du signal (voir Figure 5).

La notion d’hypo-articulation est associée au concept d’atteinte de cible phonétique


dans un principe d’économie. Le locuteur s’adapte aux contraintes de production en faisant en
sorte de conserver une parole compréhensible. Dans le cas de l’hyper-articulation, le locuteur
choisit de sur-articuler pour s’adapter aux conditions de communication, l’atteinte de la cible
étant alors en accord avec la demande de l’auditeur et la situation d’énonciation.

Figure 5 : Domaines d’hyper- et d’hypo-articulation en parole, en fonctions des informations du contexte et des
informations dans le signal, selon la Théorie de la Variabilité Adaptative. (Adaptée de Lindblom, 1987, in
Béchet (2011)).

Dans la Figure 5, l’axe y représente la quantité d’information préalable à toute élocution


et l’axe x correspond à la quantité d’information explicite dans le signal, sous le contrôle
direct du locuteur. Lindblom (1987) soutient l’idée que le locuteur adopte une stratégie de
86
Variabilité adaptative en s’efforçant de se placer le plus proche possible de la diagonale
idéale (ideal cases). Le locuteur utilise alors les compétences de compréhension de l’auditeur,
tout en répondant aux exigences implicites de ce dernier. Sock (1998) rappelle qu’en se
fondant sur cette notion d’adaptabilité du locuteur, la Théorie de la Variabilité Adaptative
rejette toute notion de présence d’invariants physiques dans le signal de parole. Pour cette
raison, les paramètres physiques décrivant la parole seraient variables à tous les niveaux pour
un message linguistique invariant.

Nous proposons maintenant de présenter, dans leurs grandes lignes, quelques modèles
en production de la parole.

4.4 Le modèle de la dynamique des tâches -The Task Dynamics Model


(Saltzman et al., 1987)
Une des tâches majeures en production de la parole est de créer et de déclencher des
constrictions localement dans les différentes régions du conduit vocal (par ex.. les lèvres pour
les consonnes bilabiales, ou entre le dos de la langue et le palais pour certaines voyelles).

Dans le modèle de dynamique des tâches, certaines constrictions sont contrôlées par un
système dynamique avec deux fonctions distinctes, mais ayant des niveaux interactifs. Le
niveau de coordination intergestuel est défini de façon relative à un ensemble d’activations
coordonnées. Le niveau de coordination interarticulatoire est défini selon deux ensembles : le
modèle articulatoire et les coordonnées des « tract variables ». L’identité linguistique de
chaque unité gestuelle est définie indépendamment du contexte, par un ensemble de
paramètres dynamiques. Les valeurs de chaque activation de gestes définissent la force avec
laquelle le geste forme les mouvements dans le conduit vocal, selon ses propres buts
phonétiques.

Les « tract variables » et les modèles articulatoires associés à chaque geste spécifient la
constriction particulière dans le conduit vocal (par ex. bilabiale) et un ensemble
d’articulateurs (par ex. lèvres et mâchoire), dont les comportements sont directement affectés
par l’activation des gestes.

Le niveau intergestuel permet une synchronisation temporelle, ainsi qu’une cohésion


des gestes qui participent à un énoncé donné (par ex. pour le dos de la langue et le geste
bilabiale dans une séquence voyelle-consonne bilabiale-voyelle).

Dans les simulations de la dynamique des tâches, chaque type de constriction est
associé à une paire typique de « tract variable ». L’une renvoie à la localisation de la

87
constriction, le long de l’axe longitudinal du conduit vocal, l’autre réfère au degré de la
constriction, mesurée perpendiculairement à l’axe longitudinal sur le plan sagittal.
Architecture du modèle task-dynamics

La modélisation de la production de la parole adoptée par les Laboratoires Haskins se


fait dans le cadre des systèmes dynamiques (Kelso & Tuller, 1984 ; Kelso et al., 1986a, 1986b
; Rubin et al., 1996). Le choix de cette approche offre la possibilité de :

1. déterminer la cinématique des mouvements des articulateurs ;

2. de rendre compte des stabilités de ces mouvements face aux perturbations ;

3. de dégager les lois qui régissent les dégradations de ces mouvements suivant les
conditions d’exécution et le contexte (Saltzman & Munhall, 1989).

L’existence de niveaux de coordinationest postulée pour la réalisation concrète du


modèle quantitatif : un niveau inter-gestuel et un niveau inter-articulateur (voir Figure 6). Les
tâches, quant à elles, sont définies de manière invariante par des systèmes dynamiques au
niveau du module Coordination Inter-gestuelle (Intergestural Coordination). Les variables
d’activation gestuelle (gestural activation variables) sont alors liées aux unités phonologiques
discrètes qui constituent toute production linguistique.

Intergestural
Coordination
(gestural activation
variables)

Interarticulatory
Coordination
(tract variables ;
model articulatory
variables)

Figure 6 : Schématisation du modèle dynamique à deux niveaux pour la production de la parole. La flèche de
gauche indique les commandes d’activation gestuelle et celle de droite le feedback de l’état du système physique
de production. (d’après Saltzman & Munhall 1989).

88
Ce sont en effet les variables d’activation gestuelle qui constituent l’espace dans lequel
seront exprimés les gestes indépendamment du contexte. En d’autres termes, et dans le cadre
de la Phonologie Articulatoire (Articulatory Phonology), c’est dans cet espace que chaque
unité phonologique trouvera son expression sous forme de constellations ou d’agrégats de
gestes simples ( Browman & Goldstein, 1989).

Les variables du conduit vocal (tract variables) sont décrites dans l’espace des positions
et des degrés de constrictions le long du conduit vocal (par exemple l’ouverture et la
protrusion des lèvres). Les variables articulatoires (model articulatory variables) représentent
les articulateurs responsables de la forme du conduit vocal (par exemple la mandibule et les
lèvres inférieure et supérieure).

Les simulations du système physique de la production de parole sont faites à l’aide d’un
synthétiseur articulatoire développé par Rubin et al. (1981, 1996). C’est un modèle qui simule
les formes du conduit vocal sur le plan sagittal, grâce à une modélisation géométrique
simplifiée de la cinématique des articulateurs. Les variables du conduit vocal, ainsi que les
degrés de liberté au niveau des articulateurs sont présentés dans la Figure 7.

89
tract variable articulators involved
LP lip protrusion upper & lower lips, jaw
LA lip aperture upper & lower lips, jaw
TTCL tongue tip constrict location tongue tip, tongue body, jaw
TTCD tongue tip constrict degree tongue tip, tongue body, jaw
TBCL tongue body constrict location tongue body, jaw
TBCD tongue body constrict degree tongue body, jaw
VEL velic aperture velum
GLO glottal aperture glottis

Figure 7 : La Coupe sagittale du conduit vocal en sortie du synthétiseur articulatoire de Haskins Laboratories.
Les variables du conduit vocal (positions et degrés des constrictions) y sont montrées de manière schématique.
(D’après Browman & Goldstein, 1989).

Comme il s’agit d’obtenir une simulation quantitative (mathématique) précise dans le


cadre du modèle task-dynamics, une question s’impose :

Comment spécifier l’évolution temporelle des variables d’activation gestuelle ?

Chaque geste est simulé par un système dynamique de second ordre (du type masse-
ressort) sur-amorti (pour l’équation du mouvement, voir Saltzman & Munhall (1989). Les
commandes de raideur, de frottement et de position d’équilibre apparaissent sous forme de
créneaux à l’entrée de chaque système. Dans un premier stade, l’orchestration temporelle des
gestes est faite « à la main » par le moyen d’un tableau appelé gestural score ou « partition
gestuelle » comportant la variable temps associée à l’axe horizontal et les différentes variables
du conduit vocal figurant sur l’axe vertical (Browman & Goldstein, 1990). La Figure 8
montre un exemple de partition gestuelle pour le mot anglais "palm".

90
Figure 8 : Partition gestuelle pour le mot anglais "Palm" d’après . Browman & Goldstein (1992)

Cette représentation se lit ainsi :

- les Gestes articulatoires employés sont définis sur la droite ;

- les boîtes grisées représentent l’intervalle d’activation de chaque geste, soit l’intervalle
durant lequel le geste est actif et exerce une influence sur la dynamique du conduit
vocal ;

- les étiquettes se rapportent au lieu et/ou au degré de constriction ;

- la courbe en noir est une courbe de mouvement calculée par le modèle Task
Dynamics, à partir de paramètres numériques dynamiques associés à chaque variable
du conduit vocal.

Cette section a parcouru des théories qui prônent l’invariance en production-perception de la


parole. Selon la théorie motrice de la perception (Liberman et al. 1967 ; Liberman &
Mattingly, 1985), il y aurait un invariant physique en parole de nature articulatoire
(précisément gestuel) avec une prise en compte des dynamiques des mouvements
articulatoires. Pour la théorie quantique (Stevens, 1985), l’invariance serait d’ordre acoustico-
auditive. La théorie de la Variabilité Adaptative de Lindblom (1987 ; 1990), met en avant, au
contraire, les variations possibles en production de parole, c’est-à-dire que le locuteur a la
capacité d’adapter la production de parole à la situation de communication. Pour le modèle de
Saltzman et al. (1987), les tâches sont définies de manière invariante par des systèmes
dynamiques au niveau du module de la Coordination Inter-gestuelle. Les variables
d’activation gestuelle sont alors liées aux unités phonologiques discrètes qui constituent toute
production linguistique.

91
5 Théories et modèles qui intègrent la variabilité dans leur conception

5.1 Le Modèle statistique (Maeda, 1990)


La présentation de l’état de l’art dans cette section doit beaucoup à Laprie & Busset
(2011) et Busset (2013). Elle signale que les modèles statistiques sont souvent les plus
réalistes, car ils sont construits à partir de données de coupes sagittales. Ils sont
habituellement fondés sur des formes réelles dérivées de données cinéradiographiques ou
d’IRM. En ce sens, ils procurent donc une bonne capacité descriptive du conduit vocal. Une
analyse statistique permet d’extraire des caractéristiques articulatoires pertinentes et
interprétables.

L’un des principaux modèles articulatoires construits à partir d’images


cinéradiographiques est le modèle de Maeda (1990). Il résulte de l’observation de 400
contours de conduits vocaux extraits d’images cinéradiographiques enregistrées lors de la
production de phrases courtes. La forme du conduit est mesurée dans un système de
coordonnées semi-polaires. La paroi intérieure se compose de la pointe, du corps et de la
racine de la langue, ainsi que de la partie supérieure du larynx. Le contour extérieur se
compose lui des incisives supérieures, du palais dur, du voile du palais et des parois du
pharynx et du larynx. On considère les intersections de ces contours avec la grille semi-
polaire. Le système de coordonnées semi-polaires est inutile pour les tubes des lèvres et du
larynx, car ces articulateurs se déplacent dans une direction quasi perpendiculaire aux lignes
de la grille. Le larynx est représenté par les coordonnées des bords intérieur et extérieur de
l’extrémité du larynx. Le tube représentant l’ouverture des lèvres est modélisé par une ellipse
contrôlée par trois variables : la hauteur, la largeur et la longueur (la protrusion). La recherche
des composantes du modèle s’effectue à partir d’une analyse factorielle proposée par Overall
(1962). Maeda (1990) démontre que deux composantes suffisent à expliquer 90% de la
variance des données de contours de langue. Avec trois composantes retenues, ce taux s’élève
à 98%. Le modèle (voir Figure 9) ainsi obtenu se compose de sept paramètres :

92
Figure 9 : Les sept paramètres du modèle de Maeda (1990)

Les sept paramètres du modèle de Maeda sont :

- la position de la mâchoire ;

- la position du corps de la langue ;

- la forme du corps de la langue ;

- la position de l’apex de la langue ;

- l’ouverture des lèvres ;

- la protrusion des lèvres ;

- la hauteur du larynx.

Les paramètres articulatoires varient entre moins trois et plus trois écarts-types.

D’autres modèles dérivés du modèle de Maeda ont été développés. Galván-Rodrigez


(1997) a modifié l’apex de la langue pour pouvoir modéliser les fricatives. Mathieu & Laprie
(1997) ont proposé une adaptation au palais dur du modèle de Maeda.

On peut aussi citer d’autres modèles qui reposent sur une étude statistique des contours
sagittaux. Ainsi, Beautemps et al. (2001) ont étudié les degrés de liberté pour la production de
voyelles orales, de consonnes occlusives et fricatives du français à partir de contours sagittaux
extraits de films cinéradiographiques. Le modèle articulatoire développé se compose de neuf
paramètres :

93
- un paramètre pour la mâchoire ;

- un paramètre pour la hauteur du larynx ;

- trois paramètres pour les lèvres ;

- quatre paramètres pour la langue.

Cette étude retient, comme celle de Maeda, l’intersection des contours de la langue avec
une grille semi-polaire. Cependant, Beautemps et al. (2001) ont retenu une grille qui s’adapte
en fonction du contour de la langue, afin de garder un nombre constant d’intersections de la
grille avec la langue.

La majorité des études effectuée concerne une vue sagittale du conduit vocal, car les
données articulatoires étaient principalement disponibles sur le plan sagittal. Les systèmes
d’acquisition en trois dimensions ont permis l’étude de modèles statistiques en trois
dimensions.

5.2 Le Modèle de Laprie : construction et évaluation d’un modèle


articulatoire du conduit vocal

Selon Laprie & Busset (2011), les modèles articulatoires du conduit vocal jouent un rôle
important dans la recherche des relations entre la géométrie du conduit vocal et ses propriétés
acoustiques.

Leur travail présente la construction et l'évaluation d'un modèle articulatoire à partir


d’un corpus de rayons X et d’images IRM, qui s’approche de la forme latérale des voyelles et
des consonnes avec une très grande précision.

Le corpus a été enregistré dans les années 90 par un locuteur masculin français dans le
but d’étudier la coarticulation en français (Sock et al., 2011). Il se compose de quatre films.
Les deux premiers sont des séries de six phrases courtes allant de /se dø si ylt/ à /se dø sikst
skylt/ (pour chaque phrase une consonne non-labiale est ajoutée entre /i/ et /y/ par rapport à
la précédente) à des fréquences d’élocution normale et rapide. Les deux dernières séries sont
des séries de /VCV/ (/aku iku uku atu itu utu/) en vitesse d’élocution normale et rapide.

Ils avaient comme objectif de construire un modèle articulatoire basé sur les données de
de ce locuteur test. Pour la construction de ce nouveau modèle, il a été nécessaire de
déterminer la position et la forme des principaux articulateurs à partir des images
cinéradiographiques. La cinéradiographie, nous le verrons plus loin, fournit une image sur
laquelle toutes les structures se projettent contrairement à une tomographie. Les principaux
94
articulateurs de la parole sont plus ou moins visibles : la mâchoire, la langue, l’épiglotte, le
larynx et les lèvres.

Les contours des principaux articulateurs ont été extraits des images
cinéradiographiques, soit à la main soit automatiquement via le logiciel X-Articulator, qui
propose des outils développés dans ce but (Sock et al., 2011). X-Articulator propose des outils
automatiques afin de suivre les régions rigides, comme les os, des outils de suivi semi-
automatique pour les lèvres, le larynx et l’épiglotte et des outils pour tracer le contour de la
langue.

Tout d'abord, un document décrit le système coordonné utilisé pour représenter le


contour de la langue et la stratégie employée à trouver les modes de déformation. Puis, une
procédure d’adaptation du locuteur est présentée et le modèle adapté est évalué dans une
seconde base de données d’images en rayons X. Cette évaluation montre que le modèle
s’approche de la forme de la langue avec une très bonne précision. Enfin, une ligne centrale
d’algorithme est présentée, il s’agit d’un algorithme utilisé pour décomposer le conduit vocal
dans une séquence de tubes élémentaires.

Outre les modèles géométriques, certains chercheurs proposent des modèles


biomécaniques de la production de la parole ; c’est par exemple le cas de l’hypothèse du Point
Equilibre.

5.3 Le modèle biomécanique de production de la parole selon


l'hypothèse du Point d’Équilibre

Perrier et al. (1996) abordent le problème de la variabilité acoustique pour un même


locuteur sous l'angle de la coarticulation. Une modélisation globale de la production de la
parole, des commandes motrices jusqu'au signal acoustique est proposée, pour prédire les
phénomènes de coarticulation : un modèle décrivant les relations articulatori-acoustiques dans
le conduit vocal est commandé selon des principes d'optimisation, pour rendre compte des
conséquences de la coarticulation planifiée ; un modèle dynamique, contrôlé selon l'hypothèse
du Point d'Équilibre, traduit les conséquences des propriétés mécaniques des articulateurs sur
le signal acoustique. La présentation des travaux de Perrier ici est empruntée à Sock (1998).

Leur modélisation est sous-tendue par les deux hypothèses suivantes :

1) Une partie de la variabilité acoustique serait le résultat d'une programmation


cognitive de l'articulation ; cette programmation vise à produire une séquence
gestuelle optimisée au sens d'un critère que l'on pourrait qualifier d'articulatori-
95
perceptif : «l’effort » fourni par le locuteur versus « l’efficacité » perceptive du
message. En termes articulatoires, on pourrait ainsi imaginer, compte tenu des
possibilités de compensations articulatoires communes à tous les locuteurs, un
sous-espace articulatoire associé à une réalisation perceptivement satisfaisante de
chaque phonème ; l'articulation d'une séquence allophonique satisferait alors
l'exigence d'optimisation gestuelle en minimisant, par exemple, la distance
parcourue dans l'espace articulatoire, comme le propose Keating (1988) dans son
« modèle à fenêtre » ou « Window model » (Figure 10).

2) L'autre partie de la variabilité s'expliquerait par les caractéristiques inertielles et


dynamiques du système articulatoire : pour une commande de mouvement donnée,
l'amplitude maximale atteinte dépendra des forces mises en jeu, de la masse de
l'articulateur et de la durée du mouvement.

Lim ites du sous-espace Lim ites du sous-espace


articulatoire assurant la articulatoire assurant la
pe rception c orrec te de P1 pe rception c orrec te de P1

P1 P2 P1 P1 P2 P1

Trajec toire a rticula toire Trajec toire a rticula toire


Figure 10 : Optimisation des trajectoires dans l'espace articulatoire selon le « modèle à fenêtres » (adapté de
Keating, 1988).

Perrier et ses collègues proposent une modélisation de l'appareil de production de la


parole qui permet d’implémenter concrètement ces deux hypothèses. Les relations entre
l'articulatoire et l'acoustique sont décrites par le modèle articulatoire de Maeda (1990), dont la
démarche statistique de conception assure une bonne prise en compte des contraintes entre les
articulateurs et des possibilités de compensations interarticulateurs. L'optimisation gestuelle
est fondée sur des critères cinématiques dans l'espace des paramètres de commande du
modèle articulatoire. La modélisation dynamique des articulateurs consiste en un système du
second ordre, en accord avec diverses descriptions dynamiques des mouvements de la
mandibule Flanagan et al. (1990) et de la langue (Ostry et al., 1983 ; Ostry & Munhall, 1985).
Le contrôle moteur des articulateurs se fait selon « l'hypothèse du Point d'Équilibre » : les
mouvements articulatoires vont de cible en cible ; la trajectoire entre les cibles n'est pas
contrôlée centralement et seules les positions cibles seraient spécifiées par le SNC. Elles

96
correspondent à un équilibre mécanique de toutes les forces agissant sur l'articulateur, dont les
caractéristiques sont déterminées par des variables de contrôle (Feldman, 1986).

A partir d'un corpus exploitant la séquence /iai/ insérée dans une phrase porteuse et
enregistrée pour un locuteur masculin français, trois conditions d'élocution sont étudiées :

1) la vitesse d'élocution lente avec accentuation sur le /a/ ;

2) la vitesse d'élocution lente sans accentuation ;

3) la vitesse d'élocution rapide avec accentuation sur le /a/.

Signalons que le terme « accentuation » désigne ici un accent de focus (ou une
emphase) porté sur la voyelle /a/.

Pour ces chercheurs, la réalisation allophonique du /a/ serait fonction de deux facteurs
clairement dissociés :

1) la coarticulation planifiée, guidée par les principes d'optimisation évoqués plus haut
et intégrant en particulier le contexte vocalique symétrique fermé et antérieur du /i/ ;
les effets de cette coarticulation sont indépendants des schémas prosodiques et ne
sont donc pas mis en évidence dans ce corpus ;

2) la coarticulation périphérique, fonction des paramètres prosodiques (timing,


accentuation) et induisant dans ce corpus une variabilité acoustique et articulatoire.

Il est supposé, d’une part, que dans la condition « lente et accentuée », les
configurations articulatoires (et par conséquent les trajectoires formantiques) correspondent
effectivement aux trajectoires planifiées, et d’autre part, que la variabilité observée dans les
deux autres conditions est le reflet des commandes prosodiques. C'est dans ce cadre qu'ils
décident d'exploiter les outils d’inversion développés jadis à l'Institut de la Communication
Parlée (Laboissiere et al., 1990) et d'inférer les séquences temporelles des variables de
contrôle, aptes à générer et à expliquer la variabilité observée sur les signaux acoustiques.

Perrier et al. (2011) ont élaboré des modèles biomécaniques des articulateurs en 3D,
basé principalement sur la langue et les lèvres, comme dans les figures ci-dessous. Les
principes de base ayant orientés ce travail sont proches de ceux proposés par Wilhelms-
Tricarico (1995) ou Sifakis et al. (2006), il s’agit de modèles continus basés sur des éléments
de structures finis, les mailles, opposés à des modèles discrets basés sur des réseaux de
masses élastiques, comme ceux de Kim et Gomi (2007), celui Dang & Honda (2004) et celui
de Terzopoulos et Waters (1993). L’activation du muscle influe sur les propriétés mécaniques
des éléments du maillage associés avec le muscle activé. Les propriétés mécaniques des
97
éléments du maillage sont non-linéaires. Comparés aux modèles de (Wilhelms-Tricarico,
1995) et Sifakis et al. (2006), leurs modèles musculaires sont fonctionnels et donc moins
précis. Cependant, dans le modèle de Perrier et al. (2011) l’interaction des tissus mous avec
les structures externes : les dents, le palais, les os crâniens sont modélisés avec des contacts,
et ceci n’est pas le cas des deux autres modèles (cf. infra).

Figure 11 : Exemple d’implémentations anatomiques du muscle. En haut à gauche : la localisation des parties
intérieure (gris foncé), médiane (gris clair) et postérieure (gris) du muscle gélioglosse dans la langue, à droite, les
microfibres pour le muscle genioglosse et le muscle styloglosse dans le modèle de la langue (Buchaillard,
Perrier, & Payan, 2009). En bas à gauche, la description volumétrique du muscle orbiculaire de la bouche dans le
modèle facial ; à droite : les microfibres du muscle principal dans le modèle facial (partie gauche) (Nazari et al.,
2010 in Perrier et al. (2011))

98
Les modèles statistiques sont souvent les plus réalistes, car ils sont construits à partir de
données de coupes sagittales. Ils sont habituellement fondés sur des formes réelles dérivées
de données cinéradiographiques ou d’IRM et sont en ce sens anthropomorphiques. Maeda
démontre que deux composantes suffisent à expliquer 90% de la variance des données de
contours de langue. Avec trois composantes retenues, ce taux s’élève à 98%.
Le travail de Laprie et Busset présente la construction et l'évaluation d'un modèle
articulatoire à partir d’un corpus de rayons X et d’images IRM, qui s’approche de la forme
latérale des voyelles et des consonnes avec une très grande précision. Enfin, une ligne
centrale d’algorithme est présentée, il s’agit d’un algorithme utilisé pour décomposer le
conduit vocal dans une séquence de tubes élémentaires.
Perrier propose une approche biomécanique. Il émet les deux hypothèses suivantes : a) une
partie de la variabilité acoustique serait le résultat d'une programmation cognitive de
l'articulation ; b) l'autre partie de la variabilité s'expliquerait par les caractéristiques inertielles
et dynamiques du système articulatoire. Perrier et ses collègues proposent une modélisation
de l'appareil de production de la parole qui permet d’implémenter concrètement ces deux
hypothèses.

5.4 Phonologie articulatoire


La phonologie articulatoire est un modèle qui a été proposé pour la première fois par
Browman & Goldstein (1986) et qui décrit la parole comme une suite de mouvements
articulatoires audibles. Ce modèle présente l’avantage d’une organisation directe entre
phonologie et phonétique. En se servant d’une seule unité qui sert à la fois de primitive
phonologique et d’unité d’action motrice dans la production de la parole, « le Geste
articulatoire », ce modèle parvient à établir un lien tangible entre le niveau phonologique et le
niveau phonétique puisque ce sont les mêmes unités qui servent à la fois de représentation
abstraite (et qui permettent donc le contraste entre différentes unités lexicales) et d’unité
d’action dans la réalisation concrète de l’énoncé. Un Geste articulatoire est donc caractérisé
en tout premier lieu par des informations sur la façon dont est réalisée cette constriction et
notamment sur les différents articulateurs (Browman & Goldstein, 1992, p. 155) : « In
articulatory phonology, the basic units of phonological contrast are gestures, which are also
abstract characterizations of articulatory events, each with an intrinsic time or duration. »

99
5.4.1 Geste articulatoire : propriétés
En ce qui concerne l’organisation du geste, il a une propriété temporelle et spatiale. Il
est caractérisé dans le conduit vocal, en termes de lieux et d’aires d’une constriction
maximale. Le lieu et l’aire de la constriction varient selon le contexte vocalique ou
consonantique, les positions des articulateurs pouvant changer pour un même phonème.
Certains articulateurs peuvent participer simultanément à l’exécution de plusieurs segments.

Produire un son pertinent en parole reviendrait donc à réaliser une action décomposable
en un nombre limité d’unités primitives. Dans ce cas, les tâches seraient réparties entre
différents ensembles d’articulateurs (lèvres, langue, glotte, …), localisés à l’intérieur du
conduit vocal. Ces gestes seraient organisés dans le cadre d’une partition gestuelle spatio-
temporelle spécifique.

Selon Browman & Goldstein (1989), les gestes articulatoires sont considérés comme
des unités phonologiques ou « atoms of phonological representation ». Les gestes
articulatoires, définis dans leur dynamique, peuvent être considérés comme unité de base
servant à la représentation phonologique. Etant de nature spatio-temporelle et possédant leur
durée propre, ils représentent l’unité phonologique primitive. Ayant une valeur contrastive, ils
seront utilisés pour caractériser des données de mouvements articulatoires et pour constituer
une base d’unités phonologiques. Sur la base de l’analyse et de la description des articulateurs,
définis en tant que gestes articulatoires, Browman & Goldstein (1990) proposent une
explication quantitative et statistique de la représentation de l’organisation articulatoire.
Browman & Goldstein (1992) posent que les gestes se caractérisent par des faits physiques et
réels qui se déroulent pendant le processus de production. La Phonologie Articulatoire décrit
les unités lexicales selon les réalisations physiques que représentent les gestes qui deviennent
alors les unités de base des contrastes des unités lexicales, autant que l’unité de base de
l’action articulatoire.

Notons que chaque locuteur adapterait ses gestes articulatoires en fonction des
situations de parole. Chaque langue imposerait ses propres caractéristiques, en ce qui
concerne les gestes articulatoires, et cela indépendamment des contraintes de production et de
perception inhérente à cette langue (Browman & Goldstein, 2000).

Les gestes décrits dans leur dynamique seront définis comme variables du conduit
vocal. La théorie phonologique note deux hypothèses fondamentales : le caractère modulaire
et l’invariance du geste. Au plan articulatoire, la « cible » articulatoire correspondrait à
l’intersection des « positions de stabilité maximale » des différents articulateurs.

100
Signalons que Kirchner (2000) s’est basé sur le modèle de la phonologie articulatoire
pour tenter de rationaliser l’inaltérabilité des géminées et la lenition. En prenant en compte
deux paramètres, la position et le temps, il a réalisé les courbes suivantes correspondant au
geste de l’occlusive géminée. Il a réduit l’amplitude du geste sans modifier la courbe, le
résultat est une réduction de la durée de l’occlusion. Si l’on réduit encore plus l’amplitude du
geste, le résultat est que l’occlusive devient spirantisée, comme le montrent les schémas
suivant dans la Figure 12 :

a.a.Occlusive
Occlusivegéminée
géminée b. Amplitude réduite,
b. Amplitude réduite,
occlusion abrégée
occlusion abrégée

fermé fermé
durée
occlusion
d’occlusion
n
durée

c. Spirantisation

fermé

Figure 12 : Trois courbes correspondant aux gestes de (a) occlusive géminée, (b) amplitude réduite et occlusion
abrégée et (c) spirantisation. (Adapté de Kirchner, 2000).

Ainsi, le processus de lénition consisterait strictement en des opérations de réduction. Si


l’on change l’amplitude du geste, le résultat devient de la friction :

a. Occlusive géminée b. Fricative géminée

fermé fermé
durée de
l’occlusion friction

durée durée
Figure 13 : Le processus de lénition modifie la courbe d’une occlusive géminée (a) à une fricative géminée (b).
(Adapté de Kirchner, 2000).

Kirchner (2000) montre que la lénition n’est pas une simple réduction du geste.
Néanmoins, le processus de lénition peut impliquer des modifications du geste original à
cause d’une simple réduction. Comme l’a observé Romero (1995) d’après des données
101
articulatoires électromagnétiques sur la lénition de l’espagnol d’Andalousie, la réduction du
degré de constriction est accompagnée de modification du lieu de la constriction. Les labiales
réduites tendent à devenir plus rétractées et les dentales réduites tendent à devenir plus
postérieures que les occlusives correspondantes.

5.4.2 Geste articulatoire et notion d’oppositions phonologiques


Fougeron (2005) rappelle que dans le modèle de la Phonologie Articulatoire, tous les
mouvements inhérents à l’articulation de la parole continue ne peuvent être considérés comme
des gestes articulatoires. Sont considérés comme gestes articulatoires, seuls les gestes ayant
une fonction distinctive et qui permettent en conséquence le contraste phonologique. Ainsi,
Fougeron (2005) donne les exemples ci-dessous pour montrer qu’il existerait trois types
d’opposition en phonologie articulatoire capables de produire du sens :

- La présence ou non d’un geste. Par exemple, dans « doigt » et « oie », le premier de
ces mots commence par un geste d’occlusion alvéolaire, inexistant dans le second.

- Une différence de paramétrage dynamique. Par exemple, dans « sac » et «chaque »,


ces deux mots commencent tous les deux par un geste de constriction critique.
Cependant, le geste du premier mot est localisé à un niveau alvéolaire, alors que
celui du second est situé à un niveau post-alvéolaire. Cette opposition réunit ainsi le
lieu et le degré de constriction.

- La coordination temporelle. Par exemple, dans « panne » et « nappe », les mots


contiennent les mêmes gestes articulatoires mais leur organisation temporelle diffère.

Fougeron (2005) montre ainsi comment ces trois types d’opposition permettent à elles
seules de rendre compte, non seulement des oppositions distinctives qui existent au sein d’une
même langue, mais aussi de rendre compte des différences entre systèmes phonologiques de
langues différentes. Il en va de même des différences rythmiques entre les langues qui
peuvent aussi s’expliquer par des différences de coordination temporelle.

102
La Phonologie Articulatoire présente l’avantage d’une organisation directe entre phonologie
et phonétique. En se servant d’une seule unité qui sert à la fois de primitive phonologique et
d’unité d’action motrice dans la production de la parole, « le Geste articulatoire », ce modèle
parvient à établir un lien tangible entre le niveau phonologique et le niveau phonétique
puisque ce sont les mêmes unités qui servent à la fois de représentation abstraite (et qui
permettent donc le contraste entre différentes unités lexicales) et d’unité d’action dans la
réalisation concrète de l’énoncé. Un Geste articulatoire est donc caractérisé en tout premier
lieu par des informations sur la façon dont est réalisée cette constriction et notamment sur les
différents articulateurs.
Signalons, à titre d’exemple, que Kirchner (2000) s’est fondé sur le modèle de la
phonologie articulatoire pour tenter de rationaliser l’inaltérabilité des géminées et la lenition.
En prenant en compte deux paramètres, la position et le temps, il a réalisé les courbes
correspondant au geste de l’occlusive géminée. En réduisant l’amplitude du geste sans
modifier la courbe, il obtient une réduction de la durée de l’occlusion. Si l’on réduit encore
plus l’amplitude du geste, le résultat est que l’occlusive devient spirantisée.

Cette approche est intéressante en ce qu’elle peut nous permettre de rationaliser


certains de nos résultats spatiotemporels obtenus pour le tarifit. Une autre approche est celle
de la théorie de la Viabilité qui tente de prendre en compte et d’expliquer la raison d’être de
la grande variabilité observée habituellement dans nos données en production de la parole.
Nous proposons de discuter certaines de ces questions ci-après.

5.4.3 La Théorie de la Viabilité en production-perception de la parole


La théorie de la viabilité est une théorie mathématique qui fournit des métaphores
mathématiques de l’évolution de macrosystèmes apparaissant en biologie, en sciences
économiques, dans les sciences cognitives, ainsi que dans les systèmes non-linéaires de la
théorie du contrôle (cf.Aubin, 1991). L’idée centrale est la suivante : les trajectoires ou les
comportements que l’on observe dans les systèmes dynamiques ne sont pas des processus
dictés ou prescrits. Il s’agirait plutôt d’appréhender de tels comportements comme des
processus visant à écarter ce qui n’est pas compatible avec la survie et la reproduction (ou la
réitération) du système dynamique en question.

Ce cadre conceptuel représente la toile de fond pour nos études (menées au sein de
l’Equipe de Recherche « Parole et Cognition » de l’Equipe d’Accueil Linguistique, Langues
et Parole de Strasbourg) sur l’apparition des structures articulatoires dans le conduit vocal,
103
puis acoustiques à la sortie de ce conduit ; des structures motrices et sensorielles que nous
tâchons d’identifier, de quantifier et de rationaliser dans le cadre de cette théorie, entre autres
Sock & Vaxelaire (2001).

5.4.4 Notions et concepts


Nous proposons d’exposer au préalable quelques notions et concepts qui devraient
permettre une lecture plus aisée de la Théorie de la Variabilité, appliquée au domaine de la
production et de la perception de la parole.

Le domaine de la production de la parole :

Dans le domaine de la production de la parole, cette réorientation conceptuelle implique


que certains phénomènes, notamment les trajectoires des gestes des articulateurs, ainsi que les
formes adoptées par le conduit vocal, ne doivent plus être considérées comme des processus
prescriptifs qui guideraient et commanderaient la fonction d'optimisation de la valeur
adaptative. En revanche, dans une logique proscriptive, on pourrait concevoir l'émergence des
gestes et des sons du conduit vocal, correspondant aux catégories phonétiques, comme
relevant du processus qui consiste à écarter toute entité sensori-motrice qui ne serait pas
compatible avec la satisfaction fondamentale de l'opposition phonologique ou linguistique (la
survie), ainsi que la préservation de cette dernière, quelle que soit la condition (de vitesse
d’élocution, par ex.) de production-perception de l'entité (la reproduction).

Nous savons que les individus et les systèmes linguistiques présentent de la variabilité
(individuelle, sociolectale, régionale…) et que l'émergence de catégories phonétiques
acceptables n'est que la satisfaction de deux contraintes linguistiques élémentaires, à savoir
l'opposition des classes et le maintien de ces oppositions.

Vaxelaire (2007) montre dans ses travaux que le comportement des catégories
phonétiques, accompagnant l'augmentation de la vitesse d'élocution, ne suit pas une trajectoire
unique et optimale pour le maintien des oppositions linguistiques. Différentes organisations
spatio-temporelles peuvent être empruntées, et elles sont plus ou moins variables selon les
locuteurs, les contextes segmentaux et suprasegmentaux, les langues, etc. Dans cette
perspective, il devient donc plus adéquat de parler de solutions sous-optimales dans le
maintien des oppositions phonologiques ou linguistiques que de stratégies distinctives
optimales, vu la grande variabilité des structures articulatori-acoustiques possibles. Malgré
cette variabilité intra-classe parfois remarquable, la séparation entre les catégories
phonétiques ou phonologiques reste suffisamment distincte, assurant ainsi une solution qui se

104
situe au-dessus d'un seuil critique. Ainsi, le système linguistique fonctionnerait sous forme
d'un large filtre, n'acceptant que les trajectoires et les formes qui assurent une distinction entre
les catégories de manière plus ou moins robuste (Sock, 1998).

Il s'agit, en d'autres termes, de ne plus chercher à tout prix à discerner les structures
articulatori-acoustiques optimales pour, par exemples, nos oppositions simples vs. géminées
pour expliquer le fonctionnement d'un système, même s’il est aussi performant que celui du
système phonologique. Nous obtenons des résultats intéressants en tâchant, « tout
simplement », de mettre au jour ces organisations articulatoires spatio-temporelles du conduit
vocal et du signal acoustique qui sont possibles, puisque aboutissant à des résultats perceptifs
acceptables, donc viables.

Perturbations et neutralisation d’oppositions

La dérive d’une seule catégorie en deçà d’une valeur critique et de compression de sa


durée par exemple, pourrait provoquer la perte de son identité linguistique. En outre, la dérive
de deux termes d’une opposition phonologique peut aboutir à la neutralisation de l’opposition
linguistique, sur le plan temporel et spatial, du fait de la collision des catégories (Sock, 1998).
Dans ce cas, une seule des deux trajectoires se révèle incongrue pour la viabilité de
l’opposition.

La notion de viabilité en production de la parole est à mettre en relation avec la


résistance des oppositions phonologiques, ainsi qu’en relation avec les trajectoires adoptées
par des catégories articulatori-acoustiques, sur le plan temporel. Il importe également
d’évaluer la « résistivité » des configurations du conduit vocal, le degré de leurs modifications
et les conséquences acoustiques de tels changements spatiaux.

En production de la parole, différentes trajectoires peuvent être empruntées, par


exemple, lors de la translation de catégories phonétiques provoquée par une augmentation de
la vitesse d’élocution (voir Section : 5.5.1). En effet, de nombreuses données montrent (cf.
Sock, 1998 ; Sock & Vaxelaire, 2001, par exemple) que cette translation ne suit pas une
trajectoire unique et optimale pour le maintien des oppositions linguistiques ; les diverses
trajectoires adoptées, tout en étant assez variables, restent plus ou moins viables selon les
locuteurs. En d’autres termes, la séparation entre les catégories phonétiques reste
suffisamment distincte malgré la variabilité intra-classe parfois remarquable. Une opposition
phonologique correspondrait à un processus qui consiste à sélectionner les trajectoires
possibles tant qu’elles ne violent pas la cohérence du système sémiotique. Cette procédure de
sélection se ferait par tâtonnement appelé aussi bricolage ou tinkering en anglais. Sock &
105
Löfqvist (1995) ont pu montrer, par exemple, que les durées absolues des consonnes
occlusives voisées ou non voisées pouvaient varier de manière très sensible sans pour autant
que cette variabilité ait un effet destructeur sur la perception catégorielle de ces consonnes.

Ainsi, le phénomène de variabilité, omniprésent en production-perception de la parole,


serait largement responsable de l’absence de cohérence apparente de certains comportements
phonétiques. Cette variabilité apparente s’estompe lorsqu’elle est replacée dans la perspective
de la viabilité des patterns, quels que soient leurs aspects.

Dans le domaine de la production de la parole, cette réorientation conceptuelle implique que


certains phénomènes, notamment les trajectoires des gestes des articulateurs, ainsi que les
formes adoptées par le conduit vocal, ne doivent plus être considérées comme des processus
prescriptifs qui guideraient et commanderaient la fonction d'optimisation de la valeur
adaptative. En revanche, dans une logique proscriptive, on pourrait concevoir l'émergence
des gestes et des sons du conduit vocal, correspondant aux catégories phonétiques, comme
relevant du processus qui consiste à écarter toute entité sensori-motrice qui ne serait pas
compatible avec la satisfaction fondamentale de l'opposition phonologique ou linguistique,
ainsi que la préservation de cette dernière, quelle que soit la condition (de vitesse
d’élocution, par ex.) de production-perception de l'entité. Il s'agit, en d'autres termes, de ne
plus chercher à tout prix à discerner les structures articulatori-acoustiques optimales pour, par
exemples, nos oppositions simples vs. géminées pour expliquer le fonctionnement d'un
système, même s’il est aussi performant que celui du système phonologique. Nous obtenons
des résultats intéressants en tâchant, « tout simplement », de mettre au jour ces organisations
articulatoires spatiotemporelles du conduit vocal et du signal acoustique qui sont possibles,
puisque aboutissant à des résultats perceptifs acceptables, donc viables.

106
5.5 Notions et outils pour l’analyse de la gémination
5.5.1 Généralités sur la vitesse d’élocution
La vitesse d’élocution est une variable naturelle mais complexe en production de la
parole. Habituellement, on distingue la vitesse d’élocution (speech rate) de la vitesse
d’articulation (articulation rate).

La vitesse d’articulation, qui correspond au nombre de syllabes produit par seconde,


n’inclut pas la durée des pauses, alors que la vitesse d’élocution coïncide avec le nombre de
syllabes par seconde, la durée des pauses incluse.

C’est la vitesse d’élocution qui nous intéresse particulièrement ici, puisque nous
l’utilisons comme perturbateur du système linguistique. Nous y reviendrons (cf. infra).

Selon certaines données attestées dans la littérature (par ex. Grosjean & Deschamps,
1975), il semble qu’un changement de vitesse d’élocution se résumerait à une réorganisation
temporelle des pauses, alors que la vitesse d’articulation resterait relativement stable et
constituerait une donnée constante et spécifique à chaque locuteur. Signalons, toutefois, que
d’autres résultats indiquent une réorganisation temporelle de l’énoncé et non seulement de la
durée des pauses (Vaxelaire, 1993 ; Sock & Vaxelaire, 2001).

En production de la parole, la coordination des gestes des différents articulateurs et


l’organisation temporelle, ou le timing de ces gestes, sont essentielles pour que les
productions linguistiques puissent émerger correctement. Pour pouvoir évaluer la robustesse
de cette organisation spatio-temporelle du conduit vocal, lors de la production de la parole, il
peut être utile d’avoir recours au paradigme de la variation de la vitesse d’élocution. En effet,
la parole de tous les jours, produite de manière plus ou moins spontanée, est émise à des
vitesses d’élocution variables.

De manière générale et catégorielle, ces vitesses d’élocution peuvent être classées en


lente, normale ou conversationnelle et rapide. À cause de l’élasticité des mots ou des énoncés
produits (Gaitenby, 1965), les segments phonétiques, constitutifs de ces mots ou de ces
énoncés, peuvent subir des expansions ou des compressions, selon que la vitesse d’élocution
est ralentie ou accélérée, respectivement. Malgré tout, cette élasticité des segments connait
des limites ; elles sont imposées, principalement, par les contraintes physiques du système
anatomo-squelettique de production de la parole et par les contraintes de clarté que le système
perceptif exige. D’où les bornes décelables dans l’étendue de la variabilité spatiale et
temporelle des gestes, responsables de la production des sons. Lorsque les patterns de ces
gestes restent stables en termes absolus et/ou relatifs, on évoquera leur robustesse. Et, a
107
contrario, lorsqu’ils succombent aux changements de la variation de la vitesse d’élocution, on
arrivera à évaluer leur fragilité.

La « résistivité » ou la robustesse de l’organisation spatio-temporelle des gestes du


conduit vocal implique souvent des réajustements moteurs touchant à des structures
spécifiques du conduit vocal. C’est ainsi qu’il nous est possible de mettre au jour les
éventuelles stratégies de compensation motrice, souvent révélatrices du degré de flexibilité
des structures articulatoires impliquées dans la production d’une tâche phonétique ou
phonologique déterminée. Nos résultats de recherche montrent, comme nous le verrons plus
tard (Chapitre 8), que la robustesse de l’organisation spatio-temporelle de telles structures
provient souvent d’une contrainte phonologique ou linguistique, intervenant dans la
production des mots ou des séquences de nos corpus à produire.

La littérature sur la vitesse d’élocution est très vaste, et il ne s’agit pas ici d’en faire un
état de la question. Nous nous contenterons, dans ce qui suit, de simplement justifier notre
choix de ce paradigme.

5.5.2 La vitesse d’élocution : un perturbateur naturel par excellence


Nous venons de le dire, en variant la vitesse d’élocution, nous espérons retrouver, dans
nos analyses de l’organisation spatio-temporelle des gestes et des sons du conduit vocal, les
différents patterns vocaliques et consonantiques les plus robustes liés aux diverses catégories
phonologiques. Plus précisément, il devrait être possible, après l'analyse des données testées
dans différentes conditions de vitesse d'élocution, de mettre au jour :

- les aspects temporels et spatiaux des gestes et des sons relevant de la nature
intrinsèque des catégories simples et géminées ;

- les stratégies articulatoires et acoustiques individuelles ;

- les aspects des gestes liés aux contraintes bio-mécaniques du système de production
(propriétés physiologiques des articulateurs, propriétés aérodynamiques, etc.).

Les perturbations induites par une augmentation de la vitesse d’élocution peuvent


entraîner un changement dans la manière dont une opposition phonétique ou phonologique est
réalisée : il s'agira d'une réorganisation de l'interaction des composantes du système. Ce cas de
figure peut être illustré, par exemple, par le comportement des structures articulatoires et
acoustiques de l'opposition phonétique (linguistique) entre consonnes simples et consonnes
géminées (Bouarourou et al., 2010). On verra comment (Chapitre 8), suivant certaines
manœuvres spécifiques, des oppositions linguistiques sont maintenues, grâce à une

108
réorganisation des configurations du conduit vocal, accompagnée d’un réajustement du timing
acoustique. Dans de tels cas, on constate ainsi l'émergence de nouvelles stratégies face à la
perturbation induite par l’augmentation de la vitesse d’élocution.

La Figure 14, ci-dessous, montre un exemple théorique de la compression d’un segment


acoustique ou articulatoire (à gauche) avec l’augmentation de la vitesse d’élocution. A droite,
nous pouvons visualiser la simplification hypothétique du profil de vitesse associé à un geste
critique, d’une forme asymétrique en vitesse d’élocution normale, nous passons à une forme
de cloche, gaussienne, en vitesse d’élocution rapide, suivant les données habituellement
attestées dans la littérature en motricité de la parole (cf. Abry et al., 1990 ; Jomaa & Abry,
1988 ; Sock, 1998). Nous reprendrons ces observations dans la Discussion (Chapitre 8).

Figure 14 : A gauche, un exemple théorique de la compression d’un segment acoustique ou articulatoire avec
l’augmentation de la vitesse d’élocution. A droite, une visualisation de la simplification hypothétique du profil
de vitesse associé à un geste critique

Soulignons encore une fois que si ces changements structurels peuvent intervenir sans
que l'organisation globale du système soit modifiée, c'est grâce, largement, à la plasticité du
système de production-perception de la parole et à sa tendance à l'équilibre, c’est-à-dire grâce
à la propriété à maintenir relativement stable la dynamique de ses états internes, ainsi que la
cohérence globale de son organisation.

Il arrive parfois que le système de production-perception de la parole ne puisse plus


adopter différents états cohérents, ou que son organisation n'arrive plus à garder une certaine
stabilité, face à une perturbation interne ou externe : cela amène inéluctablement la
désintégration du système et, en conséquence, la perte de l'identité de ses propriétés
émergentes. Nous aurons ainsi affaire à des catégories sensori-motrices linguistiquement non
viables.

109
La variation de la vitesse d’élocution est retenue comme moyen naturel de perturbation
du système de production de la parole. Elle devrait nous permettre de repérer ces patrons
spatio-temporels résistants et linguistiquement pertinents des gestes des articulateurs, lors de
la réalisation d’une tâche linguistique. Elle devrait aussi offrir la possibilité d’évaluer le degré
de flexibilité du système de production de la parole, en dévoilant les réaménagements ou les
réajustements possibles aux niveaux intra-articulateur et inter-articulateur. Cela reviendra à
analyser les différentes stratégies cognitivo-motrices utilisées par les sujets parlants pour
maintenir la distinctivité phonétique des catégories phonologiques dans des conditions
difficiles, en mettant en jeu divers phénomènes de compensation (Sock & Vaxelaire, 2004 ;
Vaxelaire, 2006).

5.5.3 VOT : « Voice Onset Time »


Un indice de l’opposition de voisement qui s’avère être un bon candidat dans plusieurs
langues qui connaissent ce trait phonologique est le VOT. Nous examinerons sa pertinence
éventuelle pour la gémination. Rappelons ce à quoi correspond cet indice.

Le VOT, ou le délai d’établissement du voisement : « Voice Onset Time » est une


mesure acoustique qui a été utilisée pour la première fois par Lisker & Abramson (1964). Ces
derniers ont délimité le VOT comme l’intervalle allant du relâchement consonantique aux
premières vibrations correspondant au début de voisement de la voyelle suivante. Klatt
(1975), à son tour, a décrit le VOT comme l’intervalle allant du relâchement consonantique
jusqu’à l’apparition de la structure formantique stable de la voyelle suivante.

Pour Cho & Ladefoged (1999), le VOT serait un trait phonologique définissable en
termes de différence de durée entre l’initiation du geste articulatoire, responsable du
relâchement de la closion, et l’initiation du geste laryngé responsable de la vibration des
cordes vocales.

La plupart des recherches considère le VOT comme l’intervalle allant du relâchement


du geste articulatoire au commencement de la vibration des cordes vocales. Cependant, en se
fondant sur ce critère, il n’est pas toujours facile de spécifier ce paramètre uniquement à partir
d’observations directes du signal acoustique. À noter encore que d’après plusieurs études, la
durée du VOT dépendrait également de la vitesse d’élocution.

Le VOT a donné lieu à un grand nombre d’études ayant montré que ce paramètre varie
en fonction du lieu d’articulation. En effet, il a été observé, entre autres, que :

110
1. Plus l’occlusion a lieu à l’arrière de la cavité buccale, plus le VOT est long (Fischer-
Jørgensen, 1954 ; Peterson & Lehiste, 1960).

Hardcastle (1973) et Maddieson (1997) ont suggéré que l’un des facteurs qui
contribuent à ce qu’il y ait des différences de durée pour les VOT est la taille de la
cavité supraglottique, et plus exactement au lieu de la constriction ou de l’occlusion.
Ainsi, lorsqu’une occlusion a lieu, elle subdivise la cavité buccale en deux parties.
Partant de ce fait, il est possible de faire deux observations :

 La première est que la cavité derrière une occlusion vélaire a un volume plus petit
que lorsqu’il s’agit d’une occlusion alvéolaire ou bilabiale.

 La deuxième est que la cavité située avant l’occlusion de la vélaire a un volume


plus important que pour une alvéolaire ou une bilabiale.

2. Plus l’aire de contact est étendue, plus le VOT est élevé ( Stevens et al., 1986).

Pour expliquer cela, Stevens (2000) suggère que la pression intra-orale après le
relâchement change à une vitesse qui dépend de l’augmentation de l’aire à la
constriction.

Étant donné qu’une occlusive vélaire a une étendu de contact entre le dos de la langue
et le voile du palais plus large, le changement de la pression d’air sera relativement
plus lent que pour une bilabiale ou une alvéolaire, suite à un effet de Bernouilli. Par
conséquent, la diminution de la pression intraorale, après la fermeture, est moins
rapide pour les vélaires que pour les bilabiales. À noter que les données
aérodynamiques de Stevens (2000) montrent que la vélocité du flux d’air à la
constriction et au niveau de la glotte augmente proportionnellement avec le niveau de
diminution de la pression intra-orale, durant les 50 ms suivant le relâchement de
l’occlusion.

Ainsi, le timing pour la vibration des cordes vocales serait déterminé par deux facteurs
aérodynamiques qui sont en corrélation :

 La vitesse de diminution de la pression intra-orale.

 La vitesse d’augmentation du volume de vélocité du flux d’air.

3. Plus les mouvements des articulateurs sont rapides, plus le VOT est court (Hardcastle,
1973).

111
Hardcastle (1973) émet l’hypothèse que les différences en matière de début de
voisement peuvent être dues, en partie, au fait que l’apex et les lèvres se déplacent
plus rapidement que le dos de la langue. Quelques investigations, dont l’étude
cinéradiographique de Kuehn & Moll (1976) pour des séquences VC et CV, ont
permis de montrer que les mouvements articulatoires étaient plus rapides pour la
pointe de la langue, plus lents pour le corps de la langue, les mouvements labiaux se
déroulant à une vitesse qualifiée d’intermédiaire. À noter que cela semble s’expliquer
par la masse des articulateurs impliqués, étant donné que l’apex est plus petit et plus
léger que les lèvres ou le corps de la langue, il a donc une célérité plus grande
(Lenneberg, 1967).

Pour compléter ces propos, il faut savoir que la mâchoire tient un rôle non
négligeable dans la vitesse de mouvement de certains articulateurs tels que la lèvre
inférieure et que son influence est moins importante pour d’autres. Ainsi, si la vitesse
de mouvements du dos de la langue est moins affectée par les mouvements de la
mâchoire, ceux de la lèvre inférieure sont accélérés par la mandibule lorsque celle-ci
se déplace.

Il est fort probable que l’opposition entre consonnes simples et géminées


repose aussi sur des différences de pression intra-orale durant la tenue consonantique
et également sur des différences de changement de la pression d’air au relâchement.
En effet, avec une tenue plus longue pour les géminées (et une étendue de contact plus
large), il est à supposer que le changement de la pression intra-orale soit plus lente
pour cette catégorie, ce qui aurait une incidence sur la durée du VOT, suivant les
données attestées dans la littérature exposées supra (Stevens et al., 1986 ; Stevens,
2000). Le VOT des géminées devrait, en conséquence, être plus long que celui des
simples.

5.5.4 VTT : « Voice Termination Time »


Un autre indice du voisement qui s’est révélé utile aussi pour caractériser le voisement
ou encore pour mettre au jour des réalisations déviantes du timing des consonnes (cf., par ex.,
Bechet (2011) ou Fauth (2012)) est le VTT.

Le VTT ou délai d’arrêt du voisement : « Voice Termination Time » est une dimension
acoustique de transition entre événements vocaliques et événements consonantiques. Il est
défini par la durée comprise entre le début de la tenue et la fin de la dernière période de
voisement.
112
Agnello (1975) est le premier à avoir utilisé le VTT en le définissant comme l’intervalle
allant de la dernière impulsion glottique jusqu’à la pression intra orale maximale ou la closion
articulatoire. Par la suite, Sock (1983) et Abry et al. (1985) ont repris cette mesure en la
définissant comme le temps que mettent les cordes vocales pour s’arrêter de vibrer (VT) après
la disparition de la structure formantique clairement définie provoquée par une closion ou une
constriction consonantique dans le conduit vocal.

D’après certaines études, le VTT varierait selon le lieu d’articulation. Suomi (1980), par
exemple, a étudié le VTT en anglais et trouve que le lieu d’articulation a un effet sur la fin du
voisement. Ainsi, les plus grandes durées de voisement sont constatées lorsque le lieu
d’articulation recule. Cela s’explique par le fait que si le voisement est considéré comme le
résultat d’un équilibre de pression transglottique, il finit plus rapidement si l’occlusion orale
se fait vers l’arrière de la cavité orale que vers les lèvres. L’auteur suggère donc que la fin du
voisement est une indication du début du geste d’abduction glottique. Parallèlement, Keating
(1984) a observé que les intervalles de voisement les plus longs, pendant la phase médiane
des consonnes sourdes, sont liés à l’antériorité du lieu d’articulation. Pour Keating (1984), ce
phénomène est dû aux différences de l’aire du conduit situé derrière le lieu d’articulation, et à
l’effet produit sur la vibration des cordes vocales. Autrement dit, plus l’aire est importante,
plus le voisement peut être maintenu longtemps.

Nous pensons que le VTT des simples devrait être plus long que celui des géminées,
étant donné que plus la tenue consonantique est brève, plus la proportion du délai d’arrêt du
voisement dans cette tenue sera élevée.

Nous reviendrons plus longuement sur les critères retenus pour mesurer ces intervalles,
avec des exemples graphiques en plus, dans le Chapitre 8.

113
A cause de l’élasticité des mots ou des énoncés produits (Gaitenby, 1965), les segments
phonétiques constitutifs de ces mots ou de ces énoncés peuvent subir des expansions ou des
compressions selon que la vitesse d’élocution est en ralentie ou en accélérée.
La variation de la vitesse d’élocution est retenue comme moyen naturel de perturbation du
système de production de la parole en relation avec la résistivité de l’organisation spatio-
temporelle des gestes et des sons du conduit vocal (Vaxelaire, 2006). La variation de la
vitesse d’élocution est centrale dans l’analyse des données de cette étude. C’est ainsi qu’il
devrait nous être possible de mettre au jour les éventuelles stratégies de compensation
motrice, souvent révélatrices du degré de flexibilité des structures articulatoires impliquées
dans la production d’une tâche phonétique ou phonologique déterminée.
Ce point sera revu en détail dans le Chapitre 8.
La plupart des recherches considèrent le VOT comme l’intervalle allant du relâchement du
geste articulatoire de l’occlusive au commencement de la vibration des cordes vocales de la
voyelle qui suit. Le VTT consiste à l’intervalle allant de la dernière impulsion glottique
jusqu’à la pression intra orale maximale ou la closion articulatoire (Agnello, 1975). Cette
étude se focalisera sur ces deux paramètres temporels afin de comparer les consonnes
simples aux géminées dans nos analyses acoustiques.
Muni de ces notions, concepts et outils, nous pouvons maintenant aborder notre investigation
sur les géminées du tarifit, en commençant par une présentation de la procédure
expérimentale.

114
PARTIE 2

Procédure expérimentale et
Etude des paramètres temporels

115
Notre analyse du signal acoustique repose sur une approche articulatori-acoustique.
Celle-ci nous permettra de déceler, sur le signal de parole, des événements acoustiques
interprétables en termes articulatoires (Abry et al., 1985). A partir de cette approche
événementielle, nous tâcherons de déterminer des intervalles spécifiques, révélateurs de
l’organisation temporelle ou timing du signal de parole, et pouvant nous permettre de
retrouver dans ce substrat physique des indices qui pourraient sous-tendre l’opposition
phonologique de la gémination.

6 Etude acoustique
L’étude menée dans ce chapitre a pour but de dégager les paramètres acoustiques qui
permettent de distinguer les consonnes simples des géminées. Nous avons enregistré six
locuteurs parlant en tarifit. Chaque locuteur a prononcé, dans un ordre aléatoire, un corpus de
27 paires minimales transcrites phonétiquement. Chacun a répété dix fois le corpus en vitesse
d’élocution normale et dix fois en vitesse d’élocution rapide. Les mots ont été insérés dans
une phrase porteuse : “Ini  i umar” qui signifie “dis  une fois”, cela pour contrôler, autant
que possible, le contexte segmental et prosodique et donner un certain sens aux phrases.

6.1 Corpus
Le corpus comporte cinq paires d’occlusives : trois sourdes /t/~ /tt/, /k/~ /kk/, /q/~/qq/
et deux sonores /d/~ /dd/, /g/~ /gg/. Il comporte également quatre paires de constrictives :
deux sourdes /s/~ /ss/, //~ //, et deux sonores /z/~ /zz/, //~ //. Ces paires ont été
introduites en trois positions : initiale (non absolue), intervocalique, et finale (non absolue).

Les tableaux ci-dessous contiennent la liste complète des mots prononcés par les sujets
ayant participé à cette expérience. Les tableaux sont classés selon le mode d’articulation des
consonnes, réparties dans les trois contextes opposant les consonnes simples aux consonnes
géminées. Les non-mots, précédés du symbole [*---], servent à remplacer l’un ou les deux
termes d’une paire minimale.

116
Tableau 6 : Les occlusives sourdes

Sourdes Initiale Intervocalique Finale


*tar amatar *aqat
t
non mot masacre non mot
ttar amattar *aqatt
tt
demander mendiant non mot
*kar *akas ak
k
non mot non mot chèque
kkar akkas akk
kk
se lever enlevement doute
qa *aqa rbaq
q
il est là bas non mot tonnere
*qqa aqqa jaqq
qq
non mot il est là il est allumé

Tableau 7 : Les occlusives sonores

Sonores Initiale Intervocalique Finale


*dar adase israd
d
non mot Je viens il est venu tôt
ddar swaddaj add
dd
vivre en bas inviter
*gas agarnez rfag
g
non mot plaisenterie nuée
ggas itraggab *rfagg
gg
fait le (la) qlq chose il épie non mot

Tableau 8 : Les constrictives sourdes

Sourdes Initiale Intervocalique Finale


sarsar asam as
s
sonner jalousie pour lui
ssarsar assam ass
ss
sonnerie éclaire jour
ar maa baba

associer mais (prep) ton père
ar maa rba

association nourriture une bache

117
Tableau 9 : Les constrictives sonores

Sonores Initiale Intervocalique Finale


zar azar raz
z
visiter figue faim
zzar azzar rbazz
zz
faux témoignage fourche aigle
ar aarir ihra

entre deux choses tapis il a besoin
ar aar rha

chaux voisin pèlerin

6.2 Les sujets


Les sujets sont deux locutrices agées de 25 et 26 ans et quatre locuteurs agés entre 27 et
35 ans au moment de l’enregistrement. Les six sujets ont tous le tarifit parlé à Nador (Maroc)
comme langue maternelle, et aucun d’eux ne souffre de trouble de la production ou de la
perception de la parole.

6.3 Enregistrements
Les enregistrements ont été effectués à l’Institut de Phonétique de Strasbourg dans la
chambre sourde pour deux locuteurs (F et Kh), et au Maroc pour les quatre autres locuteurs
(K, Y, H et S) dans des endroits silencieux.

Ces enregistrements ont été réalisés à l’aide d’un enregistreur numérique portable
(Marantz Professional, model PMD 661) et d’un microphone directif (Sennheiser e835s).

6.4 Mesures et analyses acoustiques


A l’aide du logiciel PRAAT, nous avons segmenté le signal acoustique et mesuré les
paramètres suivants :

a) La durée de la voyelle précédente,

b) La durée du VTT,

c) La durée de l’occlusion,

d) La durée du VOT,

e) La durée de la friction,

f) La durée de la voyelle suivante.

118
En ce qui concerne les occlusives sourdes, nous avons mesuré :

voyelle précédente, la durée des occlusives sourdes simples et géminées, et la durée de la


voyelle suivante. Nous avons mesuré aussi les paramètres intrasegmentaux, notamment la
durée du VTT, du silence acoustique et du VOT de la consonne simple et de son homologue
géminée comme le montre la figure suivante :

Figure 15 : Paramètres intrasegmentaux du signal acoustique de la séquence [ata]

En positon initiale (non absolue) V#CV : des paramètres intersegmentaux, notamment


la durée des occlusives sourdes simples et géminées, et la durée de la voyelle suivante. Nous
avons mesurée aussi des paramètres intrasegmentaux, à savoir les durées du VTT, du silence
acoustique et du VOT de la consonne simple et de son homologue géminée.

En position finale (non absolue) VC#V : les paramètres intersegmentaux, à savoir la durée de
la voyelle précédente et la durée des occlusives sourdes simples et géminées. Nous avons
mesuré également les paramètres intrasegmentaux, en l’occurrence la durée du VTT, du
silence acoustique et du VOT de la consonne simple et son homologue géminée.

En ce qui concerne les occlusives sonores, nous avons mesuré :

En position intervocalique VCV : les paramètres intersegmentaux, c’est-à-dire la durée


de la voyelle précédente, la durée des occlusives sonores simples et géminées, et la durée de
la voyelle suivante. Nous avons mesuré aussi les paramètres intrasegmentaux, à savoir la
durée de l’occlusion et du VOT de la consonne simple, et de son homologue géminée comme
dans la figure suivante :

119
tenue consonantique
occlusion VOT

Figure 16 : paramètres intrasegmentaux du signal acoustique de la séquence [ada]

En positon initiale (non absolue) V#CV : les paramètres intersegmentaux, soit la durée
des occlusives sonores simples et géminées, et de la voyelle suivante, les paramètres
intersegmentaux, à savoir la durée de l’occlusion et du VOT de la consonne simple et de son
homologue géminée.

En position finale (non absolue) VC#V : les paramètres intersegmentaux, notamment


la durée de la voyelle précédente et la durée des occlusives sonores simples et géminées.

En ce qui concerne les constrictives sourdes et sonores, nous avons mesuré :

En position intervocalique VCV : les paramètres intersegmentaux, à savoir la durée de


la voyelle précédente, la durée des constrictives simples et géminées, et la durée de la voyelle
suivante comme dans l’exemple de la Figure 17 ci-dessous.

tenue consonantique

Figure 17 : Paramètres intersegmentaux du signal acoustique de la séquence [asa]

En positon initiale (non absolue) V#C : les paramètres intersegmentaux, c’est-à-dire la


durée des constrictives simples et géminées, et la durée de la voyelle suivante.

120
En position finale C#V : les paramètres intersegmentaux, c’est-à-dire la durée de la voyelle
précédente et la durée des occlusives sonores simples et géminées.

Nous donnons, ci-dessous, les critères que nous avons retenus pour définir ces intervalles :

a. La durée de la voyelle a été définie comme l’intervalle temporel entre le début et la fin
de la structure formantique stable de la voyelle qui précède ou qui suit les segments
simples et géminés. Cet intervalle n’a été mesuré que pour les positions
intervocaliques et finales.
b. La durée du VTT (Voice Termination Time) correspond au délai d’arrêt du voisement
ou à la période de transition menant à la fermeture complète du canal buccal. C’est
donc l’intervalle qui va de la disparition de la structure formantique stable de la
voyelle au dernier signe de périodicité dans la consonne. Le VTT a été mesuré dans
les trois positions (initiale non absolue, intervocalique et finale non absolue).
c. La durée de l’occlusion a été définie comme l’intervalle temporel entre la fin du VTT
et le début du relâchement. Elle a été mesurée en position initiale non absolue, suivie
par la frontière de la voyelle précédente, en position intervocalique et finale. Le début
de l’occlusion a été déterminé par l’offset du F2 de la voyelle précédente. (à revoir
ensemble)
d. Le VOT a été déterminé comme l’intervalle temporel entre le début du burst et
l’apparition de la structure formantiquement stable de la voyelle qui suit. Ce paramètre
n’a été retenu que pour les positions initiales non absolues et les positions
intervocaliques.
e. La durée de la constrictive a été définie comme l’intervalle temporel entre le début et
la fin de la friction. La fin de la constrictive a été déterminée par l’onset du F2 de la
voyelle qui suit. En l’absence de cette voyelle, comme c’est le cas pour la position
finale, nous avons déterminé la fin de la fricative au moment où le bruit de friction
cesse complètement.

6.5 L’analyse statistique.


Toutes les mesures extraites automatiquement à l’aide du logiciel PRAAT ont été
analysées en utilisant le logiciel GraphPad PRISM. La première question concernant la
distribution des consonnes simples et des consonnes géminées est de savoir si les deux
catégories de longueurs se comportent de manière comparable avec la variation de la vitesse
d’élocution. Pour cela, une comparaison paire-par-paire (T-test) a été effectuée entre les
paires simple et géminée à chaque vitesse délocution, ainsi que entre les simples et entre les

121
géminées aux deux vitesses d’élocution. Nous donnons la variance avec les facteurs f et df,
ainsi que la significativité de la différence des données comparées avec la valeur de p. Nous
avons également analysé l’interaction entre la gémination et la vitesse d’élocution. Pour cela,
une analyse ANOVA à deux facteurs a été conduite en considérant la moyenne des 10
répétitions de chaque locuteur comme une répétition non appariée et comme deux facteurs
analysés, la gémination et la vitesse d’élocution. Pour les analyses ANOVA, nous donnons les
données de variance avec le ratio F correspondant à la variabilité entre les locuteurs et la
valeur de p. En complément, des ANOVA à deux facteurs, nous avons également effectué des
T-test entre la durée des consonnes simple en vitesse d’élocution normale et les consonnes
géminées en vitesse d’élocution rapide. Seuls les résultats avec une probabilité de moins de
cinq pour cent (p<0.05) sont considérés comme significatifs.

Nous avons pu définir les paramètres acoustiques qui permettraient de distinguer les
consonnes simples des géminées. Nous avons enregistré six locuteurs. Chaque locuteur a
prononcé, dans un ordre aléatoire, un corpus de 27 paires minimales, répété dix fois, d’abord
en vitesse d’élocution normale, puis en vitesse d’élocution rapide. Le corpus comporte cinq
paires d’occlusives : trois sourdes et deux sonores. Il comporte également quatre paires de
constrictives : deux sourdes et deux sonores. Ces paires ont été introduites en trois positions
de mot : initiale (non absolue), intervocalique, et finale (non absolue).Les sujets sont deux
locutrices agées de 25 et 26 ans et quatre locuteurs agés de 27 et 35 ans, au moment de
l’enregistrement. Les enregistrements ont été effectués à l’Institut de Phonétique de
Strasbourg dans la chambre sourde, pour deux locuteurs (F et Kh), et au Maroc pour les
quatre autres locuteurs (K, Y, H et S) dans des endroits silencieux. Nous avons segmenté le
signal acoustique et mesuré les paramètres (intersegmentaux et intrasegmentaux) suivants : a)
la durée de la voyelle précédant la consonne cible, simple ou géminée ; b) la durée du VTT ;
c) la durée de l’occlusion ou du silence acoustique ; d) la durée du VOT ; e) la durée de la
friction ; f) la durée de la voyelle qui suit la consonne cible. Toutes les mesures ont été
soumises à des analyses statistiques.
Présentons maintenant la technique qui avait été retenue jadis pour l’acquisition des données
cinéradiographiques, extraites de la base de données de l’Institut de Phonétique de
Strasbourg.

122
7 La radiocinématographie, acquisition et traitements des radiofilms

Un aperçu historique6

C’est Roentgen qui a découvert les rayons X en 1895, ce qui a contribué à une avancée
considérable pour l’étude des gestes des articulateurs, et notamment ceux situés à l’intérieur
du conduit vocal. En effet, les rayons X ont pour propriété essentielle de traverser la matière
et de déterminer des zones plus ou moins foncées selon la plus ou moins grande opacité des
tissus traversés. En remontant jusqu’à 1916, on constate que Pacocelli-Calzia (1918) et
Navarro-Tomás (1950) avaient décidé d'utiliser les rayons X pour des études phonétiques et
de fixer sur des plaques photographiques les positions des articulateurs, vues de profil, de la
mâchoire aux fosses nasales et au larynx. Cependant, le premier avait donné l’impulsion
décisive aux travaux réalisés dans le domaine de la phonétique Chlumsky (1913), et cela au
sein de l'École de Prague. Ses travaux furent relayés par la suite par ceux de Hala & Polland
(1926), suivis ensuite par de nombreux travaux entrepris aussi bien en Allemagne, en
Angleterre, en Finlande, en France et aux États-Unis (pour une revue historique détaillée, voir
Simon (1967) et Simon et al. (2010) pour les travaux réalisés spécifiquement à l’Institut de
Phonétique de Strasbourg).

Avec l’avènement d'amplificateurs de brillance, permettant un gain de contraste de 1 à


1000, le progrès dans l’observation des mouvements des articulateurs sera décisif. Grâce à la
meilleure résolution qu'ils permettent, il devient dès lors possible de réaliser des films à des
vitesses de 36, 50, voire 100 images par seconde, avec une bonne qualité d'images. Dans la
francophonie, quelques centres se spécialisent : à Strasbourg avec Straka (1963) et Simon
(1967) ; à Paris avec Pernot et G'sell (cité in Simon (1967)), ainsi qu’au Québec avec
Gendron (1966), Rochette (1973), Charbonneau (1971) et Santerre (1971). Un nombre
impressionnant de films sur une grande variété de langues vont y être réalisées entre 1960 et
1985.

Un intérêt particulier est porté aux relations entre articulation et acoustique à partir du
Congrès de Phonétique d'Helsinki (1961) ; la radiocinématographie apporte une contribution
décisive au développement de théories sur la production de la parole, et aux premiers essais
de synthèse de type articulatoire (Fant, 1960 ; Mermelstein, 1973).

6
Cette section doit beaucoup aux travaux de Péla Simon (1967), ainsi qu’à nos échanges avec Vaxelaire (2007) et Vaxelaire
et al. (2009).
123
Questions de méthodologie

L'utilisation de la radiocinématographie en phonétique nécessite l'adaptation d'un


matériel utilisé principalement pour le diagnostic médical à une utilisation pour la recherche
fondamentale sur la production de la parole. Ce type d'études requiert en effet des précautions
spécifiques pour permettre une exploitation satisfaisante des données recueillies. Il faut
d'abord choisir un type d'exposition et une vitesse de défilement du film qui offre le meilleur
rapport possible entre qualité des images et mobilité des organes examinés. La résolution
spatiale et temporelle doit permettre une étude détaillée des mouvements des articulateurs et
de la chronologie de leurs déplacements. Il faut également que la procédure retenue rende
possible l'examen des phénomènes de coordination entre les articulateurs impliqués dans la
production d'une séquence de segments phonétiques. Pour les études sur la parole, le
compromis suivant a été le plus souvent adopté : utilisation de films au format 35 mm et
vitesse de prise de vues égale au minimum à 50 images par seconde. Le dispositif
expérimental imposé par la technique de radiocinématographie (Figure 18) est assez lourd
(Brock, 1977 ; Vaxelaire, 2007); parmi les mesures à adopter dans la procédure
d'enregistrement, il convient de s'assurer que la position de la tête du locuteur reste fixe sans
que les mouvements des articulateurs ne soient contrariés (ou se déplace très peu et dans des
conditions connues permettant des mesures correctives). Il faut veiller à réaliser une
calibration permettant, au moment de l'analyse, de reconstituer les dimensions réelles du
tractus et de mesurer précisément les distances parcourues par les articulateurs. Pour la même
raison, les déformations éventuelles apportées par les objectifs et les dispositifs de prise de
vues doivent être évaluées de manière rigoureuse. Enfin, il faut s'assurer de la parfaite
synchronisation entre les données radiologiques et le signal acoustique.

7.1 Description de l'appareillage et d'une séance d'enregistrement


La Figure 18 ci-dessous est un schéma de la salle de radiologie utilisée lors d’une
acquisition de données cinéradiographiques par l’Institut de Phonétique de Strasbourg au
Centre Hospitalier CMCO de Schiltigheim (Bas-Rhin).

124
Figure 18 : Schéma de la salle de radiologie lors de l’acquisition des films cinéradiographiques (d’après
Vaxelaire, 2007).

Le locuteur, au centre de l’image, est habillé d’un manteau de plomb afin de le


préserver des rayons diffus. Il est assis sur une chaise adaptée, et sa tête est maintenue à l’aide
d’un serre-tête, comme mentionné plus haut dans cette section, dans le but de limiter des
mouvements parasites qui rendraient la prise de mesures délicate. Il suffirait en effet d’une
légère rotation de la tête pour que la mesure de l’amplitude des gestes soit imprécise, la coupe
sagittale s’en trouvant modifiée. Le sujet est filmé à l’aide d’une caméra qui a évolué selon les
époques : les premiers films réalisés par les chercheurs de l’Institut de Phonétique de
Strasbourg ont ainsi été faits en 16 mm, avant que l’hôpital ne se dote d’une caméra 35 mm,
format qui a été le plus souvent utilisé par la suite. Notons qu’à partir de la fin des années ‘90,
le centre hospitalier s’est muni d’un système vidéo numérique, délivrant directement des
fichiers informatique au format DICOM (Digital Imaging and Communications in Medicine).
Les films que nous avons extraits de la base de données de l’Institut de Phonétique de
Strasbourg pour la présente étude sont au format DICOM (25 Hz).

Entre le locuteur et la caméra se trouve l’amplificateur de brillance. Ce dernier, qui se


situe à environ 20 cm du sujet, permet de capturer les variations du champ de rayons X,
modifiées par la densité des tissus traversés, et de transformer ces fluctuations d’intensité en
des variations de lumières proportionnelles. L'amplificateur de brillance fait converger vers un
champ de dimensions réduites, les électrons produits sur l'écran fluorescent et détermine ainsi
une augmentation de la luminosité, qui devient ainsi environ mille fois plus grande que celle

125
d'un écran de scopie ordinaire. Cette augmentation de luminosité permet de diminuer
considérablement la dose de rayons X tolérables par le sujet.

A l’opposé de la caméra et de cet amplificateur de brillance, se trouve le générateur de


rayons X. Ces rayons X ne sont pas émis en continu, mais qu’il s’agit d’émissions par
impulsions d’une durée de 2 ms, émissions qui se font en coordination avec l’ouverture du
diaphragme de la caméra. Les rayons ionisants ne sont donc diffusés que pendant près de 10%
de la durée totale des films. Signalons encore que le locuteur se trouve à 30 cm de ce
générateur.

Certains tissus, tels que les lèvres par exemple, ne sont pas visibles lorsque la
propagation des rayons X est à son maximum. D’où la présence d’un cache en plomb, placé
entre le locuteur et le générateur de rayons X qui a pour but d’atténuer la densité des rayons,
cela pour mieux discerner le contour de certains articulateurs.

Par ailleurs, une petite tige en plomb est également placée dans le champ, de façon à
ce qu’elle soit visible, mais qu’elle n’entre pas en contact avec les articulateurs qui seront
étudiés. Cette tige est reliée à un interrupteur qui est placé dans la cabine de radiologie. Au
début de chaque séquence, une impulsion est donnée sur l’interrupteur, impulsion qui fait
descendre la tige à l’aide d’un aimant. Une fois que la barrette arrive à son niveau le plus bas,
son contact avec l’aimant provoque un signal sonore qui est amplifié et qui permet une post-
synchronisation des images avec le son, comme nous le verrons plus bas.

Figure 19 : Représentation d’une photographie réalisée au moment de l’acquisition du film cinéradiographique.

126
Figure 20 : Installation de cinéradiographie et exemples d'images extraites de radiofilms (Vaxelaire et al., 2009).

Enfin, il est utile de signaler qu'une fois l’enregistrement terminé, une grille de
calibrage est positionnée à l’emplacement exact de la tête du locuteur.

En ce qui concerne l’enregistrement de la voix, il s’effectue à l’aide d’un microphone


placé à 20 cm des lèvres. Pour nos films, plus récents, le son est enregistré sur un enregistreur
DAT.

Etant donné que le son a parfois pu être enregistré directement sur un support
numérique, comme ce fut le cas pour nos investigations, la méthode de synchronisation était
relativement simple. En effet, la correspondance entre les données visuelles et sonores
s’obtient alors en faisant correspondre le « top » provoqué par la tige en plomb, avec
l’emplacement de cette barrette sur les images (Connan et al., 2003). En d’autres termes, cette
technique consiste à faire coïncider le début du bruit de la tige sur le signal acoustique avec la
première image où cette même tige est à sa position la plus basse (voir Figure 21). Précisons
que pour réaliser cette opération, le « top » provoqué par la tige était enregistré, tout comme
l’audio, sur un canal de l’enregistreur digital.

Figure 21 : La tige réalise un mouvement vers le bas et provoque au contact de l'aimant un bruit que l’on
retrouve sur le signal acoustique.

127
L'analyse des données pose en particulier des difficultés spécifiques, liées à
l’extraction des contours des articulateurs à partir de trames individuelles des films
radiologiques, à la correction des mesures à partir des grilles de calibration, et au choix des
mesures les plus pertinentes.

7.3. Exploitation des radiofilms

7.3.1. Représentation sagittale

Les radiofilms fournissent une information dans le plan sagittal de la position et des
déplacements d'un certain nombre d'articulateurs tels que les lèvres, la mâchoire, la langue, le
voile du palais, le pharynx, l'os hyoïde et le larynx.

Figure 22 : Illustration de la coordination motrice entre plusieurs articulateurs dans une séquence [iky] (in
Vaxelaire et al., 2009).

7.2 Extraction des contours, tracés radiologiques, méthodes manuelles,


semi-automatiques et automatiques
L’analyse des données cinéradiographiques nécessite une connaissance précise des
contours du conduit vocal étudié. La plupart des recherches utilisant cette technique ont
reposé sur une extraction manuelle des contours. Pour ce faire, les films en 35 mm sont
projetés, en chambre noire, sur un plan de travail à l’échelle 1 (Figure 23 à gauche). Cette
échelle est obtenue en projetant la grille de référence ci-dessous sur le plan de travail (Figure
23 à droite) et en réglant l’appareil de visualisation de telle sorte que la longueur entre deux
repères soit de 1 cm. Une fois ce résultat atteint, les images du film correspondant sont
projetées sur le plan de travail. Il s’agit alors de dessiner le contour des articulateurs requis
lors de la production de la parole, à savoir les dents, les lèvres, la langue, la mandibule,
l’épiglotte, l’os hyoïde, le larynx, le palais, le voile du palais…

128
Figure 23 : Exemple d’un plan de travail avec projecteur utilisé pour le traçage manuel des radiogrammes (à
gauche), et un exemple d’une grille de référence projetée sur le plan de travail (à droite). (in Vaxelaire et al.,
2009).

L'extraction des contours et la mesure de la position de la langue ne sont pas une tâche
aisée, dans la mesure où le contraste entre les tissus est relativement faible, et qu'il est souvent
nécessaire, même pour un expert phonéticien, de revoir plusieurs fois les séquences de parole
filmées et analysées avant de pouvoir déterminer la limite des contours de la langue. Il est
parfois utile de revenir sur des images et de visualiser celles qui sont à venir pour délimiter,
avec le plus de précision possible, la position de la langue sur l’image étudiée. En outre,
l’expert phonéticien doit parfois choisir entre plusieurs contours de la langue. En effet,
certaines images présentent parfois un contour sur le plan médian de la langue ainsi que sur
ses côtés, ce qui donne lieu à deux, voire trois, contours de la langue. Généralement, c’est le
contour correspondant au plan médio-sagittal de la langue qui est privilégié (voir Figure 24),
malgré le fait que les deux côtés de la langue sont susceptibles d’avoir un impact phonétique.
De ce fait, la réalisation de tracés des images individuelles des radiofilms est une tâche
particulièrement fastidieuse qui peut limiter l'ampleur des études.

Le recours à des techniques automatiques et semi-automatiques a été ainsi recherché et


les résultats obtenus sont sujets à une analyse scrupuleuse. Ce recours à des techniques
informatiques s’explique également par le fait que le support sur lequel figure nos films, qui
sont parmi les films les plus récents, a évolué, puisqu’il s’agit de fichier informatique au
format DICOM. Il en va de même pour l’analyse des films de 35 mm numérisés, ou en cours
de numérisation qui requièrent un traitement digital également.
129
Figure 24 : Exemple de croquis de radiogramme (d’après Vaxelaire, 2007)

Le LORIA (Laboratoire lorrain de Recherche en Informatique et ses Applications) de


Nancy, sous la direction de Yves Laprie, et en collaboration avec l’Institut de Phonétique de
Strasbourg, ont développé un logiciel X-Articulator dans le cadre d’un projet de recherche
DOCVACIM (Sock et al., 2011). Ce logiciel vise à obtenir le contour des différents
articulateurs de manière automatique ou semi-automatique. Il fonctionne dans un
environnement Linux et permet, à partir de n’importe quel support numérique converti en
format .pgm, d’obtenir un suivi automatique des mouvements labiaux, mandibulaire, de l’os
hyoïde et du larynx sur tout un film (Figure 25). En ce qui concerne le tracé de la langue, il
fait l’objet d’un suivi semi-automatique sur la totalité du film. L’expert a pour tâche de placer
un certain nombre de points sur le contour de la langue pour une sélection d'images d’un film.
Cette procédure permet d'initialiser le traitement et rend possible le recalage systématique du
tracé automatisé. Nous reviendrons, infra, un peu plus en détail sur nos mesures effectuées à
l’aide de X-Articulator.

Figure 25 : Interface de X-Articulators (LORIA, Nancy).


130
7.3.3. Types de mesures

Il existe plusieurs méthodes de calcul pour mesurer les déplacements des différents
organes articulatoires et les modifications de la forme des résonateurs. Une première méthode,
à base de références angulaires (coordonnées semi-polaires), est utilisée dans le dépouillement
de données nombreuses relevées sur des sujets différents. Elle a, si l'on peut dire, l'avantage
de procéder de manière « aveugle » et de ne reposer sur aucun pré-requis de connaissances
phonétiques. Cette approche peut être utile pour des études sur les relations entre l'articulation
et l'acoustique, et pour le développement de modèles articulatoires de production de la parole.
Le modèle de Maeda (1990) a, par exemple, obtenu des résultats très intéressants à partir de
cette méthode.

Mais revenons sur la grille de mesures évoquées plus haut, ainsi que sur la méthode
utilisée pour la prise de mesures manuelle. Etant donné que les configurations du tractus vocal
sont différentes pour chaque locuteur, il est nécessaire de réaliser une grille pour chaque sujet.
La grille de mesure fonctionne par rapport à un repère orthonormé (Figure 26) qui est tracé au
préalable sur du papier calque millimétré. L’utilisation d’un repère orthonormé présente
l’avantage d’être un moyen efficace pour mesurer les distances dans le tractus vocal : il
permet en effet d’observer les déplacements maximaux : la projection des lèvres, le
déplacement de la langue, de la mandibule…

Figure 26 : Exemple de grille de mesures.

Une fois le repère orthonormé tracé et avant de prendre des mesures, il convient de
choisir une image de référence que l’on préférera neutre, nette et sûre du point de vue des
contours. L’image de référence peut, par exemple, être une position de repos où les lèvres ne
sont pas projetées, la langue n’est pas en mouvement et le velum est abaissé, ce qui laisse
131
libre le passage de l’air vers les fosses nasales. La méthode consiste ensuite à reproduire sur le
calque millimétré, où le repère orthonormé a été tracé auparavant, l’incisive supérieure et le
palais dur. Rappelons qu’il s’agit des seuls éléments fixes du tractus vocal, en faisant ainsi des
points de références particulièrement fiables. La pointe de l’incisive est placée de telle façon
qu’elle soit à 5 cm du point 0. L’oblique ainsi obtenue doit sectionner l’angle droit du repère
orthonormé en deux parties égales. Cette partie décalquée sera ensuite à superposer sur
chaque croquis le plus finement possible. Le repère orthonormé permet de mesurer la
courbure de la langue et d’indiquer son déplacement dans la cavité buccale.

Revenons maintenant, dans les détails, sur les démarches que nous avons suivies pour
la prise de nos mesures, faite de manière automatique ou semi-automatique (Busset, 2013)

L’image du locuteur dans la Figure 27 correspond à une vue sagittale qui montre,
outre les différents articulateurs, les structures osseuses de la tête.

On voit clairement l’os de la mâchoire inférieure, une structure rigide qui ne se


déforme pas dans le temps. Son déplacement s’effectue uniquement dans le plan sagittal et
correspond à un mouvement de rotation et de translation. Etant donné la rigidité de cette
structure, ainsi que la trajectoire relativement régulière de ses déplacements, il devient
possible d’opérer un suivi automatique par corrélation pour calculer ses mouvements. Le suivi
par corrélation consiste à rechercher dans une image une région donnée correspondant à une
région de référence. La région déplacée suit un mouvement rigide composé d’une rotation et
d’une translation.

Voile du palais

Langue

Lèvres
Pharynx

Epiglott
Mandibule
e

Os hyoïde
Larynx

Figure 27 : Radiographie d’une vue sagittale du conduit vocal

132
L’algorithme de suivi démarre par le choix d’une image de référence. Sur cette image,
une région associée à la mâchoire doit être déterminée de façon à ce qu’elle apparaisse sur
toutes les autres images de manière précise. La région choisie ne doit pas chevaucher le filtre,
visible dans le coin, en bas à droite de l’image, et il est préférable aussi que son intersection
avec la langue soit limitée au minimum. Cette région retenue pour le suivi est représentée
dans la Figure 28.

Rotation

Translation

Figure 28 : L’image de référence de la mâchoire qui apparait sur toutes les autres images

Signalons que pour chaque image de la séquence, on recherche la région de référence


à une rotation et une translation près. Les paramètres du mouvement ainsi obtenus constituent
les paramètres du mouvement de la mâchoire. La figure11 montre un exemple de résultat
obtenu à partir du suivi par corrélation. Cette image est l’image de référence retenue, sur
laquelle une région pour la mâchoire a été définie et sur laquelle la rotation et la translation
calculées ont été appliquées.

La position des incisives inférieures est définie par un point dans le plan sagittal ; ce
point se situe sur la partie supérieure des incisives inférieures. Le plancher de la bouche est
représenté par un contour tracé manuellement. La position des incisives inférieures et le
plancher de la bouche sont définis sur l’image de référence utilisée pour initialiser le suivi de
la mâchoire. Leur position est obtenue en appliquant le mouvement obtenu pour la région de
la mâchoire (voir Figure 28).

L’algorithme de suivi par corrélation peut être utilisé pour toutes les structures rigides
qui ne sont pas entièrement recouvertes par d’autres organes. En effet la corrélation n’est plus
pertinente lorsque deux organes indéformables se recouvrent trop. Ainsi dans la quasi-totalité
des films disponibles il est possible de suivre la position de l’os hyoïde par corrélation parce
133
que l’os hyoïde n’est pas caché par d’autres structures osseuses. Ce n’est hélas pas le cas pour
le locuteur F pour lequel l’os hyoïde remonte beaucoup et est partiellement caché par la
mandibule (voir Figure 29), ce qui fait échouer le suivi par corrélation. Nous avons utilisé les
outils de déplacement manuel des contours offerts par X-Articulator pour corriger les
positions incorrectes. Plus généralement, X-Articulator est conçu de manière à pouvoir éditer
manuellement les résultats des suivis automatiques ou semi-automatiques. Il est ainsi possible
de corriger point par point tous les contours, ou de leur appliquer des rotations et des
translations de manière à les positionner au mieux.

Figure 29 : Le cas d’un os hyoïde remonté et partiellement caché par la mandibule

Le suivi est aussi utilisé pour connaître le mouvement de la tête. En effet, malgré le
fait que la tête du locuteur soit maintenue à l’aide d’un serre-tête, on peut tout de même
constater de légers mouvements de la tête. Comme pour la mâchoire, on définit une région
dans la partie supérieure de la tête, puis son mouvement (une rotation et une translation) est
calculé pour les autres images.

Le mouvement de la tête permet d’obtenir le contour du palais dur. En effet, le palais


dur suit le même mouvement que la tête. C’est pourquoi, le contour du palais dur est tracé sur
l’image de référence auquel on applique le mouvement de la tête pour les autres images
(Figure 29).

Etant donné que les lèvres se déplacent en se déformant très légèrement dans le temps,
il n’est pas possible de suivre leur mouvement automatiquement par corrélation, à l’aide une
image de référence. Les contours des lèvres sont visibles et ne sont pas recouverts par d’autres
organes. En outre, en observant visuellement les images, on constate que de nombreuses
formes labiales sont semblables. En conséquence, le tracé des lèvres sur toutes les images
serait inutile étant donné la forte ressemblance entre les formes. C’est donc le suivi semi-
automatique proposé par Fontecave & Berthommier (2006) qui est retenu. Il s’agit, en
134
substance, de tracer les contours sur un nombre réduit d’images clés, puis de calculer les
contours sur les autres images à parti de ces images clés.
Pour détourer les contours d’une image inconnue, on calcule la distance DCT
(Discrete Cosine Transform ou Transformée en Cosinus Discrète en français) avec les images
clés. On retient les trois images clés les plus proches de l’image à traiter, et le contour résultat
est obtenu en pondérant les contours tracés sur les images clé par leur distance (à l’image à
traiter). Cet algorithme de suivi opère donc par indexation de l’image inconnue dans la base
des images clé. Le suivi marche d’autant mieux que le nombre d’images clés est grand et que
les images clés reflètent bien la variabilité des images à traiter. Quand le suivi échoue sur une
image, ses contours sont corrigés et elle est ajoutée aux images clés. Les performances du
suivi s’améliorent donc itérativement

Pour que la distance DCT soit pertinente, il faut que la région sur laquelle elle
s’applique ne concerne que le contour que l’on veut suivre. Pour cette raison, on délimite
préalablement la région qui contient le contour à suivre dans toutes les images. Cette région
n’est pas forcément rectangulaire de manière à ne considérer que le contour à suivre. De
manière à automatiser ce processus, la région d’intérêt est positionnée automatiquement par
rapport à la région indéformable, en l’occurrence la partie basse des os du crâne, qui a été
repérée pour toutes les images de la séquence.

L’épiglotte et le larynx possèdent les mêmes caractéristiques que les lèvres, c’est-à-
dire qu’ils se déforment légèrement, possèdent un contour visible et ne sont pas recouverts par
d’autres organes.

Figure 30 : Image cinéradiographique présentant les contours utilisés pour l’épiglotte et le larynx.

135
C’est par conséquent le même algorithme de suivi que celui pour les lèvres qui est
utilisé. La Figure 31 (épiglotte) montre les contours des régions utilisées pour le suivi de
l’épiglotte, de la paroi fixe du pharynx et du larynx. La région utilisée pour l’épiglotte est
hachurée en rouge. Elle a été choisie de manière à contenir le contour de l’épiglotte dans
toutes les images tout en conservant une taille minimale pour limiter l’influence des autres
structures déformables ou rigides. Les deux autres régions utilisées respectivement pour la
paroi du pharynx et le larynx ont été choisies de la même manière.

Le dernier articulateur étudié est la langue. La langue est l’articulateur le plus difficile
à suivre automatiquement. Plusieurs études sur le suivi automatique de la langue ont montré
que cette tâche n’est pas aisée (Berger et al., 1995 ; Thimm & Luettin, 1999 ; Fontecave &
Berthommier, 2006).

Tout d’abord, il faut rappeler que la forme de la langue peut conduire à plusieurs
contours dans le plan sagittal. En effet, la langue présente un sillon central, une vue sagittale
peut donc faire apparaître deux contours (voire trois si la langue n’est pas symétrique). De
plus, le contour peut être caché par d’autres organes comme les dents ou les os de la
mâchoire. C’est pourquoi les contours de la langue ont été tracés manuellement avec le
logiciel X-Articulator. Le contour de la langue tracé est celui correspondant au sillon central.

Afin de faciliter le traçage des contours, le logiciel X-Articulator permet d’afficher


rapidement les images précédentes ou suivantes de l’image en cours d’analyse. En effet, la
visualisation du mouvement aide souvent à situer le contour de la langue qui peut être
confondu avec d’autres organes.

Figure 31 : Les régions utilisées pour le recalage des images cinéradiographique.

La région en haut de l’image qui correspond aux fosses nasales est utilisée pour recaler
les images entre elles en soustrayant le mouvement global de la tête à chacune des images de

136
la séquence. Les régions utilisées pour le suivi semi-automatique sont représentées en rouge.
Celle correspondant à l’épiglotte est hachurée en rouge pour mieux la mettre en évidence. La
position de chacune de ces régions est définie relativement à celle (située dans les fosses
nasales) utilisée pour le recalage des images entre elles. Les traits bleus représentent le lien
entre les régions. Un autre lien existe entre la région de recalage des fosses nasales et le palais
parce que la position relative du palais a été définie pour une image de référence de la
séquence. Une fois que la position de la région de recalage est déterminée à l’aide du suivi par
corrélation, éventuellement corrigée manuellement, la position du palais est aussitôt connue
parce que donnée par ce lien.

Figure 32 : Repère géométrique utilisé pour la mesure de la position des articulateurs ou de la constriction.

Nous avons utilisé la position de l’incisive supérieure comme point de référence.


Toutes les positions sont donc calculées relativement à ce point. Par ailleurs nous avons fait
l’hypothèse que la tête du locuteur n’est pas animée d’un mouvement de rotation ce qui évite
d’avoir à prendre en compte un angle supplémentaire. Cette hypothèse est bien vérifiée dans
la pratique.

L’axe des abscisses est l’axe horizontal, les abscisses croissant de droite à gauche et
l’axe des ordonnées est l’axe vertical, les ordonnées croissant du bas vers le haut. Ce choix a
été dicté par des considérations de mise en œuvre informatique. On mesure ainsi la position
de l’os hyoïde donnée par le deuxième des trois points utilisés pour le représenter sur l’image,
la position de l’incisive inférieure et celle du centre du larynx. On mesure aussi l’ouverture
aux lèvres donnée par la différence des ordonnées du point le plus bas de la lèvre supérieure et
du point le plus haut de la lèvre inférieure. La protrusion des lèvres est donnée par l’abscisse
du point le plus en avant des lèvres inférieure et supérieure. Par ailleurs, l’angle de la
mandibule est calculé par rapport au palais.
137
La constriction est donnée par le point de la langue dont la distance au palais (mesurée
par projection orthogonale) est minimale. Cette distance donne l’ouverture de la constriction.
Pour repérer la position de la constriction, nous utilisons le contour du palais et nous
calculons la longueur du chemin entre l’incisive supérieure et le lieu de la constriction comme
l’indique la Figure 32. Nous avons fait ce choix plutôt que d’utiliser les coordonnées
cartésiennes du point de constriction parce que cela correspond mieux à la définition
traditionnelle des lieux d’articulation donnés relativement à la paroi fixe du conduit vocal.
Quand il y a contact entre la langue et le palais, c’est le point de la constriction le plus en
avant dans le conduit vocal qui est choisi. Par ailleurs nous avons cherché une solution pour
représenter la nature de la constriction, soit ponctuelle comme pour un /l/ par exemple, soit
sous forme de canal comme pour un // par exemple. Pour cela nous avons considéré trois
distances au palais plus grandes de 3, 5 ou 11 mm que la distance au palais mesurée à la
constriction appelées respectivement d1, d2, et d3. Pour chacune de ces valeurs de distance di
nous avons calculé l’étendue de la région du palais autour de la constriction pour laquelle la
distance à la langue est inférieure à di. Bien sûr par construction d1 < d2 < d3. Si la constriction
est ponctuelle (comme pour /l/) les trois valeurs sont assez proches l’une de l’autre. Au
contraire pour une constriction en forme de canal (comme pour //) d2 est nettement plus grand
que d1, et d3 plus grand que d2. Ces valeurs d’étendue peuvent donc être utilisées pour
caractériser la forme de la constriction.
Après avoir procédé au traitement des contours des articulateurs, et grâce au logiciel
X-articulator, on obtient les valeurs des paramètres mesurées comme dans le fichier suivant,
correspondant à une image :

Frame 4 F10046.grd
Hyoid position (wrt to upper incisor) in cm -4.61825 3.21958
Lower incisor (wrt to upper incisor) in cm -0.36946 -0.23751
Angle between mandible and palate (in degree) -15.3178
Larynx center (wrt to upper incisor) in cm -5.83147 6.01212
Lip aperture in cm 0.624071
Upper lip protrusion in cm (wrt to upper incisor) 1.2811
Lower lip protrusion in cm (wrt to upper incisor) 0.650751
Pharynx constriction in cm 1.85716
at (in cm wrt to upper incisor)-8.55036 0.44863
Constriction opening (cm) 0.31311
Distance from upper incisor (cm) 0.481834
138
Constriction < 0.51311 (cm) from 0.240816 cm to 1.67649(cm)
Constriction < 0.81311 (cm) from 0.240816 cm to 2.76019(cm)
Constriction < 1.11311 (cm) from 0.240816 cm to 6.49482(cm)
En ce qui concerne le phénomène de la gémination, nous avons retenu les paramètres
articulatoires suivants :

- L’ouverture de la constriction

- La constriction pharyngale

- L’aperture labiale

- La position du larynx

- La position de l’os hyoïde

Pour ce qui concerne l’étendue de contact, nous renvoyons le lecteur au chapitre 11 pour les
explications relatives à la mesure de ce paramètre articulatoire.

La radiocinématographie a contribué à une avancée considérable pour l’étude des gestes des
articulateurs, et notamment ceux situés à l’intérieur du conduit vocal. Elle apporte une
contribution décisive au développement de théories sur la production de la parole, et aux
premiers essais de synthèse de type articulatoire. Les deux films (un par locuteur) que nous
avons extraits de la base de données de l’Institut de Phonétique de Strasbourg pour la
présente étude sont au format DICOM (25 Hz). Une postsynchronisation des images et du
son est nécessaire avant de pouvoir exploiter les données. Les radiofilms fournissent une
information dans le plan sagittal de la position et des déplacements d'un certain nombre
d'articulateurs tels que les lèvres, la mâchoire, la langue, le voile du palais, le pharynx, l'os
hyoïde et le larynx. Par rapport aux films de cette investigation, un logiciel X-Articulator
nous a permis d’obtenir le contour des différents articulateurs de manière automatique ou
semi-automatique. Pour notre étude sur la gémination, nous avons retenu les paramètres
articulatoires suivants : a) l’ouverture de la constriction ; b) La constriction pharyngale ; c)
l’aperture labiale ; d) la position du larynx ; e) la position de l’os hyoïde ; f) l’étendue de
contact.
Ces considérations clôturent cette partie sur les procédures expérimentales. Il convient
maintenant de passer à l’analyse de nos données, en commençant par celles relevant du
domaine acoustique.

139
8 Etude des paramètres temporels : durées absolues
Dans cette partie, nous allons analyser quelques paramètres temporels des occlusives
non voisées, des occlusives voisées, des constrictives non voisées et des constrictives voisées,
dans trois positions de mot : initiale non absolue, intervocalique et finale non absolue. Les
mesures de durées absolues ont été effectuées, d’une part au niveau intersegmental, à savoir la
durée de la tenue consonantique et la durée des voyelles adjacentes et, d’autre part, au niveau
intrasegmental, la durée du VTT, celle du silence acoustique et du VOT, pour les occlusives
sourdes. En ce qui concerne les occlusives sonores, outre les durées intersegmentales de la
tenue consonantique et des voyelles adjacentes, nous avons mesuré la durée de l’occlusion et
celle du VOT (Klatt, 1975).

L’objectif de cette expérience est de voir si les paramètres temporels mentionnés ci-
dessus jouent un rôle significatif, au niveau du timing, dans l’opposition phonologique entre
les consonnes simples et les géminées du tarifit. Il s’agit aussi de tester la robustesse de ces
paramètres dans le maintien éventuel de l’opposition phonologique, en variant la vitesse
d’élocution.

Hypothèses

- Hypothèse n° 1 : La gémination étant un fait phonologique temporel de quantité


consonantique, il est tout-à-fait cohérent de s’attendre à des différences de durées
consonantiques, plus longues pour les géminées que pour les simples.

- Hypothèse n° 2 : Des faits phonologiques reposant habituellement sur des dimensions


pluri-indicielles, nous pensons que la ou les voyelles adjacentes pourraient contribuer à
renforcer le trait phonologique de la gémination.

- Le silence acoustique pour les sourdes (Hypothèse n° 3) et l’occlusion consonantique


pour les sonores (Hypothèse n° 4), deux intervalles intrasegmentaux consonantiques,
devraient sous-tendre l’opposition phonologique de la gémination, en tant qu’indices de
renfort du trait potentiellement principal de la tenue consonantique.

- Hypothèse n° 5 : Nous pensons, comme précisé auparavant, que l’opposition entre


consonnes simples et géminées, qui pourrait reposer aussi sur des différences de pression
intra-orale durant la tenue consonantique, et également sur des différences de changement de
la pression d’air au relâchement, aurait une incidence sur la durée du VOT ; la durée du VOT
des géminées devrait, en conséquence, être plus longue que celle des simples.

140
- Hypothèse n° 6 : Il est probable que le VTT des simples soit plus long que celui des
géminées, étant donné que plus la tenue consonantique est brève, plus la proportion du délai
d’arrêt du voisement dans cette tenue risque d’être élevée.

- Hypothèse n° 7 : Le signal de parole étant intrinsèquement élastique, tous les segments


devraient subir une compression avec l’augmentation de la vitesse d’élocution, ce qui ne
devrait pas empêcher les catégories oppositives de rester distinctes, afin de préserver
l’opposition phonologique de la gémination.

Nos observations liminaires ont révélé que les résultats intra-locuteurs étaient
sensiblement les mêmes pour nos six locuteurs. Nous avons, en conséquence, décidé de ne
présenter in texte que les résultats tous locuteurs confondus. Cela dit, nous donnons, ci-
dessous, quelques résultats représentatifs pour chaque locuteur (voir Figure 33 à Figure 38 et
Tableau 10 à Tableau 15).

De manière générale, ces données montrent que chaque locuteur oppose les simples et
les géminées grâce à la tenue consonantique sur le plan intersegmental, et le silence
acoustique, ainsi que l’occlusion consonantique sur le plan intrasegmental, et cela dans les
deux conditions de vitesse d’élocution. Des commentaires plus détaillés figurent plus loin
dans l’analyse des résultats, tous locuteurs confondus.

Valeurs intersegmentales [ata] vs. [atta] Vitesse Normale Valeurs intersegmentales [ata] vs. [atta] Vitesse Rapide
300 300

250 250
FS FS
FG FG
200 Kh S 200 Kh S
Kh G Kh G
Durée (ms)

KS
Durée (ms)

KS
150 KG 150 KG
YS YS
YG YG
100 HS 100 HS
HG HG
SS SS
50 SG 50 SG

0 0
a t a a t a

Figure 33 : Valeurs intersegmentales /ata/ vs. /atta/ en vitesse d’élocution normale à gauche et en vitesse
d’élocution rapide à droite (S = simples et G = géminées).

141
Tableau 10 : Valeurs des moyennes et des écarts-types des durées intersegmentales (en noir pour la vitesse
d’élocution normale et en rouge pour la vitesse d’élocution rapide) pour /ata/ et /atta/ en (ms).

Simple Géminée
a t a a t a
[ata] vs. [atta] VN VR VN VR VN VR VN VR VN VR VN VR
F Moyenne 87,5 55,6 116,6 75,3 173,9 96,7 72,6 52,2 238,4 178,8 173,4 85
Ecart-type 12,6 5,8 4,6 8,3 13,7 6,7 8,3 6,2 14,2 26,4 8,4 8,9
Kh Moyenne 85,5 63,1 109,9 93,9 146,8 94,5 69,9 52,3 218,3 157,8 147,9 94,4
Ecart-type 11,3 5,1 13,3 5,2 11,0 8,8 6,1 3,9 8,4 13,8 12,7 11,7
K Moyenne 58,5 58,4 159,3 137 139 117 49,2 55,1 222,3 187,5 151,6 116,4
Ecart-type 9,1 6,4 14,7 15,5 10,0 10,2 5,2 7,2 13,8 9,9 13,2 10,2
Y Moyenne 78,4 64,3 94,6 85,8 113,8 94,9 70,6 59,8 195,7 168,1 108 79,9
Ecart-type 7,5 5,3 3,7 6,5 12,3 7,6 6,2 4,2 12,9 9,7 13,0 7,5
H Moyenne 91,1 63,7 119,1 91,1 152,1 95 87,6 58,8 210,6 137,7 149,5 94,1
Ecart-type 6,5 6,9 13,3 5,4 13,4 5,9 7,2 6,2 32,1 18,3 13,6 3,8
S Moyenne 88,8 55,9 121,9 87,2 139,5 82,4 83,2 54,4 244,1 151,8 153,1 84,5
Ecart-type 7,8 4,3 7,1 4,0 9,3 8,6 6,7 6,6 39,1 18,5 13,6 5,7

Valeurs intrasegmentales [ata] vs. [atta] Vitesse Normale Valeurs intrasegmentales [ata] vs. [atta] Vitesse Rapide
300 300

250 FS 250 FS
FG FG
Kh S Kh S
200 200
Kh G Kh G
Durée (ms)
Durée (ms)

KS KS
150 KG 150 KG
YS YS
YG YG
100 HS 100 HS
HG HG
SS SS
50 50
SG SG

0 0
vtt sil vot vtt sil vot

Figure 34 : Valeurs intrasegmentales /ata/ vs. /atta/ en vitesse d’élocution normale à gauche et en vitesse
d’élocution rapide à droite (S = simples et G = géminées).

Tableau 11 : Valeurs des moyennes et des écarts-types des durées intrasegmentales (en noir pour la vitesse
d’élocution normale et en rouge pour la vitesse d’élocution rapide) pour /ata/ vs. /atta/ en (ms).

Simple Géminée
vtt sil vot vtt sil vot
[ata] vs. [atta] VN VR VN VR VN VR VN VR VN VR VN VR
F Moyenne 24,2 14,5 69,1 40,2 23,3 20,6 33,30 16,7 186,70 145,8 18,40 16,3
Ecart-type 3,9 2,5 7,8 8,4 5,5 2,6 6,41 2,9 13,97 25,6 3,06 2,2
Kh Moyenne 23,7 12,5 50,2 54,5 36 26,9 30,3 16,9 153,7 116,9 34,3 24
Ecart-type 2,5 1,6 11,1 4,2 3,9 3,0 4,8 2,6 7,3 12,1 3,2 2,0
K Moyenne 21,9 17,3 101,5 86 35,9 33,7 25,1 19,9 167,4 141,6 29,8 26
Ecart-type 2,8 4,1 17,0 15,6 2,7 3,5 2,7 2,8 12,9 7,5 3,3 3,9
Y Moyenne 16,2 15,5 47,5 46 30,9 24,3 28,2 26,7 147,5 118,3 20 23,1
Ecart-type 1,5 3,3 4,7 10,8 3,5 8,9 5,7 5,2 11,4 9,3 1,8 1,6
H Moyenne 21,3 17,6 72 51,1 25,8 22,4 25,4 23,9 163,1 94,2 22,1 19,6
Ecart-type 2,9 3,0 13,4 4,7 4,4 2,9 3,3 6,3 32,4 19,1 2,1 1,9
S Moyenne 18,2 15,8 82,8 53 20,9 18,4 23,1 18,1 205,4 117,4 15,6 16,3
Ecart-type 2,3 2,1 11,9 6,4 6,6 4,6 3,8 4,8 39,9 15,7 3,5 1,9

142
Valeurs intersegmentales [aka] vs. [akka] Vitesse Normale Valeurs intersegmentales [aka] vs. [akka] Vitesse Rapide
300 300

250 250
FS FS
FG FG
200 Kh S 200 Kh S
Kh G Kh G

Durée (ms)
KS
Durée (ms)

KS
150 KG 150 KG
YS YS
YG YG
100 HS 100 HS
HG HG
SS SS
50 SG 50 SG

0 0
a k a a k a

Figure 35 : Valeurs intersegmentales /aka/ vs. /akka/ en vitesse d’élocution normale à gauche et en vitesse
d’élocution rapide à droite (S = simples et G = géminées).

Tableau 12 : Valeurs des moyennes et des écarts-types des durées intersegmentales (en noir pour la vitesse
d’élocution normale et en rouge pour la vitesse d’élocution rapide) pour /aka/ et /akka/ en (ms).

Simple Géminée
a k a a k a
[aka] vs. [akka] VN VR VN VR VN VR VN VR VN VR VN VR
F Moyenne 88,2 62,1 135,2 86 141,3 51,7 100,5 65 279 186,7 147,6 51,2
Ecart-type 12,9 4,9 8,1 6,6 15,7 6,1 8,3 2,7 15,4 31,3 9,7 7,0
Kh Moyenne 81 62,6 126,1 92,8 121,5 60,5 91,3 61,6 217,2 169,1 124 68
Ecart-type 10,6 3,4 6,5 8,9 3,6 11,0 18,2 5,5 10,9 20,6 7,8 16,0
K Moyenne 86 66,8 177,7 145,6 89,7 79,1 75,6 63,8 225 189,1 99,3 79,2
Ecart-type 9,4 5,3 8,8 5,2 14,8 8,2 15,6 7,7 7,8 8,0 17,2 9,1
Y Moyenne 77,4 62,4 113,8 93,6 68,5 63,1 73,3 64 201,2 161,5 69 64,6
Ecart-type 8,7 3,1 9,4 4,8 10,3 6,8 6,2 1,7 15,2 7,7 8,8 6,3
H Moyenne 92,1 62,1 123,2 91,4 109,3 66,3 88,9 62,9 258,2 145,7 109,4 62,9
Ecart-type 5,3 2,8 7,7 5,5 9,0 3,1 10,2 2,1 32,4 14,0 9,1 5,4
S Moyenne 98,3 61 131,8 93,9 96,9 53,8 90,2 63,9 241,5 168,9 110,4 54,3
Ecart-type 9,4 6,8 8,9 8,3 10,3 5,0 6,8 4,9 13,4 41,0 17,2 13,5

Valeurs intrasegmentales [aka] vs. [akka] Vitesse Normale Valeurs intersegmentales [aka] vs. [akka] Vitesse Rapide
300
250

250
200 FS FS
FG FG
Kh S 200 Kh S
Kh G Kh G
150
Durée (ms)

KS
Durée (ms)

KS
KG 150 KG
YS YS
100 YG YG
100 HS
HS
HG
HG
SS
50 SS
50 SG
SG

0 0
vtt sil vot a k a

Figure 36 : Valeurs intrasegmentales /aka/ vs. /akka/ en vitesse d’élocution normale à gauche et en vitesse
d’élocution rapide à droite (S = simples et G = géminées).

143
Tableau 13 : Valeurs des moyennes et des écarts-types des durées intrasegmentales (en noir pour la vitesse
d’élocution normale et en rouge pour la vitesse d’élocution rapide) pour /aka/ vs. /akka/ en (ms).

Simple Géminée
vtt sil vot vtt sil vot
[aka] vs. [akka] VN VR VN VR VN VR VN VR VN VR VN VR
F Moyenne 27,7 17,1 69,4 44,8 38,1 24,1 38,5 19 207,1 146,6 33,4 21,1
Ecart-type 3,0 2,1 8,1 8,3 5,3 3,4 8,7 5,9 8,9 26,0 4,6 2,4
Kh Moyenne 22,5 16,4 58,7 42,3 44,9 34,1 35,5 18,6 133 116,8 48,7 33,8
Ecart-type 3,1 2,1 6,2 7,1 3,6 4,7 4,7 3,9 10,5 17,6 2,5 3,0
K Moyenne 28 22,2 101,1 84,6 48,6 38,8 24,2 18,8 155,1 133,9 45,7 36,4
Ecart-type 3,5 2,8 6,2 3,6 5,8 4,6 4,6 2,7 8,9 7,4 5,1 2,7
Y Moyenne 21,7 19,8 58,2 44,2 33,9 29,6 26,3 26,9 144,9 107,6 30 27
Ecart-type 2,7 4,2 8,8 7,5 3,1 5,6 4,0 4,4 16,8 6,9 5,0 3,2
H Moyenne 23,3 19,2 72,3 51,2 27,6 21 27,1 23,6 206,3 101,5 24,8 20,6
Ecart-type 5,0 1,9 8,1 5,9 3,3 2,5 4,8 3,0 32,8 12,7 2,5 2,7
S Moyenne 23,9 15,7 73,4 47,4 34,5 30,8 22,4 20,1 184,7 120,4 34,4 28,4
Ecart-type 3,7 2,9 7,5 7,9 4,9 3,5 4,6 3,4 15,1 41,2 4,5 3,1

Valeurs intersegmentales [aqa] vs. [aqqa] Vitesse Normale Valeurs intersegmentales [aqa] vs. [aqqa] Vitesse Rapide
300 300

250 250
FS FS
FG FG
200 Kh S 200 Kh S
KG Kh G
Durée (ms)

KS
Durée (ms)

KS
150 KG 150 KG
YS YS
YG YG
100 HS 100 HS
HG HG
SS SS
50 SG 50 SG

0 0
a q a a q a

Figure 37 : Valeurs intersegmentales /aqa/ vs. /aqqa/ en vitesse d’élocution normale à gauche et en vitesse
d’élocution rapide à droite (S = simples et G = géminées).

Tableau 14 : Valeurs des moyennes et des écarts-types des durées intersegmentales (en noir pour la vitesse
d’élocution normale et en rouge pour la vitesse d’élocution rapide) pour /aqa/ et /aqqa/ en (ms).

Simple Géminée
a q a a q a
[aqa] vs. [aqqa] VN VR VN VR VN VR VN VR VN VR VN VR
F Moyenne 89,1 61,3 134,3 91,9 122,7 63,8 94,9 68,9 274,9 189,1 119,8 62,7
Ecart-type 4,1 5,7 8,0 7,5 5,0 5,5 6,3 9,8 18,4 43,3 6,2 4,2
Kh Moyenne 97,8 65,5 133,1 103,7 120 76 93 64,6 255,9 177,1 123 88,8
Ecart-type 1,2 2,9 9,9 8,1 16,3 7,6 5,0 3,1 9,8 22,6 13,6 13,7
K Moyenne 93,1 68,5 154,5 129,3 89,7 79,8 82,2 67 223,8 186,5 90,2 82,3
Ecart-type 15,3 6,8 10,9 7,7 7,0 5,3 8,8 6,5 18,1 12,2 9,5 12,2
Y Moyenne 79,9 60,5 112 106 71,6 59 81,8 61,1 233,8 174,9 73,7 62,2
Ecart-type 10,9 2,4 5,5 6,3 4,0 4,4 8,2 3,3 16,7 23,4 12,6 5,0
H Moyenne 82,5 53,1 126,7 103,1 87,1 58,8 82 55,4 241,3 155,8 91,7 59,4
Ecart-type 11,0 3,1 7,9 6,5 6,3 4,3 15,0 4,2 31,5 14,8 12,4 4,7
S Moyenne 86,6 60,7 143,7 110,8 97 62,1 79,3 62 234,6 180,2 100,1 63,3
Ecart-type 9,9 4,3 18,1 10,2 10,7 6,4 8,9 5,6 18,9 21,3 11,3 2,9

144
Valeurs intrasegmentales [aqa] vs. [aqqa] Vitesse Normale Valeurs intrasegmentales [aqa] vs. [aqqa] Vitesse Rapide
250 250

FS 200 FS
200
FG FG
Kh S Kh S
Kh G Kh G
150 150

Durée (ms)
KS
Durée (ms)

KS
KG KG
YS YS
100 100 YG
YG
HS HS
HG HG
50 SS 50 SS
SG SG

0 0
vtt sil vot vtt sil vot

Figure 38 : Valeurs intrasegmentales /aqa/ vs. /aqqa/ en vitesse d’élocution normale à gauche et en vitesse
d’élocution rapide à droite (S = simples et G = géminées).

Tableau 15 : Valeurs des moyennes et des écarts-types des durées intrasegmentales (en noir pour la vitesse
d’élocution normale et en rouge pour la vitesse d’élocution rapide) pour /aqa/ vs. /aqqa/ en (ms).

Simple Géminée
vtt sil vot vtt sil vot
[aqa] vs. [aqqa] VN VR VN VR VN VR VN VR VN VR VN VR
F Moyenne 29,5 21,9 75,2 47,6 29,6 22,4 31,9 24,9 214,3 145,1 28,7 19,1
Ecart-type 4,6 5,3 9,3 10,4 7,6 5,9 5,2 5,0 17,1 38,7 4,4 3,3
Kh Moyenne 31 22,1 63,8 52,1 38,3 29,5 32,5 30,2 186 120,7 37,4 26,2
Ecart-type 3,5 2,4 11,0 7,0 7,1 3,1 2,4 8,0 8,1 16,4 5,1 3,6
K Moyenne 22,8 22,3 90,7 75,5 41 31,5 22,1 24,9 161,8 131,3 39,9 30,3
Ecart-type 2,7 5,0 10,0 6,2 8,2 7,2 4,5 5,2 8,5 13,4 11,9 2,5
Y Moyenne 22,5 26,7 62,7 50,7 26,8 28,6 29,7 27,8 178,8 121,7 25,3 25,4
Ecart-type 2,1 3,3 4,2 6,1 2,9 4,3 3,2 2,8 15,5 24,8 5,3 1,3
H Moyenne 25,9 24,3 69,4 52,6 31,4 26,2 35,3 25,6 175,4 104,5 30,6 25,7
Ecart-type 3,9 2,9 6,9 6,6 3,6 2,5 5,3 5,1 28,7 14,6 2,3 4,5
S Moyenne 17,1 21,4 93,1 60 33,5 29,4 21,8 21,6 180,6 132,5 32,2 26,1
Ecart-type 3,2 4,7 18,0 8,3 3,2 2,3 1,7 3,3 17,5 18,6 3,4 3,0

Rappelons que les données complètes pour chaque locuteur figurent en Annexe 1.
Rappelons également que nos analyses statistiques reposent sur des T-test paire-par-paire
effectués entre les simples et les géminées pour chaque vitesse délocution, ainsi que sur les
paires simples et sur les paires géminées à différentes vitesse d’élocution. Pour les T-test,
nous donnons les données de variance avec les facteurs f et df et la significativité de leur
différence des facteurs comparés avec la valeur de p. Nous avons également effectué des
analyses de variance (ANOVA) à deux facteurs pour déterminer l’interaction entre la
gémination et la vitesse d’élocution pour les paires analysées. Pour ces analyses ANOVA,
nous donnons les données de variance avec le ratio F et la valeur de probabilité p. Seuls les
résultats avec une probabilité de moins de cinq pour cent (p<0.05) sont considérés ici comme
significatifs.

145
8.1 Les occlusives sourdes
8.1.1 Les occlusives sourdes en position intervocalique
Les paires d’occlusives sourdes analysées sont : /ata/ vs. /atta/
/aka/ vs. /akka/
/aqa/ vs. /aqqa/

 Durées intersegmentales : tenues consonantiques et durées vocaliques

En vitesse d’élocution normale, les résultats (Figure 39, à gauche) montrent que le
paramètre physique de prédilection de la gémination est la durée de la tenue consonantique,
car elle est significativement différente entre les simples et les géminées [t= 11,13, df= 5,
p=0,0001 pour la paire /t /vs. /tt/ ; t= 7,109, df= 5, p=0,0009 pour /k/ vs. /kk/, et t= 10,54, df=
5, p=0,0001 pour /q/ vs. /qq/]. En effet, la tenue consonantique de la classe des géminées est
systématiquement et remarquablement plus longue par rapport à leur homologues simples. En
revanche, les autres paramètres intersegmentaux, V1 et V2, ne permettent pas de différencier
les deux classes.

En vitesse d’élocution rapide, tous les paramètres intersegmentaux (Figure 39, à droite)
sont comprimés de manière significative [pour les simples t= 5,143, df= 5, p=0,0036 pour t
VN vs. t VR ; t= 8,899, df= 5, p=0,0003 pour k VN vs. k VR, et t= 5,393, df= 5, p=0,0030
pour q VN vs. q VR et pour les géminées t= 5,929, df= 5, p=0,0019 pour tt VN vs. tt VR ; t=
7,854, df= 5, p<0,0001 pour kk VN vs. kk VR, et t= 7,854, df= 5, p<0,0001 pour qq VN vs.
qq VR]. Malgré cette compression de durée, le scénario reste le même qu’en vitesse
d’élocution normale. La différence entre simples et géminées se fait grâce à une différence
significative de la durée de la tenue consonantique, celle des géminées étant plus longue que
celle des simples [t= 7,854, df= 5, p=0,0005 pour t vs. tt ; t= 5,257, df= 5, p=0,0033 pour k vs.
kk, t= 8,295, df= 5, p=0,0004 pour q vs. qq], quoique ces différences diminuent face à
l’augmentation de la vitesse d’élocution.

Nous n’observons pas d’interaction entre la gémination et la vitesse d’élocution pour les
paires /t / vs. /tt/ et /k/ vs. /kk/ [pour la paire /t/ vs. /tt/ : F(1,20) = 4,069, p=0,0573; pour la
paire /k/ vs. /kk/ : F(1,20) = 3,082, p=0,0945]. En revanche, nous observons une interaction
significative entre la gémination et la vitesse d’élocution pour la paire /q/ vs. /qq/ [F(1,20) =
11,47, p=0,0029]. Afin de vérifier la robustesse du contraste linguistique de la durée de la
tenue consonantique entre les deux groupes de données temporelles, il est également
intéressant de tester la différence de la durée de la tenue consonantique entre les géminées en

146
vitesse d’élocution rapide et les simples en vitesse d’élocution normale. Les résultats
montrent que la différence de tenue consonantique est significative dans cette configuration
pour les trois paires [pour la paire /t /vs. /tt/ : t= 4,904, df= 5, p=0,0045; pour la paire /k/ vs.
/kk/ : t= 5,544, df= 5, p=0,0026 ; pour la paire /q/ vs. /qq/ : t= 7,797, df= 5, p=0,0006] et
notamment pour la paire /q/ vs. /qq/. Pour les paires /t /vs. /tt/ et /k/ vs. /kk/, les résultats
montrent que la tenue consonantique est la bonne variable acoustique pour distinguer les
simples des géminées quelle que soit la vitesse d’élocution. Lorsqu’une interaction entre la
gémination et la vitesse d’élocution est obtenue, cela indique une assimilation entre consonne
simple et consonne géminée, ce qui signifie que la différence moyenne entre simple et
géminée en vitesse d’élocution normale serait plus grande que la différence moyenne entre
simple et géminée en vitesse d’élocution rapide, ce qui est testé avec le T-test entre les simple
en vitesse d’élocution normale et les géminées en vitesse d’élocution rapide. Pour la paire /q/
vs. /qq/, les résultats suggèrent que, malgrè l’interaction significative entre gémination et
vitesse d’élocution pour cette paire, la différence significative entre simple en vitesse normale
et géminée en vitesse rapide confirme que pour cette paire aussi, la tenue consonantique est la
bonne variable acoustique pour distinguer simple et géminée quelle que soit la vitesse
d’élocution.

Figure 39 : Valeurs intersegmentales des occlusives sourdes en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 16 donne les valeurs des moyennes et des écarts types des six locuteurs pour
les paramètres intersegmentaux des trois paires d’occlusives sourdes en vitesse d’élocution
normale (à gauche) et en vitesse d’élocution rapide (à droite). Notons que les écarts-types
restent relativement faibles, révélant ainsi une bonne maîtrise des paramètres temporels,
quelle que soit la condition de vitesse d’élocution.

147
Tableau 16 : Valeurs des moyennes et des écarts-types des durées intersegmentales des occlusives sourdes en
(ms).

Simple Géminée
a simple a a géminée a
ata vs atta VN Moyenne 81,63 120,23 144,18 72,18 221,57 147,25
Ecart Type 12,13 21,48 19,62 13,38 17,84 21,37
ata vs atta VR Moyenne 60,17 95,05 96,75 55,43 163,62 92,38
Ecart Type 4,01 21,51 11,20 3,22 18,25 13,09
aka vs akka VN Moyenne 87,17 134,63 104,53 86,63 237,02 109,95
Ecart Type 7,54 22,36 25,45 10,31 28,47 26,10
aka vs akka VR Moyenne 62,83 100,55 62,42 63,53 170,17 63,37
Ecart Type 2,02 22,26 9,87 1,17 16,18 10,04
aqa vs aqqa VN Moyenne 88,17 134,05 98,02 85,53 244,05 99,75
Ecart Type 6,65 14,51 19,90 6,63 18,46 18,85
aqa vs aqqa VR Moyenne 61,60 107,47 66,58 63,17 177,27 69,78
Ecart Type 5,24 12,37 9,05 4,81 11,83 12,46

 Durées intrasegmentales : VTT, silence acoustique, VOT

En se focalisant sur les paramètres constitutifs de la tenue consonantique, à savoir les


durées intrasegmentales comme le VTT, le silence acoustique et le VOT (Figure 40, à
gauche), nous observons, en vitesse d’élocution normale, que le silence acoustique permet de
différencier les occlusives simples des occlusives géminées. La durée du silence acoustique
des géminées est significativement supérieure à celle de leurs homologues simples [pour la
paire /t /vs. /tt/ : t= 12,03, df= 5, p<0,0001; pour la paire /k/ vs. /kk/ : t= 7,289, df= 5,
p=0,0008 et pour la paire /q/ vs. /qq/ : t= 10,64, df= 5, p=0,0001]. En ce qui concerne les deux
autres paramètres, le VTT ne permet pas de dégager un comportement cohérent, et le VOT a
tendance à être plus long pour les géminées que celui mesuré pour les simples (p=ns).

Lorsque l’on augmente la vitesse d’élocution, tous les paramètres intrasegmentaux


(Figure 40, à droite) subissent une compression significative du silence acoustique [pour les
simples : t= 2,689, df= 5, p=0,0434 pour /t/ VN vs. /t/VR ; t= 9,768, df= 5, p=0,0002 pour /k/
VN vs. /k/ VR et t= 5,266, df= 5, p=0,0033 pour /q/ VN vs. /q/ VR et pour les géminées : t=
4,786, df= 5, p=0,0049 pour /tt/ VN vs. /tt/ VR ; t= 3,787, df= 5, p=0,0128 pour /kk/ VN vs.
/kk/ VR, et t= 8,983, df= 5, p=0,0003 pour /qq/ VN vs. /qq/ VR]. Néanmoins, la durée du
silence acoustique reste toujours pertinente pour la distinction entre les simples et les
géminées [pour la paire /t /vs. /tt/ : t= 7,744, df= 5, p=0,0006; pour la paire /k/ vs. /kk/ : t=
8,626, df= 5, p=0,0003 et pour la paire /q/ vs. /qq/ : t= 10,59, df= 5, p=0,0001].

Comme nous l’avons observé pour la tenue consonantique, il n’y a pas d’interaction de
la durée du silence acoustique entre la gémination et la vitesse d’élocution pour les paires /t /
vs. /tt/ et /k/ vs. /kk/ [pour la paire /t/ vs. /tt/ : F(1,20) = 4,301, p=0,0512; pour la paire /k/ vs.
148
/kk/ : F(1,20) = 3,225, p=0,0877]. En revanche, nous notons une interaction significative entre
la gémination et la vitesse d’élocution pour la paire /q/ vs. /qq/ [F(1,20) = 10,84, p=0,0036].
Là aussi, nous avons testé la différence de la durée du silence acoustique entre les géminées
en vitesse d’élocution rapide et les simples en vitesse d’élocution normale et obtenons une
difference significative dans cette configuration pour les trois paires [pour la paire /t /vs. /tt/ :
t= 5,660, df= 5, p=0,0024; pour la paire /k/ vs. /kk/ : t= 6,819, df= 5, p=0,0010 ; pour la paire
/q/ vs. /qq/ : t= 8,904, df= 5, p=0,0003]. Même si on observe une interaction entre vitesse
d’élocution et gémination pour la paire /q/ vs. /qq/, les résultats confirment que la durée du
silence acoustique demeure la bonne variable acoustique pour distinguer les simples des
géminées même en faisant varier la vitesse d’élocution.

Figure 40 : Valeurs intrasegmentales des occlusives sourdes en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 17 indique les valeurs des moyennes et des écarts-types des six locuteurs
pour les paramètres intrasegmentaux des trois paires d’occlusives sourdes en vitesses
d’élocution normale et rapide. Au regard des écarts-types, la viabilité est faible pour tous les
paramètres.

Tableau 17 : Valeurs des moyennes et des écarts-types des durées intrasegmentales des occlusives sourdes en
vitesses d’élocution normale et rapide en (ms).

Simple Géminée
vtt sil vot vtt sil vot
/ata/ vs /atta/ VN Moyenne 20,92 70,52 28,80 27,57 170,63 23,37
Ecart type 3,14 20,29 6,45 3,78 21,71 7,20
/ata/ vs /atta/ VR Moyenne 15,53 55,13 24,38 20,37 122,37 20,88
Ecart type 1,88 16,00 5,43 4,08 18,89 4,11
/aka/ vs /akka/ VN Moyenne 24,52 72,18 37,93 29,00 171,85 36,17
Ecart type 2,69 15,64 7,71 6,48 31,97 9,23
/aka/ vs /akka/ VR Moyenne 18,40 52,42 29,73 21,16 121,13 27,88
Ecart type 2,45 16,06 6,49 3,38 16,73 6,44
/aqa/ vs /aqqa/ VN Moyenne 24,80 75,82 33,43 28,88 182,82 32,35
Ecart type 5,11 13,25 5,36 5,66 17,43 5,45
/aqa/ vs /aqqa/ VR Moyenne 23,12 56,42 27,93 25,83 125,97 25,47
Ecart type 2,02 10,20 3,21 2,92 13,74 3,60

149
D’après nos résultats, nous constatons que :

1) La différence entre simples et géminées se fait, au niveau intersegmental, grâce à une


différence significative de la tenue consonantique, celle des géminées étant plus
longue que celle des simples, dans les deux conditions de vitesse d’élocution. Le ratio
de F nous indique que la différence la plus importante se situe entre la tenue
consonantique des consonnes géminées vs. simples (très significative), alors que la
différence entre vitesses d’élocution normale vs. rapide est un peu moins importante,
mais toujours très significative.

2) Nous observons la même situation que celle décrite ci-dessus pour le silence
acoustique, c’est-à-dire : (1) le silence acoustique permet de distinguer les occlusives
simples des géminées pour les deux vitesses d’élocution et (2) le ratio F indique que la
différence la plus importante se fait entre le silence acoustique des consonnes
géminées par rapport à celui des simples (très significative), même si cette différence
se réduit en vitesse d’élocution rapide, elle reste tout de même significative. Signalons
enfin, que le silence acoustique est un paramètre plus performant que la tenue
consonantique dans la distinction des géminées des simples.

3) La tâche d’augmentation de la vitesse d’élocution, requise auprès des locuteurs, a été


correctement exécutée, puisque tous les segments ont été comprimés avec
l’augmentation de la vitesse d’élocution.

4) Il n’existe pas d’interaction entre la gémination et la vitesse d’élocution pour les 2


paires /t/ vs. /tt/, /k/ vs. /kk/, mais il y a une interaction pour la paire /q/ vs. /qq/ sur la
durée de la tenue consonantique et plus précisément sur la durée du silence acoustique.
Malgré cette interaction, l’analyse de la différence de la durée de la tenue
consonantique pour les durées intersegmentales ou du silence acoustique pour les
durées intrasegmentales entre les géminées en vitesse d’élocution rapide et les simples
en vitesse d’élocution normale montre une différence significative de ces deux
paramètres pour les trois paires. Ceci confirme la robustesse de ces deux paramètres
pour distinguer les simples des géminées même en faisant varier la vitesse d’élocution.

Il serait intéressant maintenant d’examiner l’opposition phonologique de ces consonnes en


position initiale, afin de vérifier si celle-ci est maintenue dans cette position aussi.

150
8.1.2 Les occlusives sourdes en position initiale
Nous analyserons dans cette section les paires d’occlusives sourdes: /ta/ vs. /tta/
/ka/ vs. /kka/
/qa/ vs. /qqa/

 Durées intersegmentales : tenues consonantiques et durées vocaliques

En position initiale des occlusives sourdes en vitesse d’élocution normale (Figure 41, à
gauche), le paramètre physique préférentiel de la gémination reste la tenue consonantique qui
est significativement plus longue pour la classe des géminées par rapport à leur homologues
simples [t= 12,99, df= 5, p<0,0001 pour la paire /t /vs. /tt/ ; t= 14,03, df= 5, p<0,0001 pour /k/
vs. /kk/, et t= 11,70, df= 5, p<0,0001 pour /q/ vs. /qq/]. En revanche, l’autre paramètre
intersegmental, la durée de la voyelle suivante, ne permet toujours pas de différencier les deux
classes.

En vitesse d’élocution rapide (Figure 41, à droite), tous les paramètres intersegmentaux
sont comprimés de manière significative [pour les simples : [t= 6,058, df= 5, p=0,0018 pour t
VN vs. t VR ; t= 4,431, df= 5, p=0,0068 pour k VN vs. k VR /, et t= 6,213, df= 5, p=0,0016
pour q VN vs. q VR et pour les géminées [t= 6,464, df= 5, p=0,0013 pour tt VN vs. tt VR; t=
6,014, df= 5, p=0,0018 pour kk VN vs.kk VR, et t= 7,714, df= 5, p=0,0053 pour qq VN vs. qq
VR]. Cependant, la tenue consonantique des géminées reste significativement plus longue que
celle des simples [t= 13,34, df= 5, p<0,0001 pour la paire /t /vs. /tt/ ; t= 10,56, df= 5,
p=0,0001 pour /k/ vs. /kk/, et t= 4,893, df= 5, p=0,0045 pour /q/ vs. /qq/].

Il n’existe pas d’interaction entre la gémination et la vitesse d’élocution pour les trois
occlusives sourdes en position initiale non absolue [pour la paire /t/ vs. /tt/ : F(1,20) = 1,348,
p=0,2593; pour la paire /k/ vs. /kk/ : F(1,20) = 3,248, p=0,0866 et pour la paire /q/ vs. /qq/ :
F(1,20) = 0,4100, p=0,5293]. A titre indicatif, nous avons également testé la difference de la
tenue consonantique entre simple en vitesse normale et géminée en vitesse rapide. La
différence est significative pour les deux paires /t/ vs. /tt/ et /q/ vs. /qq/ [pour la paire /t /vs.
/tt/ : t= 5,130, df= 5, p=0,0037; pour la paire /k/ vs. /kk/ : t= 3,073, df= 5, p=0,0277] et se
trouve juste à la limite de significativité pour la paire /q/ vs. /qq/ [t= 2,560, df= 5, p=0,0507].
Si l’on considère à la fois les résultats des interactions et ceux du T-test, la tenue
consonantique reste la bonne variable acoustique pour distinguer les simples des géminées
quelle que soit la vitesse d’élocution.

151
Figure 41 : Valeurs intersegmentales des occlusives sourdes en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 18 donne les valeurs des moyennes et des écarts-types des six locuteurs
pour les paramètres intersegmentaux des trois paires d’occlusives sourdes en vitesses
d’élocution normale et rapide. Notons que les écarts-types restent relativement faibles,
révélant ici aussi une bonne maîtrise des paramètres temporels, quelle que soit la condition de
vitesse d’élocution.

Tableau 18 : Valeurs des moyennes et des écarts-types des durées intersegmentales des occlusives
sourdes en vitesses d’élocution normale et rapide en (ms).

Simple Géminée
simple a géminée a
/ta/ vs /tta/ VN Moyenne 140,40 161,72 239,58 161,32
Ecart type 17,33 32,94 18,62 31,91
/ta/ vs /tta/ VR Moyenne 100,37 100,42 182,63 97,82
Ecart type 17,14 9,34 18,84 9,54
/ka/ vs /kka/ VN Moyenne 149,95 164,70 244,02 166,27
Ecart type 15,27 37,82 13,84 36,56
/Ka/ vs /kka/ VR Moyenne 113,33 101,28 183,73 99,87
Ecart type 13,36 15,54 20,77 15,22
/qa/ vs /qqa/ VN Moyenne 146,48 119,90 238,02 119,10
Ecart type 9,41 33,43 23,75 30,80
/qa/ vs /qqa/ VR Moyenne 111,20 69,48 189,33 69,48
Ecart type 11,18 6,06 43,01 6,11

 Durées intrasegmentales : VTT, silence acoustique, VOT

En vitesse d’élocution normale, seul le silence acoustique permet encore, dans cette
position initiale non absolue, de différencier les simples des géminées parmi les paramètres
composites de la tenue consonantique (les durées intrasegmentales VTT, le silence acoustique
et le VOT) (Figure 42, à gauche). La durée du silence acoustique des géminées est
significativement supérieure à celle de leurs homologues simples [t= 13,94, df= 5, p<0,0001
pour la paire /t /vs. /tt/ ; t= 13,42, df= 5, p<0,0001 pour /k/ vs. /kk/, et t= 10,84, df= 5,
152
p=0,0001 pour /q/ vs. /qq/]. Pour les autres paramètres, le VTT ne donne toujours pas de
résultats concluants, et le VOT garde cette tendance à être plus long pour les géminées (p=ns).

En vitesse d’élocution rapide (Figure 42, à droite), le silence acoustique subit une
compression significative [pour les simples : t= 5,528, df= 5, p=0,0027 pour t VN vs. t VR; t=
4,016, df= 5, p=0,0102 pour k VN vs. k VR, et t= 5,819, df= 5, p=0,0021 pour q VN vs. q
VR] et pour les géminées : t= 5,622, df= 5, p=0,0025 pour tt VN vs. tt VR ; t= 6,215, df= 5,
p=0,0016 pour kk VN vs. kk VR, et t= 3,475, df= 5, p=0,0178 pour qq VN vs. qq VR].
Néanmoins, la durée du silence acoustique est toujours un paramètre robuste pour permettre la
distinction entre les simples et les géminées [t= 13,09, df= 5, p<0,0001 pour la paire /t /vs.
/tt/ ; t= 9,997, df= 5, p=0,0002 pour /k/ vs. /kk/, et t= 4,846, df= 5, p<0,0047 pour /q/ vs. /qq/].

Il n’y a pas d’interaction de la durée du silence acoustique entre la gémination et la


vitesse d’élocution pour les occlusives sourdes en position initiale non absolue [pour la paire
/t/ vs. /tt/ : F(1,20) = 1,547, p=0,2279; pour la paire /k/ vs. /kk/ : F(1,20) = 3,198, p=0,0889 et
pour la paire /q/ vs. /qq, [F(1,20) = 0,3862, p=0,5413]. De plus la différence de la durée du
silence acoustique entre les simples en vitesse d’élocution normale et les géminées en vitesse
rapide est significative pour les trois paires [pour la paire /t /vs. /tt/ : t= 6,480, df= 5,
p=0,0013; pour la paire /k/ vs. /kk/ : t= 4,476, df= 5, p=0,0065 ; pour la paire /q/ vs. /qq/ : t=
3,517, df= 5, p=0,0170]. La durée du silence acoustique demeure la bonne variable acoustique
pour distinguer les simples des géminées quelle que soit la vitesse d’élocution.

Figure 42 : Valeurs intrasegmentales des occlusives sourdes en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 19 indique les valeurs des moyennes et des écarts-types pour les paramètres
intrasegmentaux des six locuteurs. Là encore, les écarts-types du silence acoustique sont
faibles reflétant la faible variabilité de ce paramètre par rapport à celle du VTT et du VOT.

153
Tableau 19 : Valeurs des moyennes et des écarts-types des durées intrasegmentales des occlusives sourdes en
vitesses d’élocution normale et rapide en (ms).

Simple Géminée
vtt sil vot vtt sil vot
/ta/ vs /tta/ VN Moyenne 17,17 92,98 30,25 18,30 193,02 28,27
Ecart type 1,49 17,43 4,68 1,34 19,71 4,84
/ta/ vs /tta/ VR Moyenne 13,85 62,98 23,53 15,15 145,28 22,20
Ecart type 1,20 15,08 3,80 2,25 17,31 3,27
/ka/ vs /kka/ VN Moyenne 17,90 92,27 39,78 19,27 184,18 40,57
Ecart type 1,14 14,11 5,50 1,97 15,95 7,99
/Ka/ vs /kka/ VR Moyenne 15,18 66,72 31,43 16,37 135,95 31,42
Ecart type 1,94 10,51 4,78 1,68 20,04 5,94
/qa/ vs /qqa/ VN Moyenne 22,43 86,27 37,78 23,47 176,52 38,03
Ecart type 4,36 8,99 4,47 4,38 25,15 5,81
/qa/ vs /qqa/ VR Moyenne 18,17 64,80 28,23 19,37 142,48 27,48
Ecart type 2,77 7,06 3,15 3,14 41,11 3,00

1) Dans cette position d’initiale de mot, la distinction entre simples et géminées reste
toujours possible, au niveau intersegmental, grâce à la tenue consonantique ; les
géminées sont nettement et significativement plus longues que les simples, et cela
dans les deux vitesses d’élocution.

2) La pertinence du silence acoustique pour séparer statistiquement les géminées des


simples est démontrée par les données, au niveau intrasegmental, dans cette
position aussi, et ce malgré le changement de la vitesse d’élocution.

3) La compression de tous les segments, provoquée par l’augmentation de la vitesse


d’élocution, se confirme ici aussi.

Est-ce que l’opposition phonologique de la gémination sera préservée en position finale de


mot ? L’analyse qui suit devrait nous apporter des éclaircissements sur cette interrogation.

8.1.3 Les occlusives sourdes en position finale

Les paires d’occlusives sourdes analysées sont : /at/ vs. /att/


/ak/ vs. /akk/
/aq/ vs. /aqq/

 Durées intersegmentales : tenues consonantiques et durées vocaliques

En position finale, le scénario reste inchangé par rapport aux positions précédentes :
pour les occlusives sourdes en vitesse d’élocution normale (Figure 43, à gauche), c’est la
tenue consonantique qui est le paramètre significatif / significativement plus longue [t= 22,64,

154
df= 5, p<0,0001 pour la paire /t /vs. /tt/ ; t= 6,945, df= 5, p=0,0010 pour /k/ vs. /kk/, et t=
9,306, df= 5, p=0,0002 pour /q/ vs. /qq/] distinguant ainsi les simples des géminées.

Nous observons les mêmes stratégies de compression en vitesse d’élocution rapide


(Figure 43, à droite) : tous nos paramètres intersegmentaux sont réduits de manière
significative [pour les simples [t= 10,63, df= 5, p=0,0001 pour t VN vs. t VR; t= 3,973, df= 5,
p=0,0106 pour k VN vs. k VR, et t= 5,862, df= 5, p=0,0020 pour q VN vs. q VR] et pour les
géminées : [t= 7,459, df= 5, p=0,0007 pour tt VN vs. tt VR ; t= 4,139, df= 5, p=0,0090 pour
kk VN vs. kk VR, et t= 6,099, df= 5, p=0,0017 pour qq VN vs. qq VR]. Malgré cette
compression, la distinction entre consonnes simples et consonnes géminées reste possible
grâce à une différence significative de la durée de la tenue consonantique [t= 6,633, df= 5,
p=0,0012 pour la paire /t /vs. /tt/ ; t= 7,715, df= 5, p=0,0006 pour /k/ vs. /kk/, et t= 16,84, df=
5, p<0,0001 pour /q/ vs. /qq/].

Pour la paire /t/ vs. /tt/, nous observons une interaction significative de la durée du
silence acoustique entre la gémination et la vitesse d’élocution [F(1,20) = 4,607, p=0,00443],
alors que pour les autres paires nous n’observons pas d’interaction [pour la paire /k/ vs. /kk/ :
F(1,20) = 1,215, p=0,2835 et pour la paire /q/ vs. /qq/ : F(1,20) = 0,4675, p=0,5020].
Cependant, la différence de la durée du silence acoustique entre les simples en vitesse
normale et les géminées en vitesse rapide est significative pour les trois paires [pour la paire /t
/vs. /tt/ : t= 6,429, df= 5, p=0,0014; pour la paire /k/ vs. /kk/ : t= 2,688, df= 5, p=0,0434 ; pour
la paire /q/ vs. /qq/ : t= 5,078, df= 5, p=0,0038]. En conclusion, la durée de la tenue
consonantique permet de distinguer les simples des géminées même en variant la vitesse
d’élocution.

Figure 43 : Valeurs intersegmentales des occlusives sourdes en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 20 donne les valeurs des moyennes et des écarts-types des six locuteurs
pour les paramètres intersegmentaux des trois paires d’occlusives sourdes en vitesses
155
d’élocution normale et rapide. Nous constatons ici aussi que les écarts-types restent
relativement faibles, révélant ainsi un bon contrôle des paramètres temporels, quelle que soit
la condition de vitesse d’élocution.

Tableau 20 : Valeurs moyennes et les écarts-types des durées intersegmentales des occlusives sourdes en vitesses
d’élocution normale et rapide en (ms).

Simple Géminée
a simple a géminée
/ta/ vs /tta/ VN Moyenne 85,15 81,75 81,87 186,37
Ecart type 11,12 3,48 9,11 25,91
/ta/ vs /tta/ VR Moyenne 59,33 55,58 57,82 124,55
Ecart type 8,34 8,48 8,68 29,99
/ka/ vs /kka/ VN Moyenne 92,67 97,35 88,13 186,50
Ecart type 11,71 20,14 9,75 27,94
/Ka/ vs /kka/ VR Moyenne 64,85 65,93 63,45 136,12
Ecart type 6,68 11,77 6,28 21,26
/qa/ vs /qqa/ VN Moyenne 126,65 99,88 124,57 173,40
Ecart type 18,18 10,87 14,69 16,84
/qa/ vs /qqa/ VR Moyenne 75,30 73,70 73,07 140,57
Ecart type 8,58 5,62 7,86 11,58

 Durées intrasegmentales : VTT, silence acoustique

Quant aux durées intrasegmentales du VTT et le silence acoustique, nous remarquons


toujours l’importance du silence acoustique pour la distinction des catégories phonologiques,
en vitesse d’élocution normale (Figure 44, à gauche). Celui-ci est systématiquement plus long
pour les géminées [t= 8,478, df= 5, p<0,0004 pour la paire /t /vs. /tt/ ; t= 6,985, df= 5,
p<0,0009 pour /k/ vs. /kk/, et t= 9,798, df= 5, p=0,0002 pour /q/ vs. /qq/] .

En vitesse d’élocution rapide (Figure 44, à droite), la compression se fait de manière


significative [pour les simples [t= 4,043, df= 5, p=0,0099 pour t VN vs. t VR; t= 3,628, df= 5,
p=0,0151 pour k VN vs. k VR, et t= 4,060, df= 5, p=0,0097 pour q VN vs. q VR] et pour les
géminées : [t= 5,901, df= 5, p=0,0020 pour tt VN vs. tt VR ; t= 3,715, df= 5, p=0,0138 pour
kk VN vs. kk VR, et t= 4,267, df= 5, p=0,0080 pour qq VN vs. qq VR]. Cette compression ne
met pas en danger pour autant les différences de durée du silence acoustique [t= 6,643, df= 5,
p=0,0012 pour la paire /t /vs. /tt/ ; t= 7,658, df= 5, p=0,0006 pour /k/ vs. /kk/, et t= 17,08, df=
5, p<0,0001 pour /q/ vs. /qq/].

Comme pour les donées intersegmentales, il y a une interaction significative de la durée


du silence acoustique entre la gémination et la vitesse d’élocution pour la paire /t / vs. /tt/
156
[F(1,20) = 4,601, p=0,00444], mais pas pour les paires /k/ vs. /kk/ et /q/ vs. /qq/: [F(1,20) =
1,307, p=0,2665 pour la paire /k/ vs. /kk/ et F(1,20) = 0,5115, p=0,4828 pour la paire /q/ vs.
/qq/]. Comme précédemment, la différence de la durée du silence acoustique entre les simples
en vitesse normale et les géminées en vitesse rapide est significative pour les trois paires
[pour la paire /t /vs. /tt/ : t= 4,139, df= 5, p=0,0090; pour la paire /k/ vs. /kk/ : t= 3,513, df= 5,
p=0,0171 ; pour la paire /q/ vs. /qq/ : t= 8,661, df= 5, p=0,0003]. Ces résultats confirment que
la durée du silence acoustique permet de distinguer les simples des géminées quelle que soit
la vitesse d’élocution.

Figure 44 : Valeurs intrasegmentales des occlusives sourdes en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 21 donne les valeurs des moyennes et des écarts-types des six locuteurs
pour les paramètres intrasegmentaux des trois paires d’occlusives sourdes en vitesses
d’élocution normale et rapide. Les écarts-types sont faibles reflétant la faible variabilité de
tous les paramètres.

Tableau 21: Valeurs moyennes et les écarts-types des durées intrasegmentales pour des occlusives sourdes en
vitesses d’élocution normale et rapide en (ms).

Simple Géminée
vtt sil vtt sil
/at/ vs /att/ VN Moyenne 26,43 55,32 27,60 158,77
Ecart type 1,77 3,53 2,00 27,10
/at/ vs /att/ VR Moyenne 14,03 41,55 15,05 109,50
Ecart type 2,23 6,81 2,38 29,16
/ak/ vs /akk/ VN Moyenne 23,72 73,63 24,95 161,55
Ecart type 3,06 17,55 3,24 27,24
/ak/ vs /akk/ VR Moyenne 14,85 51,08 15,60 120,52
Ecart type 2,57 9,90 2,16 20,52
/aq/ vs /aqq/ VN Moyenne 28,95 70,93 29,40 144,00
Ecart type 6,88 9,53 5,93 19,66
/aq/ vs /aqq/ VN Moyenne 16,27 57,43 17,47 123,10
Ecart type 2,15 5,65 1,52 11,55
157
1) Dans cette position finale de mot, la distinction entre simples et géminées reste
toujours possible, au niveau intersegmental, grâce à la tenue consonantique ; les
géminées sont nettement et significativement plus longues que les simples, et cela
dans les deux vitesses d’élocution.

2) La pertinence du silence acoustique pour séparer statistiquement les géminées des


simples est démontrée par les données, au niveau intrasegmental, dans cette
position aussi, même lorsque la vitesse d’élocution est augmentée.

3) La compression de tous les segments, provoquée par l’augmentation de la vitesse


d’élocution, se confirme ici aussi.

Par le biais de cette étude des durées absolues, nous avons pu constater que les durées de la
tenue consonantique et du silence acoustique des occlusives sourdes géminées sont
significativement plus longues que celles de leurs homologues simples, et ce pour les trois
positions étudiées (intervocalique, initiale non absolue et finale non absolue). Les différences
de durée, obtenues pour ces deux paramètres critiques, sont maintenues en condition de
vitesse d’élocution rapide, révélant ainsi la résistivité de ces deux indices temporels qui
semblent sous-tendre l’opposition phonologique de la gémination, en contexte non voisé.

Nous allons maintenant adopter la même démarche d’analyse des paramètres


intersegmentaux et intrasegmentaux pour les occlusives sonores.

8.2 Les occlusives sonores

8.2.1 Les occlusives sonores en position intervocalique

Dans cette section, nous analyserons les paires d’occlusives sonores suivantes :

/ada/ vs. /adda/


/aga/ vs. /agga/

 Durées intersegmentales : tenues consonantiques et durées vocaliques

L’opposition de quantité consonantique reste possible dans ce contexte sonore, car la


tenue consonantique des géminées est significativement supérieure à celle des simples [t=
35,42, df= 5, p<0,0001 pour /d/ vs. /dd/ et t= 11,54, df= 5, p<0,0001 pour /g/ vs. /gg/]. Les
autres paramètres intersegmentaux, la durée de V1 et de V2, ne sont pas pertinents pour
permettre une distinction entre les deux classes étudiées.

158
L’augmentation de la vitesse d’élocution provoque la compression de tous les
paramètres intersegmentaux (Figure 45, à droite), [pour les simples : t= 9,138, df= 5,
p=0,0003 pour /d/ VN vs. /d/ VR et t = 8,662, df= 5, p=0,0003 pour /g/ VN vs. /g/ VR et pour
les géminées : t= 10,26, df= 5, p=0,0002 pour /dd/ VN vs. /dd/ VR et t= 5,642, df= 5,
p=0,0024 pour /gg/ VN vs. /gg/ VR]. La tenue consonantique reste significativement
discriminante, et ce malgré la compression des durées [t= 30,97, df= 5, p<0,0001 pour /d/ vs.
/dd/ et t= 21,03, df= 5, p<0,0001 pour /g/ vs. /gg/].

L’interaction entre la gémination et la vitesse d’élocution est significative pour les


paires /d / vs. /dd/ et /g/ vs. /gg/ [pour la paire /d/ vs. /dd/ : F(1,20) = 20,18, p=0,0002; pour la
paire /g/ vs. /gg/ : F(1,20) = 6,835, p=0,0166]. Pour vérifier le contraste linguistique entre les
deux groupes de données temporelles pour ces deux paires, nous avons analysé la différence
de la tenue consonantique entre les géminées en vitesse d’élocution rapide et les simples en
vitesse d’élocution normale. La différence de tenue consonantique est significative dans cette
configuration pour les deux paires [pour la paire /d /vs. /dd/ : t= 19,01, df= 5, p<0,0001 et
pour la paire /g/ vs. /gg/ : t= 19,02, df= 5, p<0,0001]. Nos résultats indiquent que, pour ces
deux paires, la tenue consonantique reste la bonne variable acoustique pour distinguer les
simples des géminées dans les deux vitesses d’élocution.

Figure 45 : Valeurs intersegmentales des occlusives sonores en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le tableau 22 indique les moyennes et les écarts-types des paramètres intersegmentaux des
six locuteurs, les écarts-types étant relativement faibles pour ces paramètres.

159
Tableau 22 : Valeurs moyennes et les écarts-types des durées intersegmentales des occlusives sonores en vitesses
d’élocution normale et rapide en (ms).

Simple Géminée
a simple a a géminée a
/ada/ vs /adda/ VN Moyenne 83,65 83,98 81,22 85,82 210,52 91,00
Ecart type 7,56 7,49 10,15 6,95 11,56 6,72
/ada/ vs /adda/ VR Moyenne 60,13 61,00 64,08 61,10 155,05 69,17
Ecart type 5,04 4,33 5,38 4,67 10,08 5,67
/aga/ vs /agga/ VN Moyenne 92,85 90,38 122,78 95,28 189,77 126,70
Ecart type 10,27 5,94 11,10 11,10 21,87 15,04
/aga/ vs /agga/ VR Moyenne 61,00 72,32 83,65 64,62 143,88 80,90
Ecart type 4,98 6,78 11,20 3,28 10,41 11,70

 Durées intrasegmentales : Durée d’occlusion et VOT

L’analyse des intervalles intrasegmentaux de la tenue consonantique, à savoir la durée


de l’occlusion et le VOT, montre qu’en vitesse d’élocution normale (Figure 46, à gauche), la
durée de l’occlusion des géminées est significativement supérieure à celle de leurs
homologues simples [t = 33,20, df= 5, p<0,0001 pour /d /vs. /dd/ et t= 12,07, df= 5, p<0,0001
pour /g/ vs. /gg/]. En ce qui concerne le VOT, il a simplement tendance à être plus long pour
les géminées (p=ns).

L’augmentation de la vitesse d’élocution (Figure 46, à droite) provoque une


compression significative de la durée de l’occlusion et de la durée du VOT [pour les simples
t= 8,049, df= 5, p=0,0005 pour /d/ VN vs. /d/ VR et t= 8,041, df= 5, p=0,0005 pour /g/ VN vs.
/g/ VR et pour les géminées : t= 9,208, df= 5, p=0,0003 pour /dd/ VN vs. /dd/ VR et t= 6,094,
df= 5, p=0,0017 pour /gg/ VN vs. /gg/ VR]. Toutefois, la durée de l’occlusion résiste, en tant
que paramètre discriminant, à cette perturbation provoquée par l’augmentation de la vitesse
d’élocution [t= 26,29, df= 5, p<0,0001 pour /d/ vs. /dd/ et t= 20,16, df= 5, p<0,0001 pour /g/
vs. /gg/].

La aussi, nous obtenons la même situation que celle avec les données intervocaliques,
c’est-à-dire une interaction significative de la durée d’occlusion entre la gémination et la
vitesse d’élocution pour les paires /d / vs. /dd/ et /g/ vs. /gg/ [pour la paire /d/ vs. /dd/ : F(1,20)
= 25,66, p<0,0001; pour la paire /g/ vs. /gg/ : F(1,20) = 8,588, p=0,0083]. Par conséquent,
nous avons testé la différence de la durée d’occlusion entre les géminées en vitesse
d’élocution rapide et les simples en vitesse d’élocution normale. Cette différence est
significative pour les deux paires [pour la paire /d /vs. /dd/ : t= 19,69, df= 5, p<0,0001 et pour
la paire /g/ vs. /gg/ : t= 16,06, df= 5, p<0,0001]. Cette observation confirme que la durée

160
d’occlusion est le paramètre acoustique principal pour distinguer les simples des géminées
dans les deux vitesses d’élocution.

Figure 46 : Valeurs intrasegmentales les occlusives sonores en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le Tableau 23 donne les valeurs des moyennes et des écarts-types pour les paramètres
intrasegmentaux de six locuteurs. Au regard des écarts-types, la variabilité est réduite aussi
bien pour la durée de l’occlusion que pour le VOT, et cela pour les simples et les géminées.

Tableau 23 : Valeurs moyennes et les écarts-types des durées intrasegmentales des occlusives sonores en vitesses
d’élocution normale et rapide en (ms).

Simple Géminée
tenue vot tenue vot
/ada/ vs /adda/ VN Moyenne 62,63 21,35 188,45 22,07
Ecart type 5,48 3,67 10,87 4,23
/ada/ vs /adda/ VR Moyenne 44,02 16,98 138,50 16,55
Ecart type 2,52 2,94 8,70 2,32
/aga/ vs /agga/ VN Moyenne 63,78 26,60 161,98 27,78
Ecart type 3,86 4,83 19,93 3,53
/aga/ vs /agga/ VR Moyenne 48,95 23,37 120,12 23,77
Ecart type 4,14 3,17 8,81 3,07

Grâce à nos données, nous constatons, dans le domaine intersegmental, que :

1) La durée de la tenue consonantique est l’indice principal qui permet, au niveau


intersegmental, de distinguer les occlusives sonores simples des occlusives sonores
géminées en position intervocalique, et cela dans les deux conditions de vitesses
d’élocution.

2) La durée de l’occlusion (tenue consonantique moins le VOT), dans le champ


intrasegmental, permet, elle aussi, de séparer nos deux catégories phonologiques.

3) Les segments subissent une compression en vitesse d’élocution rapide.

161
4) Bien qu’il existe une interaction entre la gémination et la vitesse d’élocution pour
les 2 paires /d/ vs. /dd/ et /g/ vs. /gg/, la différence significative de la durée de la
tenue consonantique ou de la durée de l’occlusion entre les géminées en vitesse
d’élocution rapide et les simples en vitesse d’élocution normale confirme la
robustesse de ces deux paramètres pour distinguer les simples des géminées même
en faisant varier la vitesse d’élocution.

8.2.2 Les occlusives sonores en position initiale

Les paires d’occlusives sonores analysées sont : /da/ vs. /dda/


/ga/ vs. /gga/

 Durées intersegmentales : tenues consonantiques et durées vocaliques

En position initiale, la différence entre simples et géminées se fait selon le même


scénario que celui décrit supra ; dans les deux conditions de vitesses d’élocution, à savoir en
vitesse d’élocution normale (Figure 47, à gauche), [t= 11,79, df= 5, p<0,0001 pour /d/ vs. /dd/
et t= 16,90, df= 5, p<0,0001 pour /g/ vs. /gg/], comme en vitesse d’élocution rapide (Figure
47, à droite). Il en est de même de tous les paramètres intersegmentaux qui sont comprimés de
manière significative [pour les simples : t= 6,577, df= 5, p=0,0012 pour /d/ VN vs. /d/ VR et t
= 5,691, df= 5, p=0,0023 pour /g/ VN vs. /g/ VR et pour les géminées : t= 6,895, df= 5,
p=0,0010 pour /dd/ VN vs. /dd/ VR et t= 6,284, df= 5, p=0,0015 pour /gg/ VN vs. /gg/ VR].
Nous retrouvons dans ce contexte aussi la robustesse de la tenue consonantique en tant que
paramètre de prédilection pour l’opposition de la quantité consonantique [t= 9,708, df= 5,
p=0,0002 pour /d/ vs. /dd/ et t= 15,87, df= 5, p<0,0001 pour /g/ vs. /gg/].

Nous observons une absence d’interaction entre la gémination et la vitesse d’élocution


pour les paires /d / vs. /dd/ et /g/ vs. /gg/ [pour la paire /d/ vs. /dd/ : F(1,20) = 1,643, p=0,2626;
pour la paire /g/ vs. /gg/ : F(1,20) = 1,980, p=0,1747]. A titre indicatif, nous avons également
analysé la différence de la tenue consonantique entre les géminées en vitesse d’élocution
rapide et les simples en vitesse d’élocution normale et cette différence est significative pour
les deux paries [pour la paire /d /vs. /dd/ : t= 5,949, df= 5, p=0,0019 et pour la paire /g/ vs.
/gg/ : t= 5,011, df= 5, p=0,0041]. Ces résultats indiquent que la tenue consonantique est le
correlat acoustique principal pour distinguer les simples des géminées dans les deux vitesses
d’élocution.

162
Figure 47 : Valeurs intersegmentales des occlusives sonores en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 24 indique les valeurs des moyennes et les faibles valeurs des écarts-types
des paramètres intersegmentaux des six locuteurs. Les résultats sont comparables à ceux
observés en position intervocalique.

Tableau 24 : Valeurs moyennes et les écarts-types des durées intersegmentales des occlusives sonores en vitesses
d’élocution normale rapide en (ms).

Simple Géminée
simple a géminée a
/da/ vs /dda/ VN Moyenne 107,60 169,38 211,42 169,35
Ecart type 18,15 32,57 18,63 29,91
/da/ vs /dda/ VR Moyenne 77,48 107,43 162,58 104,08
Ecart type 21,16 8,20 21,39 10,67
/ga/ vs /gga/ VN Moyenne 109,38 132,45 196,67 133,07
Ecart type 13,12 30,32 7,57 29,92
/ga/ vs /gga/ VR Moyenne 81,67 82,05 152,27 80,82
Ecart type 15,69 16,53 19,17 15,99

 Durées intrasegmentales : Durée d’occlusion et VOT

Ici aussi, seule la durée de l’occlusion permet de différencier les simples des géminées,
et cela dans les deux conditions de vitesses d’élocution normale (Figure 48, à gauche) et
rapide (Figure 48, à droite). La durée du VOT, elle, ne semble pas contribuer à la distinction
des catégories. Les données statistiques sont les suivantes : [t= 11,92, df= 5, p<0,0001 pour
/d/ vs. /dd/ et t= 16,67, df= 5, p<0,0001 pour /g/ vs. /gg/].

En faisant varier la vitesse d’élocution, et donc malgré la compression des paramètres


intrasegmentaux, l’analyse statistique montre les résultats suivants : [pour les simples : t=
6,314, df= 5, p=0,0015 pour /d/ VN vs. /d/ VR et t = 5,460, df= 5, p=0,0028 pour /g/ VN vs.

163
/g/ VR et pour les géminées : t= 6,497, df= 5, p=0,0013 pour /dd/ VN vs. /dd/ VR et t= 6,252,
df= 5, p=0,0015 pour /gg/ VN vs. /gg/ VR]. Néanmoins, la durée de l’occlusion permet
toujours de distinguer les simples des géminées [t= 9,626, df= 5, p=0,0002 pour /d/ vs. /dd/ et
t= 15,60, df= 5, p<0,0001 pour /g/ vs. /gg/].

Comme pour les données intersegmentales, il n’y a pas d’interaction de la durée


d’occlusion entre la gémination et la vitesse d’élocution pour les paires /d / vs. /dd/ et /g/ vs.
/gg/ [pour la paire /d/ vs. /dd/ : F(1,20) = 1,643, p=0,2146; pour la paire /g/ vs. /gg/ : F(1,20) =
3,094, p=0,0939]. Pour information, nous avons également analysé la différence de la durée
d’occlusion entre les géminées en vitesse d’élocution rapide et les simples en vitesse
d’élocution normale ; cette différence est significative pour les deux paires [pour la paire /d
/vs. /dd/ : t= 6,328, df= 5, p=0,0015 et pour la paire /g/ vs. /gg/ : t= 6,073, df= 5, p=0,0017].
En conclusion, la durée d’occlusion est l’indice acoustique principal pour distinguer les
simples des géminées dans les deux vitesses d’élocution.

Figure 48 : Valeurs intrasegmentales des occlusives sonores en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le Tableau 25 indique les valeurs des moyennes et des écarts-types pour les paramètres
intrasegmentaux des six locuteurs. Là encore, les écarts-types de la durée de l’occlusion et de
la durée du VOT sont faibles.

164
Tableau 25 : Valeurs moyennes et les écarts-types des durées des occlusives sonores en vitesses d’élocution
normale rapide en (ms).

Simple Géminée
tenue vot tenue vot
/da/ vs /dda/ VN Moyenne 86,38 21,22 190,70 20,72
Ecart type 16,33 2,29 18,14 1,94
/da/ vs /dda/ VR Moyenne 59,72 17,77 144,93 17,65
Ecart type 18,58 3,42 19,79 3,34
/ga/ vs /gga/ VN Moyenne 79,12 30,27 167,17 29,50
Ecart type 12,78 3,24 9,07 3,33
/ga/ vs /gga/ VR Moyenne 57,13 24,53 127,20 25,07
Ecart type 11,91 4,52 15,48 4,73

Nos résultats nous permettent de constater qu’en position initiale, et au niveau du timing
intersegmental, c’est toujours la durée de la tenue consonantique qui permet de différencier
les occlusives sonores simples des occlusives sonores géminées, malgré l’augmentation de la
vitesse d’élocution. Nous confirmons, dans cette position initiale de mot aussi, la pertinence
de l’occlusion consonantique en tant que paramètre temporel efficace pour distinguer les
consonnes simples des géminées. L’augmentation de la vitesse d’élocution a bien été
effectuée par nos locuteurs, puisque tous les segments ont été comprimés en vitesse
d’élocution rapide.

Voyons maintenant si ce résultat sera observé en position finale.

8.2.3 Les occlusives sonores en position finale

Les paires d’occlusives sourdes analysées sont : /ad/ vs. /add/


/ag/ vs. /agg/

 Durées intersegmentales : tenues consonantiques et durées vocaliques

Comme en position initiale, les résultats ici sont semblables, à savoir qu’en vitesse
d’élocution normale (Figure 49, à gauche), c’est toujours la tenue consonantique qui est le
paramètre significatif [t= 12,53, df= 5, p<0,0001 pour /d/ vs. /dd/ et t= 10,07, df= 5, p=0,0002
pour /g/ vs. /gg/] pour distinguer les simples des géminées. La tenue consonantique des
géminées est systématiquement plus longue, et de manière importante pour cette catégorie par
rapport aux simples. Ici aussi, l’autre paramètre intersegmental, la durée de V1, ne permet pas
de différencier les deux classes.

En vitesse d’élocution rapide (Figure 49, à droite), tous les paramètres intersegmentaux
sont comprimés de manière significative [pour les simples : t= 3,522, df= 5, p=0,0169 pour /d/
165
VN vs. /d/ VR et t= 4,926, df= 5, p=0,0044 pour /g/ VN vs. /g/ VR et pour les géminées : t=
3,472, df= 5, p=0,0178 pour /dd/ VN vs. /dd/ VR et t= 4,938, df= 5, p=0,0043 pour /gg/ VN
vs. /gg/ VR]. Malgré cette compression de la durée des paramètres, le scénario reste le même
qu’en vitesse d’élocution normale. En effet, en vitesse d’élocution rapide, la distinction entre
simples et géminées se fait grâce à une tenue consonantique significativement plus longue [t=
15,07, df= 5, p<0,0001 pour /d/ vs. /dd/ et t= 10,70, df= 5, p=0,0001 pour /g/ vs. /gg/].

Comme en position initiale, nous n’obtenons pas d’interaction entre la gémination et la


vitesse d’élocution pour les paires /d / vs. /dd/ et /g/ vs. /gg/ [pour la paire /d/ vs. /dd/ : F(1,20)
= 0,03191, p=0,086; pour la paire /g/ vs. /gg/ : F(1,20) = 2,489, p=0,1303]. La différence de la
tenue consonantique entre les géminées en vitesse d’élocution rapide et les simples en vitesse
d’élocution normale est significative pour les deux paires [pour la paire /d /vs. /dd/ : t= 5,684,
df= 5, p=0,0023 et pour la paire /g/ vs. /gg/ : t= 5,719, df= 5, p=0,0023]. Ainsi, la tenue
consonantique est toujours la bonne variable acoustique pour distinguer les simples des
géminées dans les deux vitesses d’élocution.

Figure 49 : Valeurs intersegmentales des occlusives sonores en vitesse d’élocution normale à gauche et en
vitesse d’élocution rapide à droite.

Le Tableau 26 indique les valeurs moyennes et les écarts-types pour les paramètres
intersegmentaux des six locuteurs. Notons que les écarts-types restent relativement faibles
pour la tenue consonantique, confirmant ainsi une bonne maîtrise de ce paramètre temporel,
quelle que soit la condition de vitesse d’élocution.

166
Tableau 26 : Valeurs moyennes et les écarts-types des durées intersegmentales des occlusives sonores en vitesses
d’élocution normale et rapide en (ms).

Simple Géminée
a simple a géminée
/ad/ vs /add/ VN Moyenne 116,22 77,62 116,42 167,57
Ecart type 27,35 22,87 25,94 15,33
/ad/ vs /add/ VR Moyenne 82,88 54,63 80,83 142,40
Ecart type 15,03 8,03 13,26 8,59
/ag/ vs /agg/ VN Moyenne 136,77 80,58 133,62 165,12
Ecart type 12,28 8,70 16,59 22,47
/ag/ vs /agg/ VR Moyenne 87,77 62,53 87,22 126,78
Ecart type 10,72 10,30 7,95 17,48

En position finale de mot, les données révèlent qu’au niveau du timing intersegmental,
c’est décidemment la durée de la tenue consonantique qui permet de différencier les
occlusives sonores simples des occlusives sonores géminées, et cela même en vitesse
d’élocution rapide. Il en va de même de l’occlusion consonantique en tant que paramètre
temporel efficace pour distinguer les consonnes simples des géminées. L’augmentation de la
vitesse d’élocution a bien été effectuée par nos locuteurs, puisque tous les segments ont été
comprimés en vitesse d’élocution rapide.

A travers cette étude, nous avons pu montrer que la durée de la tenue consonantique des
occlusives, ainsi que celle de l’occlusion des sonores géminées étaient significativement plus
longues que celle des occlusives sonores simples. Cela est vérifiable dans les deux conditions
de vitesses d’élocution, dans les trois positions de mot, à savoir à l’intervocalique, à l’initiale
et en finale. Étant donné que les différences de durée, obtenues pour ces deux paramètres
temporels de prédilection, sont maintenues en condition de vitesse d’élocution rapide, et
malgré la compression subie par tous les segments, ils confirment ainsi leur robustesse dans
la distinction phonologique de la gémination, dans ce contexte voisé, tout comme dans le
contexte non voisé étudié supra.

En ce qui concerne les constrictives non voisées et voisées, nous allons essentiellement
procéder à l’analyse de leurs durées intersegmentales, n’ayant pas effectué une détection, peu
aisée, du VOT (Klatt, 1975) pour cette catégorie de consonnes et, en conséquence, d’un
intervalle intrasegmental clairement occlusif. Comme pour les occlusives, nous examinerons
les éventuels indices responsables de la distinction, d’abord, entre les constrictives non
voisées simples et géminées, puis entre leurs homologues voisées, et cela pour les trois
positions.
167
La question qui se pose ici, pour les consonnes constrictives qui ont un degré de
striction moindre que les occlusives, est de savoir si le contrôle temporel, dans la réalisation
du contraste phonologique de la gémination, est similaire, au moins au niveau intersegmental,
à celui de leurs homologues occlusives.

8.3 Les constrictives sourdes

8.3.1 Les constrictives sourdes en position intervocalique

Les paires de constrictives sourdes analysées sont : /asa/ vs. /assa/


/aa/ vs. /aa/

Nous retrouvons pour cette catégorie de consonnes, des résultats similaires à ceux
constatés pour les occlusives. En effet, en vitesse d’élocution normale (Figure 50, à gauche),
le paramètre saillant de la gémination est toujours la tenue consonantique, car elle est
significativement différente entre les simples et les géminées [t= 18,75, df= 5, p<0,0001 pour
/s/ vs. /ss/ et t= 15,53, df= 5, p<0,0001 pour // vs. //]. De même, la tenue consonantique de
la catégorie des géminées est systématiquement et remarquablement plus longue par rapport à
celle de leurs homologues simples. En revanche, les autres paramètres intersegmentaux, la
durée de V1 et V2, ne permettent pas de différencier les deux classes.

En vitesse d’élocution rapide (Figure 50, à droite), la compression des paramètres


intersegmentaux se fait de manière systématique [pour les simples : t= 8,511, df= 5, p=0,0004
pour /s/ VN vs. /s/ VR et t= 5,526, df= 5, p=0,0027 pour // VN vs. // VR et pour les
géminées : t= 8,460, df= 5, p=0,0004 pour /ss/ VN vs. /ss/ VR et t= 5,504, df= 5, p=0,0027
pour // VN vs. // VR]. La séparation entre simples et géminées se fait, même si les durées
sont comprimées, grâce à une différence significative de la durée de la tenue consonantique,
celle des géminées étant plus longue que celle des simples [t= 47,10, df= 5, p<0,0001 pour /s/
vs. /ss/ et t= 19,32, df= 5, p<0,0001 pour // vs. //].

Il n’existe pas d’interaction de la durée de la tenue consonantique entre la gémination et


la vitesse d’élocution pour les paires /s / vs. /ss/ et // vs. // [pour la paire /s/ vs. /ss/ : F(1,20)
= 0,6483, p=0,4302; pour la paire // vs. // : F(1,20) = 0,5456, p=0,4687]. De plus, la
différence de la durée de la tenue consonantique entre les géminées en vitesse d’élocution
rapide et les simples en vitesse d’élocution normale est significative [pour la paire /s /vs. /ss/ :
t= 8,328, df= 5, p=0,0004 et pour la paire // vs. // : t= 9,105, df= 5, p=0,0003]. Ces constats
confirment que la tenue consonantique est la bonne variable acoustique pour distinguer les
simples des géminées quelle que soit la vitesse d’élocution.

168
Figure 50 : Valeurs intersegmentales des constrictives sourdes en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le Tableau 27 indique les valeurs des moyennes et des écarts-types des paramètres
intersegmentaux des six locuteurs. Notons que les écarts-types restent relativement faibles
pour la tenue consonantique, semblant ainsi confirmer un bon contrôle temporel des relations
intersegmentales, quelle que soit la condition de vitesse d’élocution.

Tableau 27 : Valeurs moyennes et les écarts-types des durées intersegmentales des constrictives sourdes en
vitesses d’élocution normale et rapide en (ms).

Simple Géminée
a simple a a géminée a
/asa/ vs /assa/ VN Moyenne 99,40 128,30 115,12 94,35 210,75 119,83
Ecart type 15,40 14,06 11,89 12,67 8,37 13,19
/asa/ vs /assa/ VR Moyenne 67,88 89,47 70,68 67,90 165,08 68,25
Ecart type 5,07 7,07 13,36 5,82 10,72 15,12
/acha/ vs /achcha/ VN Moyenne 90,63 123,13 123,08 86,97 211,50 126,33
Ecart type 9,58 17,70 25,11 10,49 13,57 26,37
/acha/ vs /achcha/ VR Moyenne 61,83 89,65 78,22 61,55 167,85 73,70
Ecart type 8,46 19,10 16,88 5,39 17,51 16,99

Ces résultats renforcent la relevance de la tenue consonantique comme corrélat


principal, responsable de l’opposition des constrictives simples et géminées en position
intervocalique. Ce paramètre reste significatif avec l’augmentation de la vitesse d’élocution,
malgré la compression qu’il subit. La durée des voyelles, elle, ne semble pas contribuer au
niveau temporel à renforcer la distinctivité phonologique. Nous proposons de procéder à la
même analyse pour la position initiale.

169
8.3.1 Les constrictives sourdes en position initiale

Les paires de constrictives sourdes analysées sont : /sa/ vs. /ssa/


/a/ vs. /a/

Les observations faites pour la position intervocalique sont semblables à celles que l’on
peut faire pour la position initiale ; pour les consonnes sourdes en vitesse d’élocution normale
(Figure 51, à gauche), la tenue consonantique est significativement plus longue pour la classe
des géminées par rapport aux simples [t= 28,54, df= 5, p<0,0001 pour /s/ vs. /ss/ et t= 26,92,
df= 5, p<0,0001 pour // vs. //]. En revanche, la voyelle suivante ne contribue pas à
différencier les deux classes phonologiques.
En vitesse d’élocution rapide (Figure 51, à droite), la compression des paramètres
intersegmentaux est de mise, et cela de manière significative [pour les simples : t= 6,706, df=
5, p=0,0011 pour /s/ VN vs. /s/ VR et t= 7,392, df= 5, p=0,0007 pour // VN vs. // VR et pour
les géminées : t= 5,432, df= 5, p=0,0029 pour /ss/ VN vs. /ss/ VR et t= 6,666, df= 5, p=0,0011
pour // VN vs. // VR]. De plus, la tenue consonantique des géminées reste
significativement plus longue que celle des simples [t= 13,32, df= 5, p<0,0001 pour /s/ vs. /ss/
et t= 24,46, df= 5, p<0,0001 pour // vs. //].
Comme précédemment, nous n’observons pas d’interaction de la durée de la tenue
consonantique entre la gémination et la vitesse d’élocution pour les constrictives sourdes en
position initiale du mot [pour la paire /s/ vs. /ss/ : F(1,20) = 1,846, p=0,1894; pour la paire //
vs. // : F(1,20) = 0,7391, p=0,4001]. De manière concordante, la différence de la durée de la
tenue consonantique entre les géminées en vitesse d’élocution rapide et les simples en vitesse
d’élocution normale est significative [pour la paire /s /vs. /ss/ : t= 7,540, df= 5, p=0,0007 et
pour la paire // vs. // : t= 6,728, df= 5, p=0,0011]. Tous ces résultats confirment que la
tenue consonantique est le correlat acoustique principal pour distinguer les simples des
géminées quelle que soit la vitesse d’élocution.

Figure 51 : Valeurs intersegmentales des constrictives sourdes en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

170
Le Tableau 28 indique les moyennes et les écarts-types des paramètres intersegmentaux
mesurés chez les six locuteurs. Les résultats montrent des écarts-types faibles.

Tableau 28 : Valeurs moyennes et les écarts-types des durées des constrictives sourdes en vitesses d’élocution
normale et rapide.

Simple Géminée
simple a géminée a
/sa/ vs /ssa/ VN Moyenne 112,00 119,42 202,82 120,03
Ecart type 12,67 14,00 13,23 15,04
/sa/ vs /ssa/ VR Moyenne 82,85 79,25 157,30 75,52
Ecart type 10,26 6,90 20,73 6,31
/cha/ vs /chcha/ VN Moyenne 123,83 145,87 214,67 142,98
Ecart type 12,92 24,01 19,88 23,43
/cha/ vs /chcha/ VR Moyenne 86,28 88,23 166,10 85,87
Ecart type 11,13 11,65 17,30 9,77

Nous observons effectivement qu’en position initiale, la durée de la tenue


consonantique permet de distinguer les constrictives simples des constrictives géminées, dans
les deux conditions de vitesse d’élocution. Ce résultat montre ainsi que ce paramètre résiste à
la compression des segments induite par l’augmentation de la vitesse d’élocution. Qu’en sera-
t-il en position finale ?

8.3.2 Les constrictives sourdes en position finale

Les paires de constrictives sourdes analysées sont : /as/ vs. /ass/

/a/ vs. /a/

Le scénario reste inchangé par rapport aux deux positions précédentes. En vitesse
d’élocution normale (Figure 52, à gauche), la tenue consonantique est plus longue pour les
géminées [t= 24,40, df= 5, p<0,0001 pour /s/ vs. /ss/ et t= 22,76, df= 5, p<0,0001 pour // vs.
//].

Il en est de même en vitesse d’élocution rapide (Figure 52, à droite) [pour les simples :
t= 6,313, df= 5, p=0,0015 pour /s/ VN vs. /s/ VR et t= 5,933, df= 5, p=0,0019 pour // VN vs.
// VR et pour les géminées : t= 4,505, df= 5, p=0,0064 pour /ss/ VN vs. /ss/ VR et t= 4,698,
df= 5, p=0,0053 pour // VN vs. // VR]. La distinction entre les simples et les géminées est
maintenue grâce à une différence significative de la tenue consonantique [t= 18,34, df= 5,
p<0,0001 pour /s/ vs. /ss/ et t= 17,39, df= 5, p<0,0001 pour // vs. //].

Là encore, il n’y a pas d’interaction de la durée de la tenue consonantique entre la


gémination et la vitesse d’élocution pour les constrictives sourdes en position finale du mot
171
[pour la paire /s/ vs. /ss/ : F(1,20) = 0,09875, p=0,7566; pour la paire // vs. // : F(1,20) =
0,004406, p=0,9477]. De plus, la différence de la durée de la tenue consonantique entre les
géminées en vitesse d’élocution rapide et les simples en vitesse d’élocution normale est
également significative [pour la paire /s /vs. /ss/ : t= 6,666, df= 5, p=0,0011 et pour la paire //
vs. // : t= 7,649, df= 5, p=0,0006]. En conclusion, la tenue consonantique est la bonne
variable acoustique pour distinguer les simples des géminées quelle que soit la vitesse
d’élocution.

Figure 52 : Valeurs intersegmentales des constrictives sourdes en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le Tableau 29 indique les moyennes et les écarts-types des les paramètres


intersegmentaux pour les six locuteurs ; les écarts-types restent faibles.

Tableau 29 : Valeurs moyennes et les écarts-types des durées intersegmentales des constrictives sourdes en
vitesses d’élocution normale et rapide en (ms).

Simple Géminée
a simple a géminée
/as/ vs /ass/ VN Moyenne 111,45 130,17 108,32 231,25
Ecart type 17,38 14,84 16,68 21,09
/as/ vs /ass/ VR Moyenne 74,08 93,88 71,72 185,92
Ecart type 12,72 7,18 11,97 9,09
/ach/ vs /achch/ VN Moyenne 115,03 125,08 114,35 226,70
Ecart type 17,88 13,15 15,24 20,17
/ach/ vs /achch/ VR Moyenne 77,98 91,50 76,12 177,68
Ecart type 12,66 7,33 9,10 11,36

Lorsque les constrictives sourdes sont en position finale du mot, la tenue consonantique
reste le paramètre temporel critique pour assurer la distinction entre constrictives simples et
constrictives géminées, quelle que soit la condition de vitesse d’élocution. Ce résultat révèle

172
ainsi que ce paramètre résiste à la compression des segments, induite par l’augmentation de la
vitesse d’élocution.

Nos données indiquent que la durée de la tenue consonantique des constrictives non voisées
géminées est plus longue que celle des simples, et ce pour toutes les positions :
intervocalique, initiale et finale de mot. La durée des voyelles adjacentes ne contribue pas à
différencier les catégories phonologiques. Si tous les segments sont comprimés avec
l’augmentation de la vitesse d’élocution, le maintien du contraste phonologique repose tout
de même sur cette différence de durée de la tenue consonantique entre consonnes simples et
géminées.

Nous allons maintenant étudier les durées intersegmentales des constrictives voisées
simples et géminées, toujours dans les trois positions de mots, et dans les deux conditions de
vitesse d’élocution.

8.4 Les constrictives sonores


8.4.1 Les constrictives sonores en position intervocalique
Les paires de constrictives sonores analysées sont : /aza/ vs. /azza/
/aa/ vs. /aa/

La sonorité ne modifie pas l’opposition de quantité consonantique. Les géminées sont


toujours remarquablement plus longues que les simples en vitesse d’élocution normale
(Figure 53, à gauche), [t= 19,67, df= 5, p<0,0001 pour /z/ vs. /zz/ et t= 16,16, df= 5, p<0,0001
pour // vs. //]. La durée de V1 et de V2 ne permet toujours pas de différencier les deux
classes.

En vitesse d’élocution rapide (Figure 53, à droite), les paramètres intersegmentaux sont
comprimés de manière significative [pour les simples : t= 4,608, df=5, p=0,0058 pour /z/ VN
vs. /z/ VR et t= 2,630, df= 5, p=0,0465 pour // VN vs. // VR et pour les géminées : t= 6,697,
df= 5, p=0,0011 pour /zz/ VN vs. /zz/ VR et t= 4,235, df= 5, p=0,0082 pour // VN vs. //
VR]. Malgré la compression de la durée des paramètres, le scénario reste le même qu’en
vitesse d’élocution normale. [t= 24,71, df= 5, p<0,0001 pour /z/ vs. /zz/ et t= 21,42, df= 5,
p<0,0001 pour // vs. //].

Nous observons une absence d’interaction de la durée de la tenue consonantique entre la


gémination et la vitesse d’élocution pour les paires /z/ vs. /zz/ et // vs. // [pour la paire /z/
vs. /zz/ : F(1,20) = 2,157, p=0,1574; pour la paire // vs. // : F(1,20) = 0,5445, p=0,4692].
173
Nous observons également une différence significative de la durée de la tenue consonantique
entre les géminées en vitesse d’élocution rapide et les simples en vitesse d’élocution normale
[pour la paire /z /vs. /zz/ : t= 27,79, df= 5, p<0,0001 et pour la paire // vs. // : t= 12,76, df=
5, p<0,0001]. Ces résultats confirment que la durée de la tenue consonantique est la bonne
variable acoustique pour distinguer les simples des géminées dans les deux vitesses
d’élocution.

Figure 53 : Valeurs intersegmentales des constrictives sonores en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le Tableau 30 donne les valeurs des moyennes et des écarts-types des paramètres
intersegmentaux pour les six locuteurs et montrent des valeurs faibles pour les écarts-types.

Tableau 30 : Valeurs moyennes et écarts-types des durées intersegmentales des constrictives sonores en vitesses
d’élocution normale rapide en (ms).

Simple Géminée
a simple a a géminée a
/aza/ vs /azza/ VN Moyenne 112,35 83,32 140,22 109,72 180,50 136,98
Ecart type 19,19 15,94 17,68 19,64 17,34 18,22
/aza/ vs /azza/ VR Moyenne 70,50 62,43 89,50 73,48 142,62 87,50
Ecart type 6,24 10,84 10,69 9,51 12,39 9,02
/aja/ vs /ajja/ VN Moyenne 107,73 82,17 132,30 109,78 184,72 139,65
Ecart type 18,03 21,95 13,05 21,62 16,77 17,38
/aja/ vs /ajja/ VR Moyenne 71,55 61,40 95,53 74,53 153,52 98,88
Ecart type 8,82 10,93 7,89 8,57 17,25 6,27

La tenue consonantique est décidemment le corrélat temporel principal responsable de


l’opposition des constrictives sonores simples et géminées en position intervocalique dans les
deux vitesses d’élocution. Procédons maintenant à la même analyse pour vérifier l’opposition
de ces constrictives en position initiale.

174
8.4.2 Les constrictives sonores en position initiale

Les paires de constrictives sonores analysées sont : /za/ vs. /zza/


/a/ vs. /a/

La classe des géminées reste distincte de celle des simples (Figure 54, à gauche), [t=
21,36, df= 5, p<0,0001 pour /z/ vs. /zz/ et t= 25,76, df= 5, p<0,0001 pour // vs. //]. Le
constat est le même en vitesse d’élocution rapide (Figure 54, à droite), [pour les simples : t=
8,239, df=5, p=0,0004 pour /z/ VN vs. /z/ VR et t= 7,442, df= 5, p=0,0007 pour // VN vs. //
VR et pour les géminées : t= 5,297, df= 5, p=0,0032 pour /zz/ VN vs. /zz/ VR et t= 6,570, df=
5, p=0,0012 pour // VN vs. // VR]. La tenue consonantique des géminées demeure
significativement plus longue que celle des simples [t= 22,55, df= 5, p<0,0001 pour /z/ vs.
/zz/ et t= 16,65, df= 5, p<0,0001 pour // vs. //].
Comme observé en position intervocalique, il n’y a pas d’interaction de la durée de la
tenue consonantique entre la gémination et la vitesse d’élocution pour les constrictives
sonores en position initiale du mot [pour la paire /z/ vs. /zz/ : F(1,20) = 1,188, p=0,2888; pour
la paire // vs. // : F(1,20) = 0,4606, p=0,5051]. Il y a également une différence significative
de la durée de la tenue consonantique entre les géminées en vitesse d’élocution rapide et les
simples en vitesse d’élocution normale [pour la paire /z /vs. /zz/ : t= 9,473, df= 5, p=0,0002 et
pour la paire // vs. // : t= 12,71, df= 5, p<0,0001]. Ces résultats confirment que la durée de
la tenue consonantique permet la distinction entre les consonnes simples et les consonnes
géminées quelle que soit la vitesse d’élocution.

Figure 54 : Valeurs intersegmentales des constrictives sonores en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le Tableau 31 indique les moyennes et les écarts-types (relativement faibles) des


paramètres intersegmentaux pour les six locuteurs.

175
Tableau 31 : Valeurs moyennes et les écarts-types des durées intersegmentales des constrictives sonores en
vitesses d’élocution normale et rapide en (ms).

Simple Géminée
simple a géminée a
/za/ vs /zza/ VN Moyenne 97,12 174,12 197,05 176,38
Ecart type 13,12 33,48 15,78 35,17
/za/ vs /zza/ VR Moyenne 72,03 109,10 157,12 105,37
Ecart type 14,81 12,61 21,76 8,47
/ja/ vs /jja/ VN Moyenne 97,23 181,17 194,22 182,52
Ecart type 15,16 35,66 13,43 34,48
/ja/ vs /jja/ VR Moyenne 73,53 112,08 161,52 110,12
Ecart type 16,25 13,67 19,51 14,13

Ayant confirmé qu’en position initiale la durée de la tenue consonantique permet de


distinguer les constrictives simples des constrictives géminées dans les deux vitesses
d’élocution, il nous reste à vérifier si l’on peut obtenir les mêmes résultats ou non pour les
mêmes constrictives en position finale.

8.4.3 Les constrictives sonores en position finale


Les paires de constrictives sonores analysées sont : /az/ vs. /azz/
/a/ vs. /a/

Les résultats relatifs à la pertinence de la tenue consonantique dans la distinction entre


les géminées et les simples sont également observables dans cette position. Cela est vrai en
vitesse d’élocution normale (Figure 55, à gauche) [t= 20,33, df= 5, p<0,0001 pour /z/ vs. /zz/
et t= 47,71, df= 5, p<0,0001 pour // vs. //]. Le phénomène est corroboré en vitesse
d’élocution rapide (Figure 55, à droite), où tous nos paramètres intersegmentaux sont
comprimés de manière significative [pour les simples : t= 4,662, df=5, p=0,0055 pour /z/ VN
vs. /z/ VR et t= 4,602, df= 5, p=0,0058 pour // VN vs. // VR et pour les géminées : t= 4,891,
df= 5, p=0,0045 pour /zz/ VN vs. /zz/ VR et t= 4,820, df= 5, p=0,0048 pour // VN vs. //
VR]. Néanmoins, la distinction entre les simples et les géminées se fait grâce à une différence
significative de ce paramètre [t= 24,30, df= 5, p<0,0001 pour /z/ vs. /zz/ et t= 23,46, df= 5,
p<0,0001 pour // vs. //].

Comme pour les positions précédentes, nous n’obtenons pas d’interaction de la durée de
la tenue consonantique entre la gémination et la vitesse d’élocution pour les constrictives
sonores en position finale du mot [pour la paire /z/ vs. /zz/ : F(1,20) = 0,2161, p=0,6470; pour
la paire // vs. // : F(1,20) = 0,1632, p=0,6905]. Nous observons également une différence
significative de la durée de la tenue consonantique entre les géminées en vitesse d’élocution
176
rapide et les simples en vitesse d’élocution normale [pour la paire /z /vs. /zz/ : t= 10,51, df= 5,
p=0,0001 et pour la paire // vs. // : t= 7,223, df= 5, p=0,0008]. En conclusion, la durée de la
tenue consonantique demeure la bonne variable acoustique pour distinguer les simples des
géminées quelle que soit la vitesse d’élocution.

Figure 55 : Valeurs intersegmentales des constrictives sonores en vitesse d’élocution normale à gauche et en
vitesses d’élocution rapide à droite.

Le Tableau 32 indique les moyennes et les écarts-types pour les paramètres


intersegmentaux pour les six locuteurs. Notons que les écarts-types restent relativement
faibles pour la tenue consonantique, illustrant ainsi une bonne maîtrise de ce paramètre
temporel, quelle que soit la condition de vitesse d’élocution.

Tableau 32 : Valeurs moyennes et les écarts-types des durées intersegmentales des constrictives sonores en
vitesses d’élocution normale et rapide en (ms).

Simple Géminée
a simple a géminée
/az/ vs /azz/ VN Moyenne 153,37 105,57 147,90 199,95
Ecart type 22,67 18,55 21,86 28,96
/az/ vs /azz/ VR Moyenne 97,42 74,55 93,25 157,68
Ecart type 15,27 8,81 14,76 15,19
/aj/ vs /ajj/ VN Moyenne 148,68 96,55 142,42 188,12
Ecart type 25,28 15,13 23,60 19,35
/aj/ vs /ajj/ VR Moyenne 91,33 69,12 86,33 148,68
Ecart type 4,81 4,08 4,41 7,99
En position finale, nous avons montré que la durée de la tenue consonantique des
constrictives sonores géminées est plus longue que celle de leurs homologues simples. Nous
avons obtenu le même résultat pour les constrictives sonores en position intervocalique et en
position initiale. Tous les segments, vocaliques et consonantiques, subissent une compression
avec l’augmentation de la vitesse d’élocution.

177
Dans cette partie, nous avons mesuré la durée des consonnes simples et géminées dans trois
positions : intervocalique, initiale non absolue et finale non absolue, produites à deux vitesses
d’élocution, normale et rapide.
Nous avons mesuré les durées intersegmentales pour les consonnes simples et géminées dans
les trois positions citées ci-dessus. Pour toutes les consonnes, simples et géminées, produites
en vitesse d'élocution normale ou rapide, la durée de la tenue consonantique est l’indice
principal qui permet de les distinguer.
Nous avons aussi relevé les durées intrasegmentales des occlusives sourdes et sonores en
vitesse d’élocution normale et rapide. Les durées intrasegementales ont été prélevées pour les
sourdes en position intervocalique, en initiale et finale non absolue, et uniquement en
position intervocalique et initiale non absolue pour les sonores. L’analyse a permis de
conclure que la durée du silence acoustique est le corrélat principal qui permet de distinguer
les occlusives sourdes simples de leurs homologues géminés. Pour les occlusives sonores
simples et géminées, c’est la durée de l’occlusion qui sert à distinguer les deux catégories.
La compression des segments, provoquée par l’augmentation de la vitesse d’élocution, ne
nuit pourtant pas au maintien du contraste phonologique.

178
PARTIE 3

Le contrôle spatiotemporel de la
gémination

179
9 Le contrôle spatiotemporel de la gémination
Rappelons que le phénomène de la gémination fait partie d’un cas particulier de
production de séquences motrices en parole, à savoir l’exécution supposée de deux gestes
identiques simultanément. Vaxelaire (2007) souligne que la mise en lumière des principes de
contrôle spatiotemporel pour ces types d’actions motrices est nécessaire pour la modélisation
des systèmes biologiques moteurs en général. Elle signale que c’est l’incapacité d’intégrer de
tels principes de coordination dans certains modèles de type parallèle (cf. Rumelhart &
Norman, 1982) pour la production du doubling en dactylographie qui avait conduit d’autres
chercheurs (par ex. Jordan, 1988) à élaborer des réseaux séquentiels (Sock ,1998).

La compréhension de la production de ces séquences gestuelles consonantiques est


également primordiale pour l’élaboration des modèles de production de la parole (cf., par ex.,
Maeda, 1988 ; 1990). Nous savons, en production de la parole en général, que lorsque deux
gestes identiques doivent être produits de manière séquentielle, cette production peut aboutir à
une fusion ou à une agrégation de gestes (Munhall & Löfqvist, 1985). En français, cette
agrégation se manifeste essentiellement sous forme de consonnes doubles, où des morphèmes
hétéromorphémiques différents présentent un seul lieu d’articulation homorganique. En voici
quelques exemples tirés de Vaxelaire (1993 ; 2007) : /aka/ vs. /akka/, dans les phrases « Très
acariâtre. » vs. « Les sacs carrés. » et /ada/ vs. /adda/, dans les phrases « Il l’a daté. » vs. « Pas
de date précise. ». Nous aboutissons ainsi à un redoublement consonantique, sans qu’il y ait
relâchement du premier /k/ ou du premier /d/. Ici, « l’on fait deux fois […] la même chose
[…] » (Sock et al., 1989 ; Bouarourou et al., 2011).

Nous formulons les hypothèses suivantes :

1) Hypothèse n° 1 : La gémination relevant du domaine phonologique de la quantité


consonantique, les différences de durée entre les consonnes géminées et les consonnes
simples, observées sur le plan acoustique, devraient ici aussi être visibles prioritairement au
niveau du contrôle temporel des paramètres articulatoires retenus pour cette investigation (cf.
infra). Il est ainsi probable que l’on trouve des différences de durée des occlusions et de durée
des constrictions, entre consonnes simples et leurs homologues géminées.

2) Hypothèse n° 2 : Il est tout-à-fait loisible de croire que les différences temporelles


entre les catégories phonologiques, géminées vs. simples, pourraient être accompagnées de
différences au niveau des déplacements d’articulateurs critiques, soit dans la dimension
spatiale. En effet, Sock et al. (2005) trouvent, pour des oppositions de quantité vocalique en
wolof, outre des contrastes temporels entre voyelles brèves et voyelles longues, des

180
différences au niveau de la taille de certaines constrictions dans le conduit vocal, selon que la
voyelle soit brève ou longue.

3) Hypothèse n° 3: Des différences spatiotemporelles entre nos deux


locuteurs pourraient être observées dans cette investigation, si l’on prend en compte les
facteurs liés généralement aux spécificités du locuteur.

4) Hypothèse n° 4 : Nous examinerons les phénomènes de l’anticipation, supposant que


pour la réalisation de gestes potentiellement plus longs pour les géminées, il soit nécessaire
d’initier ceux-ci plus tôt. En corolaire, il est probable que le démarrage des gestes vocaliques
post-consonantiques soit retardé en contexte géminé, le temps de réaliser correctement une
striction (contact ou constriction) longue, mais anticipé en contexte d’une consonne simple,
où la striction dure relativement moins longtemps.

5) Hypothèse n° 5 : Nous supposons, au niveau glottique, que la différence entre simples


et géminées serait la même que celle qui oppose la production de consonnes implosives et
éjectives, l’ensemble larynx-os hyoïde devant être plus élevé pour les géminées, comme pour
les éjectives, à cause d’un taux de la pression intra-orale supérieur pour les géminées, par
rapport aux simples. Nous y reviendrons plus loin (Chapitre 10).

L’observation des stratégies spatiotemporelles, déployées pour opposer les simples aux
géminées, se fera en fonction de la position des séquences cibles dans les mots.

De manière générale, nous serons attentifs à des différences spatiotemporelles de la


gémination, liées au voisement (voisé vs. non voisé), ou encore au mode articulatoire de la
consonne (occlusive vs. constrictive), sans pour autant tenter de tirer des conclusions sûres,
puisque le corpus ne nous permet pas de faire des comparaisons ceteris paribus.

Pour mémoire, rappelons que pour l’étude du contrôle spatiotemporel du phénomène de


la gémination, nous avions retenu les paramètres suivants (voir Chapitre 6):

- L’ouverture de la constriction ;

- La constriction pharyngale ;

- L’aperture labiale ;

- La position du larynx ;

- La position de l’os hyoïde ;

- L’étendue du contact.

181
Les quatre premiers paramètres seront étudiés aussi bien dans leur dimension spatiale
(mm) que temporelle (ms). Les paramètres supraglottiques (l’ouverture de la constriction, la
constriction pharyngale et l’aperture labiale) seront analysés séparément des paramètres plutôt
glottiques (la position du larynx et la position de l’os hyoïde). En ce qui concerne l’étendue
du contact, elle sera examinée à part sur des vues de profil, vu sa nature purement spatiale
(voir Chapitre 11).

Étant donné le nombre relativement réduit d’images cinéradiographiques dont nous


disposons ici (25 images/s), pour l’étude temporelle d’un phénomène aussi rapide qu’est la
réalisation d’une consonne (et notamment d’une occlusive), nous analyserons avec précaution
les phénomènes temporels, et particulièrement ceux relatifs aux gestes anticipatoires.
Signalons que la segmentation, au niveau temporel, des gestes en configurations vocaliques et
consonantiques a été guidée par nos observations des vues de profil, prenant comme repères
le contact pour l’émergence du geste fermant consonantique cible, et le relâchement pour
l’apparition du geste vocalique ouvrant.

Dans nos analyses du contrôle spatiotemporel de la gémination qui suivent, nous


tâcherons de fournir autant de détails que possible, par soucis de clarté (une description
image-par-image des paramètres articulatoires retenus). Cela dit, c’est volontairement que
nous serons moins prolixes au fur et à mesure que le lecteur se familiarisera avec notre
démarche descriptive et analytique, le but étant d’éviter, autant que faire se peut, le caractère
rébarbatif que de telles analyses peuvent vite revêtir.

Le contrôle spatiotemporel de la gémination en contexte VCV : les occlusives non voisées

Le contexte alvéolaire /t/

La Figure 56 montre les trajectoires de trois paramètres articulatoires, à savoir


l’ouverture de la constriction, la constriction pharyngale et l’aperture labiale, pour la séquence
/ata/ (à gauche) et /atta/ (à droite) ; locuteur Kh. On voit que, globalement, le timing relatif du
geste labial et des gestes linguaux est structurellement comparable pour les deux items. Il en
va de même de l’amplitude des gestes qui reste comparable pour les deux termes de
l’opposition phonologique. Cependant, au niveau du contrôle temporel, l’ouverture de la
constriction indique un contact apico-alvéolaire plus long pour la consonne géminée (images
607 à 609), par rapport à son homologue simple (images 146 à 147). On constate aussi que
l’aperture labiale minimale accompagne le contact lingual, et que cette aperture minimale
dure plus longtemps pour la géminée (images de 607 à 609) que pour la simple (images 146 à

182
147). Le geste pour la réalisation du contact apico-alvéolaire semble entraîner la masse de la
langue vers la partie frontale de la cavité buccale, ce qui serait à l’origine d’une augmentation
de la taille de la constriction au niveau de la cavité pharyngale, aussi bien pour la consonne
simple que pour son homologue géminée de V à C, puis à V. La taille de la cavité pharyngale
semble être plus grande pour la géminée, comparée à la simple (une différence maximale de
10 mm). Cette augmentation de la taille de la cavité pharyngale persiste durant le contact
alvéolaire, et se maintient plus longtemps pour la géminée, comparée à la consonne simple.

L’observation du timing des gestes dans le contexte /ata/ laisse entrevoir une
anticipation des gestes linguaux et du geste labial, pour la production de la consonne, déjà
dans les configurations du conduit vocal, associées à la voyelle /a/. En effet, on peut voir que
le déplacement de l’apex pour la réalisation du contact apical, ainsi que celui de la langue au
niveau pharyngal, et la réduction de l’aperture labiale sont tous entamés durant la réalisation
de la voyelle /a/ précédente (image 145). En ce qui concerne la géminée /atta/, l’anticipation
des gestes articulatoires pour la réduction de l’aperture labiale et pour le contact apical se fait
plus tôt dans les configurations vocaliques, par rapport à la consonne simple. En outre, on voit
que l’anticipation du geste apical se fait plus précocement, par rapport aux gestes pharyngal et
labial, pour ce locuteur ; il nous reste à vérifier, infra, si ce dernier comportement apparaîtra
chez le second locuteur. Au relâchement de la consonne, on constate que les gestes pour
réaliser le /a/ post-consonantique sont déclenchés de manière anticipatoire, avec une réduction
de la taille de la cavité pharyngale et une augmentation de l’aperture labiale. Cependant, ces
gestes vocaliques anticipatoires se mettent en place de façon plus graduelle pour la consonne
géminée, pour en quelque sorte accorder plus de temps à la réalisation de la gémination.

Pour résumer, l’analyse des données de ce locuteur (Kh), révèle que nos paramètres
articulatoires, à savoir l’ouverture de la constriction, la constriction pharyngale et l’aperture
labiale sont de bons candidats pour l’organisation spatiotemporelle de la production de la
consonne simple et de son homologue géminée, dans ce contexte apical. Le contact apical est
positivement « corrélé » avec l’aperture labiale, ces deux derniers paramètres étant
inversement « corrélés » avec la constriction pharyngale. En se focalisant sur le timing de ces
trois paramètres articulatoires, nous constatons que c’est le contact apical, plus long pour la
géminée, qui est le paramètre de prédilection de la distinction phonologique simple vs.
géminée. Il est accompagné de l’augmentation de la constriction pharyngale et de la réduction
de l’aperture labiale, qui durent plus longtemps pour la géminée comparée à la simple, durant
le contact alvéolaire.

183
Avons-nous affaire ici à un comportement qui serait spécifique à ce locuteur ou
pouvons-nous observer des stratégies articulatoires similaires chez le second locuteur ? Si cela
est le cas, la pertinence de ces paramètres dans la réalisation de la gémination pourrait être
davantage renforcée.

Kh
ata atta
30 30

25 a t a 25 a tt a
Déplacement (mm)

Overture de la

Déplacement (mm)
Overture de la
constriction constriction
20 20
Constriction Constriction
pharyngale
15 pharyngale 15
Aperture labiale
Aperture labiale
10 10

5
5

0
141 142 143 144 145 146 147 148 149 150 151 152 153 0
602 603 604 605 606 607 608 609 610 611 612 613 614
Images en unités de 40 ms
Images en unités de 40 ms

Figure 56 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ata/ (à gauche) et /atta/ (à droite) ; locuteur Kh.

La Figure 57 montre, en effet, que l’organisation spatiotemporelle des gestes


articulatoires examinés, dans ce contexte apical /ata/ (à gauche) vs. /atta/ (à droite), est
remarquablement le même chez ce locuteur F que celle observée pour le locuteur précédent.

Ici aussi, le timing relatif du geste labial et des gestes linguaux est structurellement
comparable pour les deux termes de l’opposition phonologique. L’amplitude des gestes reste
comparable entre la consonne simple et la consonne géminée. Au niveau du contrôle
temporel, l’ouverture de la constriction confirme un contact apical plus long pour la consonne
géminée (images 633 à 636), par rapport à son homologue simple (images 187 et 188). La
trajectoire de l’aperture labiale évolue dans la même direction que celle pour réaliser le
contact lingual, et cette aperture minimale dure plus longtemps pour la géminée (images 633 à
636) que pour la simple (images 187 à 188). Est-ce le geste pour la réalisation du contact
apical qui entraîne la masse de la langue vers la partie frontale de la cavité buccale, ce qui
serait à l’origine d’une augmentation de la taille de la constriction au niveau de la cavité
pharyngale, est le même pour la consonne simple que pour son homologue géminée ? Ou est-
ce que ces deux gestes linguaux sont différenciés ? Nous pourrons, peut-être, apporter des
éléments de réponse à cette interrogation lorsque nous étudierons la réalisation de la
gémination en contexte vélaire. Comme pour le locuteur précédent, la taille de la cavité
pharyngale est légèrement plus grande pour la géminée, comparée à la simple (une différence
maximale de 20 mm). Cette augmentation de la taille de la cavité pharyngale perdure pendant

184
le contact apico-alvéolaire, et se maintient plus longtemps pour la géminée, comparée à la
consonne simple.

Les stratégies anticipatoires sont comparables pour les deux locuteurs. En effet, les
gestes articulatoires pour la production de la consonne démarrent, pour ce locuteur aussi, dans
les configurations ouvertes associées à la production de la voyelle. En ce qui concerne la
géminée /atta/, il est vrai que les gestes anticipatoires sont initiés plus tôt durant la production
de la voyelle précédente, comparée à la consonne simple. En revanche, l’anticipation du geste
apical ne se fait pas plus tôt, par rapport aux gestes pharyngal et labial, pour ce second
locuteur ; il ne s’agit pas, semble-t-il, d’un comportement à relier explicitement à la
réalisation de la gémination. Les gestes vocaliques anticipatoires pour le /a/ subséquent,
émergent, ici également, de façon plus graduelle pour la consonne géminée pour, nous
supposons, accorder plus de temps à la réalisation de la gémination.

En résumé, étant donné que l’analyse des données de ce locuteur F fait apparaître des
ressemblances notoires dans le comportement des paramètres articulatoires retenus, comparé
au comportement observé chez le locuteur Kh, nous pouvons poser qu’il s’agit là
effectivement de bons candidats pour la mise au jour de l’organisation spatiotemporelle de la
production de la consonne simple et de son homologue géminée, dans ce contexte apical.
Signalons toutefois, que les gestes de transition des configurations vocaliques ouvrantes aux
configurations consonantiques fermantes, montrent une plus grande dynamique chez le
locuteur Kh par rapport au locuteur F ; cela serait imputable à des spécificités individuelles.

F
ata atta
30 30

Constriction
25
a t a Opening
25
a tt a Constriction
Déplacement (mm)

Opening
Déplacement (mm)

Pharynx
20 20 Pharynx
Constriction
Constriction
Aperture labiale
15 15
Aperture labiale

10 10

5 5

0 0
182 183 184 185 186 187 188 189 190 191 192 629 630 631 632 633 634 635 636 637 638 639 640
Images en unités de 40 ms Images en unités de 40 ms

Figure 57 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ata/ (à gauche) et /atta/ (à droite) ; locuteur F

185
Le contexte vélaire /k/

Ayant observé des stratégies articulatoires similaires chez nos deux locuteurs, la
pertinence de ces paramètres dans la réalisation de la gémination semble devenir de plus en
plus plausible. Cela dit, il convient maintenant d’examiner le contexte vélaire pour pouvoir
évaluer la robustesse de ces stratégies articulatoires. C’est ce que nous proposons de faire
dans ce qui suit.

Dans ce contexte vélaire (Figure 58), l’organisation spatiotemporelle des gestes


articulatoires demeure globalement similaire pour les deux termes du contraste
phonologique : /aka/ (à gauche) vs. /akka/ à droite), pour ce locuteur Kh. Les « corrélations »
entre les paramètres dans leurs trajectoires sont comparables à celles observées en contexte
apical : lorsque le dos de la langue s’élève pour réaliser le contact dorso-vélaire, la taille de la
constriction au niveau pharyngale augmente, et l’aperture labiale diminue, accompagnant le
geste du dos de la langue pour la réalisation du contact vélaire. La diminution de l’aperture
labiale dans ce contexte vélaire est très peu marquée, une partie significative des gestes
supraglottiques se produisant plutôt dans la partie arrière du conduit vocal, dans ce contexte
vélaire.

Le contact dorso-vélaire est plus long pour la géminée (images 642 à 645) que pour la
simple (images 184 à 185). Les deux autres paramètres accompagnent ce contact vélaire avec
un maintien d’une cavité pharyngale agrandie plus longtemps et d’une aperture labiale réduite
également plus longtemps pour la géminée, comparée à la simple. Etant donné que les zones
apicale et laminale de la langue ne sont pas activement sollicitées pour la réalisation de cette
consonne, on ne peut pas leur attribuer l’agrandissement du pharynx lors de la réalisation de
l’occlusion consonantique ; cette hypothèse paraissait plausible dans le contexte apical. Il
semble que cette augmentation de la taille de la cavité pharyngale soit une composante à part
entière de l’organisation spatiotemporelle de ces consonnes vélaires, et cela malgré le fait que
ces consonnes vélaires soient entourées de la voyelle radico-pharyngale /a/ qui, elle, exige une
constriction pharyngale réduite pour l’émergence de sa qualité acoustique. Les voyelles
adjacentes et les consonnes vélaires « négocient », en quelque sorte, la trajectoire du geste
lingual afin d’atteindre convenablement des configurations ouvrantes et fermantes,
respectivement.

186
Kh

aka akka
30 30

25
a k a 25
a k a

Déplacement (mm)
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
179 180 181 182 183 184 185 186 187 188 189 639 640 641 642 643 644 645 646 647 648 649 650
Images en unités de 40 ms Images en unités de 40 ms

Figure 58 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aka/ (à gauche) et /akka/ (à droite) ; locuteur Kh

Pour le locuteur F, dans ce contexte vélaire (Figure 59), l’organisation spatiotemporelle


des gestes articulatoires est structurellement comparable, à peu de choses près, pour les deux
items de l’opposition phonologique : /aka/ (à gauche) vs. /akka/ (à droite). Nous retrouvons ici
aussi les « corrélations » habituelles entre les paramètres dans leurs différentes trajectoires :
l’élévation du dos de la langue pour effectuer le contact dorso-vélaire n’empêche pas une
augmentation de la taille de la constriction pharyngale, alors que l’aperture labiale, elle, se
réduit légèrement, tendant à évoluer dans le même sens (de réduction de la constriction) que
le geste du dos de la langue pour la réalisation du contact vélaire.

Le contact dorso-vélaire est plus long pour la géminée (images 673 à 676) que pour la
simple (images 224 à 225). L’agrandissement de la cavité pharyngale durant le contact dorso-
vélaire demeure plus longtemps pour la géminée, par rapport à la simple. Il en va de même de
l’aperture labiale dont la réduction se maintient plus longtemps pour la géminée, comparée à
la simple. Les données pour ce locuteur, semblables à celles du locuteur précédent, nous
permettent maintenant de poser, en ce qui concerne l’augmentation de la taille de la cavité
pharyngale, qu’elle est à associer temporellement et spatialement à la production des
consonnes vélaires, simples et géminées. Cette augmentation de la taille du pharynx, ainsi que
sa durée, sont plus marquées chez les géminées. La consonne vélaire simple /k/ semble
résister moins aux influences du /a/. En effet, l’anticipation des gestes consonantiques, dans
les configurations vocaliques ouvrantes, démarre plus tardivement (image 223), comparée à
l’initiation plus précoce des gestes anticipatoires consonantiques de la géminée (images 671).
Dans la même veine d’une plus faible résistance coarticulatoire de la consonne simple, par
rapport à son homologue géminée, on constate une anticipation du geste vocalique de la
voyelle subséquente, relativement tôt dans les configurations associées à la consonne simple.
En effet la réduction de la constriction pharyngale pour produire le /a/ commence dès la
réalisation du contact vélaire (image 224), alors que cette réduction de la taille du pharynx
187
n’est initiée que tardivement durant le contact vélaire de la géminée (image 676). Les
données de ce locuteur confirment ici aussi que les gestes vocaliques anticipatoires pour le /a/
subséquent, émergent de façon plus graduelle pour la consonne géminée pour, nous le
supposions, accorder plus de temps à la réalisation de la gémination. Cela suggère que le
maintien du contraste phonologique, pour la réalisation de la gémination, prend le pas sur le
poids habituellement plus élevé de la voyelle par rapport à la consonne en contexte
coarticulatoire purement phonétique.

Si l’on compare les stratégies articulatoires des deux locuteurs, aucune spécificité
individuelle n’est décelable dans le contrôle spatiotemporel des gestes des articulateurs. On
peut signaler ici et là quelques différences d’amplitudes de mouvement des articulateurs ; ce
sont cependant des différences minimes qui ne doivent pas avoir de conséquences acoustiques
significatives.

F
aka akka
30 30

25
a k a 25
a kk a
Déplacement (mm)
Déplacement (mm)

20 20
Ouverture de la Ouverture de la
constriction constriction
15 15
Constriction Constriction
10 pharyngale 10 pharyngale

Aperture labiale Aperture labiale


5 5

0 0
219 220 221 222 223 224 225 226 227 228 669 670 671 672 673 674 675 676 677 678 679 680
Images en unités de 40 ms Images en unités de 40 ms

Figure 59 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aka/ (à gauche) et /akka/ (à droite) ; locuteur F

Le contexte uvulaire /q/

Nous proposons, dans la suite de nos analyses, de reculer encore dans le conduit vocal
et voir ce qu’il en est des dorso-uvulaires /q/ et /qq/, se rapprochant ainsi du lieu d’articulation
pharyngal de la voyelle /a/. Il serait intéressant de savoir ainsi comment nos deux locuteurs
vont gérer le timing des gestes articulatoires, à mesure qu’un conflit potentiel entre gestes
vocaliques et gestes consonantiques s’accroît. Rappelons que la prise semi-automatique de
mesures dans ce contexte avait été problématique (cf. Chapitre 7), notamment en ce qui
concerne le suivi du contour lingual. Aussi, lorsque nous parlons de contact, il s’agit de
constats que nous avons faits à partir de l’analyse des vues de profil qui révèlent de véritables
contacts dorso-uvulaires, même si ceux-ci ne sont pas visibles dans les données quantitatives
étudiées ci-après.

188
Nos observations dans ce contexte uvulaire, pour le locuteur Kh (Figure 60), sont les
suivantes : les trajectoires des articulateurs sont globalement similaires entre la simple (à
gauche) et la géminée (à droite) ; l’ouverture de la constriction diminue dans les deux cas
pour réaliser le contact dorso-uvulaire ; le contact est plus long pour la géminée (images 657 à
659) que pour la simple (image 375) ; la constriction pharyngale diminue en même temps que
l’ouverture de la constriction, et elle dure plus longtemps pour la géminée que pour la simple ;
l’aperture labiale, elle, reste relativement stable durant la séquence entière, VCV.

Kh
aqa aqqa
30 30

a q a a qq a

Déplacement (mm)
25 25
Déplacement (mm)

Overture de la
Overture de la
constriction
20 20 constriction
Constriction
pharyngale Constriction
15 15 pharyngale
Aperture labiale
Aperture labiale
10 10

5 5

0 0
369 370 371 372 373 374 375 376 377 378 379 652 653 654 655 656 657 658 659 660 661 662 663 664
Images en unités de 40 ms Images en unités de 40 ms

Figure 60 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aqa/ (à gauche) et /aqqa/ (à droite) ; locuteur Kh

Pour ce qui concerne le locuteur F, dans ce contexte uvulaire, la Figure 61 révèle un


contact bref pour la simple (à gauche), couplé à une brève réduction de la constriction du
pharynx (image 379), et une aperture labiale plus ou moins stable. Pour la géminée, en
revanche, le contact dorso-uvulaire est plus long (images 826 à 831), accompagné d’une
réduction de la constriction pharyngale remarquablement longue également. Comme dans les
cas précédents, la taille de l’ouverture labiale reste assez stable tout au long de la séquence
VCV.

Au niveau de la coarticulation anticipatoire, la réduction de l’ouverture de la


constriction et de la constriction pharyngale, pour réaliser les consonnes cibles, est amorcée
très tôt dans les configurations associées à la production de la voyelle précédente. Ce constat
est valable pour les deux locuteurs et pour toutes les occurrences.

On voit aussi que pour le locuteur Kh, l’ouverture de la constriction et la constriction


pharyngale augmentent, toutes les deux, dans les configurations consonantiques, par
anticipation, pour produire la voyelle subséquente (images 375 et 658, respectivement).

La situation est quelque peu différente pour le locuteur F, chez qui seule la constriction
pharyngale augmente de manière continue, en vue de la production du /a/ suivant ; le geste est
clairement anticipatoire dans le contexte de la consonne simple (image 379), mais elle l’est

189
beaucoup moins dans le contexte de la géminée. Pour la consonne simple, l’ouverture de la
constriction, après le contact, s’agrandie de manière anticipatoire (image 379), pour
commencer à diminuer dans les configurations associées à la voyelle suivante. En ce qui
concerne la géminée, cette augmentation de l’ouverture de la constriction se fait tardivement
(image 831). Puis, elle reste stable durant la réalisation de la voyelle.

Ainsi, on peut dire qu’aucune stratégie anticipatoire ne semble être mise ici au service
de la réalisation de la gémination dans ce contexte, et que seul le locuteur F exploite le
phénomène de la rétention du geste consonantique, en contexte de la consonne géminée, afin
de marquer le contraste temporelle entre les deux termes de l’opposition phonologique.

F
aqa aqqa
30
30

25
a q a 25
a qq a
Déplacement (mm)

Ouverture de la Ouverture de la
Déplacement (mm)

20 constriction 20 constriction

Constriction Constriction
15 15
pharyngale pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
373 374 375 376 377 378 379 380 381 382 823 824 825 826 827 828 829 830 831 832 833 834
Images en unités de 40 ms Images en unités de 40 ms

Figure 61 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aqa/ (à gauche) et /aqqa/ (à droite) ; locuteur F

L’analyse des données de nos deux locuteurs, Kh et F, pour ces séquences VCV, où la
consonne est une occlusive sourde, révèle que nos paramètres articulatoires, à savoir
l’ouverture de la constriction, la constriction pharyngale et l’aperture labiale sont de bons
candidats pour l’étude de l’organisation spatiotemporelle de la production de la consonne
simple et de son homologue géminée, aussi bien dans le contexte alvéolaire que vélaire et
uvulaire. La trajectoire de ces trois paramètres, dans les configurations consonantiques
cibles, est structurellement similaire entre la simple et la géminée.
Au niveau spatial, si la réduction de l’ouverture de la constriction pour réaliser les contacts
alvéolaire et vélaire est toujours positivement « corrélée » avec la réduction de l’aperture
labiale, ces deux derniers paramètres sont inversement « corrélés » avec la constriction
pharyngale ; celle-ci augmente lorsque les deux autres paramètres diminuent. Pour ce qui
concerne la consonne uvulaire /q/, en revanche, la constriction pharyngale diminue en même
temps que l’ouverture de la constriction, alors que l’aperture labiale, elle, reste relativement
stable. Nous posons, au vu de ces résultats, que l’augmentation de la taille de la constriction
au niveau de la cavité pharyngale, aussi bien lors de la production de la consonne simple que

190
de son homologue géminée, n’est pas nécessairement attribuable au geste de protrusion de la
langue, vers la partie frontale de la cavité buccale, dans la réalisation du contact alvéolaire.
En effet, cette augmentation de la taille de la cavité pharyngale est aussi clairement visible en
contexte vélaire, un contexte qui ne favorise pas particulièrement une avancée de la masse
linguale. On peut donc, dans ce cas, supposer l’existence d’un geste typiquement
consonantique, avec la taille d’une constriction pharyngale spécifique, et un autre geste
typiquement vocalique, ayant une constriction pharyngale réduite, intrinsèque à la voyelle
radico-pharyngale /a/. Reste maintenant à vérifier cette supposition à partir d’observations en
contextes vocaliques d’une voyelle antérieure, telle que le /i/, par exemple.
Par rapport au timing de ces trois paramètres articulatoires, il est évident que c’est le contact
alvéolaire, vélaire et uvulaire, plus long pour la géminée, qui est le paramètre préférentiel de
la distinction phonologique simple vs. géminée. Dans le cas des consonnes alvéolaires et
vélaires, ce contact est accompagné de l’augmentation de la constriction pharyngale et de la
réduction de l’aperture labiale, qui durent plus longtemps pour la géminée comparée à la
simple, pendant l’occlusion. Le contact uvulaire, lui, est accompagné d’une réduction de la
constriction pharyngale, qui a une durée plus longue pour les géminées, comparées aux
simples. L’aperture labiale, pour l’uvulaire, reste relativement stable tout au long de la
production de la séquence VCV.
Toujours au niveau du timing articulatoire, nous avons constaté que les gestes anticipatoires,
pour produire les consonnes cibles, simples ou géminées, sont initiés plus précocement
durant la production de la voyelle précédente. Cette stratégie anticipatoire est encore plus
précoce pour les géminées, comparées aux consonnes simples, en contextes apical et vélaire.
Nous avons vu aussi, dans les contextes apical et vélaire, la mise en place d’une stratégie de
coarticulation rétentrice au service de la réalisation de la gémination, afin de marquer le
contraste temporelle entre les deux termes de l’opposition phonologique. Cette dernière
conduite motrice n’est pas généralisable en contexte uvulaire.
Nous tâcherons, dans ce qui suit, de savoir si le voisement peut avoir quelques influences sur
le contrôle spatiotemporel de la gémination, et cela à partir de l’examen de nos paramètres
supraglottiques.

191
Le contrôle spatiotemporel de la gémination : les occlusives voisées

Nous poursuivons, dans ce contexte de voisement, l’examen de nos trois paramètres


articulatoires qui se sont révélés pertinents dans l’opposition entre consonnes simples et
consonnes géminées chez les occlusives non voisées. Nous nous focaliserons ici sur une
analyse comparative, entre les non voisées et les voisées, en ce qui concerne les différences de
contrôle spatiotemporel. Cette démarche évitera des redites lorsque nous observons des
stratégies remarquablement comparables entre les deux contextes.

Le contexte alvéolaire /d/

La Figure 62 montre la trajectoire de nos trois paramètres articulatoires de


prédilection, à savoir l’ouverture de la constriction, la constriction pharyngale et l’aperture
labiale, pour la séquence /ada/ (à gauche) et /adda/ (à droite) ; locuteur Kh. La trajectoire de
ces trois paramètres, durant les configurations vocaliques et consonantiques VCV, est
structurellement similaire entre la simple et la géminée, même si cette similarité est moins
marquante ici, par rapport aux contextes non voisés. Ainsi, on voit aisément qu’au niveau du
contrôle temporel, l’ouverture de la constriction indique un contact apical plus long pour la
consonne géminée (images 681 à 684), par rapport à son homologue simple (images 220 et
221). Pour la géminée, l’aperture labiale a tendance à diminuer durant la production de la
consonne, de voyelle-à-voyelle, accompagnant ainsi le contact lingual. En revanche, pour la
simple, l’aperture labiale reste relativement stable de la voyelle à la consonne ; elle se réduit
davantage dans la transition consonne-voyelle. Cette aperture labiale, réduite, dure plus
longtemps pour la géminée (images 681 à 684) que pour la simple, chez qui aucune réduction
de ce paramètre n’est décelable durant le contact (images 220 et 221). Nous savons
maintenant que l’augmentation de la taille de la constriction au niveau de la cavité
pharyngale, aussi bien pour la consonne simple que pour son homologue géminée, n’est pas
forcément imputable au geste de protrusion de la langue, vers la partie frontale de la cavité
buccale, dans la réalisation du contact apical. La taille de la cavité pharyngale est plus grande
pour la géminée, comparée à la simple (une différence maximale de 3 mm). Cette
augmentation de la taille de la cavité pharyngale persiste durant le contact alvéolaire, et se
maintient plus longtemps pour la géminée, comparée à la consonne simple.

Tout comme dans le contexte non voisé, une observation du timing des gestes dans ce
contexte /ada/ confirme l’anticipation des gestes linguaux et, à un degré moindre, du geste
labial, pour la production de la consonne, dès les configurations du conduit vocal, associées à
la voyelle /a/. Ce constat est plus visible dans le contexte géminé /adda/, où l’on peut voir en
192
effet que le déplacement de l’apex pour la réalisation du contact apical, ainsi que celui de la
langue au niveau pharyngal sont tous entamés durant la réalisation de la voyelle /a/ précédente
(image 679). Par rapport à la réduction de l’aperture labiale, celle-ci démarre certes de
manière anticipatoire (image 680) mais cette réduction reste relativement faible. En ce qui
concerne la simple /ada/ (Figure 62), seule l’anticipation du geste pour le contact alvéolaire se
fait tôt, et de manière claire, dans les configurations vocaliques (image 219), le geste labial
restant relativement stable.

Kh
30
ada adda
30

25
a d a 25 a dd a
Déplacement (mm)

Overture de la Overture de la

Déplacement (mm)
20 constriction constriction
20
Constriction Constriction
15 pharyngale 15 pharyngale

Aperture labiale Aperture labiale


10 10

5 5

0 0
214 215 216 217 218 219 220 221 222 223 224 678 679 680 681 682 683 684 685 686 687 688 689
Images en unités de 40 ms Images en unités de 40 ms

Figure 62 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ada/ (à gauche) et /adda/ (à droite) ; locuteur Kh

L’analyse des données du second locuteur F (Figure 63) indique que nous n’avions pas
affaire à un comportement qui serait spécifique au locuteur précédent ; nous pouvons en effet
observer des stratégies articulatoires similaires chez ce second locuteur. Il semble, néanmoins,
que les stratégies anticipatoires de voyelles à consonnes soient déclenchées plus précocement
chez ce locuteur F, et cela de façon synchrone : par ex. à l’image 259 pour la simple, de
voyelle à consonne, et à l’image 715 pour la géminée, de voyelle à consonne.

F
ada adda
30 30

25 25
a d a a dd a Ouverture de la
Déplacement (mm)

Ouverture de la
constriction
Déplacement (mm)

20 constriction 20

Constriction Constriction
15 15 pharyngale
pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
256 257 258 259 260 261 262 263 264 265 712 713 714 715 716 717 718 719 720 721 722 723 724
Images en unités de 40 ms Images en unités de 40 ms

Figure 63 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ada/ (à gauche) et /adda/ (à droite) ; locuteur F

193
Le contexte vélaire /g/

L’étude du timing des gestes dans le contexte vélaire pour nos consonnes voisées
confirme la tendance générale de l’évolution des trois paramètres, observée auparavant, dans
les séquences VCV : une augmentation de la taille de la constriction pharyngale durant le
contact, une réduction plus ou moins marquée de l’aperture labiale et l’émergence de gestes
anticipatoires. Les gestes consonantiques sont anticipés dans les configurations du conduit
vocal associées à la voyelle qui précède la consonne cible, et les gestes vocaliques pour la
production de la voyelle suivant la consonne cible sont préparés durant la phase obstruante du
conduit vocal. Les spécificités liées au locuteur (comparer Figure 64 et Figure 65) ne
semblent pas être pertinentes en termes de contrôle moteur.

Kh
aga agga
30 30

a g a a gg a
Déplacement (mm)

25 25
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 15 pharyngale
pharyngale
Aperture labiale
10 Aperture labiale 10

5 5

0 0
252 253 254 255 256 257 258 259 260 261 262 757 758 759 760 761 762 763 764 765 766 767 768
Images en unités de 40 ms Images en unités de 40 ms

Figure 64 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aga/ (à gauche) et /agga/ (à droite) ; locuteur Kh

F
aga agga
30 30

25 a g a 25 a gg a
Déplacement (mm)

Déplacement (mm)

Ouverture de la Ouverture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15
pharyngale
10 Aperture labiale 10 Aperture labiale

5 5

0 0
293 294 295 296 297 298 299 300 301 302 303 304 48 49 50 51 52 53 54 55 56 57 58 59

Images en unités de 40 ms Images en unités de 40 ms

Figure 65 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aga/ (à gauche) et /agga/ (à droite) ; locuteur F

194
La trajectoire de nos trois paramètres articulatoires, dans les configurations vocaliques
environnantes et les configurations consonantiques voisées cibles, est structurellement
similaire entre la simple et la géminée, même si cette similarité est moins marquante ici, par
rapport aux contextes non voisés, analysés supra.
Dans ce contexte voisé aussi, les « corrélations » entre les paramètres dans leurs trajectoires
sont comparables à celles observées en contexte non voisé : lorsque l’apex ou le dos de la
langue s’élèvent pour réaliser l’occlusion, la taille de la constriction au niveau pharyngale
augmente, et l’aperture labiale diminue, accompagnant ainsi le geste de la langue pour la
réalisation du contact. La diminution de l’aperture labiale dans le contexte vélaire est très peu
marquée, une partie significative des gestes supraglottiques se produisant plutôt dans la partie
arrière du conduit vocal, dans le contexte vélaire.
L’étude du timing des gestes nous révèle que le contact, nécessaire pour la réalisation de la
consonne, est plus long pour les géminées que pour les simples. Les deux autres paramètres
accompagnent le contact, avec un maintien d’une cavité pharyngale agrandie plus longtemps
et d’une aperture labiale réduite également plus longtemps pour la géminée, comparée à la
simple. Les gestes consonantiques sont anticipés dans les configurations du conduit vocal
associées à la voyelle qui précède la consonne cible, et les gestes vocaliques pour la
production de la voyelle suivant la consonne cible sont préparés durant la phase obstruante
du conduit vocal. Les spécificités liées au locuteur ne semblent pas être pertinentes en termes
de contrôle moteur.
Qu’en sera-t-il de la pertinence de nos trois paramètres articulatoires de prédilection pour
caractériser l’opposition phonologique simples vs. géminées en contexte de consonnes
constrictives ? Nous proposons d’examiner cela dans ce qui suit.

Le contrôle spatiotemporel de la gémination : les constrictives non voisées

Le contexte alvéolaire /s/

L’examen des trajectoires de nos trois paramètres articulatoires dans ce contexte


alvéolaire /s/ vs. /ss/ révèle des comportements clairs et généralisables aux deux locuteurs
(voir Figure 66 et Figure 67). La constriction maximale dure plus longtemps pour les
géminées que pour les simples, et cela de façon remarquable (approximativement 5 à 6
images pour une géminée contre 3 images pour une simple). La diminution de l’aperture
labiale durant le maintien de la constriction alvéolaire maximale dure, elle aussi, plus
longtemps pour les géminées que pour les simples. L’agrandissement du pharynx lors de la

195
réalisation de la consonne, observé chez les occlusives, se confirme ici pour les constrictives,
même si le constat est moins prononcé ici. On notera un comportement de non
agrandissement du pharynx chez le locuteur F durant la production de la fricative simple (cf.
Figure 67, à gauche). Les gestes anticipatoires sont plus nets lors des transitions de voyelles à
consonnes que du contraire.

Kh
asa assa
30 30

25
a s a Overture de la 25
a ss a
Déplacement (mm)

Déplacement (mm)
Overture de la
constriction constriction
20 20
Constriction
Constriction
pharyngale
15 15 pharyngale
Aperture labiale
Aperture labiale
10 10

5 5

0 0
656 657 658 659 660 661 662 663 664 665 666 448 449 450 451 452 453 454 455 456 457 458 459 460
Images en unités de 40 ms Images en unités de 40 ms

Figure 66 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /asa/ (à gauche) et /assa/ (à droite) ; locuteur Kh

F
asa assa
30 30

25
a s a Constriction
25
a ss a
Déplacement (mm)
Déplacement (mm)

Constriction
20 Opening 20 Opening
Pharynx Pharynx
15 15
Constriction Constriction
10 Aperture labiale 10 Aperture labiale

5 5

0 0
31 32 33 34 35 36 37 38 39 40 461 462 463 464 465 466 467 468 469 470 471 472
Images en unités de 40 ms Images en unités de 40 ms

Figure 67 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /asa/ (à gauche) et /assa/ (à droite) ; locuteur F

Le contexte alvéolaire //

Dans le contexte alvéolaire labialisé // vs. //, les manœuvres les plus saillantes
s’observent pour les géminées : elles consistent à maintenir relativement stable et plus
longtemps les constrictions linguales (alvéolaire et pharyngale) et l’aperture labiale, et cela
chez les deux locuteurs (voir Figure 68 et Figure 69), comparées à celles des simples. On
notera, toutefois, que malgré cette tendance à une stabilité relative des trajectoires des
paramètres pour les consonnes géminées, la taille du pharynx augmente légèrement durant la
production de la consonne (sauf chez le locuteur F encore, durant la production de la fricative
simple - cf. Figure 69, à gauche), alors que la constriction au niveau alvéolaire, elle, tend à

196
diminuer. Les gestes anticipatoires sont toujours plus nets lors des transitions de voyelles à
consonnes que du contraire.

Kh
aa aa
30 30

25 a  a 25
a  a
Déplacement (mm)

Déplacement (mm)
Overture de la Overture de la
20 constriction constriction
20
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
695 696 697 698 699 700 701 702 703 704 705 706 707 488 489 490 491 492 493 494 495 496 497 498 499 500
Images en unités de 40 ms Images en unités de 40 ms

Figure 68 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aa/ (à gauche) et /aa/ (à droite) ; locuteur Kh

F
aa aa
30 30

25
a  a 25
a  a Ouverture de la
Déplacement (mm)

Ouverture de la
Déplacement (mm)

constriction 20 constriction
20
Constriction Constriction
15 15 pharyngale
pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
65 66 67 68 69 70 71 72 73 74 75 76 503 504 505 506 507 508 509 510 511 512 513 514
Images en unités de 40 ms Images en unités de 40 ms

Figure 69 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aa/ (à gauche) et /aa/ (à droite) ; locuteur F

197
L’examen des trajectoires de nos trois paramètres articulatoires dans ces contextes
alvéolaires /s/ vs. /ss/ et // vs. // révèle des comportements clairs et généralisables à ces
alvéolaires.
Au niveau spatial, l’agrandissement du pharynx lors de la réalisation de la consonne, observé
pour les occlusives, se confirme ici pour les constrictives, même si le constat est moins
prononcé et moins systématique pour les consonnes simples. L’aperture labiale diminue ou
reste stable en même temps que la réduction de la constriction alvéolaire.
Au niveau du timing des gestes, la constriction maximale dure plus longtemps pour les
géminées que pour les simples, et cela de façon remarquable. La diminution de l’aperture
labiale, durant le maintien de la constriction alvéolaire maximale dure, elle aussi, plus
longtemps pour les géminées que pour les simples. Les gestes anticipatoires sont plus nets
lors des transitions de voyelles à consonnes que des transitions des consonnes cibles aux
voyelles suivantes. C’est grâce à ces stratégies de persévération des gestes associés aux
configurations fermantes du conduit vocal pour les géminées que les différences temporelles
entre consonnes simples et consonnes géminées sont maximisées.
Comme dans les contextes de consonnes occlusives examinées précédemment, il sera
également question, ci-après, de savoir si le voisement peut avoir quelques influences sur le
contrôle spatiotemporel supraglottique de la gémination.

Le contrôle spatiotemporel de la gémination : les constrictives voisées

Le contexte alvéolaire /z/

Dans ce contexte alvéolaire voisé (/z/ vs. /zz/), les gestes des articulateurs sont
globalement comparables à ceux observés dans le contexte non voisé (/s/ vs. /ss/). En effet, si
l’on compare Figure 66 et Figure 67 (ci-dessus) avec Figure 70 et Figure 71 (ci-dessous), on
constate que les timing des articulateurs se ressemblent remarquablement, avec une tenue plus
longue des gestes linguaux (alvéolaire et pharyngal) et labial durant la production de la
géminée. En revanche, on ne note pas d’augmentation de la cavité pharyngale en passant de la
voyelle à la consonne pour les simples et les géminées, sauf pour notre locuteur F pour qui,
cette fois-ci, la taille de cette cavité augmente. Le contrôle de la constriction pharyngale ne
semble pas être régulier chez ce dernier locuteur. En ce qui concerne les gestes anticipatoires,
seul celui de la constriction alvéolaire semble se faire de manière consistante, se réduisant
déjà dans les configurations vocaliques pour être au minimum lors de la production des

198
consonnes cibles. Cette réduction de la taille de la constriction alvéolaire est plus prononcée
pour les simples que pour les géminées, et cela pour nos deux locuteurs.

Kh
aza azza
30 30

25
a z a 25
a z a

Déplacement (mm)
Overture de la
Déplacement (mm)

Overture de la
constriction 20 constriction
20
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale
Aperture labiale
10 10

5 5

0 0
66 67 68 69 70 71 72 73 74 75 76 526 527 528 529 530 531 532 533 534 535 536
Images en unités de 40 ms Images en unités de 40 ms

Figure 70 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aza/ (à gauche) et /azza/ (à droite) ; locuteur Kh

F
aza azza
30 30

25 a z a 25 a zz a
Déplacement (mm)

Déplacement (mm)

Ouverture de la Ouverture de la
20 20
constriction constriction

15 15 Constriction
Constriction
pharyngale
pharyngale
10 10 Aperture labiale
Aperture labiale
5 5

0 0
106 107 108 109 110 111 112 113 114 115 543 544 545 546 547 548 549 550 551 552 553
Images en unités de 40 ms Images en unités de 40 ms

Figure 71 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aza/ (à gauche) et /azza/ (à droite) ; locuteur F

Le contexte alvéolaire //

Dans ce contexte alvéolaire labialisé et voisé // vs. // (voir Figure 72 et Figure 73)
les gestes qui sous-tendent l’opposition phonologique reposent, comme dans le contexte non
voisé (voir Figure 68 et Figure 69) sur une constriction maintenue plus longuement pour les
géminées que pour les simples. Il convient de signaler, toutefois, qu’en ce qui concerne
l’ouverture de la constriction alvéolaire, elle est moins marquante pour l’opposition entre
simple et géminée chez le locuteur Kh. La taille de l’aperture labiale est maintenue
relativement stable et plus longuement pour les géminées. La taille de la cavité pharyngale a
tendance à augmenter durant la production de la consonne cible, mais cela n’est pas
systématique, puisque ce comportement n’a pas été observé pour la consonne géminée chez le
locuteur F (voir Figure 73 à droite). Si l’on doit parler de gestes anticipatoires (de V à C), seul
celui de la constriction alvéolaire est remarquable et généralisable aux deux catégories
consonantiques et aux deux locuteurs.
199
Kh
aa aa
30 30

25
a  a Overture de la
25
a  a

Déplacement (mm)
Déplacement (mm)

Overture de la
constriction constriction
20 20
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
100 101 102 103 104 105 106 107 108 109 110 562 563 564 565 566 567 568 569 570 571 572 573 574 575

Images en unités de 40 ms Images en unités de 40 ms

Figure 72 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aa/ (à gauche) et /aa/ (à droite) ; locuteur Kh

F
aa aa
30 30

25
a  a
25
a  a
Déplacement (mm)

Ouverture de la Déplacement (mm) Ouverture de la


20 constriction
Constriction
20
 constriction

15 Constriction
15 pharyngale pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
138 139 140 141 142 143 144 145 146 147 148 149 586 587 588 589 590 591 592 593 594 595 596

Images en unités de 40 ms Images en unités de 40 ms

Figure 73 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aa/ (à gauche) et /aa/ (à droite) ; locuteur F

200
Dans les contextes alvéolaires voisés /z/ vs. /zz/ et // vs. //, c’est notamment au niveau du
timing des gestes, qui sous-tendent l’opposition phonologique, que les comportements
gestuels semblent être plus marquants, à savoir une constriction alvéolaire réduite, maintenue
plus longuement pour les géminées que pour les simples. Il en va de même de la taille de
l’aperture labiale, également réduite, qui est maintenue relativement stable et plus
longuement pour les géminées, comparées aux simples. La taille de la cavité pharyngale, elle,
même si elle a tendance à augmenter durant la production de la consonne cible, n’affiche pas
de comportement systématique. En termes de gestes anticipatoires (de V à C), seul celui de la
constriction alvéolaire est remarquable et généralisable aux deux catégories consonantiques
et aux deux locuteurs. On ne voit pas de manière notoire une initiation précoce de ce geste
anticipatoire pour les géminées, par rapport aux simples. En revanche les stratégies de
préservation des gestes, associés aux configurations fermantes du conduit vocal chez les
géminées, permettent, ici aussi, d’obtenir des différences temporelles plus nettes entre
simples et géminées.
Qu’en sera-t-il de la robustesse de nos paramètres articulatoires qui se sont révélés pertinents
dans l’émergence du contraste phonologique, en position initiale de mot ? Nous proposons
d’apporter des éléments de réponse à cette question dans ce qui suit.

Le contrôle spatiotemporel de la gémination en contexte CV : les occlusives non voisées

Le contexte alvéolaire /t/

Rappelons que dans ce contexte CV, la voyelle précédente de la phrase porteuse est
systématiquement le /i/. Les Figure 74 et Figure 75 montrent un contact plus long pour la
géminée /tt/ par rapport à celui de la simple /t/. Ce contact est préparé durant la voyelle
précédente aussi bien pour les simples que pour les géminées. L’aperture labiale ne semble
pas adopter de comportement notoire, lors du passage de la voyelle à la consonne ; elle reste
relativement stable (sauf pour une légère diminution remarquée chez le locuteur Kh, voir
Figure 74). Une réduction anticipatoire de la taille de la constriction est déjà entamée dans les
configurations associées à la consonne, pour préparer la voyelle /a/ suivante, cette dernière
exigeant une constriction radico-pharyngale réduite. Ainsi, ce geste anticipatoire au niveau
pharyngal démarre pendant la tenue de la consonne apicale. L’augmentation de la constriction
alvéolaire se fait de manière remarquable dès le relâchement, avec un conduit vocal largement
dégagé pour la production de cette voyelle ouverte.

201
Kh
ta tta
30 30

25 t a 25 tt a

Déplacement (mm)
Déplacement (mm)

Overture de la Overture de la
constriction constriction
20 20
Constriction Constriction
15 pharyngale pharyngale
15
Aperture labiale Aperture labiale
10 10

5 5

0 0
200 201 202 203 204 205 206 207 208 209 210 497 498 499 500 501 502 503 504 505 506 507 508 509 510
Images en unités de 40 ms Images en unités de 40 ms

Figure 74 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ta/ (à gauche) et /tta/ (à droite) ; locuteur Kh

F
ta tta
30 30

25 t a 25 tt a
Déplacement (mm)

Ouverture de la Déplacement (mm)


20 constriction 20 Ouverture de la
constriction
15 Constriction 15
pharyngale Constriction
pharyngale
10 Aperture labiale 10
Aperture labiale
5 5

0 0
190 191 192 193 194 195 196 197 198 199 200 201 500 501 502 503 504 505 506 507 508 509 510 511
Images en unités de 40 ms Images en unités de 40 ms

Figure 75 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ta/ (à gauche) et /tta/ (à droite) ; locuteur F

Le contexte vélaire /k/

Dans ce contexte vélaire, le contact dorso-vélaire est plus long pour les géminées que
pour les simples, et cela pour nos deux locuteurs (Figure 76 et Figure 77). Ce contact se
prépare déjà dans les configurations ouvrantes correspondant à la voyelle /i/ précédente,
comme cela fut le cas dans le contexte apical. L’aperture labiale reste relativement stable lors
du passage de la voyelle /i/ à la consonne, un comportement qui a été aussi remarqué dans le
contexte apical. En revanche, la taille de la constriction pharyngale n’entame pas de
diminution précoce de la consonne cible à la voyelle suivante /a/, étant donné la localisation
postérieure du lieu d’articulation qui sollicite une intervention active du dos de la langue. Ce
n’est qu’au relâchement, voire après celui-ci, que le geste de réduction de la constriction
pharyngale pour la réalisation de la voyelle /a/, est déployé.

202
Kh
ka kka
30 30

25 k a 25 kk a

Déplacement (mm)
Overture de la Overture de la
Déplacement (mm)

constriction 20 constriction
20
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
235 236 237 238 239 240 241 242 243 244 245 246 247 536 537 538 539 540 541 542 543 544 545 546 547 548
Images en unités de 40 ms Images en unités de 40 ms

Figure 76 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ka/ (à gauche) et /kka/ (à droite) ; locuteur Kh

F
ka kka
30 30

25 k a 25
kk a
Déplacement (mm)

Ouverture de la Déplacement (mm) Ouverture de la


20 constriction 20
constriction
Constriction 15 Constriction
15
pharyngale pharyngale
10 Aperture labiale 10 Aperture labiale

5 5

0 0
227 228 229 230 231 232 233 234 235 236 237 238 540 541 542 543 544 545 546 547 548 549 550 551 552 553

Images en unités de 40 ms Images en unités de 40 ms

Figure 77 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ka/ (à gauche) et /kka/ (à droite) ; locuteur F

Le contexte uvulaire /q/

L’examen du timing des gestes dans ce contexte uvulaire révèle (Figure 78 et Figure
79) un contact dorso-uvulaire plus prolongé pour les géminées, comparées aux simples. Il est
vrai que le suivi de ce contact, quoique visible sur les vues de profil (cf. Figure 134 et Figure
135), a été plus problématique dans ce contexte uvulaire. Cela explique l’absence de stabilité
du paramètre « ouverture de la constriction » lors de la réalisation de la consonne, celui-ci
montrant une augmentation, à notre avis erronée, dans les configurations cibles de la
consonne, chez le locuteur Kh. Si l’aperture labiale reste relativement stable durant la
séquence VCV, la constriction pharyngale, elle, est préparée durant le /i/, en se réduisant
jusqu’à une valeur minimale durant la consonne dorso-uvulaire. Cette constriction augmente
légèrement pour la réalisation du /a/ suivant chez Kh, ou reste stable en passant de la
consonne géminée à la voyelle chez F.

203
Kh
qa qqa
30 30

25
q a 25 qq a

Déplacement (mm)
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale 10 Aperture labiale
10

5 5

0 0
292 293 294 295 296 297 298 299 300 301 302 303 612 613 614 615 616 617 618 619 620 621 622 623
Images en unités de 40 ms Images en unités de 40 ms

Figure 78 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /qa/ (à gauche) et /qqa/ (à droite) ; locuteur Kh

F
qa qqa
30 30

25
q a 25
qq a
Déplacement (mm)

Ouverture de la
Déplacement (mm)
Ouverture de la 20
20 constriction
constriction
15 Constriction
15 Constriction
pharyngale
pharyngale
10 10 Aperture labiale
Aperture labiale

5 5

0 0
334 335 336 337 338 339 340 341 342 343 777 778 779 780 781 782 783 784 785 786 787 788

Images en unités de 40 ms Images en unités de 40 ms

Figure 79 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /qa/ (à gauche) et /qqa/ (à droite) ; locuteur F

204
Les résultats sont plus clairs, en termes de timing, dans les contextes alvéolaire et vélaire, la
phase obstruante étant plus longue pour les géminées que pour les simples. Ce constat est
vrai aussi dans le contexte uvulaire, même si les données, en suivi de points, sont moins
parlantes (cf. supra). Dans les deux contextes alvéolaire et vélaire, ce contact se prépare de
manière anticipatoire, déjà dans les configurations ouvrantes correspondant à la voyelle /i/
précédente ; cela n’est pas le cas dans le contexte uvulaire. Si, dans le contexte apical, l’on
observe une réduction anticipatoire de la taille de la constriction pharyngale, entamée déjà
dans les configurations associées à la consonne, pour préparer la voyelle /a/ suivante, la
réduction de cette constriction ne se fait, dans le contexte vélaire, qu’au relâchement, voire
après celui-ci. La constriction pharyngale, dans le contexte uvulaire, est préparée durant le /i/,
en se réduisant jusqu’à une valeur minimale durant la consonne dorso-uvulaire. Il semble
donc que seul le lieu d’articulation dorso-vélaire du /k/ soit en conflit avec l’émergence
d’une configuration réduite du /a/ suivant.
L’aperture labiale reste relativement stable lors du passage de la voyelle /i/ à la consonne,
puis augmente pour réaliser le /a/, un comportement remarqué dans les contextes apical et
vélaire. Une stabilité de la taille de l’aperture labiale est maintenue, dans le contexte /q/ de la
voyelle /i/ à la voyelle /a/, en passant par la consonne. Nous tenterons de rationaliser
l’ensemble de ces résultats dans la Synthèse Générale (Chapitre 13).

Le contrôle spatiotemporel de la gémination en contexte CV : les occlusives voisées

Les contextes alvéolaire et vélaire /d/ et /g/

Par rapport au contexte non voisé, le comportement spatiotemporel des occlusives


voisées apicales et vélaires reste remarquablement similaire (comparer Figure 74 à Figure 77
supra avec Figure 80 à Figure 83 infra). Nous nous contenterons, en conséquence, de ne
proposer qu’un bref résumé de ce comportement. Le contact est plus long pour les géminées
par rapport à celui des simples. Ce contact est préparé durant la voyelle précédente.
L’aperture reste relativement stable de la voyelle /i/ à la consonne. Une réduction anticipatoire
de la taille de la constriction est déjà entamée dans les configurations associées à la consonne
apicale, pour préparer la voyelle /a/ suivante, alors que cette réduction arrive plus tardivement
dans le contexte vélaire. Ainsi, ce geste anticipatoire au niveau pharyngal démarre pendant la
tenue de la consonne apicale. L’augmentation de la taille des constrictions alvéolaires et
vélaires est notoire dès le relâchement de ces occlusives, afin de préparer un conduit vocal
suffisamment grand pour la production de la voyelle ouverte /a/.
205
Kh
da dda
30 30

25 d a 25 dd a

Déplacement (mm)
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale
Aperture labiale
10 10

5 5

0 0
274 275 276 277 278 279 280 281 282 283 284 574 575 576 577 578 579 580 581 582 583 584 585 586 587
Images en unités de 40 ms Images en unités de 40 ms

Figure 80 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /da/ (à gauche) et /dda/ (à droite) ; locuteur Kh

F
da dda
30 30

25 d a 25 dd a
Déplacement (mm)
Ouverture de la
Déplacement (mm)

Ouverture de la 20
20 constriction
constriction
Constriction
15 Constriction 15
pharyngale
pharyngale
10 Aperture labiale
10 Aperture labiale

5
5
0
0
581 582 583 584 585 586 587 588 589 590 591 592 593
266 267 268 269 270 271 272 273 274 275 276
Images en unités de 40 ms Images en unités de 40 ms

Figure 81 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /da/ (à gauche) et /dda/ (à droite) ; locuteur F

Kh
ga gga
30 30
g a gg a
25 25
Déplacement (mm)

Overture de la
Déplacement (mm)

Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
308 309 310 311 312 313 314 315 316 317 318 319 615 616 617 618 619 620 621 622 623 624 625 626 627
Images en unités de 40 ms Images en unités de 40 ms

Figure 82 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ga/ (à gauche) et /gga/ (à droite) ; locuteur Kh

206
F
ga gga
30 30

25
g a gg a
25

Déplacement (mm)
Déplacement (mm)

Ouverture de la Ouverture de la
20 constriction 20 constriction
Constriction Constriction
15 15
pharyngale pharyngale
10 Aperture labiale 10 Aperture labiale

5 5

0 0
303 304 305 306 307 308 309 310 311 312 313 620 621 622 623 624 625 626 627 628 629 630 631

Images en unités de 40 ms Images en unités de 40 ms

Figure 83 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ga/ (à gauche) et /gga/ (à droite) ; locuteur F

Par rapport au contexte non voisé, le comportement spatiotemporel des occlusives voisées
apicales et vélaires reste remarquablement similaire (cf. résumé supra). En ce qui concerne le
contexte non voisé, on constate une augmentation de la taille des constrictions alvéolaires et
vélaires plus notoire, dès le relâchement de ces occlusives, afin de préparer un conduit vocal
suffisamment dégagé pour permettre l’émergence de la voyelle grande ouverte /a/.
Nous suggérons à présent d’examiner le cas du contrôle spatiotemporel de la
gémination chez les constrictives non voisées.

Le contrôle spatiotemporel de la gémination en contexte CV : les constrictives non


voisées

Le contexte alvéolaire /s/

Les deux locuteurs adoptent des stratégies spatiotemporelles comparables pour


distinguer les deux classes phonologiques (Figure 84 et Figure 85). En substance, la tenue de
l’ouverture de la constriction est plus longue pour les géminées. L’aperture labiale, réduite
pour le /i/, est ainsi maintenue durant le /s/, puis augmente pour produire le /a/ suivant, cette
augmentation étant plus clairement anticipatoire dans le contexte de la consonne simple, par
rapport à la géminée. On note, toutefois, que le locuteur F adopte, lui, une stratégie
anticipatoire en démarrant la diminution de la taille de la cavité pharyngale dans les
configurations du /i/, ce qui n’est pas le cas chez Kh. Cette réduction de la constriction
pharyngale qui, au plus tard, commence durant la production de la consonne cible pour les
deux locuteurs et dans les deux contextes phonologiques est, selon nous, à lier avec la
préparation du /a/ suivant.

207
Kh
30
sa ssa
30

25 s a Overture de la
25 ss a
Déplacement (mm)

Déplacement (mm)
Overture de la
20 constriction constriction
20
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
60 61 62 63 64 65 66 67 68 69 344 345 346 347 348 349 350 351 352 353 354
Images en unités de 40 ms Images en unités de 40 ms

Figure 84 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /sa/ (à gauche) et /ssa/ (à droite) ; locuteur Kh

F
sa ssa
30 30

25
s a 25 ss a
Déplacement (mm)

Ouverture de la

Déplacement (mm)
Ouverture de la
constriction constriction
20 20
Constriction Constriction
15 pharyngale 15 pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
42 43 44 45 46 47 48 49 50 51 341 342 343 344 345 346 347 348 349 350 351
Images en unités de 40 ms Images en unités de 40 ms

Figure 85 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /sa/ (à gauche) et /ssa/ (à droite) ; locuteur F

Le contexte alvéolaire //

Dans ce contexte labialisé et non voisé //, le paramètre articulatoire de prédilection


pour opposer les deux catégories phonologiques, à savoir l’ouverture de la constriction au
niveau alvéolaire, reste relativement stable à une valeur minimale et dure plus longtemps pour
les géminées par rapport aux simples, et cela pour nos deux locuteurs (Figure 86 et Figure
87). Cette ouverture minimale est à appréhender par rapport à la valeur atteinte pour le /a/
suivant, bien entendu, où elle devient remarquablement grande. Comme dans les contextes
précédents, la taille réduite de l’aperture labiale accompagne celle de l’ouverture de la
constriction ; elle est maintenue plus longuement, ici aussi, pour les géminées, comparées à
leurs homologues simples.

208
Kh
a a
30 30

25
 a 25  a

Déplacement (mm)
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15
pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
94 95 96 97 98 99 100 101 102 103 104 386 387 388 389 390 391 392 393 394 395 396 397
Images en unités de 40 ms Images en unités de 40 ms

Figure 86 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur Kh

F
a a
30 30

25  a 25  a
Déplacement (mm)
Déplacement (mm)

Ouverture de la Ouverture de la
20 constriction 20 constriction

Constriction 15 Constriction
15 pharyngale pharyngale

10 Aperture labiale 10
Aperture labiale

5
5
0
0
382 383 384 385 386 387 388 389 390 391 392 393
78 79 80 81 82 83 84 85 86 87 88 89
Images en unités de 40 ms
Images en unités de 40 ms

Figure 87 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur F

Dans ces contextes de consonnes constrictives non voisées, le paramètre articulatoire de


prédilection pour opposer les deux catégories phonologiques, à savoir l’ouverture de la
constriction au niveau alvéolaire, reste relativement stable à une valeur minimale et dure plus
longtemps pour les géminées par rapport aux simples. La taille réduite de l’aperture labiale
accompagne celle de l’ouverture de la constriction ; elle est maintenue plus longuement (une
stratégie de rétention) pour les géminées, comparées à leurs homologues simples. Soulignons
aussi une réduction de la constriction pharyngale qui commence durant la production de la
consonne cible, voire avant pour un des deux locuteurs ; une réduction précoce qui serait à
lier avec la préparation du /a/ suivant.
Est-ce que l’introduction du trait de voisement pourrait modifier le contrôle spatiotemporel
des gestes articulatoires des constrictives simples vs. géminées ? Une réponse à cette
question pourrait se trouver dans l’observation des données ci-après.

209
Le contrôle spatiotemporel de la gémination en contexte CV : les constrictives voisées

Les contextes alvéolaires /z/ et //

Par rapport au contexte non voisé analysé précédemment, nous constatons que le
contrôle spatiotemporel des trois paramètres articulatoires, dans ce contexte voisé, est
notoirement similaire (comparer les Figure 84 à Figure 87 supra avec les Figure 88 à Figure
91 infra). En quelques termes, nous dirions que le timing des gestes de l’ouverture de la
constriction et de l’aperture labiale révèle une tenue plus longue pour les géminées. La
réduction anticipatoire de la taille de la constriction pharyngale pour produire le /a/ suivant est
aussi une constante dans les deux contextes et chez nos deux locuteurs ; cette réduction
anticipatoire peut soit démarrer dans les configurations du conduit vocal associées au /i/, soit
dans celles associées à la consonne alvéolaire cible. Le contraste de voisement ne semble pas,
en conséquence, influencer le contrôle spatiotemporel de ces gestes dans la réalisation de la
gémination.

Kh
za zza
30 30

25 z a 25 zz a
Déplacement (mm)
Déplacement (mm)

Overture de la
Overture de la
20 20 constriction
constriction

Constriction Constriction
15 15 pharyngale
pharyngale
10 Aperture labiale 10 Aperture labiale

5 5

0 0
130 131 132 133 134 135 136 137 138 139 140 425 426 427 428 429 430 431 432 433 434 435 436
Images en unités de 40 ms Images en unités de 40 ms

Figure 88 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /za/ (à gauche) et /zza/ (à droite) ; locuteur Kh

210
F
za 30
zza
30

25 z a 25 zz a
Déplacement (mm)

Ouverture de la

Déplacement (mm)
Ouverture de la
20 constriction 20 constriction
Constriction Constriction
pharyngale pharyngale
15 15
Aperture labiale
Aperture labiale
10 10

5 5

0 0
116 117 118 119 120 121 122 123 124 125 126 127 423 424 425 426 427 428 429 430 431 432 433
Images en unités de 40 ms Images en unités de 40 ms

Figure 89 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /za/ (à gauche) et /zza/ (à droite) ; locuteur F

Kh
a a
30 30

25  a 25
 a
Déplacement (mm)
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction

Constriction Constriction
15 pharyngale 15 pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0 0
166 167 168 169 170 171 172 173 174 175 176 177 178 462 463 464 465 466 467 468 469 470 471 472 473 474
Images en unités de 40 ms Images en unités de 40 ms

Figure 90 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur Kh

F
a
30

 a 25  a
Déplacement (mm)

Ouverture de la
20 constriction
Constriction
15 pharyngale
Aperture labiale
10

0
460 461 462 463 464 465 466 467 468 469 470 471 472
Images en unités de 40 ms

Figure 91 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur F

211
Le contrôle spatiotemporel de nos trois paramètres articulatoires, dans ces contextes voisés,
est notoirement similaire. En effet, le timing des gestes de l’ouverture de la constriction et de
l’aperture labiale révèle une tenue plus longue pour les géminées. La réduction anticipatoire
de la taille de la constriction pharyngale pour produire le /a/ suivant est aussi une constante
dans les deux contextes et chez nos deux locuteurs.
Qu’en sera-t-il du comportement de ces paramètres articulatoires en position finale de mot ?
C’est ce que nous allons découvrir infra.

Le contrôle spatiotemporel de la gémination en contexte VC : les occlusives non voisées

Le contexte alvéolaire /t/

Les Figure 92 et Figure 93 indiquent un contact apical plus long pour les géminées
(ouverture de la constriction à 0 mm), et cela pour les deux locuteurs. De la voyelle /a/ à la
consonne cible, la taille de l’aperture labiale diminue, alors que celle de la constriction
pharyngale augmente. Le timing de ces deux gestes est relativement plus stable et plus longue
pour les géminées par rapport aux simples. Le geste labial et les gestes linguaux pour réaliser
les consonnes cibles sont tous initiés de manière anticipatoire dans les configurations liées au
/a/.

Kh
at att
30 30

25 a t 25 a tt
Déplacement (mm)

Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale

10 Aperture labiale Aperture labiale


10

5 5

0 0
147 148 149 150 151 152 153 154 155 156 157 158 159 473 474 475 476 477 478 479 480 481 482 483 484 485
Images en unités de 40 ms Images en unités de 40 ms

Figure 92 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /at/ (à gauche) et /att/ (à droite) ; locuteur Kh

212
at att
30 30

25
a t
25
a tt Ouverture de la

Déplacement (mm)
Ouverture de la
Déplacement (mm)

20 constriction 20 constriction

Constriction Constriction
15 pharyngale 15 pharyngale

Aperture labiale Aperture labiale


10 10

5 5

0 0
257 258 259 260 261 262 263 264 265 266 602 603 604 605 606 607 608 609 610 611 612

Images en unités de 40 ms Images en unités de 40 ms

Figure 93 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /at/ (à gauche) et /att/ (à droite) ; locuteur F

Le contexte vélaire /k/

Dans ce contexte vélaire, le contrôle spatiotemporel observé pour le contexte apical


précédent reste semblable ici aussi. Ainsi, nous pouvons voir dans les Figure 94 et Figure 95
que le contact vélaire reste plus long pour les géminées (ouverture de la constriction à 0 mm),
chez les deux locuteurs. En revanche, si la taille de la constriction pharyngale augmente lors
de la transition de la voyelle /a/ à la production de la consonne vélaire, celle de l’aperture
labiale, elle, reste relativement stable du passage de la voyelle à la consonne. Encore une fois,
nous pouvons constater que le geste labial et les gestes linguaux pour réaliser les consonnes
cibles sont tous initiés de manière anticipatoire dans les configurations liées au /a/.

Kh
30
ak 30
akk
25
a k
25
a kk
Déplacement (mm)
Déplacement (mm)

20 Overture de la 20 Overture de la
constriction constriction
15 Constriction 15 Constriction
pharyngale pharyngale
10 Aperture labiale 10 Aperture labiale

5 5

0 0
221 222 223 224 225 226 227 228 229 230 231 232 508 509 510 511 512 513 514 515 516 517 518 519 520
Images en unités de 40 ms Images en unités de 40 ms

Figure 94 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ak/ (à gauche) et /akk/ (à droite) ; locuteur Kh

213
F

ak akk
30 30

25
a k 25 a k

Déplacement (mm)
Déplacement (mm)

Ouverture de la Ouverture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
298 299 300 301 302 303 304 305 306 307 308 645 646 647 648 649 650 651 652 653 654 655 656

Images en unités de 40 ms Images en unités de 40 ms

Figure 95 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ak/ (à gauche) et /akk/ (à droite) ; locuteur F

Le contexte uvulaire /q/

Les trajectoires des gestes labial (aperture labiale) et linguaux (ouverture de la


constriction et constriction pharyngale) sont, à première vue, quelque peu « chaotiques » dans
ce contexte uvulaire. Néanmoins, le contrôle spatiotemporel du geste lingual pour l’ouverture
de la constriction dans la région uvulaire montre une réduction anticipatoire de cette
constriction, des configurations associées à la voyelle /a/ jusqu’à celles liées à la production
de la consonne. Rappelons que les vues de profil indiquent un contact dans tous les cas de
figure, même si la détection quasi-automatique de ce contact fut problématique (cf. Chapitre
7). L’ouverture minimale de cette constriction dure plus longtemps pour les géminées que
pour les simples. Notons toutefois que cette ouverture minimale de la constriction reste peu
stable, même chez les géminées. L’aperture labiale se réduit avec la diminution de l’ouverture
de la constriction uvulaire, durant la réalisation de la consonne, alors que la taille de la
constriction pharyngale, elle, augmente pendant la production de cette consonne uvulaire,
peut-être sous l’influence de la voyelle antérieure /i/ de la phrase porteuse à venir (mais cf. un
comportement irrégulier chez F pour la consonne simple, Figure 97, à gauche).

Kh
30
aq 30
aqq
25 a q 25
a qq
Déplacement (mm)

Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction
15 Constriction
pharyngale 15
pharyngale
10 Aperture labiale
10 Aperture labiale

5
5
0
0
411 412 413 414 415 416 417 418 419 420 421 422
691 692 693 694 695 696 697 698 699 700 701 702
Images en unités de 40 ms
Images en unités de 40 ms

Figure 96 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aq/ (à gauche) et /aqq/ (à droite) ; locuteur Kh
214
F
aq aqq
30 30

25 25
a q a qq
Déplacement (mm)

Déplacement (mm)
Ouverture de la
constriction Ouverture de la
20 20
constriction
Constriction
15 Constriction
pharyngale 15
pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
413 414 415 416 417 418 419 420 421 422 870 871 872 873 874 875 876 877 878 879 880
Images en unités de 40 ms Images en unités de 40 ms

Figure 97 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /aq/ (à gauche) et /aqq/ (à droite) ; locuteur F

Les observations robustes qui se dégagent ici sont les suivantes : les contacts alvéolaire et
vélaire sont plus longs pour les géminées (ouverture de la constriction à 0 mm), chez les deux
locuteurs. Pour ces deux consonnes, si la taille de la constriction pharyngale augmente lors
de la transition de la voyelle /a/ à la production de la consonne vélaire, celle de l’aperture
labiale, elle, reste relativement stable du passage de la voyelle à la consonne. Toujours pour
ces deux occlusives (alvéolaire et vélaire), nous constatons que le geste labial et les gestes
linguaux pour réaliser les consonnes cibles sont tous initiés de manière anticipatoire dans les
configurations liées au /a/. La situation est différente dans le contexte uvulaire /q/.
L’anticipation des gestes linguaux et du geste labial se fait, certes, mais de manière peu
remarquable et a tendance à démarrer plutôt vers les dernières configurations ouvrantes de la
voyelle /a/ qui précède cette consonne. Toujours pour ce que concerne le /q/, l’ouverture
minimale de la constriction (contact), peu stable, dure plus longtemps pour les géminées que
pour les simples. L’aperture labiale se réduit avec la diminution de l’ouverture de la
constriction uvulaire, durant la réalisation de la consonne, alors que la taille de la constriction
pharyngale, elle, augmente pendant la production de cette consonne uvulaire.
Nous proposons d’examiner, ci-après, le contrôle spatiotemporel de la gémination dans ce
contexte VC, les occlusives étant voisées cette fois-ci.

215
Le contrôle spatiotemporel de la gémination en contexte VC : les occlusives voisées

Le contexte alvéolaire /d/

Les contraintes spatiotemporelles sont similaires à celles observées dans le contexte


non voisé. En d’autres termes, l’activation du canal de voisement ne provoque pas de
changements remarquables au niveau du timing des gestes ou de leur amplitude. Il semble
néanmoins que le contact alvéolaire est plus long pour les non voisées comparées aux voisées,
même si, rappelons-le, le critère ceteris paribus n’est pas assuré ici (comparer les Figure 92
et Figure 93 avec les Figure 98 et Figure 99). Cette différence de durée au niveau des contacts
est plus nette pour les géminées. Nous retrouvons ici aussi les résultats récurrents dans
l’opposition des simples aux géminées à savoir : un contact alvéolaire plus long pour les
géminées, et cela pour les deux locuteurs ; une réduction de la taille de l’aperture labiale en
allant de la voyelle /a/ à la consonne cible, alors que celle de la constriction pharyngale
augmente ; un timing de ces deux gestes relativement plus stable et qui se maintient plus
longtemps chez les géminées par rapport aux simples ; une initiation anticipatoire du geste
labial et des gestes linguaux pour réaliser les consonnes cibles.

Kh
ad add
30 30

25
a d
25 a dd
Déplacement (mm)
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5
5

0
0
543 544 545 546 547 548 549 550 551 552 553 554 555
256 257 258 259 260 261 262 263 264 265 266 267
Images en unités de 40 ms
Images en unités de 40 ms

Figure 98 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ad/ (à gauche) et /add/ (à droite) ; locuteur Kh

216
F
ad add
30 30

25
a d 25
a dd

Déplacement (mm)
Ouverture de la
Déplacement (mm)

Ouverture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
340 341 342 343 344 345 346 347 348 349 692 693 694 695 696 697 698 699 700 701 702
Images en unités de 40 ms Images en unités de 40 ms

Figure 99 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction


pharyngale et l’aperture labiale, pour la séquence /ad/ (à gauche) et /add/ (à droite) ; locuteur F

Le contexte vélaire /g/

Dans ce contexte vélaire voisé, le contrôle spatiotemporel ressemble à celui observé


dans le contexte vélaire non voisé, confirmant les observations que nous avions faites dans le
contexte apical précédent. En revanche, le contact vélaire n’est pas plus long pour les non
voisées par rapport aux voisées (comparer les Figure 94 et Figure 95 avec les Figure 100 et
Figure 101). L’on peut difficilement, dans ces conditions, parler de différences du timing de
l’occlusion qui serait lié au contraste de voisement. Notre résultat robuste est valable dans ce
contexte vélaire aussi : le contact vélaire est plus long pour les géminées (ouverture de la
constriction à 0 mm), chez les deux locuteurs. L’on confirme aussi le fait que si la taille de la
constriction pharyngale augmente lors de la réalisation de la voyelle /a/ à celle de la consonne
vélaire, celle de l’aperture labiale, elle, reste relativement stable du passage de la voyelle à la
consonne (sauf pour Kh, Figure 100, à droite). Au vu de nos données, nous pouvons
confirmer que le geste labial et les gestes linguaux pour réaliser les consonnes vélaires cibles
sont tous initiés de manière anticipatoire dans les configurations liées au /a/.

Kh
ag agg
30 30

25 a g 25 a gg
Déplacement (mm)

Overture de la
Déplacement (mm)

Overture de la
constriction 20 constriction
20
Constriction
Constriction
15 15 pharyngale
pharyngale
Aperture labiale
10 Aperture labiale 10

5
5
0
0
581 582 583 584 585 586 587 588 589 590 591 592 593
289 290 291 292 293 294 295 296 297 298 299 300 301
Images en unités de 40 ms
Images en unités de 40 ms

Figure 100 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /ag/ (à gauche) et /agg/ (à droite) ; locuteur Kh
217
F
ag agg
30 30

25
Ouverture de la
25
a gg
a g

Déplacement (mm)
Déplacement (mm)

constriction Ouverture de la
20 20
Constriction constriction
pharyngale Constriction
15 15
Aperture labiale pharyngale
10 10 Aperture labiale

5 5

0 0
382 383 384 385 386 387 388 389 390 391 736 737 738 739 740 741 742 743 744 745 746
Images en unités de 40 ms Images en unités de 40 ms

Figure 101 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /ag/ (à gauche) et /agg/ (à droite) ; locuteur F

Résumons ici les résultats récurrents de l’opposition phonologique de la gémination dans ce


contexte VC, où C’est une occlusive voisée : le contact alvéolaire est plus long pour les
géminées, et cela pour les deux locuteurs ; la taille de l’aperture labiale se réduit en allant de
la voyelle /a/ à la consonne cible, alors que celle de la constriction pharyngale augmente ; le
timing de ces deux gestes est relativement plus stable et se maintient plus longtemps chez les
géminées par rapport aux simples ; le geste labial et les gestes linguaux sont anticipés dans
les configurations ouvrantes de la voyelle /a/, en vue de la réalisation des consonnes cibles.
Poursuivons nos analyses en changeant de catégorie consonantique, par rapport au mode
articulatoire, et soyons attentifs à d’éventuelles modifications dans le contrôle spatiotemporel
dans la réalisation du phénomène phonologique de la gémination.

218
Le contrôle spatiotemporel de la gémination en contexte VC : les constrictives non
voisées

Le contexte alvéolaire /s/

Les Figure 102 et Figure 103 montrent une ouverture de la constriction alvéolaire
minimale nettement plus longue pour les géminées que pour les simples. Par rapport aux
configurations du /a/, l’aperture minimale est maintenue réduite durant la production de la
consonne (ce constat est moins marqué chez le locuteur F, lorsqu’il réalise l’alvéolaire
simple ; cf. Figure 103, à gauche). Si la taille de la cavité pharyngale a tendance à augmenter
légèrement lors de la réalisation des consonnes simples, elle reste relativement stable durant la
production des géminées. La réduction de l’ouverture de la constriction alvéolaire et de
l’aperture en vue de la réalisation de la consonne alvéolaire /s/ est anticipée dans les
configurations du /a/.

Kh
as ass
30 30

a s a ss
Déplacement (mm)

25 25
Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction

Constriction Constriction
15 15 pharyngale
pharyngale

10 Aperture labiale 10 Aperture labiale

5 5

0
0
325 326 327 328 329 330 331 332 333 334 335
798 799 800 801 802 803 804 805 806
Images en unités de 40 ms
Images en unités de 40 ms

Figure 102 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /as/ (à gauche) et /ass/ (à droite) ; locuteur Kh

F
as ass
30 30

25
a s 25
a ss Ouverture de la
Déplacement (mm)

Ouverture de la
Déplacement (mm)

constriction constriction
20 20
Constriction
Constriction
15 15 pharyngale
pharyngale
Aperture labiale
Aperture labiale
10 10

5 5

0 0
92 93 94 95 96 97 98 99 100 101 428 429 430 431 432 433 434 435 436 437
Images en unités de 40 ms Images en unités de 40 ms

Figure 103 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /as/ (à gauche) et /ass/ (à droite) ; locuteur F

219
Le contexte alvéolaire //

Dans ce contexte alvéolaire labialisé, les Figure 104 et Figure 105 indiquent, comme
dans le contexte alvéolaire précédent, une ouverture de la constriction alvéolaire minimale
plus longue pour les géminées que pour les simples. Par rapport aux configurations du /a/,
l’aperture minimale reste relativement stable durant la production de la consonne. La taille de
l’aperture labiale a tendance à être plus grande pour cette consonne / / par rapport au /s/, mais
seulement pour le locuteur Kh (comparer Figure 102 et Figure 104). La taille de la cavité
pharyngale a tendance à augmenter légèrement lors de la réalisation des consonnes simples et
géminées ; ce geste d’augmentation de la taille de la cavité pharyngale est anticipé dans les
configurations associées au /a/ précédent. Il en va de même pour la réduction de l’ouverture
de la constriction alvéolaire en vue de la réalisation de la consonne alvéolaire //.

Kh
a a
30 30

25 25
a  Overture de la
a  Overture de la
Déplacement (mm)
Déplacement (mm)

constriction constriction
20 20
Constriction Constriction
pharyngale 15 pharyngale
15
Aperture labiale
Aperture labiale
10 10

5
5

0
0
361 362 363 364 365 366 367 368 369 370 371 372
42 43 44 45 46 47 48 49 50 51 52
Images en unités de 40 ms Images en unités de 40 ms

Figure 104 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur Kh

F
a a
30 30

25
a  25
a 
Déplacement (mm)

Déplacement (mm)

Ouverture de la Ouverture de la
20 constriction 20 constriction

Constriction Constriction
15 pharyngale 15 pharyngale

Aperture labiale Aperture labiale


10 10

5 5

0 0
135 136 137 138 139 140 141 142 143 144 470 471 472 473 474 475 476 477 478 479
Images en unités de 40 ms Images en unités de 40 ms

Figure 105 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur F

220
Les données indiquent dans ce contexte de fricatives non voisées, une ouverture de la
constriction alvéolaire minimale plus longue pour les géminées que pour les simples.
L’aperture minimale reste relativement stable durant la production de la consonne par rapport
au /a/ précédent. La taille de la cavité pharyngale a tendance à augmenter légèrement lors de
la réalisation des consonnes simples et géminées ; ce geste d’augmentation de la taille de la
cavité pharyngale est anticipé dans les configurations associées au /a/ précédent. Il en va de
même de la réduction de l’ouverture de la constriction alvéolaire en vue de la réalisation de
la consonne alvéolaire //.

Le contrôle spatiotemporel de la gémination en contexte VC : les constrictives voisées

Les contextes alvéolaires /z/ et //

Malgré la présence de voisement, le contrôle spatiotemporel de la gémination révèle


des trajectoires structurellement semblables à celles des contextes non voisés analysés
auparavant. Pour cette raison, nous nous contenterons ici de faire une synthèse des résultats,
en collationnant ceux du /z/ avec ceux du //, et cela pour les deux locuteurs. En substance,
l’observation des Figure 102, Figure 103, Figure 104 et Figure 105, révèle cette ressemblance
structurelle remarquable entre les constrictives non voisées (cf. Figure 106, Figure 107, Figure
108 et Figure 109) et ces constrictives voisées. On constate, de manière générale, une
ouverture de la constriction alvéolaire minimale plus longue pour les géminées que pour les
simples. Par rapport aux configurations du /a/, si l’aperture minimale reste relativement stable
durant la production de la consonne //, elle diminue pour la réalisation du /z/. La taille de
l’aperture labiale a tendance à être plus grande pour cette consonne // par rapport au /z/ mais,
ici aussi, seulement pour le locuteur Kh (comparer Figure 108 et Figure 106). La taille de la
cavité pharyngale a tendance à augmenter légèrement lors de la réalisation des consonnes
simples et géminées ; ce geste d’augmentation de la taille de la cavité pharyngale est anticipé
dans les configurations associées au /a/ précédent. Nous constatons la même stratégie
anticipatoire en ce qui concerne la réduction de l’ouverture de la constriction alvéolaire, en
vue de la réalisation de ces consonnes alvéolaires.

221
Kh
az azz
30 30

25
a z 25
a zz
Déplacement (mm)

Déplacement (mm)
Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale
10 10 Aperture labiale

5 5

0 0
74 75 76 77 78 79 80 81 82 83 84 396 397 398 399 400 401 402 403 404 405 406 407
Images en unités de 40 ms Images en unités de 40 ms

Figure 106 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /az/ (à gauche) et /azz/ (à droite) ; locuteur Kh

F
az azz
30 30

25
a z Déplacement (mm)
25
a zz Ouverture de la
Déplacement (mm)

Ouverture de la
20 constriction 20 constriction

Constriction Constriction
15 pharyngale 15 pharyngale

Aperture labiale Aperture labiale


10 10

5 5

0 0
172 173 174 175 176 177 178 179 180 181 182 512 513 514 515 516 517 518 519 520 521 522

Images en unités de 40 ms Images en unités de 40 ms

Figure 107 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /az/ (à gauche) et /azz/ (à droite) ; locuteur F

Kh
a a
30 30

25
a  25
a 
Déplacement (mm)

Déplacement (mm)

Overture de la Overture de la
20 constriction 20 constriction
Constriction Constriction
15 pharyngale 15 pharyngale
Aperture labiale Aperture labiale
10 10

5 5

0 0
107 108 109 110 111 112 113 114 115 116 117 118 432 433 434 435 436 437 438 439 440 441 442 443
Images en unités de 40 ms Images en unités de 40 ms

Figure 108 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur Kh

222
F
a a
30
30
25 a  a 
Ouverture de la 25

Déplacement (mm)
Déplacement (mm)

constriction Ouverture de la
20
Constriction 20 constriction
15 pharyngale Constriction
15 pharyngale
Aperture labiale
10 Aperture labiale
10
5
5
0
0
215 216 217 218 219 220 221 222 223 224
556 557 558 559 560 561 562 563 564 565 566
Images en unités de 40 ms Images en unités de 40 ms

Figure 109 : Trajectoires de trois paramètres articulatoires, à savoir l’ouverture de la constriction, la constriction
pharyngale et l’aperture labiale, pour la séquence /a/ (à gauche) et /a/ (à droite) ; locuteur F

L’analyse des données révèle une organisation spatio-temporelle remarquable entre les
constrictives non voisées et ces constrictives voisées. Nous observons les mêmes stratégies
anticipatoires en ce qui concerne les gestes linguaux et le geste labial que dans le contexte
non voisé précédent. En conséquence, nous référons le lecteur au commentaire donné supra
pour leurs homologues non voisés, par souci de ne pas trop alourdir la description et
l’analyse de nos données

223
10 Gestes du larynx et de l’os hyoïde
Vaxelaire (2007) nous signale que les gestes d’élévation et d’abaissement de l’ensemble
du larynx sont fréquemment observés durant la déglutition, mais également lors de la
production de la parole, afin de contrôler la hauteur de la voix, mais aussi pour réaliser des
oppositions consonantiques phonologiques sourdes vs. sonores (Ohala & Eukel, 1978;
Lindqvist et al., 1973).

Lors de la production de consonnes éjectives et implosives, l’ensemble du larynx n’est


pas élevé ou abaissé respectivement, le taux de la pression intra-orale pendant la production
du son désiré joue aussi un rôle significatif. Si nous savons que les gestes glottiques
relativement simples d’élévation et d’abaissement sont pertinents pour ces catégories de sons
dits rares que nous venons de citer, nous sommes encore loin d’appréhender la contribution
des gestes du larynx à la formation des sons plus fréquemment décrits dans la littérature. D’où
l’intérêt que nous accordons à cette investigation sur le couple larynx-os hyoïde, lors de la
production des géminées du tarifit.

L’os hyoïde, structure isolée de la structure squelettique humaine, est en effet non
seulement relié à la langue et à la mandibule, mais aussi au larynx grâce à un système
complexe de muscles et de ligaments. Il est donc judicieux d’étudier le comportement du
larynx en relation avec la position de l’os hyoïde pendant la production de la parole (cf., par
ex., Ladefoged et al., 1972 ; Bothorel, 1979 ; Vaxelaire & Sock, 1997 ; Vaxelaire, 2006).

Bien que des données sur le déplacement vertical du larynx durant la production de
voyelles et de consonnes soient attestées dans la littérature (voir, par ex., Perkell, 1969 ;
Hirose, 1977 ; Barbier, 1979 ; Bothorel, 1979 ; Rossi & Autesserre, 1979 ; Vaxelaire & Sock,
1997) celles sur les gestes du larynx dans le cas de la gémination ou des consonnes doubles
manquent cruellement dans la littérature. Les résultats des recherches que nous allons
présenter ici prennent donc place parmi les contributions aux connaissances sur le contrôle
robuste de positions et de trajectoires laryngales, notamment pendant la réalisation de certains
gestes consonantiques des langues du monde.

Les données cinéradiographiques obtenues par Vaxelaire (1993 ; 2007) ainsi que
Vaxelaire & Sock (1997) pour deux locuteurs produisant des phrases qui comportent des
séquences Voyelle-Consonne-Voyelle (VCV) dans deux conditions de vitesse d’élocution,
normale ou conversationnelle et rapide, révèlent plusieurs faits intéressants. Citons-en
quelques-uns ici.

224
En premier lieu, elles confirment l’existence d’une relation étroite entre le mouvement
du larynx et celui de l’os hyoïde. Les auteurs Vaxelaire & Sock (1997) montrent ainsi que le
déplacement de l’os hyoïde est diagonal en nature, avec un mouvement d’élévation
accompagné de celui d’une translation en arrière. Cette translation en arrière correspond donc
à la composante horizontale du mouvement de l’os hyoïde. Ils obtiennent des corrélations
relativement élevées entre le déplacement vertical du larynx et la composante horizontale du
mouvement diagonal de l’os hyoïde.

Leurs Figure 110 et Figure 111 montrent l’évolution de la position du larynx à travers
des séquences VCV, où V1 est toujours la voyelle haute /u/ et V2 la voyelle basse /a/. Dans la
Figure 110, en vitesse d’élocution normale (graphique de gauche), on voit que la position du
larynx pour la locutrice MM est à 18 mm en moyenne durant les configurations correspondant
à la production du /u/ (images 863 à 867). Cette position du larynx atteint une valeur moyenne
de 24 mm dans les configurations relatives à la production du /a/ (images 871 à 876). En
augmentant la vitesse d’élocution (graphique de droite), la position initiale du larynx pour la
production du /u/ (images 544 à 546) est maintenant à 23 mm en moyenne (nous reviendrons
infra sur ce point) alors qu’elle atteindra une valeur de 29 mm dans les configurations du /a/
(images 550 à 555). Ils signalent cependant que l’amplitude des déplacements du larynx, des
configurations vocaliques de la voyelle haute à celles de la voyelle basse, est comparable dans
les deux conditions de vitesse d’élocution : elle est de 6 mm en moyenne.

Figure 110 : Gestes du larynx (déplacement vertical) et de l’os hyoïde (déplacements vertical et horizontal) pour
la séquence /uta/. L’axe des ordonnées montre le déplacement de ces structures (mm) et l’axe des abscisses
indique le temps, une image toutes les 20 ms (Adapté de Vaxelaire & Sock, 1997).

225
Figure 111 : Gestes du larynx (déplacement vertical) et de l’os hyoïde (déplacements vertical et horizontal) pour
la séquence /uka/. L’axe des ordonnées montre le déplacement de ces structures (mm) et l’axe des abscisses
indique le temps, une image toutes les 20 ms (Adapté de Vaxelaire & Sock, 1997).

En comparant la Figure 110 et la Figure 111, les auteurs attirent notre attention sur les
deux faits suivants :

1) une similarité entre les trajectoires du larynx et de l’os hyoïde à travers les séquences
VCV ;

2) une ressemblance structurelle des trajectoires, quels que soient les contextes
consonantiques /t/ ou /k/, et les locuteurs.

Cette robustesse de la corrélation entre les deux structures, quels que soient les
contextes segmentaux (vocaliques ou consonantiques) et prosodiques (vitesses d’élocution,
voix d’homme, voix de femme, voyelle aiguë, voyelle grave, etc.), les a autorisés à considérer
les deux entités comme une seule unité fonctionnelle.

Ensuite, ils observent que la position du larynx est systématiquement plus basse pour les
voyelles dites fermées, par rapport à leurs homologues ouvertes. Ce constat est en accord avec
les résultats obtenus par Bothorel (1975) pour une variante dialectale du breton parlé à Argol.
Pour les séquences /upa/ (dans la phrase « Nous pâlissons.») et /apu/ (dans la phrase « Il a
pourri.»), pour lesquelles la production consonantique « extra-buccale » ne requiert pas
l’intervention active de la langue, la masse de cette dernière se déplace dans une direction
opposée à celle du couple larynx-os hyoïde.

Alors que la masse de la langue adopte une trajectoire descendante constante pour la
production des séquences /upa/, l’unité larynx-os hyoïde, elle, continue son mouvement
d’élévation. Leur Figure 112 montre cette évolution des trajectoires du larynx, couplé à l’os
hyoïde, et de la masse de la langue à travers la séquence /upa/, en vitesses d’élocution
normale (à gauche) et rapide (à droite). Ce patron gestuel s’oppose symétriquement à celui
226
observé pour la production de la séquence /apu/. Dans les deux cas, il résulte une distance
maximale pour la configuration du /u/ entre la position de la masse de la langue et celle du
couple larynx-os hyoïde. Pour la configuration du /a/, cette distance entre la position de la
masse de la langue et celle du couple larynx-os hyoïde est minimale. On voit bien que ce
scénario se produit également en vitesse d’élocution rapide.

Figure 112 : Une analyse image par image de la séquence /upa/ en vitesses d’élocution normale (à gauche) et
rapide (à droite). On voit sur la figure que le timing relatif des gestes du dos de la langue et du larynx est
comparable dans les deux conditions de vitesse d’élocution (Adapté de Vaxelaire & Sock, 1997).

Il a aussi semblé intéressant, pour Vaxelaire & Sock (1997), de revenir sur une
observation signalée supra : le larynx et l’os hyoïde ont une position plus haute en vitesse
d’élocution rapide, comparée aux ajustements initiaux observés en vitesse d’élocution
normale (Figure 112). Pour eux, l’augmentation de la vitesse d’élocution requerrait une
configuration initiale sans doute nécessaire pour l’accélération de la tâche articulatoire. Ils
proposent également de garder ouverte la question de l’incidence de l’accélération de la
vitesse d’élocution sur l’élévation de la position du larynx et d’une co-variation possible de la
fréquence fondamentale (Bothorel, comm. pers., 2004).

227
Figure 113 : Vues de profil pour la production du /u/ (à gauche) et du /a/ (à droite), en vitesses d’élocution
normale (ligne continue) et rapide (pointillés). Remarquer une position plus élevée du larynx et de l’os hyoïde en
vitesse d’élocution rapide (Adapté de Vaxelaire & Sock, 1997).

Malgré ce changement dans la configuration de ces structures, les formes adéquates du


conduit vocal sont préservées, et le timing relatif est comparable dans les deux conditions de
vitesse d’élocution (revoir les Figure 112 et Figure 113), pour assurer en quelque sorte
l’émergence des catégories phonétiques apparaissant dans les séquences étudiées.

Étant donné que le mouvement de l’ensemble larynx-os hyoïde est inversement corrélé
avec le déplacement vertical de la masse de la langue et, en conséquence, avec l’aperture
vocalique, leurs données rejettent systématiquement « l’hypothèse tongue-pull » (tongue-pull
hypothesis). Il s’agit plus précisément de la version de cette hypothèse qui prône une relation
forte entre l’élévation de la masse de la langue, de l’os hyoïde et des structures rigides du
larynx. Pour eux, il existerait ainsi une corrélation étroite et positive entre le déplacement de
ces trois structures, où le déplacement vertical de la masse linguale entrainerait le
déplacement vertical du couple larynx-os hyoïde et, par-là, la diminution du diamètre de la
constriction vocalique. Les auteurs signalent que cette hypothèse, qui avait d’abord été
défendue par Ladefoged (1964), puis par Lehiste (1970), tentait également d’établir une
corrélation entre ces gestes d’élévation et une variation de F0 : la langue, en s’élevant pour
réaliser les voyelles les plus fermées, tirerait l’os hyoïde et le larynx vers le haut, ce qui
provoquerait une tension dans les cordes vocales et, en conséquence, une élévation de F0. Or,
il n’en est rien dans les données attestées dans la littérature. Vaxelaire (2007) signale que les
différents tenants de cette hypothèse devaient, plus tard, soit simplement la rejeter (voir, par
ex., Ladefoged et al., 1972), soit la réviser en prônant sa pertinence dans le domaine du chant
ou dans la production de voyelles soutenues, et en reconnaissant son invalidité en production
de la parole (voir, par ex., Ohala & Eukel, 1978). Le comportement de ces structures

228
s’expliquerait par la contraction de muscles spécifiques : le géniohyoïde, le ventre antérieur
du digastrique et le mylohyoïde (Perkell, 1969).

Enfin, Vaxelaire (2007) indique que les trajectoires du larynx et de l’os hyoïde de
voyelle-à-voyelle dans les séquences VCV ne sont pas significativement perturbées, ni par le
changement de la vitesse d’élocution, ni par la présence d’une consonne médiane, même
lorsque cette dernière requiert un geste lingual pour son articulation. Ce seraient, en effet, les
trajectoires vocaliques du larynx et de l’os hyoïde qui imposeraient leurs spécificités propres
aux configurations consonantiques, « cachant » ainsi ces dernières (cf. Vaxelaire, 1993). Cette
observation confirme l’hypothèse plus générale de la robustesse des gestes vocaliques,
comparés aux gestes consonantiques (Öhman, 1966).

En faisant varier la vitesse d’élocution, elle a réussi à montrer que les configurations,
ainsi que les trajectoires laryngales, sont robustes dans la production de la parole (surtout
celles associées à la production des éléments vocaliques). Pour Vaxelaire (2007), ce résultat
ne serait pas surprenant, compte tenu de la relative rigidité de ces structures, mais surtout de
la primauté du contrôle des gestes glottiques, en tant que source des sons de la parole, sur
ceux apparaissant dans les cavités du conduit vocal. Une initialisation correcte du geste à la
source serait en effet déterminante pour tout couplage adéquat avec les mouvements
supraglottiques, d’où la résistivité spatio-temporelle de ces gestes de l’unité larynx-os hyoïde.
Les données qu’elle a obtenues sont, en conséquence, en accord avec son hypothèse de départ
(cf., supra).

Pour mémoire, rappelons que Vaxelaire & Sock (1997) puis Vaxelaire (2007)
défendent, entre autres, l’idée que les gestes du larynx et de l’os hyoïde devraient être
résistants à la perturbation induite par l’augmentation de la vitesse d’élocution puisque :

1) les deux structures sont relativement rigides, ayant peu de degrés de liberté dans leurs
déplacements ;

2) le larynx représente l’organe « source » des sons, et son couplage avec une autre structure
d’importance fondamentale, en l’occurrence l’os-hyoïde où la racine de la langue
s’attache, révélerait une haute précision dans son organisation spatio-temporelle,
organisation fine indispensable pour les couplages oro-laryngés.

Nous proposons, dans la section suivante, de voir dans quelle mesure nos données
corroborent ces constats.

Gestes du larynx et de l’os hyoïde dans l’opposition simples vs. géminées

229
Étant donné que les résultats sont sensiblement les mêmes pour nos deux locuteurs, et
cela quels que soient les contextes consonantiques (lieu d’articulation et voisement) et les
positions dans l’énoncé, nous nous contenterons ici de ne présenter graphiquement et de ne
commenter que quelques exemples typiques. Le lecteur trouvera les autres données en
Annexe 3 qui confirment ces assertions.

Gestes du larynx et de l’os hyoïde en position intervocalique

En position intervocalique, où la consonne cible simple ou géminée se trouve entre deux


/a/, on constate (Figure 114 à Figure 119) que :

1) les trajectoires du geste du larynx et de l’os hyoïde évoluent dans la même direction.
Nous confirmons ainsi un certain couplage entre les gestes d’élévation de ces deux
structures en contextes apical, vélaire et uvulaire;

2) la position du couple larynx-os hyoïde reste relativement stable de voyelle-à-voyelle,


en passant par la consonne. Ainsi, on ne peut pas dire que la consonne, simple ou
géminée, modifie la trajectoire de voyelle-à-voyelle, si ce n’est pour quelques rares
modifications minimes, visibles dans les configurations consonantiques. Quoi qu’il en
soit, ces légers changements de trajectoires durant la réalisation de la consonne sont
décelables notamment dans le contexte uvulaire;

3) structurellement, le contrôle spatiotemporel du geste du larynx et de celui de l’os


hyoïde est comparable entre les consonnes simples et les consonnes géminées;

4) le contraste de voisement ne semble pas avoir un impact notoire sur le déplacement


vertical du larynx et de l’os hyoïde, même si, rappelons-le encore, l’opposition voisée
vs. non voisée ne se réalise pas ici en contexte contrôlé, ceteris paribus;

5) des stratégies individuelles remarquables n’ont pas été mises au jour.

230
Kh
ata atta
Images en unités de 40 ms
Images en unités de 40 ms
141 142 143 144 145 146 147 148 149 150 151 152 153 602 603 604 605 606 607 608 609 610 611 612 613 614
30 30
35 35
Position du Position du
40
Déplacement (mm)

40

Déplacement (mm)
larynx larynx
45 45
50 Position de 50 Position de
55 l'os hyoïde l'os hyoïde
a t a a tt a
55
60 60
65 65
70 70
75 75
80 80

Figure 114 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /ata/ (à gauche) et
/atta/ (à droite) ; locuteur Kh

F
ata atta
Images en unités de 40 ms Images en unités de 40 ms
182 183 184 185 186 187 188 189 190 191 192 629 630 631 632 633 634 635 636 637 638 639 640
20 20
Déplacement (mm)

Déplacement (mm)

25 Position du 25
Position du
30 larynx 30 larynx
35 35
40 Position de 40 Position de
45 l'os hyoïde 45
a t a a tt a
l'os hyoïde
50 50
55 55
60 60
65 65
70 70

Figure 115 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /ata/ (à gauche) et
/atta/ (à droite) ; locuteur F

Kh
aka akka
Images en unités de 40 ms Images en unités de 40 ms
179 180 181 182 183 184 185 186 187 188 189 639 640 641 642 643 644 645 646 647 648 649 650
30 30
35 35
Position du Position du
Déplacement (mm)

Déplacement (mm)

40 40
larynx larynx
45 45
50 Position de 50 Position de
55 l'os hyoïde 55 l'os hyoïde
60 a k a 60 a kk a
65 65
70 70
75 75
80 80

Figure 116 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /aka/ (à gauche)
et /akka/ (à droite) ; locuteur Kh

231
F
aka akka
Images en unités de 40 ms
Images en unités de 40 ms
219 220 221 222 223 224 225 226 227 228
669 670 671 672 673 674 675 676 677 678 679 680
20
20
25
Déplacement (mm)

Déplacement (mm)
Position du 25 Position du
30 30 larynx
larynx
35 35
40 40 Position de
Position de
45 45 l'os hyoïde
l'os hyoïde
50 a k a 50 a kk a
55 55
60 60
65 65
70 70

Figure 117 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /aka/ (à gauche)
et /akka/ (à droite) ; locuteur F

Kh
aqa aqqa
Images en unités de 40 ms Images en unités de 40 ms
369 370 371 372 373 374 375 376 377 378 379 652 653 654 655 656 657 658 659 660 661 662 663 664
30 30
35 35
Position du Position du
40 40
Déplacement (mm)

Déplacement (mm)

larynx larynx
45 45
50 Position de 50 Position de
l'os hyoïde
55
60
a q a 55
60
a qq a l'os hyoïde

65 65
70 70
75 75
80 80

Figure 118 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /aqa/ (à gauche)
et /aqqa/ (à droite) ; locuteur Kh

F
aqa aqqa
Images en unités de 40 ms Images en unités de 40 ms
373 374 375 376 377 378 379 380 381 382
823 824 825 826 827 828 829 830 831 832 833 834
20
20
Déplacement (mm)

25
Déplacement (mm)

Position du 25 Position du
30 larynx
larynx 30
35 35
40 Position de Position de
45 a q a l'os hyoïde
40
45 a qq a l'os hyoïde
50 50
55 55
60 60
65 65
70 70

Figure 119 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /aqa/ (à gauche)
et /aqqa/ (à droite) ; locuteur F

232
Gestes du larynx et de l’os hyoïde en position initiale de mot

En position initiale de mot, où la consonne cible simple ou géminée est précédée de la


voyelle haute /i/, appartenant à la phrase porteuse et suivie de la voyelle /a/, on peut faire les
observations suivantes (Figure 120 à Figure 125) :

1) le timing relatif du geste du larynx et de l’os hyoïde confirme une évolution de la


trajectoire de ces deux structures qui va dans le même sens, corroborant ainsi le
couplage étroit observé entre les gestes d’élévation de ces deux structures dans le
contexte intervocalique, analysé plus haut ;

2) la position du couple larynx-os hyoïde est relativement basse pour la voyelle /i/, et
entame un geste d’élévation vers le /a/, passant par la consonne. Dans ce contexte
aussi, on ne peut pas dire que la consonne, simple ou géminée, modifie la trajectoire
de voyelle-à-voyelle. Les quelques perturbations induites par les gestes
consonantiques sont minimes;

3) globalement, le contrôle spatiotemporel du geste du larynx et de celui de l’os hyoïde


est comparable entre les consonnes simples et les consonnes géminées;

4) s’il est vrai que le couple larynx-os hyoïde est dans une position relativement basse
durant la réalisation du /i/, puis se trouve dans une position plus haute lors de la
production du /a/, il convient de signaler cependant que cette différence de position
verticale reste faible: elle est de l’ordre de 5 mm à 10 mm, au maximum;

5) nous ne constatons pas non plus ici de stratégie individuelle remarquable dans cette
position.

Kh
ta tta
Images en unités de 40 ms Images en unités de 40 ms
200 201 202 203 204 205 206 207 208 209 210 497 498 499 500 501 502 503 504 505 506 507 508 509 510
30 30
35 35
Position du Position du
40
Déplacement (mm)

larynx 40
Déplacement (mm)

larynx
45 45
50 Position de 50 Position de
55 l'os hyoïde 55 l'os hyoïde
60
65
i t a 60
65
i tt a
70 70
75 75
80 80

Figure 120 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /ita/ (à gauche) et
/itta/ (à droite) ; locuteur Kh

233
F
ta tta
Images en unités de 40 ms Images en unités de 40 ms
190 191 192 193 194 195 196 197 198 199 200 201 500 501 502 503 504 505 506 507 508 509 510 511
20 20
25 25 Position du
Position du
30 30

Déplacement (mm)
Déplacement (mm)

larynx larynx
35 35
40 Position de 40 Position de
45 i t a l'os hyoïde 45
50 50 i tt a l'os hyoïde

55 55
60 60
65 65
70 70

Figure 121 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /ata/ (à gauche) et
/atta/ (à droite) ; locuteur F

Kh
ka kka
Images en unités de 40 ms Images en unités de 40 ms
235 236 237 238 239 240 241 242 243 244 245 246 247 536 537 538 539 540 541 542 543 544 545 546 547 548
30 30
35 35
Position du Position du
40 40
Déplacement (mm)

Déplacement (mm)

larynx larynx
45 45
50 Position de 50 Position de
55 l'os hyoïde 55 l'os hyoïde
60 i k a 60 i kk a
65 65
70 70
75 75
80 80

Figure 122 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /ika/ (à gauche) et
/ikka/ (à droite) ; locuteur Kh

F
ka kka
Images en unités de 40 ms Images en unités de 40 ms
227 228 229 230 231 232 233 234 235 236 237 238 540 541 542 543 544 545 546 547 548 549 550 551 552 553
20 20
25 Position du 25 Position du
30 larynx
30 larynx
Déplacement (mm)

35 35
40 Position de Position de
40
l'os hyoïde l'os hyoïde
45
50 i k a 45
50
i kk a
55 55
60 60
65 65
70 70

Figure 123 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /ika/ (à gauche) et
/ikka/ (à droite) ; locuteur F

234
Kh
qa qqa
Images en unités de 40 ms Images en unités de 40 ms
292 293 294 295 296 297 298 299 300 301 302 303 612 613 614 615 616 617 618 619 620 621 622 623
30 30
35 Position du 35 Position du
Déplacement (mm)

Déplacement (mm)
40 larynx 40 larynx
45 45
50 Position de 50 Position de
l'os hyoïde l'os hyoïde
55
60
i q a 55
60
i qq a
65 65
70 70
75 75
80 80

Figure 124 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /iqa/ (à gauche) et
/iqqa/ (à droite) ; locuteur Kh

F
qa qqa
Images en unités de 40 ms Images en unités de 40 ms
334 335 336 337 338 339 340 341 342 343 777 778 779 780 781 782 783 784 785 786 787 788
20 20
Position du Position du
25 larynx 25 larynx
30 30
Déplacement (mm)

Déplacement (mm)

35 Position de 35 Position de
40
i q a
l'os hyoïde 40 i qq a l'os hyoïde
45 45
50 50
55 55
60 60
65 65
70 70

Figure 125 : Les gestes du larynx et de l’os hyoïde en position intervocalique pour la séquence /iqa/ (à gauche) et
/iqqa/ (à droite) ; locuteur F

Gestes du larynx et de l’os hyoïde en position finale de mot

En position finale de mot, la consonne cible simple ou géminée est précédée de la


voyelle basse /a/, et est suivie de la voyelle haute /i/ appartenant à la phrase porteuse. Nous
tirons les enseignements suivants (Figure 126 et Figure 127) :
1) le contrôle spatiotemporel du geste du larynx et de l’os hyoïde, dans ce contexte
/aCi/, révèle des comportements inversement symétriques à ceux observés en
contexte /iCa/. Ainsi, ceci confirme une évolution en parallèle de la trajectoire des
deux structures et renforcent en conséquence cette notion de couplage étroit entre les
gestes d’élévation de ces deux structures;

2) la position du couple larynx-os hyoïde est relativement haute pour la voyelle /a/ et
basse pour le /i/. L’insertion d’un geste consonantique, simple ou géminée, ne change
pas remarquablement la trajectoire de voyelle-à-voyelle. Les quelques perturbations
induites par les gestes consonantiques sont minimes. Comme dans les positions

235
précédentes, elles proviennent surtout des consonnes vélaires et uvulaires, avec des
dynamiques assez faibles au niveau du déplacement vertical de ces structures;

3) nous confirmons ici aussi que le contrôle spatiotemporel du geste du larynx et de


celui de l’os hyoïde est comparable entre les consonnes simples et les consonnes
géminées;

4) nos données ne montrent pas non plus de stratégie individuelle remarquable dans
cette position.

Kh
at att