Académique Documents
Professionnel Documents
Culture Documents
Tableau 5 : Fréquence fondamentale moyenne (et écart Figure 2 : Spectrogramme, contour de F0 (bleu) et
type) des phrases I et A pour les six locuteurs. (H = contour d’énergie (rouge) du signal source (a) et du signal
homme, F = femme). synthétisé correspondant (b). Phrase 2a du tableau 1.
Locu- Hien Quang Nam Huong Diep Khoa
teur F H H F F H L’algorithme TD-PSOLA est utilisé pour concaténer ces
Type Hz 307 160 160 250 239 145 extraits de signal, tout en contrôlant le pitch (F0),
I Hz (16) (15) (8) (18) (11) (16) l’énergie et la durée de chaque syllabe. Dans la phrase
Type Hz 264 146 152 247 231 133 synthétisée, les zones correspondant à un signal non voisé
A Hz (10) (14) (10) (13) (23) (11) (consonnes) sont remplacées par du silence. Nous
obtenons ainsi un corpus composé de 13 pseudo-phrases
3. PERCEPTION DES PHRASES I ET A synthétiques « interrogatives » et de 13 pseudo-phrases
synthétiques « affirmatives », sans information
3.1. Méthodologie et préparation du corpus sémantique. Six auditeurs (3 hommes et 3 femmes)
participent à notre test de perception. Ils doivent choisir
Nous souhaitons vérifier que les différences détectées
entre deux réponses « I » ou « A ». Chaque auditeur fait
dans notre analyse sont effectivement perçues comme un
le test 5 fois, et pour chaque session, l’ordre des phrases
moyen pour l’auditeur de classifier phrases interrogatives
qui lui sont proposées est aléatoire.
et phrases affirmatives, ou, en d’autres termes, que la
prosodie de la phrase, malgré sa complexité due à la 3.3. Résultats de perception
présence des tons, véhicule des informations permettant à Le résultat du test est présenté dans la figure 2. Le taux de
l’auditeur de faire cette classification. Nous avons utilisé bonne reconnaissance sur l’ensemble des I et A est
le même corpus décrit ci-dessus auquel nous avons d’environ 70% (figure 2.a). Les figures 2 .b et 2.c
rajouté d’autres phrases affirmatives pour obtenir 13 présentent respectivement les taux de bonne classification
paires de question/non-question. Pour chaque phrase, des phrases interrogatives et des phrases affirmatives :
après avoir extrait le contour prosodique, nous utilisons nous pouvons remarquer que les phrases interrogatives
ce contour pour synthétiser une pseudo phrase dans semblent mieux reconnues (environ 74 % de bonnes
laquelle toutes les syllabes sont remplacées par une réponses) que les phrases affirmatives (seulement 63%).
La figure 3 détaille les résultats pour les 13 paires de de mots interrogatifs pour lever les ambiguïtés est donc
phrase I/A. Pour 10 de ces 13 paires, la phrase nécessaire et logique.
interrogative est bien reconnue avec un taux supérieur à
70%), pour la 10ème paire, ce taux atteint les 95%. 4. CONCLUSION
Cependant pour les paires 4 et 12, la phrase affirmative Au niveau production, notre étude a permis de
est très mal reconnue (respectivement 12% et 20%). caractériser la prosodie des phrases simples de la langue
vietnamienne (dialogue), en éliminant l’influence des
26.15 Taux de correction tons : les différences entre questions et affirmations sont
31.54 Taux d'erreur 36.92 essentiellement une différence de pente de F0 (croissante
68.46
ou décroissante) en fin de la phrase (deuxième moitié de
73.85 63.08
la dernière syllabe), à laquelle s’ajoutent une modification
du débit. Cependant, pour notre étude, le changement de
registre semble plus faible que pour [8 et 9]. Au niveau
(a) global (b) interrogatif (c) affirmatif perceptif, nous avons montré que, comme pour les
Figure 3 : Taux de détection correcte : (a) taux global (b) langues non tonales, la prosodie de la phrase transporte
phrases interrogatives et (c) phrases affirmatives. des informations extralinguistiques sur la nature de la
phrase, bien que celles-ci, à cause de la présence des tons
100.00
lexicaux, ne soient pas toujours discriminatives.
90.00
Taux de détection correcte [%]
80.00 BIBLIOGRAPHIE
70.00
60.00
[1] Rossi M. “L’intonation, le système du français :
50.00
description et modélisation” Editions Ophrys,
40.00
Phrase affirmative 1999, ISBN : 2-7080-0912-5
Phrase interrogative
30.00 [2] Hirst, D.J. &Di Cristo, A. (Eds.) “Intonation
20.00 Systems. A Survey of 20 Languages” Cambridge:
10.00 Cambridge University Press.
0.00
1 2 3 4 5 6 7 8 9 10 11 12 13
[3] Shriberg, E., Bates, R., Taylor, P., Stolcke, A.,
Jurafsky, D., Ries, K., Cocarro, N., Martin, R.,
Figure 4 : Taux de détection correcte des 13 paires I/A. Meteer, M. & Van Ess-Dykema, C. “Can Prosody
3.4. Discussion Aid the Automatic Classification of Dialog Acts in
Conversational Speech?” Language and Speech 41,
En tentant de corréler ces résultats perceptifs avec ceux pp. 439-487, 1998
de notre analyse de la production des contours intonatifs, [4] Vu M.Q., Castelli E., Boucher A. & Besacier L.
nous remarquons que l’auditeur semble juger une phrase “Classification de parole en Question et Non-
comme étant interrogative, si elle présente une intonation Question par arbre de décision” SFC 05, 12èmes
croissante en fin de phrase, et juger la phrase comme Rencontres de la Société Francophone de
étant affirmative dans le cas inverse. Cette hypothèse Classification - Montréal, 2005
semble être valable pour expliquer le cas des paires 4 et
12 où le taux de reconnaissance des phrases type I est [5] Nguyen Q.C., Pham Thi N.Y. & Castelli E. “Shape
beaucoup plus élevé que celui des phrases type A. Pour vector characterization of Vietnamese tones and
ces deux paires, les phrases présentent toutes une dernière application to automatic recognition” ASRU 2001
syllabe possédant le ton 5 montant, qui fait croître la Madonna di Campiglio, cdrom
partie finale du contour intonatif de la phrase, tant pour [6] Pham Thi N. Y., Castelli E. & Nguyen Q.C.
les interrogations que pour les affirmations. Le fait que le “Gabarits des tons vietnamiens” JEP 2002 Nancy,
taux de bonne reconnaissance global des phrases A et I pp 23-26, juin 2002.
soit d’environ 70% (et que pour certaines d’entre elles, [7] Michaud A. & Vu N.T. “Glottalised and non
elles sont même reconnues à plus de 90%) montre que les glottalised tones under emphasis: open quotient
paramètres prosodiques de la phrase vietnamienne curves remain stable, F0 curve is modified” Speech
transportent des informations extralinguistiques qui Prosody, Nara, Japan. 745-748, 2004
peuvent permettre à l’auditeur de discriminer le type de
[8] Lê Thị X., “Etude contrastive de l’intonation
phrase. Comme pour les langues non tonales, ces
expressive en français et en vietnamien”. Thèse en
informations sont essentiellement codées par le fait que
linguistique : Paris, Université Paris 7, 1989
l’intonation monte ou non en fin de phrase. Cependant,
ces informations peuvent être brouillées par la modulation [9] Nguyễn Thị T.H. & Boulakia, G. “Another look at
du contour prosodique par les tons lexicaux : des vietnamese intonation” 14th International Congress
auditeurs peuvent mal classifier des affirmations si les of Phonetic Sciences, San Francisco, California,
phrases produites présentent une syllabe finale avec ton pp. 2399–2402, 1999
montant. Des questions peuvent être mal classifiées si
leur syllabe finale porte un ton descendant. L’utilisation