La Prosodie +++

Master
Un nouveau système de visualisation de la prosodie: une aide dans

l'apprentissage de la prononciation en français langue étrangère ?
BOLYCHEV, Dmitry
Abstract
Dans ce travail, nous présentons un nouvel outil informatique permettant de visualiser la

prosodie (notamment l’accentuation et l'intonation) sur la base de textes modèles lus à voix
haute par un locuteur natif afin d'aider les apprenants dans l'acquisition d'une bonne
prononciation du français langue étrangère. Nous commençons par présenter les éléments
spécifiques de la prosodie française, qui la distinguent de celle des autres langues, à savoir
ceux qui remplissent une fonction structurante : l’accentuation, l’intonation et la pause.
Ensuite, nous nous intéressons à l’expérience déjà acquise dans le domaine de la
visualisation de la prosodie et nous justifions le développement de notre propre outil de
visualisation de cette dernière. Dans le chapitre suivant, nous présentons les différentes
étapes de la conceptualisation et du développement de notre outil de visualisation. Nous
poursuivons notre travail en cherchant à savoir si ce nouvel outil constitue réellement une
aide pour les apprenants.
Reference
BOLYCHEV, Dmitry. Un nouveau système de visualisation de la prosodie: une aide
dans l'apprentissage de la prononciation en français langue étrangère ?. Master :
Univ. Genève, 2014
Available at:
http://archive-ouverte.unige.ch/unige:40982
Disclaimer: layout of this document may differ from the published version.
UNIVERSITÉ DE GENÈVE
FACULTÉ DES LETTRES
ÉCOLE DE LANGUE ET DE CIVILISATION FRANÇAISES
Un nouveau système de visualisation de la prosodie :

une aide dans l'apprentissage de la prononciation en
français langue étrangère ?
TRAVAIL DE MÉMOIRE
présenté à la Faculté des Lettres

de l’Université de Genève
pour obtenir le grade de Maîtrise universitaire ès lettres
par
Dmitry Bolychev
Co-directeurs : Prof. Isabelle Racine

Jean-Philippe Goldman
2014
(Automne 2013 - Printemps 2014)
REMERCIEMENTS
Le présent travail "linguistinformadidactique" n'est pas seulement un mot-valise adjectival
difficile à prononcer, mais surtout un long parcours interdisciplinaire, à la fois difficile et
surprenant à réaliser, que je n'ai réussi à surmonter que grâce à tout(e)s celles et ceux qui
m'ont donné un petit ou grand coup de main pendant ce trajet paru parfois impraticable. C'est
à ces gens-là à qui je voudrais adresser les quelques mots de remerciement qui viennent.
Je tiens tout d'abord à exprimer ma plus profonde gratitude à mes deux directeurs de mémoire :
Isabelle Racine et Jean-Philippe Goldman qui, chacun de leur côté, m'auront permis de faire
mes premiers pas dans le monde de la science. Je voudrais remercier spécialement Isabelle
Racine, qui a su notamment cadrer mes intentions ambitieuses se dispersant dans tous les sens
et ne les diriger que dans les bons sens. Je la remercie également pour les relectures, parfois
nocturnes, mais néanmoins extrêmement attentives et minutieuses de mes morceaux de texte
en les reliant de manière cohérente. Toute ma reconnaissance va aussi à Jean-Philippe
Goldman pour la proposition de l'idée même de visualiser automatiquement la prosodie par un
outil informatique et pour son suivi prochain de la formalisation, conceptualisation et
développement d'un tel système. Enfin, je les remercie tous les deux pour m'avoir accordé
leur confiance, pour m'avoir écouté et donné de précieux conseils, ainsi que pour nos
échanges "linguistinformadidactiques" réguliers, fructueux et motivants et pour tous leurs
efforts pour que je puisse mener mon travail à bien. Cependant, je tiens à souligner que ces
quelques mots ne sont pas en mesure de refléter toute la gratitude que je voudrais exprimer à
mes chers directeurs, car il faut y consacrer un autre mémoire entier.
Ma reconnaissance sincère revient également à toutes les personnes qui se sont investies dans
la réussite de ma première vraie recherche scientifique. Je remercie notamment le Centre
International de l'Université d'État de Moscou Lomonosov (CIL) à Genève en la personne de
son président Tamerlan Gassanov, de son enseignante Olga Savioz et de ses autres
collaborateurs pour m'avoir exprimé leur bonne volonté et intérêt vif à mon projet et pour
m'avoir accordé leur temps, énergie et de m’avoir permis de mener ma recherché auprès de
leurs étudiants. Bien sûr, un tout grand merci à ces étudiants ainsi qu'à ceux venus de l’École
de langue et de civilisation françaises de l’Université de Genève (Année Propédeutique (AP)
et Diplôme d’Études du Français Langue Étrangère (DEFLE)), qui ont d'ailleurs été d'accord
2
REMERCIEMENTS
de laisser leur trace ou plutôt d'enregistrer leur voix dans l'histoire de la science. À ce propos,
je voudrais exprimer également ma reconnaissance à Nadine Bordessoule et Ascension
Gonzalez, qui m'ont aimablement permis de recruter les sujets pendant leurs cours. Par
ailleurs, ma recherche n'aurait pas été achevée sans une contribution importante de la part de
Françoise Zay et Roberto Paternostro, qui ont évalué ces enregistrements d’étudiants. Je vous
remercie vivement d'avoir porté un si grand intérêt à mon travail, suggéré des idées
constructives et accepté de participer à mon expérience d'autant plus que c'était une période
assez difficile pour vous. Merci beaucoup, également pour vos encouragements qui m'ont
redonné la force de poursuivre mon travail. J'aimerais encore remercier sincèrement Roberto
Paternostro pour la supervision de mon test pendant les cours d'été.
Je souhaite présenter mes vifs remerciements aux autres personnes qui m'ont épaulé d'une
façon ou d'une autre, par les cours que j'avais suivis, par leurs conseils toujours inspirateurs,
par des échanges constructifs ou autrement, notamment : Laurent Gajo, Philippe Boula de
Mareüil, Mariana Fonseca, Martine Lenoble, Jean-Marc Luscher, Judith Pellizari, Claire
Penel, Alexei Prikhodkine, Bertrand Sthioul, Sandra Schwab, Diana Queroub et bien d'autres.
Mes remerciements vont également à Bernard, Corinne, Pierre et Malika qui m'ont aidé à
rendre mon mémoire plus français natif que français langue étrangère.
Ces remerciements ne seraient pas complets sans un IMMENSE MERCI à tous mes
ami(e)s, ma chère tante et mes chers parents qui m'ont aussi énormément soutenus pendant ce
long parcours très "accentué" et "intonatif".
3
TABLE DES MATIÈRES
INTRODUCTION....................................................................................................... 9
PARTIE THEORIQUE ............................................................................................. 12
1. PROSODIE DU FRANÇAIS ........................................................................................................ 12
1.1 PROSODIE ET PHONETIQUE .................................................................................................. 12
1.1.1 Phonétique.................................................................................................................................... 12
1.1.2 Prosodie comme un sous-domaine de la phonétique.................................................................... 14
1.1.3 Définition de la prosodie.............................................................................................................. 14
1.1.4 Syllabe ......................................................................................................................................... 15
1.1.5 Unités prosodiques supérieures.................................................................................................... 17
1.2 ACCENTUATION ...................................................................................................................... 19
1.2.1 Définition de l’accentuation ......................................................................................................... 19
1.2.2 Accentuation primaire.................................................................................................................. 19
1.2.2.1 Place de l’accent primaire.................................................................................................... 19
1.2.2.2 Fonctions de l’accent primaire............................................................................................. 20
1.2.2.3 Caractéristiques acoustiques de l’accent primaire ............................................................... 21
1.2.3 Accentuation secondaire .............................................................................................................. 24
1.2.3.1 Place de l’accent secondaire ................................................................................................ 24
1.2.3.2 Fonctions de l’accent secondaire ......................................................................................... 25
1.2.3.3 Caractéristiques acoustiques de l’accent secondaire............................................................ 26
1.3 INTONATION............................................................................................................................. 27
1.3.1 Définition de l’intonation............................................................................................................. 27
1.3.2 Fonctions de l’intonation ............................................................................................................. 27
1.3.3 Caractéristiques acoustiques de l’intonation ................................................................................ 29
1.3.4 Syncrétisme entre accentuation et intonation ............................................................................... 30
1.4 QUANTITÉ, RYTHME, PAUSE ET DÉBIT.............................................................................. 30
1.5 CONCLUSION............................................................................................................................ 32
2. ENSEIGNEMENT DE LA PROSODIE À L’AIDE D’OUTILS DE VISUALISATION........ 33
2.1 OUTILS DE VISUALISATION DE LA PROSODIE PROPOSÉS PAR LES CHERCHEURS 34
2.1.1 Par des symboles intégrés au texte............................................................................................... 34
2.1.2 Par niveaux................................................................................................................................... 35
2.1.3 Par ordinateur............................................................................................................................... 36
2.1.4 Par l’iconicité ............................................................................................................................... 37
2.2 OUTIL DE VISUALISATION DE LA PROSODIE DESTINÉ AU DIVERTISSEMENT (LES
ŒUVRES LITTÉRAIRES, LES BANDES DESSINÉES, LA PUBLICITÉ, ETC.)....................................... 37
2.3 OUTILS DE VISUALISATION DE LA PROSODIE DESTINÉS À L’APPRENTISSAGE DES
LANGUES ÉTRANGÈRES ............................................................................................................................ 39
2.3.1 Par des symboles intégrés au texte............................................................................................... 39
2.3.2 Par l’ordinateur ............................................................................................................................ 40
2.3.2.1 L'Intonation Image Builder (IIB) (2010) ............................................................................. 43
2.3.2.2 BetterAccent Tutor (2000)................................................................................................... 44
2.3.2.3 WinPitch LTL (2005) .......................................................................................................... 48
2.3.2.4 Tell me more v.10 (2009) .................................................................................................... 52
2.3.2.5 ReadN'karaoke (2011) et iPrompt-U (2012 – à présent)...................................................... 55
2.3.3 Par l’iconicité (ou par l'écriture prosodique)................................................................................ 59
2.4 CONCLUSION............................................................................................................................ 62
4
TABLE DES MATIÈRES
PARTIE PRATIQUE ................................................................................................ 70

3. CONCEPTION DE L’OUTIL DE VISUALISATION............................................................... 70
3.1 PROCEDURE D’ELABORATION ............................................................................................ 70
3.1.1 Préparation des textes................................................................................................................... 70
3.1.2 Alignement des textes enregistrés et correction des résultats....................................................... 71
3.1.3 Visualisation ................................................................................................................................ 75
3.1.3.1 Mécanismes de la visualisation de la prosodie .................................................................... 75
3.1.3.2 Premier essai........................................................................................................................ 78
3.1.3.3 Ajustement du système ........................................................................................................ 80
3.1.4 Version finale............................................................................................................................... 93
3.1.4.1 L’interface de l’utilisateur ................................................................................................... 94
3.1.4.2 Les éléments de la page WEB principale ............................................................................ 94
3.1.4.3 Ajustement de l’outil pour l’expérience ............................................................................ 100
3.1.4.4 La description de la structure de l’outil ............................................................................. 101
3.2 CONCLUSION.......................................................................................................................... 103
4. ÉVALUATION DE L’OUTIL DE VISUALISATION PAR DES APPRENANTS DE FLE 106
4.1 OBTENTION DES TEXTES .................................................................................................... 106
4.1.1 Méthode ..................................................................................................................................... 106
4.1.1.1 Participants ........................................................................................................................ 106
4.1.1.2 Matériel.............................................................................................................................. 107
4.1.1.3 Procédure ........................................................................................................................... 108
4.1.2 Résultats..................................................................................................................................... 110
4.2 ÉVALUATION DES TEXTES ................................................................................................. 111
4.2.1 Méthode ..................................................................................................................................... 111
4.2.1.1 Evaluateurs ........................................................................................................................ 111
4.2.1.2 Matériel.............................................................................................................................. 111
4.2.1.3 Procédure ........................................................................................................................... 112
4.2.1.4 Analyse .............................................................................................................................. 113
4.2.2 Résultats..................................................................................................................................... 114
CONCLUSION GÉNÉRALE .................................................................................. 118
RÉFÉRENCES ....................................................................................................... 125
ANNEXES .............................................................................................................. 130
5
TABLE DES ILLUSTRATIONS
TABLE DES FIGURES

Figure 1: Modulation de la hauteur de la voix................................................................................................ 14
Figure 2 : Représentation phonologique de la syllabe Source : Tranel (2003 : 294) ; Lacheret-Dujour et
Beaugendre (1999 : 90)................................................................................................................... 16
Figure 3 : Schéma de la représentation des paramètres prosodiques. Source : Grosjean (1999) ................... 22
Figure 4 : Durée de la syllabe accentuée (en jaune), fréquence fondamentale est en bleu, amplitude – en vert.
Prise d’écran de Praat (Boersma et Weenink, 2013). Le fragment ci-dessus représente la fin de la
phrase suivante : Ils ont ensuite analysé les modifications qui avaient eu lieu dans l’ADN des
cobayes et en ont conclu que la partie du génome consacrée à la sensibilité liée aux odeurs
devenait plus active. ........................................................................................................................ 23
Figure 5 : Accent d’insistance sur la première syllabe [ply] du mot "plusieurs" et ces paramètres acoustiques
......................................................................................................................................................... 25
Figure 6 : Représentation des paramètres prosodiques. Source : Grosjean (1999)......................................... 30
Figure 7 : Notation de la prosodie en API. Source : http://www.langsci.ucl.ac.uk/ipa/supras.html, consulté le
20 mai 2014 ..................................................................................................................................... 35
Figure 8 : Convention de transcription selon Cambra (2003 :289) ................................................................ 35
Figure 9 : Convention de transcription selon Mondada (2008 : 104-105)...................................................... 35
Figure 10 : Exemple de la visualisation de la prosodie par niveaux. Source : Delattre (1966 : 4) ................... 36
Figure 11 : Prosogram, la visualisation de la prosodie. Source :
http://bach.arts.kuleuven.be/pmertens/prosogram/ ......................................................................... 36
Figure 12 : Exemple de l’approche iconique selon Bolinger (1998 : 52) .......................................................... 37
Figure 13 : Exemple de l’iconicité dans les œuvres littéraires. Source : Apollinaire (1956) : "La colombe
poignardée et le jet d'eau" (écrit sur le front pendant la Première Guerre mondiale).................... 38
Figure 14 : Exemple de la publicité de votation (22 septembre 2013, Suisse) Source : GSsA (2013 : 3) .......... 38
Figure 15 : Exemple de l’iconicité dans les bandes dessinées. Source : Uderzo et Goscinny (1970 :31).......... 38
Figure 16 : Visualisation de l’intonation avec des flèches. Source : Hinkelman et Halvorsen (1998 : 91) ....... 40
Figure 17 : Visualisation de l’accentuation. Source : Hinkelman et Halvorsen (1998 : 91) ............................. 40
Figure 18 : Deux affichages des oscillogrammes proposés par "Tell me more" (1998). Source : Cazade
(1999 : 7) ; Affichage supérieur = modèle, affichage inférieur = production de l'apprenant......... 42
Figure 19 : Deux affichages des oscillogrammes proposés par "Tell me more" (1998). Source : Cazade
(1999 : 7) ; Affichage supérieur = modèle, affichage inférieur = production de l'apprenant......... 42
Figure 20 : Intonation Image Builder, la transcription de la prosodie. Source :
http://retsamchang.brinkster.net/iib.asp, consulté le 1er septembre 2014 ...................................... 43
Figure 21 : BetterAccent Tutor, la visualisation de l’intonation........................................................................ 45
Figure 22 : BetterAccent Tutor, la visualisation de l’intensité et la durée......................................................... 46
Figure 23 : BetterAccent Tutor, les recommandations à suivre. Source de figures 22-24 :
http://www.betteraccent.com/hesaidwhat.htm, consulté le 15 mai 2014. ........................................ 46
Figure 24 : Visualisation du signal de parole où la ligne blanche est la hauteur, la ligne verte – l’intensité et en
jaune – l’oscillogramme. Source : http://www.winpitch.com/wpltlvisualiseur.htm, consulté le 10
mai 2014 .......................................................................................................................................... 49
Figure 25 : Mode Étudiant de WinPitch LTL. Source : http://www.winpitch.com/wpltlcomparer.htm, consulté
le 12 mai 2014 ................................................................................................................................. 50
Figure 26 : Mode synthèse de WinPitch LTL. Source : http://www.winpitch.com/wpltlsynthese.htm, consulté le
12 mai 2014 ..................................................................................................................................... 51
Figure 27 : Tell me more – la visualisation de quelques paramètres prosodiques. Source : Tell me more V10
Retail Tutorial (2009 : 3)................................................................................................................. 53
Figure 28 : Tell me more – le traitement de l’erreur.......................................................................................... 54
Figure 29 : Tell me more – visualisation de la formation des sons dans la cavité buccale. (Source : Tell me
more V10 Retail Tutorial, 2009 : 4) ................................................................................................ 54
Figure 30 : Éléments textuels manipulés. Source : Patel et Furr (2011 : 3205) ............................................... 57
6
TABLE DES FIGURES
Figure 31 : Éléments textuels enrichis. Source : Patel et Furr (2011 : 3205)................................................... 57

Figure 32 : Visualisation de la hauteur selon Bolinger (1998 : 52)................................................................... 57
Figure 33 : iPrompt-U, extension de ReadN'karaoke. Source :
http://www.cadlab.neu.edu/research.php?name=ipromptu, consulté le 28 août 2014. .................. 58
Figure 34 : Écriture prosodique en allemand, version 2012. Source : Rude (2012 : 256) ................................ 60
Figure 35 : Trois dimensions de l’écriture prosodique. Source : Rude (2002 : 271)......................................... 61
Figure 36 : Exemple de l’iconicité selon Rude. Source : Rude (2012 :256)....................................................... 62
Figure 37 : Exemple de l’iconicité dans les bandes dessinées. Source : Uderzo (1983 :5)................................ 62
Figure 38 : Exemple de l’iconicité selon Bolinger. Source : Bolinger (1998 :53) ............................................. 62
Figure 39 : Éléments textuels manipulés. Source : Patel et Furr (2011 : 3205) ............................................... 66
Figure 40 : Éléments textuels enrichis. Source : Patel et Furr (2011 : 3205)................................................... 66
Figure 41 : Exemple de la transcription orthographique préparée pour EasyAlign (Goldman, 2011) ............. 72
Figure 42 : Document TextGrid résultant généré par EasyAlign (Goldman, 2011) .......................................... 73
Figure 43 : Différents positionnements verticaux des glyphes. Source : Eisenberg (2002: 120)....................... 75
Figure 44 : Mise en gras, style, décoration et espacement des glyphes. Source : Eisenberg (2002: 117) ......... 76
Figure 45 : Longueur des glyphes. Source : Eisenberg (2002: 121).................................................................. 76
Figure 46 : Glyphes collés sur des courbes et lignes visible (à gauche) ou non (à droite). Source : Eisenberg
(2002 : 127) ..................................................................................................................................... 76
Figure 47 : Graphique matriciel (à gauche) et graphique vectoriel (à droite) agrandis. Source : Eisenberg
(2002: 16-17)................................................................................................................................... 77
Figure 48 : Prototype de l’outil, la visualisation de l’intonation en curviligne ................................................. 79
Figure 49 : Prototype de l’outil, Visualisation de l’intonation en créneaux, de la durée et de la proéminence en
différentes teintes de rouge.............................................................................................................. 80
Figure 50 : Espacement entre les mots dans le prototype (en haut) et dans la V. 13.09.13 (en bas) ................. 83
Figure 51 : Taille des lettres dans le prototype (en haut) et dans la V. 13.09.13 (en bas) ................................. 83
Figure 52 : V. 13.09.13, Visualisation des groupes accentuels .......................................................................... 84
Figure 53 : V. 24.01.14, Division des pauses en deux catégories de longueur : 50px et 100px......................... 85
Figure 54 : V. 24.01.14, Problèmes avec la délimitation des groupes accentuels ............................................. 86
Figure 55 : V. 24.01.14, Problèmes avec la délimitation des groupes accentuels ............................................. 86
Figure 56 : V. 24.01.14, Simplification de la visualisation de la prosodie......................................................... 87
Figure 57 : V. 30.01.14, Paradoxe de notre programme.................................................................................... 87
Figure 58 : V. 30.01.14, Paradoxe de notre programme résolu......................................................................... 89
Figure 59 : V. 04.02.14....................................................................................................................................... 90
Figure 60 : V. 13.09.13, visualisation des liaisons et des enchaînements .......................................................... 91
Figure 61 : V. 04.02.14, Boule d’aide avec la définition du mot........................................................................ 92
Figure 62 : V. 24.01.14, Fausse détection de la fréquence fondamentale.......................................................... 92
Figure 63 : V. 24.01.14, Fausse détection de la fréquence fondamentale.......................................................... 93
Figure 64 : Version finale ‒ Interface de l’utilisateur ........................................................................................ 94
Figure 65 : Version finale ‒ Menu...................................................................................................................... 95
Figure 66 : Version finale ‒ Activation/désactivation des paramètres prosodique............................................ 95
Figure 67 : Version finale ‒ Visualisation de l’accentuation ............................................................................. 96
Figure 68 : Version finale ‒ Visualisation de l’intonation ................................................................................. 97
Figure 69 : Version finale ‒ Modes de la visualisation ...................................................................................... 97
Figure 70 : Version finale ‒ Lecteur MP3.......................................................................................................... 98
Figure 71 : Version finale ‒ Syllabe et l’enregistrement .................................................................................... 98
Figure 72 : Version finale ‒ Groupe accentuel et l’en registrement ................................................................... 98
Figure 73 : Version finale ‒ Bulle d'aide avec l'explication théorique ............................................................... 99
Figure 74 : Version finale ‒ Boutons de navigation........................................................................................... 99
Figure 75 : Version finale ‒ Barre de défilement ............................................................................................. 100
Figure 76 : Version de l’outil sans la visualisation - Boîte de dialogue avec l’explication théorique ............. 101
Figure 77 : En haut ‒ Point de départ. Source : Rude (2012 : 256). En bas ‒ Version finale de notre outil .. 105
7
TABLE DES TABLEAUX
Tableau 1 : Fréquence des types syllabiques dans les langues différentes en %. Source : Léon (2009 : 133)... 16
Tableau 2 : Niveaux d’intensité de quelques bruits et de leurs effets sur l’audition humaine. Source : Munot et
Nève (2002 : 42) .............................................................................................................................. 24
Tableau 3 : Dix intonations françaises les plus fréquentes et leur représentation schématique à l’aide de quatre
niveaux de hauteur avec des exemples (Delattre, 1966a : 4-5). ...................................................... 28
Tableau 4 : Représentation de la fonction impressive de l’intonation. Exemples repris de Léon (2009 : 195).
└ - registre haut ; ┌ - registre bas ; / et \ – la direction de la mélodie....................................... 29
Tableau 5 : Praat (Boersma et Weenink, 2013), Exemple de tableau de données d’analyse pour un groupe de
souffle .............................................................................................................................................. 71
Tableau 6 : Document d’analyse final ................................................................................................................ 74
Tableau 7 : Espacement entre les mots, les lignes ajoutées dans le document txt d’origine (en vert claire) ..... 83
Tableau 8 : Différenciation de la taille des lettres.............................................................................................. 84
Tableau 9 : V. 24.01.14, Tableau des pauses d’un texte avec trois colonnes (de gauche à droite) : le nombre de
la syllabe, la syllabe avant la pause et la durée de la pause en millisecondes................................ 85
Tableau 10 : V. 30.01.14, Paradoxe de notre programme (pour l’intégrité du texte voir Annexe A)................... 88
Tableau 11 : V. 24.01.14, Fausse détection de la fréquence fondamentale .......................................................... 93
Tableau 12 : Version finale ‒ Taille des fichiers constituant le programme ...................................................... 103
Tableau 13 : Déroulement de l’expérience ......................................................................................................... 110
Tableau 14 : Moyennes des évaluations par critère et par groupe pour chaque juge ........................................ 114
Tableau 15 : Par juge, moyennes de chaque critère et moyenne générale pour les deux niveaux de chaque
groupe............................................................................................................................................ 116
Tableau 16 : Moyennes pour les deux juges combinés, par groupe et pour chacun des cinq critères................ 117
8
INTRODUCTION
Les détails font la perfection, et la perfection n'est pas un détail.

Léonard De Vinci
Nous savons que "les détails font la perfection" et ces détails sont tous importants. Il faut donc
par exemple bien nettoyer chaque facette d’une pierre précieuse pour parvenir à obtenir un
diamant. Comme le souligne Léonard de Vinci, "la perfection n’est pas un détail". Ainsi, pour
apprendre une langue, il faut tailler chacune de ses facettes pour que le diamant de la langue
prenne toute son élégance. L’apprentissage d’une de ces facettes, la phonétique, a longtemps
été marginal. Comme le soulignent Champagne-Muzar et Bourdagues, 1998 : 101, certains
considèrent que "le développement des habilités phonétiques ne nécessite aucun travail
phonétique ou ne se répercute pas sur la communication". D’autres invoquent le côté
ennuyeux de la pratique phonétique, qui finit très souvent par la répétition interminable des
sons (Gilbert, 2008 : 1) ou la barrière psychologique de la perception de son discours dans
une langue étrangère comme quelque chose qui est leur étranger (Gilbert, 2008 : 1).
De tels jugements sont issus, selon Champagne-Muzar et Bourdages (1998 : 101) et Germain
et Martin (2000 : 60), de la formation phonétique insuffisante des enseignants. Selon Rude
(2002 : 264), la prononciation erronée, notamment des accents mal placés ou une intonation
inappropriée, est la première source de malentendu. Ainsi, selon Rude, l’un des détails très
importants qui nous rend compréhensibles est quelque chose qui se situe au-delà des sons, des
mots et des énoncés : la prosodie. Cette dernière nous permet de mettre en relief certains
éléments dans la phrase, de véhiculer différentes significations d’une même phrase, d’un mot,
voire d’exprimer un sentiment (joie, colère, etc.).
Or, comme le relèvent Komissarchik et Komissarchik (2000), les apprenants d’une langue
étrangère peuvent bien maîtriser la prononciation d’un mot ou d’une phrase, mais ils ont
souvent des problèmes d’acquisition d’une bonne prosodie de cette langue.
9
INTRODUCTION
"For example, Japanese speakers of English put equal stress on each syllable, […]
have difficulty in understanding the link between stress placement and meaning, and
have low flat pitch [intonation] (males). Italian speakers of English have troubles
with stress-timed nature of English, since all syllables in Italian have full vowels
[not reducing them]. French speakers of English elongate the last syllable in a phrase
and drop pitch [intonation] on it; they also do not use reduced vowels. […] Chinese
(Mandarin and Cantonese) speakers of English have problems with all aspects of
prosody".
(Komissarchik et Komissarchik, 2000)
L’objectif du présent travail est donc de contribuer à pallier cette lacune. Rendre visible le
phénomène sonore qu’est la prosodie devrait permettre aux apprenants de mieux imaginer,
comprendre et apprivoiser les éléments prosodiques comme l’accentuation ou les
mouvements de la courbe intonative. Nous présentons donc dans ce travail la
conceptualisation, le développement et l’évaluation d’un outil informatique permettant de
visualiser ces éléments sur la base de textes lus à voix haute.
Comme nous vivons dans une ère numérique et que les nouvelles technologies émergent dans
toutes les sphères de la vie quotidienne, l’idée de réaliser la visualisation de la prosodie par le
biais d’un système informatique mis à disposition et accessible à un nombre important
d’apprenants partout dans le monde via Internet nous paraît une suite logique des tendances
actuelles, qui répond aux attentes d’un apprenant moderne et est donc motivante.
Composée de deux chapitres, la première partie de notre travail vise à présenter les bases
théoriques sur lesquelles s’appuie notre travail. Dans le premier chapitre de notre travail, nous
nous proposons d’approfondir la question théorique de la prosodie, en présentant tout d’abord
sa place au sein de la phonétique, puis en définissant ses principaux éléments : accentuation,
intonation, pause, quantité, débit, rythme, en passant par la description des unités prosodiques.
Pour l’accentuation et l’intonation, après les avoir définies, nous présenterons leurs fonctions
et leurs caractéristiques acoustiques. Dans le deuxième chapitre, après avoir présenté une
brève introduction expliquant les notions de visualisation et d’outil de visualisation, nous
passerons en revue les outils de visualisation existant actuellement en fonction de leur objectif,
à savoir ceux qui sont destinés aux études scientifiques de la prosodie, au divertissement
(œuvres littéraires, bandes dessinées, publicité, etc.) et à l’enseignement de la prosodie aux
apprenants d’une langue étrangère (ci-après LE).
10
INTRODUCTION
La deuxième partie, également composée de deux chapitres (3 et 4), décrit la partie pratique
de notre travail. Dans le chapitre 3, nous commençons par la description de la conception et
du développement de notre outil de visualisation de la prosodie. Nous nous intéressons plus
précisément aux différentes étapes du développement du système jusqu’à sa version finale, ce
qui nous amènera à la conclusion de cette section. Dans le chapitre 4, nous présentons
l’évaluation de notre outil par un groupe d’apprenants de français langue étrangère (FLE).
Nous commençons par exposer l’expérience conduite auprès de 14 apprenants répartis en
deux groupes (un groupe contrôle, qui a utilisé l’outil sans visualisation de la prosodie, et un
groupe test qui disposait de l’outil de visualisation). Cela nous permet d’obtenir deux
productions orales pour chaque apprenant : la première, servant de base, est effectuée au
début de l’expérience, et la deuxième à la fin, après un travail spécifique sur la prosodie. Nous
présentons ensuite la phase d’évaluation des productions par deux évaluateurs spécialistes de
phonétique, ainsi que les résultats obtenus. À la fin de ce chapitre, nous discutons de nos
résultats afin de tenter de savoir si notre outil contribue davantage à l’apprentissage de la
prosodie du français langue étrangère que ne le fait l’approche classique, qui préconise
l’entraînement avec des supports audios uniquement.
Nous concluons le présent travail en examinant les implications générales de notre recherche.
Nous suggérons également des améliorations éventuelles de notre programme ainsi que ses
extensions possibles. Enfin, nous exposons quelques perspectives de développement de ce
projet.
11
PARTIE THEORIQUE
1. PROSODIE DU FRANÇAIS
1.1 PROSODIE ET PHONETIQUE
1.1.1 Phonétique
La langue, dans son sens général, est un code qui sert à transmettre des informations et qui est
par conséquent constitué d’éléments. Ainsi la langue est constituée d’unités, dont Léon (2009 :
17), comme Hjelmslev (1968) qu’il cite à juste titre, distingue deux types : les unités de
contenu et les unités d’expression.
Léon (2009 : 17) définit les unités de contenu, telles que, par exemple, les mots "appeler",
"falloir", "pouvoir", "perdre", "richesses", "les", "choses", "il", "on", "ne pas" et "que",
comme des unités de sens. Une fois placées dans un certain ordre, ces unités peuvent former
une idée intégrale que Léon (2009 : 17) appelle la substance du contenu, qui est véhiculée par
la phrase suivante : "Il ne faut pas appeler richesses les choses que l’on peut perdre" (Léonard
De Vinci). La substance du contenu est donc composée des unités de contenu à l’instar d’un
bâtiment construit de petites briques.
Les unités minimales de contenu porteuses de sens sont appelées les monèmes (Léon, 2009 :
18), qui sont à leur tour divisés en lexèmes et morphèmes. Riegel, Pellat et Rioul1 (2009 : 894-
895) définissent les premiers comme "essentiellement des radicaux des unités qui constituent
le lexique (noms, adjectifs, verbes et adverbes)", et dont la fonction est référentielle. Ils
servent, entre autres, à renvoyer aux objets réels, à leurs caractéristiques, aux actions ou à la
manière dont ces actions se réalisent. Selon ces auteurs toujours, les morphèmes remplissent
quant à eux très souvent une fonction grammaticale : ils indiquent le nombre, le genre, la
personne, le temps et le mode et servent, entre autres, à "marquer les relations entre les mots
[…] (prépositions et conjonctions)", à assurer l’actualisation du nom (déterminants). Ainsi,
dans l’exemple précédent, le mot "richesses" possède trois monèmes : "riche" est un lexème
qui signifie celui "qui possède des biens importants, de la fortune, etc." (Larousse, 2010) ;
1
Riegel, Pellat et Rioul (2009 : 895) appellent les lexèmes et morphèmes respectivement les morphèmes
lexicaux et grammaticaux en les classant sous une notion générique de morphème
12
PROSODIE DU FRANÇAIS
"esse" est un morphème, plus précisément un suffixe nominal qui forme des substantifs ; et
"s" est également un morphème qui comporte la marque du pluriel. La richesse en monèmes
du mot "richesses" nous montre également qu’un monème n’est le plus souvent pas égal à un
mot.
Les unités d’expression, que Léon (2009 : 18) nomme matériaux sonores ou phones et Tranel
(2003 : 259) sons, représentent la substance de l’expression. Cette dernière fait l’objet
essentiel d’études dans le domaine de la linguistique nommé la phonétique (Léon, 2009 : 18).
Tranel (2003 : 259) définit la phonétique comme "une discipline linguistique qui a pour objet
de dresser l’inventaire des sons possibles dans les langues du monde et d’étudier ces unités
d’expression".
Selon Tranel (2003 : 259), cette discipline comporte trois sous-domaines. Elle s’intéresse
notamment à la manière dont les sons sont produits par l’appareil vocal humain (phonétique
articulatoire), à la manière dont ils sont perçus par l’appareil auditif humain (phonétique
auditive) et à leurs caractéristiques physiques, leur transmission de l’émetteur au récepteur,
donc au mode de propagation des sons dans l’espace (phonétique acoustique).
La phonétique étudie donc les sons du langage du point de vue de leur réalisation concrète, ce
qui la distingue de la phonologie qui, elle, le fait d’un "point de vue fonctionnel, de manière
abstraite" (Léon et Léon, 2013 : 10). Cette distinction peut être illustrée à travers la
prononciation des mots "adapter" [adapte] (p. ex. : adapter un texte original pour le niveau A2)
et "adopter" [adɔpte] (p. ex. : adopter un(e) enfant). Au niveau phonétique, on parle du son [a],
une voyelle orale très ouverte, antérieure, écartée/non arrondie, et du son [o], une voyelle
orale fermée postérieure arrondie. Au niveau phonologique, il s’agit également de deux
phonèmes différents, /a/ et /o/, soit deux unités minimales d’expression dont l’utilité est, sans
avoir un sens propre, de distinguer le sens des mots, dans notre exemple "adapter" [adapte] et
"adopter" [adɔpte], qui constituent en ce sens une paire minimale en français.
Dans chaque langue du monde, il y a toutefois un nombre et un inventaire de phonèmes

distincts. Par exemple, le français se compose de 37 phonèmes (16 voyelles, 3 semi-voyelles
(ou semi-consonnes) et 18 consonnes) (Léon, 2009 : 22). Le russe comporte quant à lui 42
phonèmes (5 voyelles, 37 consonnes) (Gak, 1989 : 35). Selon Léon (2002 : 22), la quantité
maximale d’unités minimales de l’expression que l’homme peut "former et distinguer" est
égale à 100.
13
1.1.2 Prosodie comme un sous-domaine de la phonétique
La substance de l’expression n’est pas uniquement constituée de sons. Ces derniers sont par
ailleurs également appelés éléments segmentaux (Léon, 2009 : 19), par opposition aux
éléments suprasegmentaux ou prosodiques. Ainsi, lorsque l’on prononce la phrase suivante :
"Les personnes âgées croient tout, les adultes doutent de tout et les jeunes savent tout." (Oscar
Wilde), on articule tout d’abord des sons, qui forment des syllabes qui forment à leur tour des
monèmes, et, qui, au final, constituent une unité véhiculant une idée précise. La mélodie de la
voix monte sur "croient" et "doutent" pour montrer que la phrase continue et s’abaisse
progressivement à partir de "savent" pour indiquer la fin de la phrase déclarative (fig. 1).
croient tout, doutent de tout

Les personnes âgées ↑croient tout, les adultes↑ doutent de tout et les jeunes↓
savent tout.
Figure 1: Modulation de la hauteur de la voix
Cette modulation de la hauteur de la voix (fig. 1) est appelée l’intonation et, parallèlement,
correspond à la division de l’exemple ci-dessus en trois groupes de mots séparés par des
pauses : [les personnes âgées croient tout,] [les adultes doutent de tout] [et les jeunes savent
tout]. Cette division lui donne un rythme et aide à en construire le sens.
De plus, conformément "au modèle du français standard", on met un accent sur la dernière
syllabe de chaque groupe de mots (Léon et Léon, 2013 : 30-31). Cette démarcation est
appelée l’accentuation (Léon, 2009 : 20).
1.1.3 Définition de la prosodie
Léon (2009 : 19) définit la prosodie comme "un sous-domaine de la phonétique qui étudie les
unités d’expressions se superposant aux sons (les éléments suprasegmentaux)".
Dans l’exemple ci-dessus, nous avons mentionné deux éléments prosodiques : l’intonation et
l’accentuation. Toutefois, la prosodie n’est pas uniquement constituée de ces deux éléments.
Elle en contient d’autres (tels que la quantité, le rythme, la pause et le débit) qui fournissent
également des informations supplémentaires qui ne peuvent pas être véhiculées par les mots
seuls.
Tous ces éléments suprasegmentaux "se combinent sans cesse" (Léon, 2009 :19) de
différentes manières. Par exemple, tout en gardant la même suite de sons et monèmes, nous
14
pouvons donner à la phrase "Les hommes chassent, les femmes pêchent" (Victor Hugo), un
sens interrogatif (si nous la prononçons avec une intonation montante à la dernière syllabe),
exclamatif (avec une intonation montante brusquement) ou injonctif (avec une intonation
descendante brusquement). La prosodie permet, entre autres, de mettre en relief l’un de ses
constituants par le biais de l’accentuation (par exemple : "les HOMMES chassent, les
FEMMES pêchent"), ou, par le biais de l’intonation, d’exprimer un sentiment tel que le doute
ou l’ironie.
Étant donné que ce travail poursuit essentiellement un objectif didactique, dans la suite de ce
travail, nous nous concentrerons essentiellement sur deux éléments suprasegmentaux :
l’accentuation, qui sera décrite en détail dans la section 1.2, et l’intonation, dont la description
sera l’objet de la section 1.3. Les autres éléments (quantité, rythme, pause et débit) seront
quant à eux brièvement développés dans la section 1.4. Toutefois, avant de pouvoir présenter
en détail ces éléments, nous devons tout d’abord définir la notion de syllabe, qui est un
élément de base de la prosodie, puisque les sons se groupent en syllabes, et ce sont
précisément ces éléments-là qui reçoivent les paramètres acoustiques permettant de réaliser
l’accentuation ou l’intonation.
1.1.4 Syllabe
Les sons, unités minimales d’expression, ne sont pas tous les mêmes, mais se distinguent
entre eux, par exemple, au niveau de l’audibilité. Ceux d’entre eux qui ont la plus grande
audibilité sont appelés les voyelles et les autres les consonnes (Léon, 2009 : 131). Dans la
chaîne parlée, ces éléments se regroupent en unités plus grandes, les syllabes.
Léon (2009 : 131) définit la syllabe, en français, comme "une unité prosodique qui consiste de
la voyelle et des éventuelles consonnes et qui se prononce d’une seule émission de voix".
La syllabe se compose des éléments suivants : l’Attaque qui est constituée d’une ou plusieurs
consonnes, la Rime qui se décompose à son tour en un noyau, élément minimal et obligatoire
de la syllabe, généralement vocalique et d’une Coda, constituée d’une ou de plusieurs
consonnes (Léon, 2009 : 131) (fig. 2).
15
Mot (énergie)
Syllabe Syllabe Syllabe
Rime Rime Rime
Noyau Attaque Noyau Coda Attaque Noyau
e n ε ʁ ʒ i
Figure 2 : Représentation phonologique de la syllabe

Source : Tranel (2003 : 294) ; Lacheret-Dujour et Beaugendre (1999 : 90)
Pour le français, l’attaque et la coda peuvent être vides, c’est-à-dire ne pas contenir de
consonnes. Ainsi, la syllabe minimale en français n’est composée que d’une voyelle (Léon et
Léon, 2013 : 31), par exemple, dans le mot "ouvert" [u.vεʁ], produit en isolé, la première
syllabe est [u]. Le français est par ailleurs une langue possédant un grand nombre de
structures syllabiques possibles (V, CV, CCV, CCCV, VC, VCC, VCCC, CVC, CCVC,
CVCC, etc.) : par exemple, le mot "beau" [bo] a la structure syllabique CV et
"strict" [stʁikt] – CCCVCC.
Comme l’explique Tranel (2003 : 294), les syllabes sont généralement divisées en deux
catégories : les syllabes ouvertes et les syllabes fermées. Une syllabe ouverte est une syllabe
qui se termine par une voyelle prononcée (par exemple : le mot "muguet" est composé de
deux syllabes ouvertes [my.gε]). Une syllabe fermée se termine quant à elle par une consonne
(par exemple : rose [ʁoz]). Le français, comme de manière plus générale les langues romanes,
est une langue à syllabation ouverte. Léon (2009) souligne en effet que la syllabe de
prédilection pour le français est CV. Comme le mentionne Léon (2009 : 132-133), des études
de la fréquence des types syllabiques, réalisées par Delattre (1966b), ont montré qu’elle
représente 59,9% des syllabes en français. En effet, selon ces études de Delattre (1966b), la
fréquence des types syllabiques des autres langues se différencie de celle du français, ce que
nous pouvons constater en observant le tableau 1.
français espagnol anglais allemand

CV 59,9 55,6 27,6 28,7
CVC 17,1 19,8 31,8 38,1
CCV 14,2 10,2 4,0 3,3
VC 1,9 3,1 11,9 9,8
Tableau 1 : Fréquence des types syllabiques dans les langues différentes en %.
Source : Léon (2009 : 133)
16
La coupe syllabique en français obéit à un certain nombre de règles strictes, que Léon (2013 :
32) répertorie ainsi :
"une consonne seule, entre deux voyelles, se lie à la syllabe suivante : décidé
[de.si.de] ;
les consonnes doubles représentent généralement une seule consonne prononcée :

arrivé [a.ʁi.ve] ;
les consonnes liquides [ʁ] et [l] ne se séparent pas de la consonne qui les précède :
patrie [pa.tʁi], oubli [u.bli] ;
en dehors de ces deux groupes, deux consonnes différentes se séparent : admis

[ad.mi], taxi [tak.si]".
(Léon, 2013 : 32)
Enfin, dans le discours oral, les syllabes ont tendance de se regrouper dans des unités plus
grandes. Ce type d’unités prosodiques plus grandes, formées de plusieurs syllabes, sera
présenté dans la section suivante (1.1.5).
1.1.5 Unités prosodiques supérieures
Ainsi, selon Carton (1974 : 100-103) et Léon (2009), les syllabes se réunissent tout d’abord
en groupes accentuels. Ces derniers forment ensuite les groupes rythmiques qui, enfin, font
partie des groupes de souffle. Observons maintenant ces unités en commençant par le groupe
accentuel.
Carton (1974 : 102) définit le groupe accentuel comme "un groupe de mots qui vont ensemble
doté d’un seul accent sur la dernière syllabe".
Prenons l’unité "Le bel oiseau de mon ami se promenait dans la maison", reprise de Grosjean
(1999), pour illustrer le découpage en groupes accentuels. Cette unité est composée de quatre
groupes accentuels : [lə.bεl.wa.ˈzo] [də.mɔ̃n.̮a.ˈmi] [sə.pʁɔ.mə.ˈnε] [dɑ̃.la.mε.ˈzɔ̃].
Les groupes accentuels se sont réunis pour créer des groupes plus longs, ce qui est, par
ailleurs, plus caractéristique pour le discours neutre. Du point de vue du rythme, ces nouveaux
groupes sont appelés par Carton (1974 : 103) et Léon (2009) les groupes rythmiques. Ces
derniers forment le troisième niveau de la hiérarchie des unités prosodiques (le premier niveau
est la syllabe, le deuxième est le groupe accentuel).
17
Le groupe rythmique est constitué "d’un ou de plusieurs groupes accentuels reliés par le sens
et séparés par une pause réelle" (Carton, 1974 : 103).
Observons le découpage en groupes rythmiques en reprenant l’exemple précédent où, cette

fois, nous trouverons deux groupes rythmiques qui incluent chacun deux groupes accentuels :
[lə.bεl.wa.zo.də.mɔ̃n.̮a.ˈmi] [s ə.pʁɔ.mə.nε.dɑ̃.la.mε.ˈzɔ̃].
En outre, ces derniers peuvent se réunir en groupes encore plus grands que Carton (1974 : 103)
appelle les groupes de souffle et les définit comme "étant constitués d’un ou de plusieurs
groupes rythmiques qui peuvent être prononcés entre deux reprises de respiration".
L’unité de notre exemple devient ainsi le groupe de souffle et est donc prononcée d’une seule
prise d’air :
[lə.bεl.wa.zo.də.mɔ̃n.̮a.mi.sə.pʁɔ.mə.nε.dɑ̃.la.mε.ˈzɔ̃].
Lacheret-Dujour et Beaugendre (1999 : 91) remarquent que, en général, "les constituants

hiérarchiquement supérieurs sont formés de plusieurs constituants du niveau immédiatement
inférieur, mais ce n’est pas toujours le cas". De ce fait, Carton (1974 : 103) ainsi que
Lacheret-Dujour et Beaugendre (1999 : 91), pourtant indirectement, remarquent que le groupe
accentuel, rythmique et de souffle peuvent coïncider, comme c’est le cas d’un simple accord
"Oui !", par exemple. C’est une des raisons pour lesquelles la question de l’attribution à un
groupe de syllabes du titre de groupe accentuel, de groupe rythmique ou de groupe de souffle
est assez aléatoire. À ce sujet, Segui et Ferrand (2000 : 212), de même que Lacheret-Dujour et
Beaugendre (1999 : 91), stipulent qu’il n’y a pas vraiment de consensus sur la terminologie de
ces unités, qui diverge selon les cadres théoriques prosodiques adoptés à l’heure actuelle.
À cet effet, notre exemple "Le bel oiseau de mon ami se promenait dans la maison", comme
nous l’avons déjà constaté, est composé de quatre groupes accentuels qui remplissent, par
ailleurs, des fonctions grammaticales distinctes : "Le bel oiseau" est un groupe de sujet, "de
mon ami" est un groupe prépositionnel, "se promenait" – un groupe verbal et le dernier, "dans
la maison" – un complément circonstanciel de lieu. Ces groupes accentuels sont donc porteurs
d’une certaine signification, c’est pourquoi le groupe accentuel peut également être appelé le
groupe de sens ou l’unité de sens selon Grammont (1958), cité par Carton (1974 : 101). Nous
pouvons ainsi voir avec Di Cristo (1978), cité par Lacheret-Dujour et Beaugendre (1999 : 91),
18
qui préfèrent quant à eux nommer le groupe accentuel, le groupe rythmique et le groupe de
souffle respectivement : le groupe accentuel, le groupe intonatif et la phrase phonologique.
Dans notre travail, nous choisissons toutefois la structure prosodique du français

susmentionnée, soit le groupe accentuel, le groupe rythmique et le groupe de souffle.
Pour conclure cette section, remarquons que, dans les unités prosodiques, certaines syllabes
sont plus saillantes que les autres et sont alors plus facilement repérables par notre oreille. Ces
syllabes sont dites accentuées, par rapport aux autres, non saillantes, qui sont donc quant à
elle inaccentuées. Dans la section suivante (1.2), nous proposons donc de définir et expliquer
l’accentuation, terme préféré par Léon et Léon (2013 : 75) au terme accent qu’ils considèrent
comme ambigu. Ce dernier peut, en effet, représenter "une façon de prononcer", c’est-à-dire
un ensemble de caractéristiques phonétiques, qui permettent d’attribuer une provenance à un
locuteur (ex. accent genevois, marseillais, allemand ou russe).
1.2 ACCENTUATION
1.2.1 Définition de l’accentuation
Grosjean (1999) définit l’accentuation comme "un élément prosodique qui se manifeste par la
durée subjective et la hauteur". Le français connaît deux niveaux d’accentuation, à savoir :
l’accentuation primaire et l’accentuation secondaire. Ces deux types se distinguent par leurs
fonctions et leur place dans les unités prosodiques. Dans les sections suivantes (1.2.2 et 1.2.3),
nous présenterons ces deux types d’accentuation. Nous commencerons par les définir, puis
nous verrons leur(s) fonction(s) pour terminer par présenter leurs caractéristiques acoustiques.
1.2.2 Accentuation primaire
1.2.2.1 Place de l’accent primaire
L’accent primaire, également appelé oxytonique2 en français, tombe toujours sur la dernière
syllabe d’un mot lorsque le mot est produit en isolé (par exemple : nation [na.ˈ sjɔ]̃ , national
[na.sjɔ.ˈnal], nationalité [na.sjɔ.na.li.ˈte]). En revanche, dans la parole continue, les mots ne
sont pas tous accentués. Seule la dernière syllabe du groupe accentuel est accentuée.
2
Empr. au gr. comp. de "aigu" et "ton, accent" (http://atilf.atilf.fr, consulté le 19 février
2014)
19
Ainsi, nous proposons d’observer l’exemple suivant : "Le plus petit des trois cambrioleurs a
été aperçu à l'extérieur de la gare à huit heures moins le quart". Cette unité peut être divisée en
quatre groupes accentuels, donc chacun portera à la fin un accent :
[lə.ply.pəti.de.tʁwɑ.kɑ̃bʁijɔ.ˈlœʁ] [a.e.te.a.pεʁ.ˈsy] [a.lεk.ste.ʁjœʁ.də.la.ˈgaʁ] [a.ɥit.œʁ.mwε̃.lə.ˈ kaʁ]
Ou en deux groupes rythmiques :
[lə.ply.pəti.de.tʁwɑ.kɑ̃bʁijɔ.lœʁ.a.e.te.a.pεʁ .ˈsy] [a.lεk.ste.ʁjœʁ.də.la.gaʁ.a.ɥit.œʁ.mwε̃.lə.ˈkaʁ]
Ou bien cette unité peut avoir seulement un accent à la fin. Elle représente alors un groupe de
souffle :
[lə.ply.pəti.de.tʁwɑ.kɑ̃bʁijɔ.lœʁ.a.e.te.a.pεʁ.sy.a.lεk.ste.ʁjœʁ.də.la .gaʁ.a.ɥit.œʁ.mwε̃.lə.ˈkaʁ]
En français, la position de l’accent est dite "fixe", par opposition aux langues à accent "libre",
puisqu’il se situe toujours sur la dernière syllabe d’un groupe accentuel. Ainsi, lorsque l’on
allonge le groupe accentuel en ajoutant un mot, l’accent se déplace à la nouvelle dernière
syllabe du groupe accentuel (Gak, 1989 : 67). Par exemple, dans la phrase : "La vérité est
dure." [la.ve.ʁi.te.ε.ˈdyʁ], l’accent tombe sur [dyʁ], mais si l’on y ajoute le mot
"encourageante" [ɑ̃.ku.ʁa.ˈ ʒɑ̃t], l’accent primaire se déplacera à la nouvelle fin de ce groupe
accentuel et, maintenant, la syllabe [ʒɑ̃t] sera accentuée : "La vérité est dure et
encourageante." [la.ve.ʁi.te.ε.dyʁ.e.ɑ̃.ku.ʁa.ˈʒɑ̃t]. Ainsi, si l’on continue en étendant ce
groupe avec le mot "stupéfiante" [sty.pe.ˈ fjɑ̃t], nous observons de nouveau que l’accent
primaire tombera sur la nouvelle dernière syllabe du groupe qui sera [fjɑ̃t] : "La vérité est
dure, encourageante et stupéfiante." [la.ve.ʁi.te.ε.dyʁ.ɑ̃.ku.ʁa.ʒɑ̃t.e.sty.pe.ˈfjɑ̃t]
Dans les langues à accent "libre", comme en russe, en anglais ou en allemand, chaque mot
plein (ou lexical) porte un accent. L’accent remplit donc une fonction distinctive, car il sert à
distinguer deux mots entre eux. En anglais, par exemple, l’accent permet de différencier le
nom du verbe : contract [ˈkɑn.trækt] est le nom et [kɑn.ˈtrækt] est le verbe.
1.2.2.2 Fonctions de l’accent primaire
Sur le plan linguistique, selon Léon (2009 : 153), l'accent primaire a donc une fonction
démarcative, puisqu’il permet de délimiter des unités qui correspondent généralement à des
unités syntaxiques et facilite la compréhension de la structure d’un énoncé. L’accent primaire
20
"peut servir à lever une ambiguïté" (Léon, 2009 : 153) de la compréhension d’un énoncé. Par
exemple, la suite de sons [labεlfεʀmləvwal] (en orthographe : la belle ferme le voile (Grosjean,
1999)) peut être découpée de deux manières différentes selon la position de la pause qui
accompagne souvent l’accent (Léon, 2009 : 153) : comme [la.ˈbεl|fε ʀm.lə.ˈvwal], ce qui
signifie que c’est la belle qui ferme le voile, et aussi bien que [la.bεl.ˈfε ʀm|lə.ˈvwal], ce qui
signifie que derrière la belle ferme, quelque chose se cache. Dans le premier cas "belle" est un
substantif et "ferme" est un verbe tandis que, dans le deuxième, "belle" est un adjectif et
"ferme" un substantif.
1.2.2.3 Caractéristiques acoustiques de l’accent primaire
Parmi les trois paramètres majeurs de la prosodie (la durée subjective, l’intensité et la
hauteur), Grosjean (fig. 3), distingue la durée subjective et la hauteur comme déterminant la
perception d’une syllabe accentuée en français.
En effet, les paramètres prosodiques ont été bien hiérarchisés par Grosjean (1999) selon des
niveaux différents :
Les variables acoustiques sont celles que nous mesurons physiquement et qui sont présentes
dans le signal : l’amplitude, la durée (physique), la fréquence fondamentale et la composition
spectrale.
À ces variables correspondent des variables psychophysiques, celles que l’on perçoit :
l’intensité, la durée (subjective), la hauteur et le timbre.
Ces variables se combinent pour former les variables psychophonétiques : l’accentuation,

l’intonation, la quantité, la pause, le débit et le rythme.
21
Figure 3 : Schéma de la représentation des paramètres prosodiques. Source : Grosjean (1999)
Relevons de ce que nous utiliserons ce schéma de Grosjean (1999) dans notre travail parce
qu’il semble illustrer assez harmonieusement la hiérarchie et les liens entre les différents
éléments prosodiques.
Lacheret-Dujour (1999 : 12) définit la durée comme "une longueur physique, à savoir un
intervalle de temps nécessaire pour émettre le signal de parole". La durée se mesure
habituellement en millisecondes (ms).
Selon Léon (2009 : 150), de nombreuses recherches ont montré que, pour le français, une
syllabe accentuée est généralement deux fois plus longue qu’une syllabe inaccentuée (Léon,
2009 : 150). La Figure 4, ci-dessous, permet de se rendre compte de ce phénomène. En effet,
nous pouvons y voir la capture d’écran de Praat (Boersma et Weenink, 2013), sur laquelle le
plan horizontal présente le déroulement de l’enregistrement dans le temps. Sur ce plan
horizontal, nous observons la fin de la phrase suivante : "Ils ont ensuite analysé les
modifications qui avaient eu lieu dans l’ADN des cobayes et en ont conclu que la partie du
génome consacrée à la sensibilité liée aux odeurs devenait plus active". La dernière syllabe
de cette phrase est accentuée et, sur la figure 4, elle est considérablement plus longue que les
syllabes inaccentuées.
22
Figure 4 : Durée de la syllabe accentuée (en jaune), fréquence fondamentale est en bleu, amplitude – en vert.
Prise d’écran de Praat (Boersma et Weenink, 2013).
Le fragment ci-dessus représente la fin de la phrase suivante : Ils ont ensuite analysé les modifications qui
avaient eu lieu dans l’ADN des cobayes et en ont conclu que la partie du génome consacrée à la sensibilité liée
aux odeurs devenait plus active.
Sur le plan vertical de la figure 4, nous voyons l’amplitude (tracé vert) et la fréquence
fondamentale (tracé bleu).
Léon (2009 : 51) définit la fréquence fondamentale comme, "au niveau d'un son, la hauteur du
son qui dépend de la fréquence de la vibration des cordes vocales". On mesure la fréquence
fondamentale en Hertz (Hz).
Selon Léon (2009 : 68), l'adjectif "fondamental" est utilisé pour dire "la plus grave", car la
fréquence fondamentale, toujours selon Léon (2009 : 68), est la fréquence la plus grave des
voyelles, ce qu’il justifie en disant qu'il s'agit de la seule fréquence qui peut être perçue par
notre oreille. Les autres fréquences des voyelles et les fréquences des consonnes sont instables.
De plus, la fréquence fondamentale est la plus facile à détecter parmi les trois paramètres
prosodiques (Lacheret-Dujour et Beaugendre, 1999 : 12).
Notons que, sur la figure 4, la diminution brusque de la fréquence fondamentale coïncide avec
la durée physique augmentée de la dernière syllabe, ce qui souligne leur corrélation et
importance dans la perception d’une syllabe accentuée.
Enfin, en ce qui concerne le rôle de l’amplitude - mesurée en décibel (dB) - ou ce que nous
percevons comme l’intensité (le troisième paramètre principal), Lacheret-Dujour (1999 : 12)
23
la définit comme "relative à l’énergie contenue dans le signal de parole durant un intervalle de
temps". Cependant, dans la perception de l’accentuation primaire, Léon (2009 : 151) évalue la
variation de l’intensité comme n’étant pas assez pertinente. En effet, selon Léon (2009 : 151),
notre oreille détecte un changement d'intensité à partir d’un seuil de 3dB.
À cet égard, il sera intéressant d’observer d’autres "niveaux d’intensité de quelques bruits et
de leurs effets sur l’audition humaine" que notre oreille perçoit nettement qui ont été
répertoriés par Munot et Nève (2002 : 42) dans le tableau (2) suivant :
10 dB : bruissement des feuilles dans la brise

20 dB : voix chuchotée à 1 m
60 dB : conversation courante
70 dB : rue très active
100 dB : métro, usine bruyante
130 dB : seuil de douleur
140 dB : moteur d’avion à réaction au décollage ou tonnerre à 25 m
Tableau 2 : Niveaux d’intensité de quelques bruits et de leurs effets sur l’audition humaine.
Source : Munot et Nève (2002 : 42)
Ainsi, pour le français, les paramètres acoustiques les plus significatifs dans la perception de
l’accentuation primaire sont la hauteur et la durée subjective perçues, qui correspondent donc
acoustiquement respectivement à la fréquence fondamentale et à la durée physique d’une
syllabe. L’utilisation des différents paramètres acoustiques varie selon les langues. En russe,
par exemple, la durée et l’intensité constituent les deux paramètres majeurs de l’accentuation.
En outre, Gak (1989 : 67) relève également que, dans cette langue, la différence entre les
syllabes inaccentuées et accentuées est beaucoup plus marquée qu'en français.
Cependant, Léon (2009 : 152) évoque que cette dernière règle est vraie quand on l'applique au
discours neutre et non expressif. Au contraire, dans le discours spontané, l'application de la
règle est assez libre, ce que l’on verra de plus près dans le chapitre dédié à l’accentuation
secondaire (ch. 1.2.3).
1.2.3 Accentuation secondaire
1.2.3.1 Place de l’accent secondaire
En français, outre l’accent primaire, il existe un autre type d’accent, appelé accent secondaire,
ou d’insistance. Il permet, comme Léon (2009 : 154) le relève, "une mise en relief d’une unité
généralement plus petite que le groupe accentuel" (Léon, 2009 : 154).
24
Figure 5 : Accent d’insistance sur la première syllabe [ply] du mot "plusieurs" et ces paramètres acoustiques
Le fragment de la figure 5 représente une partie de la phrase suivante : "« Je pense que l’on ne
parviendra pas à comprendre l’augmentation de nombreuses peurs, telles que la phobie de
l’avion, de la foule, des araignées ou des serpents, sans adopter une approche qui examine le
comportement des individus à travers plusieurs générations » explique Marc Legrand,
professeur à l’Université de Lyon". Dans le fragment de cette phrase, "à travers plusieurs
générations", qui nous intéresse de plus près, l’accent primaire tombe sur la dernière syllabe
du groupe accentuel, qui est [sjɔ̃]. De plus, ce groupe peut encore avoir un accent secondaire
qui, dans notre cas, tombe sur la première syllabe, [ply], du mot "plusieurs", en la mettant en
relief spécialement pour souligner l’importance de ce mot.
Carton (1974 : 121) souligne que la place de l’accent secondaire n’est pas complètement libre
ni tout à fait fixe, mais qu’elle "dépend de celle de l’unité à mettre en valeur". Léon (2009 :
154) est quant à lui plus précis puisqu’il mentionne que l’accent d’insistance "se manifeste
généralement sur la première syllabe de l’unité linguistique".
1.2.3.2 Fonctions de l’accent secondaire
Selon Léon (2009 : 154), on distingue trois fonctions linguistiques de l’accent secondaire :
La première fonction est dite oppositive, dans le sens qu’elle permet d’opposer deux (ou plus)
éléments. Ainsi, dans l’exemple suivant, l’accent secondaire présent sur [ma] permet de le
mettre en relief et de l’opposer à [la.ˈtjεn] .
Ex. C’est ma faute pas la tienne [sε.ˈma.fot|pɑ.la.ˈtjεn ].
25
La deuxième fonction est appelée emphatique, car elle permet de transmettre notre état
émotionnel en mettant en valeur par le biais d’une accentuation, par exemple, la première
syllabe du mot, qui normalement ne l’est pas :
Ex. Mais c’est hallucinant comme action ! [mε.sεtˈ̮a.ly.si.nɑ̃|kɔm.aks.ˈjɔ]̃
La troisième fonction est différenciative permettant de mettre en relief deux ou plusieurs

notions dans une unité :
Ex. Les personnes âgées croient tout, les adultes doutent de tout et les jeunes savent
tout. (Oscar Wilde). [le.pεʀ.sɔn.a.ʒe.ˈkʀwa.tu|lez.̮a.dylt.ˈdut.d ə.tu|e.le.ʒœn.ˈsav.tu]
1.2.3.3 Caractéristiques acoustiques de l’accent secondaire
Selon Léon et Léon (2013 : 77), différents processus permettent de marquer l’accent
secondaire, en regard de la fonction que celui-ci remplit. En effet, quand "on renforce la
première syllabe et dit ce que l’on pourrait écrire : "FFFFOORmidable !" [f̌ɔ̌ʁ.mi.ˈdabl], c’est
la consonne initiale qui devient plus longue, plus forte, et la voyelle qui la suit possède une
fréquence fondamentale plus importante. Techniquement, du point de vue acoustique, on
parle de l’accroissement de la durée, de l’amplitude de la consonne initiale (= attaque) et de la
fréquence fondamentale de la voyelle (= noyau).
De plus, selon Léon et Léon (2013 : 77), nous pouvons percevoir l’accent secondaire par le
biais d’autres procédés, par exemple en augmentant la fréquence fondamentale de la voix,
comme cela est réalisé sur la figure 5.
"S’il n’y a pas d’attaque (= consonne initiale), on en fabrique une : le coup de glotte.
Au lieu de prononcer «Encore !» [ɑ̃.kɔʁ] on peut ajouter le son [ˀ] au début et
prononcer alors [ˀɑ̃.kɔʁ] en contractant brusquement nos cordes vocales.
De plus, on peut aussi utiliser une consonne de liaison, comme le [t], par exemple
dans : «C’est idiot !» [sε.``ti.djo]."
(Léon et Léon, 2013 : 77).
Enfin, nous pouvons citer Léon (2009 : 155) qui note que, "dans tous les cas d’insistance,
l’augmentation de la fréquence fondamentale est concomitante de celle de la durée et de
l’intensité", ce que l’on peut constater en étudiant la figure 5.
26
En conclusion, nous devons admettre que la hauteur perçue (la fréquence fondamentale) est
aussi bien le privilège de l’accentuation que de l’intonation. Nous proposons donc d’étudier
un autre élément prosodique important dans les lignes qui viennent (section 1.3) : l’intonation.
1.3 INTONATION
1.3.1 Définition de l’intonation
Dans la section précédente (1.2), nous avons mentionné la fréquence fondamentale, qui est
perçue comme la hauteur de la voix et qui permet, sur une syllabe donnée, de contribuer à
marquer l’accentuation. Si l’on observe l’évolution de la hauteur de la voix sur une séquence
plus longue (groupe accentuel, rythmique ou de souffle), on percevra une mélodie (Léon,
2009 : 176). La variation de la courbe mélodique est appelée intonation (Léon, 2009 : 175).
Dans le discours, l’intonation remplit des fonctions spécifiques que nous allons décortiquer
dans la section suivante (1.3.2).
1.3.2 Fonctions de l’intonation
Selon Léon et Léon (2013 : 85), l’intonation ajoute une signification qui ne peut parfois pas
être véhiculée par les mots seuls. La fonction de l’intonation est donc dite "significative".
Ainsi, une même séquence de mots "tu" "fermes" "la" "porte" peut être interprétée de
différentes manières, selon la mélodie qui accompagne la prononciation de la séquence
sonore :
Avec une intonation montante, il s’agit d’une interrogation (une question), qui à l’écrit, est
marquée par un signe de ponctuation (un point d’interrogation) : "Tu fermes la porte ?".
Avec une intonation qui descend en douceur, il s’agit d’une affirmation, qui à l’écrit, se
marque par la présence d’un point : "Tu fermes la porte".
Avec une intonation qui descend plus brusquement, il s’agit d’une injonction ou d’un ordre, et
qui est marqué, à l’écrit, par la présence d’un point d’exclamation : "Tu fermes la porte !".
Léon et Léon (2013 : 85) remarquent que le nombre d’informations que l’intonation peut
véhiculer est limité, et les répertorient sous le terme patrons, "c’est-à-dire des schémas
mélodiques significatifs, reconnus par tout le monde" (Léon et Léon, 2013 : 85). Delattre
(1966a : 4) en a notamment déterminé dix "fondamentaux" :
27
1. -Si ces œufs Continuation mineure
2. étaient frais, Continuation majeure
3. J’en prendrais. Finalité
4. – Qui les vend ? Interrogation
5. C’est bien toi, Question (Oui ? / non ?)
6. ma jolie ? Écho
Implication (c’est quand "le locuteur

7. – Évidemment, suggère quelque chose sans le dire
expressément" (Carton, 1974 : 116))
8. Monsieur. Parenthèse
9. – Allons donc ! Exclamation
10. Prouve-le-moi. Commandement (ordre/injonction)
Tableau 3 : Dix intonations françaises les plus fréquentes et leur représentation schématique à l’aide de quatre
niveaux de hauteur avec des exemples (Delattre, 1966a : 4-5).
Les trois premiers patrons de ce tableau (3) remplissent une des fonctions linguistiques de
l’intonation appelée par Léon (2009 : 179) la fonction de structuration et hiérarchisation : les
deux premiers montrent qu’il y aura une suite à l’énoncé (énoncés continuatifs) et le troisième
que celui-ci est terminé.
Il paraît utile de souligner qu’au niveau linguistique toujours, les sept autres patrons intonatifs
aident à opposer "des types phrastiques non marqués grammaticalement" (Léon, 2009 : 179),
c’est-à-dire à apporter une signification que les sons eux-mêmes ne véhiculent pas, ce qui
désigne la fonction significative de l’intonation, que nous avons déjà présentée dans la
présente section.
Enfin, une autre fonction importante de l’intonation est la fonction expressive, grâce à
laquelle on exprime, entre autres, nos sentiments, les nuances du sens liées au contexte du
discours (Gak, 1989 : 66), ce qui est convenablement illustré par Passy (1980), cité par Léon
(2009 : 195), sur l’exemple du mot "oui" (tab. 4).
28
Oui\ = C’est mon avis

└Oui\ = J’affirme cela
┌Oui/ = Est-ce vrai ?
Oui// = Pas possible !
Oui\/ = C’est possible, mais j’en doute
Oui/\ = C’est bien clair
└Oui/\/ = Sans doute, au premier abord ; mais
Tableau 4 : Représentation de la fonction impressive de l’intonation. Exemples repris de Léon (2009 : 195).
└ - registre haut ; ┌ - registre bas ; / et \ – la direction de la mélodie.
Comme nous l’avons vu, les trois premières intonations permettent de structurer un énoncé.
Ainsi, comme l’expliquent Léon et Léon (2013 : 86), dans une phrase plus longue,
l’intonation aide à distinguer les groupes continuatifs, marqués par une intonation montante,
des groupes finaux, marqués par une intonation descendante. L’exemple suivant (tiré de Jean-
Jacques Rousseau) : "Un homme ne doit jamais rougir d’avouer qu’il a tort, car, en faisant cet
aveu, il prouve qu’il est plus sage aujourd’hui qu’hier", peut être divisé en huit groupes
accentuels : "[Un homme] [ne doit jamais rougir] [d'avouer qu'il a tort ;] [car,] [en faisant cet
aveu,] [il prouve] [qu'il est plus sage aujourd'hui] [qu'hier]". L’intonation est montante à la fin
des sept premiers groupes (les groupes continuatifs) pour indiquer que la phrase continue, et
descendante à la fin du dernier groupe (le groupe final) pour indiquer que la phrase est
terminée.
Le mouvement principal de l’intonation (ascendant ou descendant) se place généralement sur

la fin de chaque groupe, ce qui rend l’intonation difficile à séparer de l’accentuation, qui se
place sur la dernière syllabe d’un groupe. Le sujet du syncrétisme de l’intonation et de
l’accentuation sera développé dans la section 1.3.4. Nous allons maintenant examiner plus
précisément les caractéristiques acoustiques qui permettent de marquer l’intonation.
1.3.3 Caractéristiques acoustiques de l’intonation
L’intonation a été définie de manière perceptive comme une variation de la courbe mélodique
et donc de la hauteur de la voix. La variable acoustique impliquée dans l’intonation est donc
la fréquence fondamentale. Les autres paramètres acoustiques, l’amplitude, la durée physique
et la composition spectrale, jouent également un rôle, toutefois mineur, au niveau de
l’intonation. Ainsi, par exemple, Grundstrom (1973), cité par Léon (2009 : 189), note qu’"un
accroissement brusque d’intensité et un raccourcissement de la voyelle finale d’un énoncé"
peuvent remplacer un changement au niveau de la mélodie dans la perception d’une question.
Selon d’autres études mentionnées par Léon (2009 : 189), un débit accéléré "tend à jouer le
29
rôle de marque de questionnement", la pause ou la chute d’intensité permettent de repérer

l’incise, une intonation montante, ondulée, produite à un tempo rapide, donne une impression
de joie. Enfin, selon Léon (2009 : 194) toujours "la courbe mélodique de la plainte est plane,
plus basse et à tempo ralenti". En conclusion, nous devons souligner que malgré le fait que
l’intonation est "une donnée complexe et une approche paramétrique" (Léon, 2009 : 176),
englobant l’ensemble des paramètres prosodiques, ce sont les variations de fréquence
fondamentale qui constituent le paramètre le plus important pour marquer l’intonation.
1.3.4 Syncrétisme entre accentuation et intonation
Dans la section 1.3.2, nous avons déjà mentionné que les variations de la fréquence
fondamentale, qui marque l’intonation, se produisent à la fin des unités prosodiques, et que
l’accent primaire tombe également sur la syllabe finale de ces mêmes unités (Léon et Léon,
2013 : 75). Ce phénomène est appelé "syncrétisme" et est caractéristique en français. Il est
donc très difficile de séparer ce qui relève de l’accentuation et ce qui relève de l’intonation en
français, puisque par ailleurs, comme nous l’avons vu précédemment (sections 1.2 et 1.3), la
fréquence fondamentale est impliquée dans la réalisation des deux phénomènes. Une
conséquence de cela est qu’on ne pas réellement envisager d’étudier séparément
l’accentuation de l’intonation.
1.4 QUANTITÉ, RYTHME, PAUSE ET DÉBIT
Figure 6 : Représentation des paramètres prosodiques. Source : Grosjean (1999)
Dans cette section, nous étudierons les notions de quantité, rythme, pause et débit (fig. 6).
30
Ainsi, la pause est aussi un paramètre prosodique qui est, selon Lacheret-Dujour et
Beaugendre (1999 : 48), "trop souvent ignoré" et seulement considéré comme une simple
"prise de souffle". D’après ces auteurs, la pause joue également "un rôle central dans la
production, la perception et l’organisation rythmique des messages oraux", c’est pourquoi cet
élément prosodique nous semble important à prendre en considération pour notre travail futur.
Une des meilleures illustrations de l’importance de la pause est, selon Léon (2009) son
utilisation dans les discours du Général de Gaulle. Il place des pauses (dont la durée est notée
ici entre parenthèses) "là où on ne les attend pas et inversement enchaîne là où on prévoit une
coupure ; [ces pauses] nombreuses et longues deviennent alors des symboles de pouvoir"
(Léon, 2009 : 141-142) :
Ex. "La France (0.98s) c’est donc (0.96s) des usines (0.05s) des mines des
chantiers des bureaux d’études […]"
Extrait de l’un des discours du Général de Gaulle en Lorraine. Exemple tiré de Léon (2009 : 142
Le débit constitue un autre élément prosodique qui, selon Léon (2009 : 143), désigne "la
quantité de syllabes prononcées par seconde dont la perception esthétique est appelée tempo,
terme largement utilisé dans la musique". Le débit est donc également très important dans
l’organisation rythmique ainsi que dans la notion de groupe accentuel. Ce petit rappel nous
rapproche d’une meilleure compréhension de la définition du rythme.
Léon (2009 : 158) définit le rythme comme "la proéminence accentuelle répétée". C’est ce
que Champagne-Muzar et Bourdages (1998 : 48) expliquent comme "un retour périodique" de
syllabes accentuées qui marquent souvent la fin d’un groupe accentuel. À ce propos,
Champagne-Muzar et Bourdages notent que la moyenne longueur d’un groupe accentuel est
de 2,5 syllabes. Ainsi, le français serait isochronique. L’isochronie, selon Martin (1996 : 176),
consiste "en l’application des syllabes [et de l’accent] à des intervalles de temps égaux".
Enfin, nous voulons également mentionner la quantité qui correspond surtout à la durée
perçue accrue des sons. On parle notamment très souvent de la durée perçue des voyelles
(Carton, 1974 : 104) : patte [pat] vs pâte [pɑːt] ou mettre [mεtʁ] vs maître [mε:tʁ].
Cette section nous a permis de nous approcher à la conclusion de ce chapitre.
31
1.5 CONCLUSION
Dans ce chapitre, nous avons donné un bref panorama de la prosodie, "qui joue le plus grand
rôle diversificateur pour créer mille usages différents dans nos prononciations" (Léon, 2009 :
240).
Nous avons notamment examiné de plus près les quatre unités prosodiques : la syllabe comme
l’élément basique de la prosodie, le groupe accentuel doté d’un accent primaire à la fin, le
groupe rythmique et le groupe de souffle. Dans ce chapitre, nous avons également défini les
différents paramètres prosodiques, tels que l’accentuation, l’intonation. En outre, nous avons
observé les différentes fonctions majeures de la prosodie du français. Avant de terminer avec
la pause, la quantité, le rythme, et le débit, nous avons étudié le syncrétisme entre
accentuation et intonation.
Nous devons souligner que nous nous sommes focalisés sur trois variables principales :
l’accentuation, l’intonation et la pause, car elles jouent un rôle majeur dans la structuration de
l’énoncé. Cet aspect est très important dans l’apprentissage du français et pose généralement
des problèmes aux apprenants.
Dans cette optique, nous allons maintenant examiner l’enseignement de la prosodie et les
outils qui sont utilisés ou pourront être didactisés pour cela dans le chapitre 2.
32
2. ENSEIGNEMENT DE LA PROSODIE À L’AIDE
D’OUTILS DE VISUALISATION
Si l’on se réfère à la définition du dictionnaire, la visualisation est "une action pour rendre
visible un phénomène qui ne l'est pas" (TLF informatisé – http://atilf.atilf.fr). Dans notre cas,
nous voudrions, en utilisant ce concept, rendre visible la prosodie, un phénomène qui ne l'est
pas, comme nous venons d’en prendre connaissance dans la section 1.1 précédente. Pour
réaliser techniquement cette visualisation de la prosodie, il faut inventer un système de
notation de la prosodie, à savoir les symboles correspondant à tel ou tel élément prosodique.
Un système de notation de la prosodie peut être comparé en quelque sorte à un alphabet d’une
langue, alphabet qui doit être conventionnel, accepté et compris au moins par une
communauté quelconque. De plus, le but de chaque alphabet est de transmettre les
informations (les éléments segmentaux) par écrit à quelqu'un qui le comprend à travers
l’espace et/ou le temps. Le système de notation de la prosodie a le même but sauf que les
informations transmises sont les éléments prosodiques (suprasegmentaux).
Ce système de notation nous aide ainsi à rendre concrète la prosodie ; il est de ce fait un outil
important principalement pour les études scientifiques de la prosodie, pour l’enseignement de
cette dernière aux apprenants d’une LE et pour le divertissement (les œuvres littéraires, les
bandes dessinées, la publicité, etc.).
Chacun de ces domaines d’utilisation vise des destinataires différents, tels que les chercheurs,
les apprenants d’une LE et les lecteurs d’œuvres littéraires, de bandes dessinées ou les gens
auxquels la publicité s’adresse.
Cependant, les attentes (voire les besoins) et les connaissances dans le domaine de la prosodie
d’un chercheur, par exemple, sont incomparablement plus élevées que celles d’un apprenant
parce que le premier a nécessairement besoin d’informations plus détaillées et précises, qui ne
serviraient à rien pour un lecteur de bandes dessinées. On doit par conséquent disposer de
plusieurs systèmes de notation de la prosodie adaptés aux différents destinataires dont nous
avons déjà fait mention auparavant dans la présente section.
L’objectif du présent chapitre est de présenter l’expérience déjà accumulée dans le domaine
de notation de la prosodie.
33
ENSEIGNEMENT DE LA PROSODIE À L’AIDE D’OUTILS DE VISUALISATION
À cet effet, bien que le titre du présent chapitre, "Enseignement de la prosodie à l’aide d’outils
de visualisation", nous impose de ne nous concentrer que sur les outils de visualisation dédiés
à l’enseignement, nous suggérons de commencer par la présentation des outils proposés pour
d’autres domaines, tels que la recherche et le divertissement. Ce choix est justifiable par le fait
que les systèmes de notation développés pour ces domaines peuvent potentiellement avoir des
notations de la prosodie transmissibles ou être adaptables à l’enseignement de cette dernière.
Les outils de visualisation à destination des apprenants seront abordés ultérieurement. Nous
terminerons cette section en évaluant les différents outils présentés.
2.1 OUTILS DE VISUALISATION DE LA PROSODIE

PROPOSÉS PAR LES CHERCHEURS
Les outils de visualisation de la prosodie que nous allons examiner dans cette section
présentent souvent un éventail de notations diverses qui permettent aux chercheurs d’annoter
de manière extrêmement détaillée des corpus faits dans des langues différentes. Par ailleurs,
ces systèmes de notation vont souvent au-delà de la notation de la prosodie, en annotant
également d’autres phénomènes liés à la transcription d’un discours oral (tels que le
chevauchement, la répétition, l’hésitation, etc.). Cependant, nous nous contenterons d’exposer
seulement la partie de ces systèmes de notation qui est en relation avec le sujet de notre
mémoire, à savoir la partie prosodique.
Nous proposons d’étudier les notations du niveau suprasegmental en les classifiant selon leur
mécanisme de visualisation.
2.1.1 Par des symboles intégrés au texte
Ces symboles permettent de "restituer diverses impressions concernant la voix" en étant

conventionnels ou spécifiques à un chercheur (Guaïtella, 2000 : 102). Le signe "#" est par
exemple très souvent utilisé pour signaler la pause (Léon, 2009 : 139,141,142 ; Guaïtella,
2000 : 102) ; un chiffre entre parenthèses "(3)" (Mondada, 2008 : 104-105) ou entre barres
obliques "/3/" (Léon, 2009 : 140) renseigne sur la durée de cette pause. La quantité d’un son
est conventionnellement définie par le signe "ː" (fig. 7-9). L’intonation est fréquemment
représentée par des barres obliques (fig. 8 et 9) : "/" est l’intonation montante et "\"
l’intonation descendante.
34
Figure 7 : Notation de la prosodie en API.

Source : http://www.langsci.ucl.ac.uk/ipa/supras.html, consulté le 20 mai 2014
En outre, il existe d’autres manières de marquer les éléments prosodiques qui sont répertoriés
dans des systèmes de notation plus minutieux élaborés pour la transcription des
enregistrements sonores (fig. 8 et 9).
Figure 8 : Convention de transcription Figure 9 : Convention de transcription

selon Cambra (2003 :289) selon Mondada (2008 : 104-105)
Ces systèmes de notation proposés pour la transcription des enregistrements sonores

permettent de visualiser l’intensité, par exemple, par la mise en caractères majuscules, mais,
selon Guaïtella (2000 : 102), on peut le faire également par l'application de caractères gras.
2.1.2 Par niveaux
Les 10 intonations de base de Delattre (1966 : 4) exposées auparavant dans le chapitre 1.3.2
sont un bon exemple de ce mécanisme de visualisation. Delattre divise le spectre de la
fréquence fondamentale en 4 niveaux censés représenter tous les types d’intonations. Ainsi,
selon Delattre (1966 : 4), l’exclamation est visualisée par une courbe intonative descendant du
niveau 4 au niveau 1, ce qui désigne une descente très brusque (fig. 10).
35
– Allons donc ! Exclamation
Figure 10 : Exemple de la visualisation de la prosodie par niveaux. Source : Delattre (1966 : 4)
2.1.3 Par ordinateur
Le Prosogram de Piet Mertens a été conçu pour analyser la prosodie par des chercheurs. Ce
système informatique permet, selon l’information présentée sur son site officiel 3, de transcrire
la prosodie "en utilisant la stylisation du contour de l’intensité basée sur le modèle de la
perception tonale et sur la segmentation automatique ou basée sur l’annotation".
La figure 11 désigne un exemple de la visualisation de la prosodie faite par Prosogram qui

contient les éléments suivants :
Le plan horizontal présente le déroulement de l’enregistrement dans le temps, le plan

vertical – l’intensité perçue, divisée en demi-tons (ST sur la figure 11) (1 ST correspond à 1
Hz). Les lignes pointillées verticales indiquent les frontières de la segmentation en sons.
La ligne tout en bas est la transcription de l’enregistrement, le ruban plus haut est la
traduction de cette transcription en API (Alphabet phonétique international). Enfin, plus haut
encore, nous pouvons voir la zone d’affichage qui permet de visualiser l’intensité (la ligne
verte), la fréquence fondamentale (la ligne bleue), les syllabes accentuées (tracés rouges) et
l’intonation sur ces dernières (les traits noirs).
Figure 11 : Prosogram, la visualisation de la prosodie.

Source : http://bach.arts.kuleuven.be/pmertens/prosogram/
Du fait que cet outil est destiné aux experts en prosodie, nous préférons ne pas entrer plus
dans les détails.
3
http://bach.arts.kuleuven.be/pmertens/prosogram/ - le site officiel du Prosogram
36
2.1.4 Par l’iconicité
Cette possibilité de rendre visible la prosodie consiste en une manipulation du texte

orthographique en fonction de l’analyse de l’enregistrement de ce texte lu oralement. Cela
veut dire que, sans utilisation des symboles, on transpose cette analyse directement sur le
texte en le faisant suivre, par exemple, une courbe intonative dont les travaux de Bolinger
(1998) (fig. 12) sont une illustration parfaite.
Figure 12 : Exemple de l’approche iconique selon Bolinger (1998 : 52)
Par ailleurs, Bolinger (1998) a utilisé la visualisation par l’iconicité pour illustrer de la
manière la plus intuitive les résultats de sa recherche sur l’intonation de l’anglais américain.
Cependant, le potentiel de l’iconicité ne s’arrête pas avec la visualisation de l’intonation, ce

que nous constaterons en présentant la section 2.2 suivante.
2.2 OUTIL DE VISUALISATION DE LA PROSODIE

DESTINÉ AU DIVERTISSEMENT (LES ŒUVRES
LITTÉRAIRES, LES BANDES DESSINÉES, LA
PUBLICITÉ, ETC.)
L’outil de visualisation de la prosodie destiné au divertissement est l’iconicité dont nous

avons déjà parlé dans la section précédente (2.1.4) dans le cadre de la description des outils
destinés à la recherche. Cependant, nous avons décidé de présenter séparément l’iconicité
utilisée dans le domaine du divertissement parce que son objectif d’application est distinct de
celui de l’outil proposé pour la science : le dernier consiste en une visualisation de la prosodie
strictement fidèle aux données scientifiques ou aux représentations acceptées dans le milieu
scientifique de tel ou tel élément prosodique tandis que, dans le divertissement, l’objectif de
l’outil est "de créer une sorte de paysage sonore" (Léon, 1993 : 39), de rendre visible la
prosodie, de la manière la plus intuitivement compréhensible pour un large public n’ayant pas
souvent de connaissances sur la prosodie. N’étant pas liée aux contraintes scientifiques,
l’iconicité pour le divertissement dispose d’une liberté d’utilisation assez large, mais qui doit
néanmoins être conforme à la logique de ses destinataires.
37
Ainsi, le côté intuitif de cet outil est largement utilisé dans les bandes dessinées, les œuvres
littéraires, la publicité, etc. Outre la visualisation de l’intonation présentée dans la section
précédente (2.1.4), l’iconicité peut rendre visible également la quantité en élargissant les
lettres et en les agrandissant comme le montrent les figures suivantes de 13 à 15.
Figure 13 : Exemple de l’iconicité dans les œuvres Figure 14 : Exemple de la publicité de votation (22
littéraires. Source : Apollinaire (1956) : "La colombe septembre 2013, Suisse) Source : GSsA (2013 : 3)
poignardée et le jet d'eau" (écrit sur le front pendant
la Première Guerre mondiale)
Figure 15 : Exemple de l’iconicité dans les bandes dessinées. Source : Uderzo et Goscinny (1970 :31)
Enfin, outre les deux objectifs d’utilisation de l’iconicité mentionnés ci-dessus, il en existe
encore un dont nous parlerons à la fin de la section suivante (2.3) qui nous présentera les
outils de visualisation de la prosodie destinés à l’apprentissage des LEs.
38
2.3 OUTILS DE VISUALISATION DE LA PROSODIE

DESTINÉS À L’APPRENTISSAGE DES LANGUES
ÉTRANGÈRES
Dans la présente section, nous allons observer les outils de visualisation de la prosodie
destinés à l’apprentissage des langues étrangères. Il faut toutefois remarquer que cette étude
n’est pas exhaustive, mais qu’elle vise à examiner les outils de visualisation principaux
représentant en gros le domaine en question, ce qui nous permettra au demeurant de mieux
comprendre l’état actuel de l’enseignement de la prosodie.
Certains outils que nous allons exposer ici sont les didactisations de l’héritage qu’ils ont reçu
des outils vus auparavant dans le présent chapitre (cf. section 2.1 et 2.2), dont un étudié par
Hinkelman et Halvorsen (1998) : nous verrons au début de cette section que ce dernier
représente plutôt une approche classique de la visualisation de la prosodie à des fins
pédagogiques. Un autre outil conceptualisé par Rude (2002, 2012) conclura cette section. Il
s’agit, à notre avis, de l’outil visualisant le mieux le niveau suprasegmental pour
l’enseignement de ce dernier.
Entre ces deux descriptions des outils de visualisation, nous verrons si l’ère numérique nous
amène une solution efficace pour la pratique pédagogique de l’enseignement de la prosodie
par le biais de la visualisation informatisée de cette dernière. Cette revue débutera par un bref
tour d’horizon du rôle de l’informatique dans l’enseignement des LEs.
En outre, nous devons souligner que, du fait que les outils que nous allons présenter ci-
dessous sont destinés à des apprenants, ces outils devront d’une part fournir des connaissances
adéquates du point de vue scientifique et devront d’autre part être appropriés à l’enseignement.
En plus des outils de visualisation de la prosodie dédiés à la recherche, nous proposons

d’observer ceux destinés aux apprenants des LEs en les classifiant par leur mécanisme de
visualisation, soit par des symboles intégrés au texte, par l’ordinateur et par l’iconicité.
2.3.1 Par des symboles intégrés au texte
Comme nous l’avons déjà mentionné dans la section 2.1 sur les outils pour la recherche,
l’intonation est fréquemment représentée par des barres obliques : "/" est l’intonation
39
montante et "\" l’intonation descendante. Assez compréhensibles, ces symboles restent

également suffisamment techniques pour les intégrer dans l’enseignement de la prosodie.
C’est pourquoi, par exemple, chez Hinkelman et Halvorsen (1998 : 91), on trouve la
didactisation de ces barres obliques sous forme de flèches (fig. 16).
Figure 16 : Visualisation de l’intonation avec des

flèches. Source : Hinkelman et Halvorsen (1998 : 91) Figure 17 : Visualisation de l’accentuation. Source :
Hinkelman et Halvorsen (1998 : 91)
Par ailleurs, Hinkelman et Halvorsen (1998 : 91) ne proposent pas seulement de mettre en
caractères gras, comme cela était proposé par Guaïtella dans la section 2.1 sur les outils pour
la recherche, mais également d'entourer les syllabes accentuées (fig. 17).
2.3.2 Par l’ordinateur
Dans le monde moderne, on utilise les nouvelles technologies de plus en plus souvent dans un
grand nombre de domaines de notre vie. L’enseignement des langues étrangères (LEs) en
profite également beaucoup. Dans les années 1960 à 1980, la méthode audio-orale (MAO)
aux États-Unis, qui utilisait des enregistrements comme supports pédagogiques, et la méthode
structuro-globale audio-visuelle (SGAV) en Europe, qui utilisait également des vidéos, étaient
en plein essor. Cependant, comme le souligne Germain (2008 ; 146-147), la MAO n’a pas eu
de "transfert hors de la salle de classe de ce qui avait été acquis en classe". De plus, selon cet
auteur toujours, son efficacité s’est limitée uniquement au niveau débutant, car elle devenait
"répétitive, ennuyeuse et inefficace" aux niveaux supérieurs. En ce qui concerne la méthode
SGAV, selon Germain (2008 : 146-147) toujours, ses adeptes ont utilisé le matériel audio-
visuel "dans environ un tiers des leçons". Il relève que cette méthode laisse "peu de place à
des activités interactives entre élèves en sous-groupes" et s’adresse à "la classe prise comme
un tout" et non pas à l’individu. Par la suite, en raison de ces problèmes notamment, la MAO
et la SGAV ont laissé place à l’Approche communicative (1975-2000), approche visant
l’"authenticité" des documents utilisés (Germain, 2008 : 212) et qui a été conçue pour pallier
les imperfections de ses prédécesseurs. L’apparition des ordinateurs et, surtout, de l’internet
40
dans le milieu pédagogique a fait passer l’enseignement de LEs à une étape inédite de son
développement.
Les présentations faites sur ordinateur, exercices informatisés, cours en ligne (p. ex. :
MOOCs4), des outils tels que Skype et enfin les nombreux sites internet sont censés offrir des
cours individualisés selon les besoins concrets d’un apprenant et/ou des cours individuels
(l’apprenant en tête-à-tête avec le professeur) et rendre la représentation des informations plus
agréables, plus attractives et plus compréhensibles, ce qui simplifie la tâche de l’enseignant en
faisant passer plus d’informations à un nombre de gens plus important avec des résultats plus
performants pour le même laps de temps qu’auparavant. Rivens Mompean (2014), en
présentant le livre de Grosbois (2012), Didactique des langues et technologies : de l'EAO aux
réseaux sociaux, a même été fasciné de découvrir "à quel rythme les outils [informatiques]
ont évolué, et de voir l'énorme potentiel qui s'offre aux enseignants et apprenants".
Il ne faut toutefois pas "se laisser éblouir par des technologies évolutives qui ne peuvent pas
nécessairement être qualifiées d'innovantes" comme le témoigne Grosbois (2012), analysé par
Rivens Mompean (2014), et l’évaluation de ces nouveautés technologiques. Au contraire, il
est impératif de préconiser de "penser" l’utilisation des nouvelles technologies qui doivent
être introduites avec beaucoup de prudence dans le processus de l’enseignement des langues
étrangères et sélectionnées adéquatement au contexte précis par leur enjeu pédagogique et non
pas "par effet de mode ou d'aubaine" (Rivens Mompean, 2014).
Pour justifier cette approche réflexive envers les nouvelles technologies, prenons l’exemple
du progrès numérique dans l’enseignement de la phonétique, du domaine linguistique qui, par
ailleurs, seul nous intéresse dans le cadre du présent travail.
En effet, le progrès technologique a du mal à pénétrer dans ce domaine. Billières (2008 : 34),
par exemple, observe ainsi qu’à partir des années 1990 les programmes de l’apprentissage des
LEs introduisaient la possibilité de travailler la phonétique et/ou l’intonation, mais différents
supports graphiques (tels que des courbes intonatives, des oscillogrammes (fig. 18 et 19) et
des spectrogrammes) destinés à aider l’apprenant sont en réalité difficiles à interpréter sans les
4
MOOCs (massive open online courses) – "sont des cours en général limités dans le temps portant sur un thème
spécifique. Ils incluent un ensemble cohérent de ressources pédagogiques, de modalités d’interactions,
d’exercices et d’examens conduisant éventuellement à une certification. Ils impliquent une équipe pédagogique,
chargée de l’encadrement des étudiants et du bon déroulement des cours." (Cisel et Bruillard, 2012). Les trois
plates-formes les plus connues qui hébergent les MOOCs sont les suivants : Coursera, Udacity, et edX.
41
connaissances préalables, d’où le scepticisme témoigné par Billières (2008 : 34) face à leur
efficacité réelle ainsi qu’à leur fiabilité.
Figure 18 : Deux affichages des oscillogrammes proposés par "Tell me more" (1998).
Source : Cazade (1999 : 7) ; Affichage supérieur = modèle, affichage inférieur = production de l'apprenant.
Figure 19 : Deux affichages des oscillogrammes proposés par "Tell me more" (1998).
Source : Cazade (1999 : 7) ; Affichage supérieur = modèle, affichage inférieur = production de l'apprenant.
Ces supports graphiques "sont en réalité implantés par des ingénieurs ou informaticiens
étrangers à l'enseignement des LEs qui répugnent à renseigner les didacticiens leur demandant
des explicitations" (Billières, 2008 : 34). Ce "dialogue restreint entre chercheurs dans le
domaine de la parole et enseignants de langue" (Germain et Martin, 2000 : 60) peut nous
inciter à nous poser la question suivante, à l’instar de Cazade (1999 : 3) : est-ce que ce type
d’informations (telles que des courbes intonatives, des oscillogrammes et des spectrogrammes)
est réellement utile ou ne sert-il qu’à "faire joli" ou sérieux, grâce à son aspect scientifique ?
En conclusion, on peut alléguer les mots de Billières (2008 : 34) qui parachève ses réflexions
en disant que les espérances placées dans "les possibilités offertes par le multimédia" restent à
l’heure actuelle (soit en 2008) les mêmes que dans les années 1960. Et la situation n’a pas
évolué depuis lors. Face à ce constat peu engageant, nous nous proposons de considérer en
appliquant une approche réflexive de Grosbois (2012), dans les sections suivantes (2.3.2.1 –
42
2.3.2.5), les cinq principaux outils informatiques qui ont été – ou sont – utilisés pour
l’enseignement de la prosodie des LEs selon le plan suivant : la description (y compris la
Langue(e) visée(s)), le fonctionnement, les paramètres prosodiques visualisés, l’utilisation, les
rapports enseignant-apprenant et les informations supplémentaires (la licence, la popularité,
les remarques).
2.3.2.1 L'Intonation Image Builder (IIB) (2010)
a) Description
L'Intonation Image Builder (IIB) de RetSam Zhang est un outil en ligne de l’apprentissage de
la prosodie.
La Langue visée par l’outil est l’anglais.
b) Paramètres prosodiques visualisés
Selon les explications données sur son site officiel5, l'Intonation Image Builder (IIB) permet
de visualiser l’intonation. Comme l’illustre la Figure 20, l’intonation montante est marquée
par des carrés orange (un carré représente une syllabe) et l’intensité est indiquée par la taille
des carrés.
Figure 20 : Intonation Image Builder, la transcription de la prosodie.

Source : http://retsamchang.brinkster.net/iib.asp, consulté le 1er septembre 2014
c) Fonctionnement et utilisation
L’utilisation de ce programme demande à l’apprenant d’étudier la visualisation, ainsi que sa

correspondance avec l’enregistrement sonore, que l’apprenant est également invité à écouter.
Ensuite, l’apprenant peut essayer d’imiter la prosodie du modèle audio.
5
http://retsamchang.brinkster.net/iib.asp - le site officiel de Intonation Image Builder
43
De plus, l'Intonation Image Builder permet de créer notre propre visualisation d’un
enregistrement en ainsi d’ajouter notre exercice dans la liste des autres exercices disponibles
sur le site du programme.
d) Informations supplémentaires
Licence. Ce programme est ouvert à tous est complètement gratuit.
Popularité. Nous avons constaté que l'Intonation Image Builder n’est pas un programme
populaire, car, premièrement, le site qui héberge le programme n’est parfois pas disponible.
Deuxièmement, ce site a été mis à jour pour la dernière fois en août 2010. Troisièmement,
certaines pages, telles que Feedback et User’s Creations, ne sont pas fonctionnelles.
2.3.2.2 BetterAccent Tutor (2000)
a) Description
Dans la logique de Cazade, les concepteurs du BetterAccent Tutor (logiciel de la visualisation

de la prosodie) condamnent l’utilisation des spectrogrammes et des oscillogrammes à des fins
pédagogiques en les considérant comme difficilement compréhensibles et interprétables pour
les apprenants. Komissarchik et Komissarchik (2000) proposent donc un autre mode de
visualisation de la prosodie réalisé dans BetterAccent Tutor, "le premier logiciel
commercialisé destiné à l’entraînement de la prononciation qui fournit aux apprenants une
visualisation compréhensible et complète des trois éléments prosodiques : l’accentuation,
l’intonation et le rythme".
Grâce aux algorithmes de programme, ce dernier visualise la prosodie de la production de

l’apprenant indépendamment de ses particularités (sexe, âge, langue première, etc.). Par
ailleurs, ce programme dispose d’une haute tolérance aux bruits (Komissarchik et
Komissarchik, 2000).
Le programme propose de s’entraîner à la prosodie à travers plusieurs types d’exercices :

l’affirmation, la question (en "Wh", générales, répétitives, alternatives, etc.), l’ordre,
l’exclamation, l’adresse à quelqu’un, l’énumération, la phrase longue, etc.
Langue(e) visée(s). Cet outil n’est pas fonctionnel pour le français, sa langue visée est
l’anglais américain LE.
44
Base scientifique. Cet outil est basé sur les connaissances de la science de la prosodie de
l’anglais.
b) Fonctionnement
Dans ce programme la visualisation est rendue possible grâce à la délimitation précise des
voyelles, consonnes et ensuite des syllabes par l’outil. Comme nous l’avons déjà dit
précédemment (cf. section 1.2.2.3), la seule fréquence qui est prise en compte par notre oreille
est la fréquence fondamentale de la voyelle. La délimitation de la voyelle est donc nécessaire
pour mesurer correctement cette fréquence et, par ailleurs, l’amplitude (rappel : nous la
percevons comme l’intensité selon Grosjean (1999)). Par la suite, cela permet au programme
de visualiser relativement l’intonation et l’accentuation. Une fois les voyelles trouvées, il
devient facile de marquer les frontières des syllabes, ce qui permet de rendre visible la durée
des syllabes.
c) Paramètres prosodiques visualisés
Ce programme permet donc de visualiser trois éléments prosodiques, l’intonation,

l’accentuation et le rythme6 à travers deux modes de visualisation principaux, Intonation et
Intensité/Rythme. Dans les deux cas, la fenêtre est divisée en deux parties : la partie haute est
réservée à la représentation visuelle du locuteur natif et la partie basse à celle de l’apprenant
(fig. 21 et 22). Il y a néanmoins le troisième mode, qui explique ce qu’il faut viser à acquérir
(fig. 23).
L'intonation est visualisée comme une

courbe de la fréquence fondamentale qui
porte uniquement sur les voyelles et les
semi-voyelles.
Figure 21 : BetterAccent Tutor, la visualisation de

l’intonation
6
Komissarchik et Komissarchik (2000) utilisent le terme rythme pour indiquer en réalité la durée
45
L’intensité et le rythme sont visualisés

comme des marches (step), où chaque
marche représente une syllabe. La hauteur
des marches indique la force de la voix
(l’intensité) sur la voyelle de la syllabe
correspondante.
Figure 22 : BetterAccent Tutor, la visualisation de

l’intensité et la durée
Le troisième mode de visualisation permet

d’expliquer à l’apprenant ce qu’il faut viser.
Figure 23 : BetterAccent Tutor, les

recommandations à suivre. Source de figures 22-24 :
http://www.betteraccent.com/hesaidwhat.htm,
consulté le 15 mai 2014.
d) Utilisation
Le système fonctionne de la manière suivante : tout d’abord, il propose à l’apprenant une liste
d’exercices. Une fois le choix effectué, l’apprenant écoute l’enregistrement d’un locuteur natif,
et étudie son intonation, son accentuation et sa durée en regardant la visualisation de ces
derniers. Ensuite, il prononce lui-même la même suite de mots en s’enregistrant.
L’enregistrement et la visualisation de sa production, pour la comparer avec celle de l’original,
ainsi que la suggestion d’améliorations possibles sont immédiatement proposés.
Lors de la première ouverture, le programme propose un chapitre d’introduction pour se

familiariser avec le programme.
e) Rapports enseignant-apprenant
BetterAccent Tutor tente de suppléer l’enseignant en repérant, analysant, donnant la réponse

audio-visuelle à ce que l’apprenant produit et en proposant les explications de ce qu’il faut
viser.
46
En effet, le logiciel permet également aux apprenants de former leurs propres exercices et il
les encourage à le faire. Une fois ces exercices créés, ils sont accessibles dans la liste
d’exercices disponibles.
f) Informations supplémentaires
Licence
Sur son site, BetterAccent Tutor est vendu pour $124.95, mais une version "démo" peut être
téléchargée toujours à partir de son site officiel après avoir rempli un formulaire en ligne
(nom, prénom, occupation, organisation, e-mail, etc.).
Popularité
Nous n’avons trouvé aucune indication directe sur le sujet de sa popularité parmi ses
utilisateurs. Cependant, les indices indirects nous signalent que, en tout cas actuellement, ce
système n’est pas beaucoup apprécié par les apprenants de l’anglais. En effet, le site officiel
de l’outil a été mis à jour la dernière fois le 11 janvier 20137. De plus, sa version "démo" et,
apparemment, sa version complète ne sont disponibles que pour les systèmes d'exploitation
relativement vieux comme Windows 95, 98, NT, 2000, 2003 et XP.
Remarques
Il faut souligner que Komissarchik et Komissarchik (2000) utilisent le terme rythme pour
indiquer en réalité la durée, ce qui est déductible de la phrase suivante de paragraphe 5.2 de
leur article :
"Intensity & Rhythm are visualized as steps, where each step is a syllable, the length
of a step is the duration of a corresponding syllable, and the height of a step is the
energy of a corresponding syllable’s vowel."
(Komissarchik et Komissarchik, 2000)
D'ailleurs, selon le tableau de Grosjean (1999), il serait plus adéquat de mentionner les
éléments prosodiques du même niveau, l’intensité et la durée, qui sont des variables
psychophysiques tandis que le rythme est psychophonétique.
7
Les données mentionnées sont valables par rapport à la date d’élaboration du présent travail, soit le 26 août
2014.
47
En outre, selon les exemples présentés dans l’article de Komissarchik et Komissarchik (2000),
l’accentuation en anglais représente la mise en relief de la syllabe accentuée qui se manifeste
parallèlement par l’accroissement significatif de la durée, intensité et par le changement
remarquable de la hauteur de cette dernière par rapport aux syllabes inaccentuées.
En conclusion, Komissarchik et Komissarchik (2000) remarquent toutefois qu’il faut encore

faire beaucoup de choses pour remplacer vraiment l’enseignant surtout au niveau de la
correction et des réponses adéquates au travail de l’apprenant.
2.3.2.3 WinPitch LTL (2005)
a) Description
WinPitch LTL (Language Teaching and Learning) est un analyseur, un visualiseur et un

synthétiseur de parole en temps réel visant à aider l’apprenant débutant d’une LE dans
l’acquisition d’une discrimination auditive essentielle et ainsi d’une bonne prosodie, grâce à
ses différentes fonctions de visualisation que nous allons étudier plus tard.
De plus, nous voulons juste signaler qu’il existe une autre version de ce programme, WinPitch
Pro (W8), qui est totalement dédiée à la recherche sur la prosodie en particulier et sur la
phonétique en général. Ainsi, nous supposons que le WinPitch LTL est la version didactisée
de WinPitch Pro (W8).
Langue(e) visée(s). Cet outil est conçu pour les apprenants de n’importe quelle langue
étrangère en privilégiant, par ailleurs, le français LE.
Base scientifique. WinPitch LTL est réalisé par le biais de la collaboration entre un
phonéticien-informaticien-chercheur et une phonéticienne-didacticienne-enseignante.
WinPitch LTL est par conséquent basé sur des recherches scientifiques et sur la pratique
pédagogique et, de ce fait, il devrait éviter l’un des problèmes que nous avons mentionnés
précédemment (le début de la section 2.3.2), à savoir le fait qu’il y a généralement un manque
d’interaction entre les concepteurs informatiques et les utilisateurs, soit les enseignants.
48
Selon les explications de Germain et Martin (2000 : 9/67), WinPitch LTL permet de rendre
visible la courbe mélodique 8 (ligne blanche sur la figure 24), l’intensité (ligne verte) et
l’oscillogramme du signal (tracé jaune).
Figure 24 : Visualisation du signal de parole où la ligne blanche est la hauteur, la ligne verte – l’intensité et en
jaune – l’oscillogramme. Source : http://www.winpitch.com/wpltlvisualiseur.htm, consulté le 10 mai 2014
c) Fonctionnement et Utilisation
Lors de la première utilisation de WinPitch LTL aucun exercice n’est proposé par ce
programme. Cependant, cet outil multimédia dispose de multiples fonctions d’apprentissage.
Tout d’abord, WinPitch LTL permet d’enregistrer un discours oral d’une durée maximale de
12 minutes. Le programme peut également travailler avec n’importe quel autre enregistrement
fait par un autre outil. WinPitch LTL nous laisse donc construire notre propre corpus
d’enregistrements qui nous serviront de modèle à imiter.
Si nous avons remarqué un bruit nuisible ou une pause trop longue qui intervient dans
l’enregistrement, nous pouvons le couper grâce à la fonction Édition proposée par le logiciel.
Ainsi, nous pouvons modifier les parties de l’enregistrement en fonction de notre objectif
pédagogique.
8
Germain et Martin (2000 : 9/67) utilisent le terme courbe mélodique qui signifie l’intonation avec celui
d’intensité, ce qui contredit le tableau de Grosjean (1999) car ce dernier est une variable psychophysique et la
première – psychophonétique. Dans ce cas, il convient d’utiliser la hauteur au lieu de l’intonation.
49
Une fois l’enregistrement sonore préparé, le programme analyse cette production et visualise
ses éléments prosodiques. De plus, comme nous le voyons sur la figure 24, au-dessus de la
courbe intonative se trouve la transcription de l’enregistrement que WinPitch LTL nous
permet également d’écrire afin de pouvoir mieux imaginer à quel moment du son correspond,
par exemple, un certain mouvement intonatif.
Ensuite, l’apprenant est invité à étudier comment ces visualisations coïncident avec le modèle
sonore, à écouter ce dernier et à essayer de l’imiter.
En outre, pour amplifier l’effet pédagogique de l’outil, l’apprenant est encouragé à enregistrer
son imitation de l’original. Dans ce cas, la fonction Étudiant du système entre en scène en
proposant de mettre les visualisations du modèle (courbe bleue sur la figure 25) et de la
production de l’apprenant (courbe blanche) l’une près de l’autre pour que ce dernier puisse
mieux comparer les deux et en tirer les conclusions pour son entraînement futur.
Figure 25 : Mode Étudiant de WinPitch LTL.

Source : http://www.winpitch.com/wpltlcomparer.htm, consulté le 12 mai 2014
Outre la possibilité de mettre les visualisations du modèle et de la production de l’apprenant

l’une près de l’autre, l’outil prévoit une possibilité de modifier la courbe mélodique de
l’apprenant (tracé blanc sur la figure 26) en la reprochant (tracés jaunes) de celle du modèle
de la manière que l’apprenant "devient son propre modèle" (Germain et Martin, 2000 : 12/69),
ce qui est possible grâce à la fonction Synthèse. L’apprenant peut ainsi écouter sa production
"idéalisée" pour comprendre ce qu’il faut changer dans sa voix pour acquérir une bonne
prosodie, soit celle du modèle.
50
Figure 26 : Mode synthèse de WinPitch LTL.

Source : http://www.winpitch.com/wpltlsynthese.htm, consulté le 12 mai 2014
d) Rapports enseignant-apprenant
En effet, WinPitch LTL n’impose pas un travail autonome pour l’apprenant ; au contraire, cet
outil favorise une approche pédagogique interactive entre l’apprenant et l’enseignant. Étant le
détenteur des savoirs, ce dernier peut les transmettre à l’apprenant de la manière la plus
efficace en utilisant les fonctionnalités de WinPitch LTL que nous venons de présenter, ce qui
offre également la possibilité de l’apprentissage "réfléchi" et individualisé selon la langue
enseignée ou les besoins et particularités de l’apprenant (Germain et Martin, 2000 : 17/73).
Enfin, l’outil encourage la communication entre l’enseignant et l’apprenant en permettant

d’annoter les productions en donnant un côté interactif, ce qui permet le passage à un
apprentissage "en présentiel au laboratoire ou à distance, en contexte interactif synchrone ou
asynchrone" (le site officiel, consulté le 28 août 2014).
e) Informations supplémentaires
Licence
Ce logiciel est téléchargeable depuis son site officiel. WinPitch LTL fonctionne gratuitement
sans inscription pendant les 30 premiers jours d’utilisation en demandant ensuite un code
d’enregistrement que nous pouvons obtenir en contactant le concepteur de ce logiciel.
51
Popularité
Nous n’avons trouvé aucune indication directe sur le sujet de la popularité de ce système
parmi ses utilisateurs. Cependant, nous pouvons constater indirectement que WinPitch LTL
était en tout cas assez bien évalué en 2000, car les articles de Léon et Martin (2000) et de
Germain et Martin (2000) recommandant cet outil. De plus, le nombre des visiteurs de son
site officiel dépasse 315009 à partir de sa date de création (en 1995), ce qui indique que cet
outil est relativement populaire.
L’outil n’est néanmoins fonctionnel que sur des systèmes d'exploitation assez vieux comme
Windows 2000 et Windows XP et sa dernière version (1.0) date du 31 décembre 2005, d’où
notre conclusion que WinPitch LTL n’est plus autant estimé qu’auparavant.
Remarques
Notre revue de WinPitch LTL ne couvre pas toutes ses fonctionnalités, mais ses points
essentiels.
2.3.2.4 Tell me more v.10 (2009)
a) Description
Créé en 1987, Tell me more d’Auralog est aujourd’hui un logiciel d'apprentissage de neuf LEs
qui permet de pratiquer toutes les compétences de ces dernières : l’expression et la
compréhension écrites et orales, de prendre part à une conversation ainsi que les notions de
vocabulaire, de grammaire et socioculturelle à travers divers exercices et activités allant du
niveau débutant au niveau avancé et ayant pour l’objectif final de communiquer dans la LE
étudiée. Tell me more organise le contenu de l’apprentissage de la manière qu’il nous reste
seulement à suivre ses instructions.
Cet outil peut être installé sur ordinateur, mais on peut également l’utiliser par le biais
d’internet, avec ou sans la conversation avec un enseignant natif. Aujourd’hui, la version en
ligne est également accessible pour iPad et Androïd en faisant l’apprentissage des LEs plus
mobiles. Cependant, dans ce dernier cas, la reconnaissance vocale et les tests ne sont pas
disponibles.
9
Les données mentionnées sont valables par rapport à la date d’élaboration du présent travail, soit
le 26 août 2014.
52
Langue(e) visée(s). Tell me more était conçu pour apprendre le français, l’anglais, l’allemand,
l’espagnol, l’italien, le néerlandais, le chinois, le japonais et l’arabe LEs.
Base scientifique. Tell me more est basé sur une approche communicative et privilégie donc
l’aspect fonctionnel de la langue (Source : site officiel de l’outil).
Tell me more offre uniquement la possibilité de visualiser l’intonation sous la forme d’une
courbe bleue du modèle (en haut sur la figure 27) et de l’apprenant (en bas). Le programme
rend également visible le signal sous la forme d’oscillogrammes.
Figure 27 : Tell me more – la visualisation de quelques paramètres prosodiques.

Source : Tell me more V10 Retail Tutorial (2009 : 3)
Pour atteindre son but initial, c’est-à-dire apprendre à communiquer dans la LE étudiée, Tell
me more propose notamment la technologie de reconnaissance de la parole, bien développée
dans le logiciel depuis sa création, sur laquelle se basent la plupart de ses exercices et le
feedback, telle que la prononciation de phonèmes/de sons, de mots et de phrases, la remise
des mots dans l’ordre à l’oral, l’association d'une image et d'un mot à l’oral, le doublage de
séries TV, le dialogue interactif, la conversation virtuelle, etc.
Selon le niveau de difficulté choisi (easy, normal, difficult, very difficult), la sensibilité de la
reconnaissance de la parole change, ce qui influence également le niveau d’exigence du
programme par rapport à l’apprenant. En effet, chaque production de l’apprenant est évaluée
entre 1 et 7 points : par exemple, pour réussir un exercice dont la difficulté est easy,
l’apprenant doit avoir au minimum 3 points. C’est ce que nous voyons sur la figure 28 où
53
l’apprenant a fait cinq essais de la prononciation d’une phrase dont seulement les deux
derniers sont réussis.
Figure 28 : Tell me more – le traitement de l’erreur

Figure 29 : Tell me more – visualisation de la
formation des sons dans la cavité buccale. (Source :
Tell me more V10 Retail Tutorial, 2009 : 4)
Par ailleurs, dans la colonne de droite de la figure 28, nous observons également que le
programme suggère de travailler encore une fois les mots mal prononcés.
Cet exercice de prononciation de la phrase nous intéresse plus que les autres, car c’est la seule
activité qui est dotée d’une visualisation de la prosodie, notamment de l’intonation (fig. 27),
d’où notre envie d’en fournir une illustration un peu plus détaillée.
Lors de cette activité, l’apprenant est tout d'abord invité à écouter la lecture modèle
enregistrée des phrases extraites de la leçon en cours et à étudier la visualisation de
l’intonation de cette lecture. Puis, l’apprenant doit prononcer ces phrases lui-même, en
s’enregistrant et le programme visualisera l’intonation de son enregistrement, ce qui permettra,
par la suite, de comparer sa production avec celle du modèle pour définir ses fautes et, s’il y
en a, de les corriger et ainsi de s'améliorer.
En outre, dans l’exercice de la prononciation de phonèmes/de sons, l’outil propose de petites

vidéos pour la visualisation de la formation des sons dans la cavité buccale (fig. 29) avec une
explication écrite des mouvements à effectuer pour produire tel ou tel son.
Enfin, tout au long de l’apprentissage, le logiciel propose des tests de niveau et mène des
statistiques de progression pour que l’apprenant puisse mieux contrôler son avancement en le
préparant aux tests différents du français (DALF, DELF, TCC, etc.)
54
La majorité des activités sont conçues pour un travail autonome de l’apprenant. Cependant,
une option de conversation à distance avec un enseignant natif est également offerte dans
certaines versions de ce programme.
Licence
Tell me more est un outil "ouvertement commercial" (Godwin-Jones, 2009 : 7). Que cela soit
une version DVDrom, en ligne ou les deux en même temps, ce programme fonctionne
seulement pendant la période payée : passé ce délai, l’accès à Tell me more est bloqué.
Il y a toutefois une version "démo" 10 en ligne ou une version d’essai gratuite de 7 jours
permettant de se familiariser un peu avec ce programme.
Popularité
Depuis son apparition en 1987, Tell me more a réussi à se positionner comme leader mondial
dans le domaine de l’enseignement des LEs. Selon les données disponibles sur son site
officiel, le logiciel a plus de 7 millions d’utilisateurs particuliers satisfaits à travers le monde
ainsi que 10 000 établissements académiques et des clients prestigieux tels que le
gouvernement des États-Unis, Toyota et bien d’autres.
2.3.2.5 ReadN'karaoke (2011) et iPrompt-U (2012 – à présent)
a) Description
ReadN'karaoke représente un projet scientifique de la Northeastern University de Boston, aux

États-Unis. iPrompt-U est son extension dont nous allons parler plus tard. Pour le moment,
observons en détail le projet ReadN'karaoke.
ReadN'karaoke est censé tout d’abord aider les lecteurs débutants à lire aisément à haute voix.
En outre, les visualisations des éléments prosodiques proposées par cet outil peuvent
probablement être également utilisées pour aider les handicapés physiques et les apprenants
d’une langue étrangère comme le mentionnent ses concepteurs Patel et Furr (2011 : 3203).
10
Une version "démo" de Tell me more est disponible à l’adresse suivante :
http://www.tellmemore.fr/livedemo_Educ.aspx, consulté le 28 août 2014.
55
Langue(e) visée(s). Le système s’oriente vers l’enseignement de la prosodie anglaise.
Base scientifique. ReadN'karaoke est basé sur les recherches scientifiques et il est devenu lui-
même l’objet d’une recherche visant à vérifier son efficacité. Nous allons la présenter ci-
dessous.
Pour effectuer le test de performance et pour trouver la meilleure visualisation des éléments
prosodiques, Patel et Furr (2011 : 3205) ont créé deux versions des visualisations que ce
système peut produire : les éléments textuels manipulés (fig. 30) et enrichis (fig. 31).
Ainsi, la version 1 du programme avec des éléments textuels manipulés a été testée sur 10
enfants (6-9 ans) qui ont dû lire le texte avec la visualisation de la prosodie et donner leur avis
sur cette visualisation. Ces derniers ont aimé lire le texte avec des éléments textuels
manipulés, ce qui leur a permis de mieux comprendre le texte lu, notamment son côté émotif.
Par ailleurs, les enfants ont signalé les difficultés pour déterminer les frontières des mots, d’où
la proposition de la version 2 du programme avec des éléments textuels enrichis. Cette
version a été testée sur deux élèves, et semble aussi donner des résultats productifs tout en
préservant la lisibilité du texte. Cependant, un des élèves a préféré la version 1, car, selon lui,
dans la deuxième version, les images derrière le texte empêchent de le lire.
Néanmoins, Patel et Furr (2011 : 3205-3206) avouent qu’il faut encore faire des recherches
plus poussées sur un nombre de sujets plus grand et équilibré par sexe. Ils ajoutent encore que
le "biofeedback" devrait renforcer l’effet positif de cet outil lorsque l’apprenant pourra voir sa
production avec la prosodie visualisée. Cependant, selon Patel et Furr (2011 : 3205-3206),
cette nouveauté demande de faire face à de nombreuses questions : la segmentation
automatique des mots, la variation de la voix d’une personne à l’autre (âge, sexe, etc.), les
erreurs de lecture, les fautes de définition de la f0, etc. Les auteurs considèrent l’utilisation de
la typographie cinétique comme un avantage supplémentaire pour intégrer les effets audio et
vidéo afin de préserver l’intérêt du lecteur.
Patel et Furr (2011 : 3203) proposent d’aider les lecteurs débutants à lire à haute voix en
transposant trois paramètres prosodiques (la fréquence fondamentale11, la durée et l’intensité)
11
Selon le schéma de Grosjean (1999), la fréquence fondamentale est une variable acoustique, tandis que la
durée (subjective) et l’intensité sont des variables psychophysiques, il est plus approprié d’utiliser la notion de la
hauteur au lieu de la fréquence fondamentale.
56
directement sur le texte, soit en les visualisant. Ainsi, ils présentent deux modes généraux
possibles de la visualisation illustrés par les figures 30 et 31.
Figure 30 : Éléments textuels manipulés. Figure 31 : Éléments textuels enrichis.

Source : Patel et Furr (2011 : 3205) Source : Patel et Furr (2011 : 3205)
Nous remarquerons que la visualisation de la hauteur selon Patel et Furr (fig. 30) ressemble
beaucoup à celle de Bolinger (fig. 32) en étant vraisemblablement la didactisation de cette
dernière, ce d’autant plus que dans les références de Patel et Furr (2011) figure un travail de
Bolinger, ce qui nous signale l’héritage possible d’idée de Bolinger par Patel et Furr.
Figure 32 : Visualisation de la hauteur selon Bolinger (1998 : 52)
Implémenté en Java, le système utilise le contexte du livre d’histoires électronique. Ces

histoires sont lues par un adulte de langue anglaise native. Ces enregistrements subissent
ensuite une analyse acoustique réalisée par Praat (Boersma et Weenink, 2013) dont les
résultats sont nécessaires pour rendre la visualisation de la prosodie possible. De la manière
décrite, les concepteurs ont préparé plusieurs histoires.
Chaque histoire est composée de plusieurs phrases du type présenté dans la figure 31 qui sont
proposées séparément pour l’apprentissage : une phrase par page avec son enregistrement et la
visualisation de la prosodie de ce dernier à imiter sont mises à disposition des utilisateurs.
L’outil permet également à l’apprenant de s’enregistrer et d’écouter sa production (Patel et

Furr, 2011 : 3204).
Enfin, comme on peut le constater en regardant les figures 30 et 31, les auteurs du programme
proposent à l’apprenant pour chaque phrase d’étudier d’abord chacun des trois paramètres
57
prosodiques (la fréquence fondamentale, la durée et l’intensité) séparément et de les travailler

ensuite ensemble.
Dans ReadN'Karaoke, l’enseignant ne participe pas, l’apprenant est assez bien encadré par ce
que le programme lui propose.
En ce qui concerne la licence de son utilisation ainsi que sa popularité, nous ne pouvons pas
fournir ces informations, car le projet ReadN'Karaoke n’est pas ouvert au grand public, pas
plus que son extension la plus récente (2012 – à ce jour), iPrompt-U, un autre projet
scientifique conçu spécialement pour assister les apprenants de l’anglais langue étrangère à
améliorer leur expressivité orale, ce qui était une des utilisations suggérées des visualisations
déployées dans ReadN'Karaoke. Il convient d’ajouter qu’iPrompt-U utilise la visualisation de
la prosodie par le biais des éléments textuels enrichis (fig. 33).
Figure 33 : iPrompt-U, extension de ReadN'karaoke.

Source : http://www.cadlab.neu.edu/research.php?name=ipromptu, consulté le 28 août 2014.
Pour encourager les apprenants à lire à haute voix, les concepteurs de cet outil, qui possède
entre autres une interface de studio télévisé, les invitent à jouer des rôles de différentes
émissions de télévision. Ce projet a pour but de vérifier, premièrement, si cette visualisation
aide les apprenants de LE à améliorer leur prosodie et, deuxièmement, si elle permet à
l’auditeur de percevoir les améliorations dans la lecture expressive et la compréhensibilité des
sujets, ce qui a été démontré par des études ultérieures.
58
Les résultats positifs ont récemment permis de créer un partenariat avec The Speech and
Hearing Clinic de la Northeastern University qui a été d’accord d’introduire l’apprentissage
de la prosodie par le biais d’iPrompt-U comme la partie d’interventions à la modification de
l’accent des étudiants internationaux qui y font leurs études
(http://www.cadlab.neu.edu/research.php?name=ipromptu, consulté le 29 août 2014).
2.3.3 Par l’iconicité (ou par l'écriture prosodique)
a) Description
Enfin, il existe un autre concept développé par Rude (2002, 2012) et qu’il a appelé l'écriture
prosodique (ci-après l'EP) (en anglais : prosodic writing), ce que nous avons déjà présenté
sous le nom de l’iconicité auparavant dans le présent travail (section 2.1.4). Selon l’auteur lui-
même (2002 : 265), ce système a pour objectif d’aider les apprenants d’une langue seconde à
percevoir la prosodie (principalement l’accentuation, l’intonation et le rythme) de manière
intuitive (sans l’utilisation consciente du raisonnement, soit sans les explications explicites) et,
ainsi, à acquérir une bonne prononciation.
Langue(e) visée(s). L’EP a été développée pour les apprenants de l’anglais et l’allemand LEs.
Base scientifique
L’EP est basée sur les recherches scientifiques menées depuis plus d’une dizaine d’années.
Le premier test s’est passé au Japon dans les Universités Rissho et Dokkyo, dont l’objectif
visé était de vérifier la nature intuitive de l’EP. Pendant une année académique, quasiment à
chaque leçon, 146 apprenants de l’anglais langue seconde (L2) et 54 de l’allemand troisième
langue (L3) recevaient des polycopiés contenant des dialogues écrits en EP. Au début, les
apprenants répétaient mot pour mot le dialogue enregistré sur une bande ou lu par le lecteur
en se référant à la copie avec l’EP pour corriger certains éléments prosodiques. Par ailleurs,
personne ne leur a donné d’explications explicites à propos de l’EP ni comment il fallait
l’interpréter.
À la fin de cette année académique, les apprenants ont dû répondre à un questionnaire dont les
résultats ont été assez intéressants : 80% des participants ont affirmé qu’ils avaient pu très
bien deviner l’accentuation de la phrase, 69% – l’intonation, 65% – le rythme (Rude, 2002 :
267). Au final, 58% ont confirmé la facilité à lire le texte en EP (Rude, 2002 : 267).
59
Cependant, le questionnaire représente les réponses des utilisateurs après une année
d’utilisation de l’EP. Ce test ne reflète donc pas si les apprenants ont pu comprendre cet outil
de visualisation de la prosodie à première vue, ce qui est toutefois le sujet du test suivant.
Le deuxième test de l’écriture prosodique (Rude, 2002) a porté sur la réaction initiale des
sujets à l’EP destinée à l’anglais et sur leur performance immédiate. Seulement six apprenants
japonophones de l’anglais L2 ont participé à cette recherche.
L’expérience se déroulait de la manière suivante. Les apprenants ont été divisés en paires
(femme/femme ; femme/homme ; homme/homme). Ensuite, ils ont reçu le texte du premier
dialogue écrit de deux façons différentes sur deux feuilles A4 distinctes : le premier a été écrit
en caractères ordinaires et l’autre en EP. Après avoir fait cela, en prenant le temps nécessaire,
les apprenants se familiarisaient avec les deux textes de ce dialogue qu’ils devaient par la
suite lire à haute voix. Il faut remarquer que les étudiants n’ont pas eu accès à
l’enregistrement modèle de ce dialogue, de même qu’ils n’ont pas reçu d’explications sur l’EP.
Enfin, cette lecture a été enregistrée et un autre dialogue a été proposé.
Au final, deux de ces apprenants semblaient "avoir compris intuitivement", soit sans
explications explicites, et semblaient avoir utilisé la visualisation de l’accentuation et de
l’intonation (Rude, 2002 : 269), tandis que les quatre autres n’ont pas démontré une différence
remarquable entre la lecture des textes écrits en EP et ceux en caractères ordinaires. En
conclusion, Rude (2002 :270) a suggéré que d’autres tests de performance de cette écriture
seraient nécessaires après amélioration pour que plus d’étudiants la comprennent
intuitivement, sans explications explicites.
En 2012, Rude (2012) a présenté une version perfectionnée de son écriture prosodique (fig. 34).
Figure 34 : Écriture prosodique en allemand, version 2012. Source : Rude (2012 : 256)
Cette fois-ci, Rude (2012) a testé l’utilité de l’écriture prosodique sur les apprenants de
l’allemand LE. Quinze étudiants japonophones, répartis en trois groupes expérimentaux, ont
écouté deux enregistrements avant et après la période d'entraînement qui, par ailleurs, s’est
passée différemment selon le groupe. Le groupe A a lu des textes non modifiés, accompagnés
60
d’un support audio (lecture du texte à haute voix) ; le groupe B avait des textes utilisant
l'écriture prosodique sans le support audio ; le groupe C disposait des deux, à savoir le support
audio et l’écriture prosodique. Rude (2012 : 257) a conclu que toutes ces distorsions de texte
ont influencé assez positivement l'acquisition de la prosodie par les apprenants. Le nombre
restreint de sujets ne lui permet cependant pas de tirer des conclusions générales à propos de
cet outil.
L’idée phare de ce concept consiste en la visualisation des paramètres prosodiques à travers

les distorsions définies d'un texte écrit (Rude, 2012) dans trois dimensions : l’accentuation
marquée par la profondeur des lettres, qui dépend, en anglais, de l’intensité de la voix (plus
les lettres sont proches du lecteur, plus leur prononciation est forte) (la flèche loudness sur la
figure 35), l’intonation, qui est le mouvement vertical de la fréquence fondamentale (la flèche
pitch), et enfin le rythme et la durée des sons, qui sont visibles à travers la largeur des lettres
(la flèche time) (Rude, 2002 : 266).
Figure 35 : Trois dimensions de l’écriture prosodique. Source : Rude (2002 : 271)
L’EP (fig. 36) partage beaucoup de traits communs avec l’iconicité utilisée à des fins de
divertissement, par exemple dans les bandes dessinées (fig. 37), et avec celle prévue pour les
experts en prosodie, comme la visualisation de l’intonation de Bolinger (fig. 38).
61
Figure 36 : Exemple de l’iconicité selon

Rude. Source : Rude (2012 :256)
Figure 38 : Exemple de l’iconicité selon Figure 37 : Exemple de l’iconicité dans les bandes
Bolinger. Source : Bolinger (1998 :53) dessinées. Source : Uderzo (1983 :5)
En effet, l’EP reprend le côté intuitif des deux autres et elle didactise la version basée
scientifiquement sur l’iconicité en s’approchant de l’iconicité ludique des bandes dessinées.
c) Informations supplémentaires
En ce qui concerne sa popularité, du fait que cet outil n’est pas encore mis à la disposition du
grand public, nous ne pouvons rien dire sur ce sujet.
2.4 CONCLUSION
Dans ce chapitre, nous avons présenté les outils de la visualisation de la prosodie en les
divisant en trois groupes selon leur objectif d’utilisation : les outils dédiés à la recherche
scientifique, au divertissement (les œuvres littéraires, les bandes dessinées, la publicité, etc.)
et à l’apprentissage de la prosodie des LEs. Dans le cadre de la présente conclusion, il
convient de faire un tour d’horizon des avantages et des inconvénients de ces outils.
L’évaluation des outils est présentée dans l’ordre suivant, pour chacun d’entre eux : les
avantages de l’outil, ses inconvénients et, enfin, ce système, ou une de ses fonctionnalités, est-
il intéressant pour notre travail ou non. De plus, nous allons effectuer cette évaluation en
appliquant deux critères qui sont, selon Komissarchik et Komissarchik (2000) et Rude (2002,
2012) cruciaux pour un système de visualisation de la prosodie d’une LE pour ses apprenants :
l’intuitivité de la visualisation et la pertinence des informations proposées à l’apprenant.
Commençons notre revue dans l’ordre d’exposition des outils présentés précédemment
(section 2.1), à savoir par ceux destinés aux experts en prosodie. Compte tenu du fait que ce
type d’outils ne sont pas prévus pour l’enseignement de la prosodie, nous les évaluerons assez
brièvement.
62
Les systèmes de notation de la prosodie pour les recherches, exprimés par des symboles
intégrés au texte, sont extrêmement détaillés grâce à un éventail de symboles, ce qui constitue
un avantage aux yeux des chercheurs qui ont pour objectif de refléter le moindre détail du
discours oral en le fixant dans le texte écrit. Une fois intégrés dans le texte, ces symboles
dessinent une image prosodique tout à fait compréhensible et même nécessaire pour un
chercheur. Cependant, ce chercheur comprend ces symboles parce qu’il a appris à les
interpréter. Or sans cet apprentissage préalable, les symboles restent non identifiables, ce qui
n’est pas un avantage pour un apprenant. Ce dernier doit comprendre ces symboles
intuitivement, soit le plus vite possible et avec le moins d’explications préalables possible, car
son objectif est d’apprendre la prosodie d’une LE et non pas de l’interpréter.
De ce fait, les notations de la prosodie pour les recherches réalisées par des symboles intégrés
au texte, ainsi que celles qui leur ressemblent à ce niveau, c’est-à-dire réalisées par niveau et
par ordinateur (Prosogram), ne sont pas pertinentes pour notre travail. Le seul fait que nous
retiendrons consiste en un choix de notations des éléments prosodiques qui doivent être
intuitivement compréhensibles pour un apprenant ne disposant généralement pas des
connaissances approfondies de la prosodie.
Nous voulons toutefois mentionner le programme informatique Prosogram, conçu pour les
recherches, qui représente un avantage important par rapport à l’annotation faite à la main, car
il permet de visualiser automatiquement la prosodie des enregistrements sonores. Cependant,
ce programme ne convient pas pour l’enseignement de la prosodie, car il comporte trop
d’informations pour un apprenant.
Parmi les outils de visualisation destinés à la science, il y en a toutefois un qui est intéressant
pour l’apprentissage de la prosodie, de par le fait qu’il est le plus intuitivement
compréhensible : l’approche iconique de Bolinger (1998) que Guaïtella (2000 : 104) juge être
"plus fidèle à la réalité" et qui ne demande presque aucune connaissance préalable pour
pouvoir interpréter les visualisations iconiques de la prosodie. De plus, conçue à des fins
scientifiques, l’iconicité de Bolinger visualise la prosodie fidèlement aux données
scientifiques disponibles dans le domaine de la prosodie, ce qui constitue un autre avantage de
cet outil.
Grâce à son côté intuitif, l’iconicité est largement utilisée dans le domaine du divertissement
en visant un public qui ne comprend rien ou peu dans la prosodie, ce qui, il faut le relever, est
63
également le cas de la majorité des apprenants. De plus, comme nous parlons de

divertissement et que l’objectif est donc souvent d’attirer l’attention d’un public ciblé, le texte
modulé en fonction des éléments prosodiques que ce texte est censé imiter doit être attractif.
Cette dernière particularité est bien sûr un des avantages de l’iconicité proposée pour le
divertissement, mais cela laisse aussi la liberté à cette iconicité d’être fidèle ou non à la
science de la prosodie, ce qui est par contre un inconvénient majeur. En revanche, ce genre
d’iconicité est également assez léger au niveau des informations véhiculées sur des éléments
prosodiques. Ainsi, même si elle visualise simultanément l’accentuation et l’intonation, cela
ne nous surcharge pas d’informations.
En ce qui concerne les outils de visualisation destinés à l’apprentissage de la prosodie d’une

LE commençons par celui de Hinkelman et Halvorsen (1998) qui visualisent la prosodie par
des symboles intégrés au texte. Ces auteurs ont didactisé, en quelque sorte, certaines notations
des éléments prosodiques réalisés par le même mécanisme, mais pour les recherches. Cette
tentative de didactisation est déjà un avantage qui a rendu possible des visualisations de la
prosodie qui, selon Hinkelman et Halvorsen (1998 : 90), permettent aux apprenants de mieux
reproduire les changements dans les éléments prosodiques. Cependant, selon Rude (2002 :
265), si l’on utilise l’outil proposé par Hinkelman et Halvorsen (1998) pour marquer
l’accentuation, l’intonation et la durée d’un fragment du texte en même temps, cela
deviendrait une tâche complexe pour l’apprenant réclamant une maîtrise parfaite de ces
symboles. Cela surchargera donc l’apprenant d'informations, ce que, par ailleurs,
Komissarchik et Komissarchik (2000) préconisent également d’éviter. En revanche, ils
conseillent de "montrer à l’utilisateur des éléments prosodiques relatifs" sans commettre
l’erreur de la surcharge.
Ainsi, Komissarchik et Komissarchik (2000) proposent leur système de visualisation, l’outil

informatique BetterAccent Tutor, qui est déjà, comme tous les autres outils numériques, une
amélioration aux yeux de l’apprenant, car il est plus moderne que l’outil de Hinkelman et
Halvorsen (1998). De plus, un de ses avantages consiste en des exercices déjà préparés qui
visent à entraîner différents aspects de la prosodie à travers les divers types de phrases ; une
initialisation à l’utilisation du programme est même proposée. En outre, BetterAccent Tutor
invite les enseignants à créer leurs propres exercices avec des explications théoriques
éventuelles de ce qu’il faut que l’apprenant vise. Son autre avantage est la possibilité de
s’enregistrer et de produire la visualisation de cette production à côté de celle du modèle pour
64
pouvoir les comparer et déterminer ses fautes. Par contre, la visualisation de l’accentuation et
du rythme en forme de marche offerte par BetterAccent Tutor convient, mais uniquement pour
les phrases courtes. Sinon, cette visualisation en forme de marches étant déjà assez complexe,
il devient réellement difficile de suivre la progression de ces marches et de respecter la
correspondance entre les syllabes et les marches. Nous pouvons adresser le même
commentaire à la visualisation de l’intonation. En résumé, les avantages de cet outil sont
assez intéressants, même si sa visualisation est encore très difficile à interpréter et n’est pas
complètement intuitive, en tout cas pour l’accentuation et le rythme.
Observons maintenant un autre outil de la visualisation de la prosodie, Intonation Image

Builder. L’outil étant disponible en ligne, il est donc accessible pour un travail à distance pour
un grand nombre d’apprenants. Nous trouvons l’idée de marquer les syllabes par une couleur
différente selon le type d’intonation également intéressante, car la couleur orange attire
immédiatement l’attention du lecteur. Par contre, en tenant compte du fait que la troncation
des mots en unités séparées d’Intonation Image Builder perturbe manifestement la lecture, il
faudrait encore beaucoup améliorer la représentation de la visualisation pour qu’elle devienne
intuitive et lisible. Enfin, le programme ne prévoit aucun traitement de l’erreur.
Un système considérablement plus sérieux qu’Intonation Image Builder, qui est par ailleurs,
un outil amateur, est WinPitch LTL. Sa forte orientation vers l’interaction entre l’enseignant et
l’apprenant est renforcée par ses diverses fonctionnalités, dont nous avons déjà parlé
auparavant dans cette section. Par contre, cet outil n’est pas suffisamment didactisé : son
maniement n’est pas suffisamment aisé, comme le constatent Léon et Martin (2000 : 145), car
les touches sont nombreuses, ce qui demande un certain temps d’adaptation et peut parfois
rendre l’utilisation pénible. Comme ce programme n’intègre pas un scénario d’apprentissage
préparé, il n’encourage pas un travail autonome de l’apprenant, parce que ce dernier doit avoir
une grande motivation pour préparer lui-même tous les exercices pour pouvoir par la suite les
faire, d’où la nécessité d’interaction permanente avec le professeur.
Par contre, son approche du traitement de l’erreur est très prometteuse. En effet, WinPitch
LTL permet à l’enseignant de modifier la courbe mélodique de l’enregistrement de
l’apprenant pour faire de l’élève son propre modèle. De plus, cet outil rend possible la
transposition de la visualisation de la production de l’apprenant sur celle du modèle qui
permet une comparaison des deux visualisations, permettant d’observer des différences et de
corriger les erreurs, ce qui est un avantage considérable.
65
En ce qui concerne la visualisation proposée par WinPitch LTL, elle est difficile à interpréter
sans connaissances préalables et n’est pas donc intuitive (cf. entre autres, la représentation de
l’intensité sous la forme de courbes ou d’oscillogrammes).
Nous voulons toutefois souligner que les oscillogrammes sont très difficilement déchiffrables
et/ou qu’ils peuvent même induire l’apprenant en erreur. Par exemple, une comparaison de la
présentation de l’intensité par des éléments textuels manipulés (fig. 39) et par des éléments
textuels enrichis (fig. 40) est inadéquate : then a une amplitude presque aussi forte que more,
le seul mot accentué de cette phrase, mais then est à peine visible avec des éléments textuels
manipulés12.
Figure 39 : Éléments textuels manipulés. Figure 40 : Éléments textuels enrichis.

Source : Patel et Furr (2011 : 3205) Source : Patel et Furr (2011 : 3205)
Ceci dit, nous avons l’impression générale que WinPitch LTL est un outil qui est plus orienté
vers les recherches scientifiques que vers l’apprentissage de la prosodie des LEs.
Tell me more est un programme très populaire, mais très cher et qui est loin d’avoir
l’unanimité auprès des revues professionnelles, conclut Godwin-Jones (2009 : 7) en citant
12
Kommissarchick et Kommissarchick (2000) ont fait une très bonne remarque sur l’utilisation des
oscillogrammes :
"The problem lies in the fact that intonation is pitch movement on vowels and semivowels only;
whereas the traditional algorithms show pitch on all voiced segments indiscriminately, thus making
visualization confusing for users. Similarly, an energy contour is easy to calculate, but it is not what a
human listener perceives as intensity. An energy contour is nothing more than an outline of a
waveform; for example, let us consider the word “superb” pronounced by a native speaker:
Waveform of a word “superb”
If we rely on the energy envelope, we will have to conclude that the first syllable is louder than the
second one. But, in spite of the fact that ‘s’ is the most energetic sound in the entire utterance, a
listener will interpret second syllable as being louder and will correctly hear the word “suPERB” not
“SUperb”. The reason for this contradiction lays in the fact that noise consonants do not contribute to
the perception of syllable intensity. Thus, as a feedback, energy envelope is confusing for users."
66
Hincks (2003). Selon Godwin-Jones (2009 : 7) toujours, Tell me more n’est malheureusement
pas fondé sur des recherches scientifiques, ce qui échappe au regard des magazines :
"Given their popularity, it is unfortunate that there are not studies that go beyond
reviewing these products and analyze and evaluate their use in controlled language
learning environments, including when used as a supplement in traditional
classroom environments"
(Godwin-Jones, 2009 : 7)
La crédibilité du programme se base donc, entre autres, sur l’autorité de ses utilisateurs
(gouvernement des États-Unis, Toyota, etc.) ou sur des avis très positifs des utilisateurs, par
exemple de différents établissements éducatifs comme Guilford College, Lone Star College,
Université d’Ottawa, etc., que l’on peut trouver sur son site.
Les visualisations de l’intonation et de l’intensité implantées dans Tell me more sont faites
sous la forme respectivement de courbes et d’oscillogrammes, ce qui est, comme nous l’avons
déjà signalé, contreproductif, car l’apprenant doit chercher la correspondance entre le texte
écrit et ces visualisations, c’est-à-dire, quel mot correspond à quel mouvement de la courbe
intonative.
En revanche, les avantages de Tell me more au niveau de l’apprentissage prosodique

consistent en sa reconnaissance de la parole qui est assez bien développée et en l’attribution
d’une note à la production de l’apprenant.
La visualisation la plus compréhensible des cinq outils informatiques vus est réalisée dans
ReadN'Karaoke (iPrompt-U). Elle est en effet transposée immédiatement derrière le texte (les
éléments textuels enrichis) ou à travers le texte (les éléments textuels manipulés).
L’idée de Bolinger de la visualisation iconique de l’intonation implantée dans ReadN'Karaoke

(iPrompt-U) est très encourageante, mais, comme nous l’avons déjà souligné, cette
représentation de l’intonation brouille la délimitation des mots. De plus, la visualisation de la
durée avec des éléments textuels manipulés ajoute simplement les espaces supplémentaires
entre les lettres, ce qui élargit seulement la place que le texte prend sur l’écran, mais ce qui est
le plus important est que cela ne nous permet pas de percevoir le changement au niveau de la
durée par rapport à un texte écrit ordinairement.
67
Dans ReadN'Karaoke (iPrompt-U), l’enseignant ne participe pas, car ce programme est assez
bien didactisé, sauf bien sûr en ce qui concerne la visualisation, en proposant un scénario de
l’apprentissage.
L’Écriture prosodique (ci-après l’EP) de Rude (2002, 2012) ressemble un peu à la

visualisation de la prosodie de Patel et Furr (2011) tout en corrigeant les inconvénients de
cette dernière. Premièrement, tous les caractères de l’EP de Rude (2002, 2012) sont bien
visibles, ce qui n’est pas le cas dans la visualisation de l’intensité proposée par Patel et Furr
(2011) qui rend certains caractères, surtout ceux des syllabes inaccentuées, presque
imperceptibles. Deuxièmement, la taille des lettres de l’écriture prosodique représente plus
adéquatement et, d'une manière plus compréhensible, la durée que le concept de Patel et Furr
(2011). Troisièmement, grâce aux lettres qui suivent fidèlement la courbe mélodique en
changeant leur angle d’écriture, la visualisation de l’intonation ne perturbe pas la délimitation
des mots, problème important de ReadN'Karaoke de Patel et Furr (2011). En outre, l’EP
reprend le côté intuitif des deux autres types d’iconicité et elle didactise la version basée
scientifiquement sur l’iconicité en s’approchant de l’iconicité ludique et attractive des bandes
dessinées. Ainsi, nous pouvons dire que l’écriture prosodique de Rude utilise "une
technologie dont la valeur heuristique et didactique est de la plus haute utilité" (Léon et
Martin, 2000 : 145)13.
En résumé, cette revue des outils de la visualisation de la prosodie nous a démontré que les
nombreux outils existants ne sont pas réellement appropriés à l’apprentissage de la prosodie,
et justifie donc la nécessité de développer notre propre outil informatique de visualisation
automatique de la prosodie. L’écriture prosodique de Rude nous paraît toutefois constituer
une excellente base puis qu’elle est la mieux adaptée aux besoins d’apprentissage de la
prosodie d’une LE. Elle présente toutefois deux inconvénients dont le premier est le suivant :
l’EP est destinée à l’anglais et l’allemand (comme beaucoup d’outils présentés ci-dessus
d’ailleurs, orientés vers l’enseignement de l’anglais). Étant donné que les paramètres
prosodiques diffèrent considérablement de langue en langue, un outil développé pour l’anglais
ou l’allemand n’est donc pas transposable. En effet, pour le français, l’accent primaire est un
accent de groupe, majoritairement en position oxytonique, alors qu’en en anglais, il est lexical
L’EP devrait donc être adaptée aux caractéristiques prosodiques du français, en prenant en
13
Ici, Léon et Martin (2000 : 145) parlent de WinPitch mais nous avons pensé que cette citation est également
vraie pour l’EP.
68
compte les éléments prosodiques spécifiques suivants du français : l’accentuation,

l’intonation et la pause. Le deuxième inconvénient consiste en ce que l’EP est manuelle.
Comme nous l’avons mentionné précédemment (section 2.3.3), l’EP constitue une bonne base,
mais qui doit tout de même être adaptée pour remédier à ses deux inconvénients majeurs.
Dans la suite de ce travail, nous présentons donc un nouvel outil informatique de visualisation
de la prosodie, spécifique pour l’apprentissage du français langue étrangère.
Afin de mettre en place cette structure d’un énoncé, comme nous l’avons vu précédemment
(section 1.1.3), différents éléments prosodiques se combinent. Les apprenants devront donc
apprendre à les maîtriser et, dans ce nouvel outil, il nous a semblé utile qu’ils puissent les
travailler d’abord de manière séparée puis en les combinant. Ces différents éléments sont les
suivants : pour l’accentuation ‒ le placement de l’accent primaire sur la dernière syllabe d’un
groupe et donc le découpage en groupes accentuels ; pour l’intonation, outre les distinctions
entre questions, affirmation, ordre/exclamation, la distinction entre groupes continuatifs (avec
intonation montante) et finaux (avec intonation descendante) ; les pauses. Ces paramètres sont
les plus importants pour la fonction de structuration d’un énoncé en français, raison pour
laquelle nous nous focaliserons sur ces trois paramètres pendant le développement de notre
outil.
Dans le chapitre suivant (ch. 3), nous décrivons la conception de ce nouvel outil de
visualisation. Puis, nous allons en évaluer l’efficacité, à l’instar de l’évaluation faite par
Rude (2012), en formant deux groupes de sujets (le groupe A qui n’utilise pas la visualisation
et le groupe B qui l’utilise). Ainsi nous obtiendrons deux productions orales pour chaque
apprenant : effectuée au début, la première servira de base et la deuxième faite à la fin, après
le travail spécifique sur la prosodie avec un support audio sous la forme de quatre textes lus à
haute voix, accompagné ou non, selon le groupe, d’une visualisation des éléments
prosodiques de cette lecture.
69
PARTIE PRATIQUE
3. CONCEPTION DE L’OUTIL DE VISUALISATION
L’élaboration de notre outil décrite dans ce chapitre a passé par les étapes suivantes : d’abord,
il a fallu préparer les textes, les enregistrer et effectuer leur alignement, dont les résultats ont
dû être ensuite corrigés, enfin, la visualisation des résultats, ainsi que son affinement,
terminent le processus d’élaboration de l’outil, dont l’état final est présenté à la fin de ce
chapitre.
3.1 PROCEDURE D’ELABORATION
3.1.1 Préparation des textes
Nous avons préparé quatre textes informatifs courts inspirés de la presse (Annexe A). Puis,
nous les avons sélectionnés et adaptés en fonction du niveau de français visé pour l’outil
(entre B1 et B2+) et en nous basant sur les critères suivants :
Les textes ont dû être adaptés au niveau des apprenants B1 du point de vue du vocabulaire et
des structures syntaxiques ;
Ils n'ont pas dû comprendre de mots trop compliqués en termes de correspondance graphie-
phonie ;
Ils ont dû inclure des phrases avec subordonnées et avec des patrons intonatifs variés
(question, exclamation, affirmation, discours rapporté, incise, énumération, etc.) ;
Ils ont dû être le plus homogène possible (même longueur (environ 250 mots), même degré de
difficulté, etc.).
Une locutrice native, enseignante de FLE et spécialisée en phonétique a fait les

enregistrements de ces quatre textes informatifs. Les enregistrements ont été effectués dans
une cabine insonorisée, à l’aide de matériel spécialisé (Edirol R700 avec micro externe Sony,
format : wav, 44'100 KHz), ce qui a permis d’obtenir des productions de très bonne qualité.
Les quatre textes avaient été préalablement annotés pour le groupage des éléments en unités
70
CONCEPTION DE L'OUTIL DE VISUALISATION
prosodiques afin de faciliter la lecture. Les enregistrements ont ensuite été nettoyés
(suppression des erreurs et reprises).
Le logiciel Praat (Boersma et Weenink, 2013) et ses extensions EasyAlign (Goldman, 2011)
et ProsoProm (Mertens, 2004) ont ensuite été utilisés pour aligner les quatre textes avec leurs
enregistrements et en effectuer une analyse acoustique. Un autre script Praat (Boersma et
Weenink, 2013), conçu par J.-P. Goldman, nous a ensuite permis d’obtenir les données
suivantes (sous la forme d’un document txt pour chacun des textes comprenant six colonnes,
cf. Tableau 5) : la syllabe, son début et sa fin, sa fréquence fondamentale, son intensité et une
indication de son degré de proéminence (sur une échelle de 1 à 4).
Syllabe Début (ms) Fin (ms) F0 (Hz) Intensité (dB) Proéminence

- 22.314 22.901 156 51
les 22.901 23.029 170 70 0
dons 23.029 23.219 183 68 0
d'or- 23.219 23.419 218 73 0
ganes 23.419 23.629 257 71 2
se 23.629 23.819 217 71 0
font 23.819 24.059 233 68 2
de 24.059 24.149 200 66 0
plu- 24.149 24.399 422 75 4
s en 24.399 24.529 240 67 0
plus 24.529 24.779 202 67 0
rares°! 24.779 25.165 154 61 4
Tableau 5 : Praat (Boersma et Weenink, 2013),
Exemple de tableau de données d’analyse pour un groupe de souffle
3.1.2 Alignement des textes enregistrés et correction des

résultats
Les deux premières étapes, l’alignement des textes enregistrés et la correction des résultats,
ont été nécessaires pour obtenir les informations permettant la prochaine visualisation de la
prosodie par notre programme.
Avant cette première étape de l’alignement des textes enregistrés, les textes ont été transcrits
orthographiquement et, ensuite, divisés de manière qu’une phrase occupe une ligne (fig. 41).
Si la phrase est longue et comporte une pause importante, elle sera divisée en deux, un
passage à une nouvelle ligne marquant cette longue pause dans l’enregistrement sonore.
71
Don d’organes :
la Suisse manque-t-elle de cœur ?
Pratiquée depuis une quarantaine d’année,
la transplantation d’organes a permis de sauver plus de 6000 personnes en Suisse jusqu’ici.
Mais chaque année, cinquante personnes décèdent en Suisse,
cinquante vies qui auraient pu être sauvées
grâce à une transplantation.
[…]
Figure 41 : Exemple de la transcription orthographique préparée pour EasyAlign (Goldman, 2011)
Une fois ce document en format txt prêt, nous avons pu procéder à la macro-segmentation, la
première étape qui segmente, si c’est nécessaire, les phrases de la transcription en groupes
accentuels. D’une part, cette étape facilite le travail de la segmentation en phonèmes futurs et,
d’autre part, permet à l’utilisateur d’ajuster les frontières de groupes accentuels. Nous devons
souligner que c’est déjà à cette étape que la correction des résultats annoncés comme la
deuxième grande étape intervient et, en fait cette correction nous a accompagné pendant tout
le processus de la conception de notre outil de visualisation.
Pour les étapes suivantes, nous avons utilisé EasyAlign, une extension de Praat (Boersma et
Weenink, 2013) développée par Goldman (2011).
La phonétisation est une autre étape, qui permet de traduire le texte orthographique de la tire
ortho (le ruban le plus bas sur la figure 42) en transcription phonétique grâce à SAMPA, un
alphabet phonétique. EasyAlign permet de générer cette phonétisation automatique dans une
nouvelle tire (phono).
Enfin, pendant la troisième étape, EasyAlign réalise la segmentation en phonèmes et ainsi

trois tires apparaissent phones (phonèmes), words (mots) et après syll (syllabes, dont "les
frontières sont calculées au moyen de règles phonologiques basées sur la sonorité" (Goldman,
2011 : 3)) Le résultat final avec cinq tires est représenté sur la figure 42.
72
Figure 42 : Document TextGrid résultant généré par EasyAlign (Goldman, 2011)
De plus, une autre extension de Praat (Boersma et Weenink, 2013), ProsoProm (Goldman,
Avanzi, Auchlin et Simon, 2012), complète le travail d’alignement en mesurant la
proéminence de chaque syllabe et en ajoutant la tire promauto. On distingue une syllabe
comme proéminente en se basant sur quatre paramètres prosodiques : la durée relative, la f0
relative, le mouvement de la f0 et la durée de la pause (Goldman, Avanzi, Auchlin et Simon,
2012 : 1). Ce système de détection automatique de la proéminence a permis de distinguer 5
degrés de proéminence (de 0 : syllabe non-proéminente, à 4 : syllabe extrêmement
proéminente). Ces degrés sont donc utilisés dans une des versions de notre système pour
visualiser la proéminence des syllabes par différentes teintes de rouge.
À la fin, un code, conçu par Goldman toujours, imprime les résultats de l’alignement
nécessaire en document txt à six colonnes : les syllabes, ses temps du début et de la fin, la
fréquence fondamentale, l’intensité et la proéminence.
73

- 22.314 22.901 156 51
les 22.901 23.029 170 70 0
dons 23.029 23.219 183 68 0
d'or- 23.219 23.419 218 73 0
ganes 23.419 23.629 257 71 2
se 23.629 23.819 217 71 0
font 23.819 24.059 233 68 2
de 24.059 24.149 200 66 0
plu- 24.149 24.399 422 75 4
s en 24.399 24.529 240 67 0
plus 24.529 24.779 202 67 0
rares°! 24.779 25.165 154 61 4
Tableau 6 : Document d’analyse final
Il faut remarquer que les syllabes ou, selon une autre appellation, les étiquettes (écritures
orthographiques), intègrent un système de notation spécifique : si l'étiquette correspond à un
tiret, il s’agit d’ une pause ; si ce tiret est situé après des lettres (p. ex : d’or-), cela indique que
c’est une syllabe d’un mot à deux ou plusieurs syllabes ; l’absence de tiret après les lettres
indique la fin d’un mot ; un espace à l'intérieur de l'étiquette marque un enchaînement ou une
liaison dans cette étiquette, par exemple "les dons d’organes se font de plus en plus rares" :
[le.dɔ̃.dɔʁ.gan.sə.fɔ.̃ də.ply.̮zɑ̃.plyˈʁɑʁ] (l’étiquette en gras sur la tab. 6).
Par ailleurs, les étiquettes étaient générées en SAMPA, ce qui n’est pas assez approprié dans
le cadre de l’apprentissage de la prosodie, nous avons donc retraduit tout en français
"orthographique".
Nous avons également procédé à un ajustement des niveaux de proéminence détectés. En effet,
si le système générait 5 niveaux de proéminence, il ne nous a pas semblé utile de conserver
autant de niveaux différents pour un but didactique. Si une telle finesse d’analyse est utile
pour des recherches avancées en prosodie, elle était trop développée pour un objectif
didactique. Nous avons donc décidé d’utiliser trois niveaux seulement de proéminence. Pour
le premier niveau, nous avons sélectionné les proéminences égales à 0 (= non-proéminent) ;
pour le deuxième, nous avons regroupé les proéminences de niveau 1 et 2 (= proéminent) et,
dans le troisième, les proéminences de niveaux 3 et 4 (= très proéminent).
Une fois les documents d’analyse acoustique des enregistrements générés et corrigés, l’étape
suivante a consisté à trouver une manière de visualiser les résultats de cette analyse.
74
3.1.3 Visualisation
À cette étape, il faut déterminer les mécanismes de la visualisation de la prosodie, faire le

premier essai et affiner l’outil.
3.1.3.1 Mécanismes de la visualisation de la prosodie
Le principe de travail de notre outil est assez simple : le système ouvre le document txt qui
contient les paramètres obtenus à l’étape précédente (tab. 6), il les interprète et les visualise.
Pour transmettre cette instruction à l’ordinateur et plus précisément à un serveur, car notre
système est un programme en ligne, nous avons choisi les langages de programmation WEB.
A savoir, PHP, SVG, xHTML, CSS et JavaScript, parmi lesquels PHP et SVG constituent les
langages principaux utilisés dans la conception de l’outil.
PHP (Hypertext Preprocessor) a été choisi particulièrement parce qu’il permet de créer des
pages WEB dynamiques qui se modifient en fonction des informations fournies, dans notre
cas par l’utilisateur (Olson, 2014). L’exemple suivant illustre bien l’avantage de cette
fonctionnalité du langage PHP pour notre outil : quand l’apprenant veut par exemple afficher
l’intonation, il appuie sur le bouton correspondant ; ensuite, sur le serveur, le programme écrit
en PHP génère une nouvelle page en y ajoutant la visualisation de l’intonation et l’envoie à
l’apprenant. De plus, le langage PHP permet d’interpréter des fichiers txt stockés sur le
serveur, ce qui nous donne la possibilité d’ouvrir et de traiter le document contenant les
résultats de l’analyse acoustique faite pendant l’étape précédente.
La page produite par le programme en PHP est majoritairement écrite en SVG (Scalable
Vector Graphics), langage dans lequel toutes les visualisations de la prosodie sont réalisées.
La pertinence de l’utilisation de SVG pour notre travail consiste premièrement en sa
possibilité de manipuler les représentations visuelles des caractères 14 qui sont appelées les
glyphes.
Figure 43 : Différents positionnements verticaux des glyphes. Source : Eisenberg (2002: 120)
14
En informatique, le terme caractère désigne une valeur numérique selon le standard Unicode. Par exemple, la
lettre "g" est un caractère qui a pour valeur 103 dans l’Unicode (Eisenberg, 2002: 114).
75
Figure 44 : Mise en gras, style, décoration et espacement Figure 45 : Longueur des glyphes.
des glyphes. Source : Eisenberg (2002: 117) Source : Eisenberg (2002: 121)
Grâce à SVG, toutes sortes de distorsions des glyphes peuvent être réalisées. SVG nous
permet, par exemple, de modifier le positionnement vertical des glyphes (fig. 43), de les
mettre en gras (fig. 44) et de changer leur taille, ce qui rapprochera visuellement ces glyphes
pour les lecteurs en signalant ainsi l’intensité. La durée des unités se réalise à travers la
longueur des glyphes (fig. 45).
De plus, la capacité de SVG de coller les glyphes à une ligne ou à une courbe rend la
visualisation de la fréquence fondamentale possible et très pittoresque (fig. 46), ce qui nous
rapproche définitivement du modèle de Rude (2002, 2012).
Figure 46 : Glyphes collés sur des courbes et lignes visible (à gauche) ou non (à droite).
Source : Eisenberg (2002 : 127)
En effet, comme on peut le deviner partiellement par rapport à son nom, SVG (Scalable
Vector Graphics) est utilisé pour créer des graphiques vectoriels adaptables de deux
dimensions. On distingue généralement les dessins vectoriels des dessins matriciels. Ils se
différencient par la façon dont ils sont réalisés. Pour expliquer cette distinction, Eisenberg
(2002 : 14) propose de prendre l’exemple d’un dessin sur papier quadrillé. Les graphiques
matriciels attribuent la couleur à chaque carré tandis que les graphiques vectoriels "décrivent
les points du papier quadrillé par lesquels les lignes et les courbes doivent passer" (fig. 47).
76
"Some people describe vector graphics as a set of instructions for a drawing, while
bitmap graphics (rasters) are points of color in specific places. Vector graphics
"understand" what they are – a square "knows" it's a square and text "knows" that it's
text. Because they are objects rather than a series of pixels, vector objects can
change their shape and color, whereas bitmap graphics cannot. Also, all text is
searchable because it really is text, no matter how it looks or how it is rotated or
transformed".
(Eisenberg, 2002 : 14).
Ce fonctionnement des graphiques vectoriels leur permet d'être extensibles à l'infini et d’être
ainsi des images d’une spécification de très haute qualité tout en restant très compacts au
niveau de la mémoire physique, d’où la popularité de ces derniers parmi "les créateurs de
cartes et les météorologues" (Eisenberg, 2002 : 6).
Figure 47 : Graphique matriciel (à gauche) et graphique vectoriel (à droite) agrandis.

Source : Eisenberg (2002: 16-17)
Cependant, SVG n’est pas supporté par tous les navigateurs : seuls Google Chrome et Opera
comprennent le langage SVG dans son intégralité. Firefox et Safari satisfont partiellement les
commandes en SVG. Enfin, Internet Explorer s’abstient d’entrer en contact avec SVG. De
fait, nous devons remarquer que notre système ne fonctionne pleinement donc que sur Google
Chrome et Opera.
Nous venons de dire que la page produite par le programme en PHP est majoritairement écrite
en SVG, mais elle contient également quelques lignes de code en xHTML (eXtensible
HyperText Markup Language) pour créer les boutons, les tableaux et tout ce qui encadre
l’image vectorielle, en CSS (Cascading Style Sheets) pour décrire les styles qui assurent la
meilleure présentation de nos pages WEB, et en JavaScript pour rendre la page plus
77
interactive. De plus, le code en JavaScript joue un rôle important dans la visualisation. Il

ajuste la longueur des syllabes par rapport à leur durée sonore en modifiant le code SVG.
En résumé, cette première partie de la visualisation consiste en une sélection d’outils

permettant de réaliser notre projet de la visualisation de la prosodie et la description de son
mécanisme de travail. Nous avons cinq langages de programmation WEB parmi lesquels PHP
et SVG ont été choisis comme les principaux utilisés dans la conception de notre outil. PHP
ouvre le document txt qui contient des résultats de l’analyse acoustique faite auparavant, puis
PHP les traite et les insère dans le code SVG qu’il est en train de créer. Enfin, SVG applique
ces résultats sur le texte, ce que l’utilisateur perçoit comme la visualisation de la prosodie.
Voyons maintenant en action le fonctionnement de notre programme dans les descriptions des
parties restantes de cette étape qui récapitulent les nombreux tests de notre système.
3.1.3.2 Premier essai
La conception de l’outil de visualisation était l’étape la plus importante et aussi la plus

coûteuse en matière de temps. De nombreux essais ont dû être réalisés pour arriver à la
version finale que nous évoquerons à la fin de ce chapitre. Ce sont ces difficultés, et aussi
diverses découvertes que nous avons trouvées sur cette voie de développement du système
susmentionné, dont nous allons faire un bref résumé dans les lignes qui viennent, en
commençant par la présentation de notre premier essai, le prototype de programme.
La première version de l’outil de visualisation de la prosodie a été développée dans le cadre

de notre projet de NTIC (Nouvelles technologies de l'information et de la communication).
Cette version du programme était un prototype interactif conçu pour vérifier sa faisabilité,
avoir les premières impressions sur l’utilité de la visualisation de la prosodie, et trouver la
meilleure représentation de la visualisation.
78
Figure 48 : Prototype de l’outil, la visualisation de l’intonation en curviligne
En juin 2013, le prototype a été présenté devant les enseignants responsables de ce projet
NTIC, ainsi que devant les enseignants-spécialistes dans les domaines de la phonétique en
général et de la prosodie en particulier. Cette présentation nous a permis de tirer les
conclusions suivantes, que nous décrivons ci-dessous :
Les objectifs du projet ont été plus ou moins atteints. Comme nous pouvons le constater sur la
figure 48, SVG permet de visualiser parfaitement la prosodie en la transposant sur le texte. En
outre, l’interface de l’utilisateur, le menu, assurait l’interaction donnant la possibilité de
changer la visualisation de la prosodie. Entre autres, nous avons pu modifier la sensibilité de
la fréquence fondamentale : plus elle est grande, plus ses mouvements sont importants. Nous
avons pu également ajuster la distance entre les lignes et la longueur des lignes et des lettres,
et afficher ou effacer la visualisation de la durée, de la proéminence et de la courbe mélodique.
Grâce à l’interaction proposée dans le prototype de l’outil, nous avons défini deux modes
principaux de la visualisation de l’intonation : en curviligne (fig. 48) et en créneaux (fig. 49),
en choisissant le premier comme le meilleur, parce qu’il représente plus fidèlement et plus
doucement l’évolution de la courbe intonative que le deuxième. La visualisation en curviligne
permet à l’apprenant de suivre le texte sans ruptures brusques causées par des syllabes
tronquées du mode en créneaux, qui est, au demeurant, moins esthétique.
79
Figure 49 : Prototype de l’outil, Visualisation de l’intonation en créneaux, de la durée et de la proéminence en

différentes teintes de rouge
Outre la visualisation de l’intonation en créneaux, la figure 49 nous présente également la

visualisation de la durée qui élargit les lettres des syllabes et présente la proéminence de
certaines syllabes en les faisant apparaître en deux teintes de rouges : par exemple, si le rouge
est clair la syllabe est très proéminente. La proéminence peut être aussi visualisée grâce aux
divers niveaux de mise en gras, mais une chose nous empêche de considérer ce mode de
visualisation comme possible, car il introduit une ambiguïté : pendant la visualisation de la
durée, les lettres deviennent plus longues mais également plus épaisses, ce qui peut faire
confondre ce phénomène avec la proéminence de ces syllabes.
En général, selon les enseignants ayant assisté à la présentation de notre outil en juin 2013,
notre prototype était très prometteur, censé devenir un vrai support dans l’apprentissage de la
prosodie, à condition toutefois d’y apporter certaines améliorations et modifications et d’en
effectuer l’évaluation d’efficacité.
3.1.3.3 Ajustement du système
Comme nous l’avons déjà remarqué (ch. 3.1.3.2), le système développé dans le cadre du
présent mémoire est une continuation logique de notre projet de NTIC (Nouvelles
technologies de l'information et de la communication). Après l’élaboration d’une première
version de l’outil de visualisation de la prosodie pour le séminaire de NTIC, il était prévu de
le faire évaluer par des enseignants spécialisés de FLE, afin de cibler les besoins réels des
apprenants au niveau de la prosodie et de déterminer les éléments qui pouvaient être
conservés et ceux qui devaient être modifiés. Cette évaluation ne pouvant être l’objet d’un
80
mémoire de FLE, cette étape a été effectuée par les deux enseignants experts en phonétique
qui ont parvenus aux conclusions suivantes :
Du point de vue de la présentation de l’outil, la première version de celui-ci comportait

multiples champs des paramètres prosodiques qui avaient ont été élaborés pour trouver une
meilleure représentation de la visualisation. Cependant ces champs risquaient de surcharger
les apprenants en informations, sans pour autant leur permettre de déterminer les éléments les
plus importants et sur lesquels ils doivent cibler leur apprentissage. Il a donc fallu simplifier la
visualisation pour ne garder que les paramètres les plus importants, qui, pour le FLE, seraient
l’accentuation et l’intonation.
Du point de vue didactique, comme le mentionne l’approche pyramidale de Gilbert (2008), il

paraît crucial de pouvoir travailler séparément ces deux paramètres principaux, afin que le
programme propose une approche par étapes :
La première étape serait de montrer le texte sous une forme graphique standard, afin de
permettre aux apprenants de se familiariser avec le texte (première lecture, déchiffrage
graphie-phonie, recherche du vocabulaire, éventuellement annotation de certains segments en
API, etc.).
La deuxième étape serait de proposer aux apprenants un modèle oral du texte, lu par un natif.
Dans la troisième étape, les apprenants pourraient utiliser la partie "accentuation" de l’outil de
visualisation. Dans cette partie, seuls les groupes accentuels (correspondant à celui du modèle
oral) et l’accentuation primaire, et non pas secondaire, seraient visibles.
Dans la quatrième étape, les apprenants pourraient visualiser la courbe intonative, sous une
version simplifiée (cf. 10 contours principaux du français par Delattre), avec un ciblage sur la
fin des groupes accentuels, sous forme montante ou descendante. Le reste de la phrase serait
sans effets graphiques, afin de ne pas présenter des mouvements mineurs qui risquent de
distraire l’apprenant et l’empêcher de se concentrer sur les éléments principaux. Une version
ultérieure pourrait permettre une visualisation plus fine des débuts et milieux de phrase, mais
il semble préférable d’éviter ces variations dans cette première étape.
Les étapes 3 et 4 ont l’avantage de pouvoir travailler les deux éléments principaux de la
prosodie du français (l’accentuation et l’intonation) de manière séparée. Il semble préférable
de commencer par l’accentuation – le groupage, qui permet de structurer la phrase oralement,
81
ce qui est crucial en français – pour passer ensuite à l’intonation, qui apportera un mouvement
montant ou descendant final. Les apprenants pourraient toutefois, dans la version finale,
disposer des deux types d’informations simultanément.
L’outil devrait donc comporter trois types de visualisation possibles (avec des boutons
correspondants à cocher) que l’on pourrait activer séparément et/ou simultanément pour
disposer de l’ensemble des informations :
 la forme graphique simple ;
 la visualisation avec les paramètres de l’accentuation (l’accentuation primaire

et les groupes accentuels) ;
 la visualisation avec les paramètres de l’intonation (visualisation d’une courbe

mélodique basique, avec un mouvement final uniquement).
La première version de notre outil était néanmoins, phonétiquement parlant, assez réussie, en
offrant la possibilité de visualiser toutes les nuances mineures d’un enregistrement sonore.
Cette possibilité peut être gardée pour être utilisée éventuellement avec des apprenants du
niveau de français avancés, qui ont déjà bien compris les paramètres principaux et qui veulent
travailler le détail. Cependant, nous avons préparé l’outil pour les apprenants qui ont un
niveau plus bas et qui ont donc besoin d’une aide accrue dans l’acquisition d’une bonne
prosodie. A cet effet, il a fallu rendre notre outil phonologique : le didactiser en éliminant les
éléments parasites et en ne gardant que l'essentiel.
Cette démarche de la didactisation de notre outil de visualisation nous a demandé un grand

investissement de temps et d'énergie. Nous allons donc, premièrement, en décrire les étapes
les plus importantes. Deuxièmement, nous exposerons les solutions qui n’entreront pas dans
la version finale, mais qui présentent une valeur pédagogique et peuvent ainsi être inclues
dans les versions prochaines du programme.
Nous commençons par la version de l’outil du 13 Septembre 2013 (ici et après : la V.

13.09.13). Dans cette version, nous avions introduit un espace artificiel entre les mots pour
que le lecteur puisse bien distinguer les mots juxtaposés (fig. 50).
82
 Prototype
Figure 50 : Espacement entre les mots

dans le prototype (en haut) et dans la
V. 13.09.13 (en bas)
 La V. 13.09.13
En conséquence, l’outil ajoutait automatiquement une ligne supplémentaire à la fin de chaque

mot dans le document txt d’origine pour après la traiter comme une pause (tab. 7).

Il- 6.094 6.224 226 77 0
s a- 6.224 6.404 244 80 0
chètent 6.404 6.604 300 79 2
0 0 0 0
des 6.604 6.724 248 79 0
0 0 0 0
choses 6.724 7.004 238 76 0
0 0 0 0
Tableau 7 : Espacement entre les mots, les lignes ajoutées dans le document txt d’origine (en vert claire)
L’origine de ce problème réside dans la différence d’architecture du discours oral et discours

écrit. Dans ce dernier, les mots se séparent par un espace, mais, dans le discours oral, il y a
une tendance à approcher les mots pour obtenir une fluidité du discours, ce que notre système
a essayé de transmettre dans sa première version. Par conséquent, nous avons dû ajuster la
visualisation de la durée selon les exigences imposées par le texte écrit.
Une autre imperfection du prototype était l’ignorance de la taille des lettres qui a provoqué
une fausse représentation du texte dans un mode sans la visualisation de la durée (fig. 51).
 Prototype
Figure 51 : Taille des

lettres dans le prototype
(en haut) et dans la V.
13.09.13 (en bas)
 La V. 13.09.13
Cette ignorance de la taille des lettres se manifestait par la considération que tous les
caractères ont la même taille sur l’écran, ce qui n’est pas conforme à la réalité, car, par
exemple, un "m" occupe au moins trois fois plus de place sur l’écran qu’un "i", d’où notre
tableau 8 divisant tous les caractères selon leur taille :
83
Caractères en ordre Taille en pour cent

du moins large (en haut) au plus large (en bas) par rapport à la taille standard
ijl,;:\.¦|' 29
rtfI-!\°/()[] 45
Eèézuopaàäscç? 53
qdghkyxvbnJöo¢"}{ 56
$PS£1234567890§*#+_=~<>^ 75
œwmQERTZUADFGHKLYXCVBN& 80
OWM@ 95
Tableau 8 : Différenciation de la taille des lettres
Cette division des caractères a été faite selon leur taille dans les navigateurs Opera ou Google
Chrome. Notre programme prend en considération ce tableau 8 et assure ainsi un bon
affichage des caractères selon n’importe quelle taille standard. Cette adaptation à la taille
standard peut s’avérer utile pour ajuster la taille des lettres selon la résolution et/ou la taille de
l’écran.
Enfin, dans la V. 13.09.13, nous avons ajouté la première version de la visualisation des
groupes accentuels en forme d’ellipses délimitant ces derniers. Cette délimitation se base sur
une simple détection des signes de ponctuation suivants : ,.;:?! (fig. 52).
Figure 52 : V. 13.09.13, Visualisation des groupes accentuels
84
Cette délimitation n’est pas parfaite parce qu’elle ne reflète pas bien la réalité. Par exemple,
l’énoncé "Adieu ! dit le Renard" : la locutrice le prononce en une seule fois, mais le
programme le divise en deux groupes accentuels.
En ce qui concerne les couleurs, elles ont été utilisées exclusivement pour renforcer la
délimitation visuelle des groupes accentuels.
La démarcation des groupes accentuels est assez exacte si l’on se base sur la durée des pauses
effectuées dans l’enregistrement sonore, qui sont représentées par un tiret dans notre
document txt des résultats d’analyse acoustique. Cette méthode de délimitation a été mise en
œuvre dans la V. 24.01.14, décrite ci-après :
Nous avons calculé la durée moyenne de la pause en répertoriant toutes les pauses sous un
tableau à trois colonnes : le nombre de la syllabe, la syllabe avant la pause, et la durée de la
pause en millisecondes (tab. 9). 0.5ms est devenu la durée moyenne et également le pivot
divisant toutes les pauses en deux catégories de longueur : 50 pixels et 100 pixels (fig. 53).
Tableau 9 : V. 24.01.14, Tableau des pauses d’un texte avec trois colonnes (de gauche à droite) : le nombre de
la syllabe, la syllabe avant la pause et la durée de la pause en millisecondes
50px 50px
100px
Figure 53 : V. 24.01.14, Division des pauses en deux catégories de longueur : 50px et 100px
Cependant, il y avait quelques problèmes, actuellement résolus, pour la délimitation des

groupes accentuels qui occupaient deux (fig. 54) ou trois (fig. 55) lignes.
85
Figure 54 : V. 24.01.14, Problèmes avec la délimitation des groupes accentuels
Figure 55 : V. 24.01.14, Problèmes avec la délimitation des groupes accentuels
Dans la même version, nous avons simplifié la visualisation de la prosodie en la limitant à

deux, et après, dans les versions ultérieures, à un dernier mot de chaque groupe accentuel (fig.
56) pour que les apprenants se concentrent sur les éléments essentiels de la prosodie.
Cependant, pendant la réalisation de cette tâche, nous avons rencontré un problème : si nous
regardons bien, par exemple, la figure 48, nous remarquons que chaque syllabe monte ou
descend par rapport à la syllabe précédente, ce qui veut dire que si nous visualisons seulement
les deux derniers mots du groupe accentuel, les autres mots de ce groupe resteront donc tous à
un niveau semblable. Aussi, cela ne garantit pas que, par exemple, le mot tard dans "pour
mieux s’en rappeler plus tard" (fig. 48) sera montant, mais, au contraire, il y a plus de chances
que ce mot sera descendant. C'est la raison pour laquelle nous avons trouvé la fréquence
fondamentale moyenne de chaque groupe accentuel. Ensuite, nous avons calculé la différence
entre la fréquence fondamentale des deux derniers mots du groupe accentuel et la f0 moyenne
de ce groupe. Enfin, il nous est resté à ajouter cette différence à la fréquence fondamentale
générale que nous déterminons expérimentalement comme égale à 190. Le résultat de cette
arithmétique est la f0 ajustée de ces deux derniers mots.
86
Figure 56 : V. 24.01.14, Simplification de la visualisation de la prosodie
Dans la version du 30 janvier 2014, nous avons rencontré et résolu un paradoxe assez difficile
de notre programme : la fréquence fondamentale de certains mots changeait très brusquement,
et sans aucune raison apparente (fig. 57).
Figure 57 : V. 30.01.14, Paradoxe de notre programme
Nous avons alors décidé d’additionner la fréquence fondamentale des syllabes de chaque
groupe accentuel pour trouver la place où la f0 se modifie instantanément, c’est-à-dire, où la
différence entre la somme de f0 présente et la somme de f0 précédente dépasse 270Hz, ce que
l’on a marqué par la couleur rouge. En même temps, nous avons essayé d’étudier la fréquence
de ce problème en recueillant toutes ses manifestations sous un tableau 10, et ce, de la
manière suivante : cinq lignes pour chaque cas, celle qui est au milieu représentant la ligne où
ce problème a été remarquée.
87
Ce tableau 10 a également sept colonnes :
 Le numéro d'ordre de la syllabe ;
 La syllabe elle-même ;
 La fréquence fondamentale du document txt d’origine ;
 La fréquence fondamentale passée à travers le logarithme de l’outil (ou

standardisée) ;
 La fréquence fondamentale moyenne du groupe accentuel présent ;
 La somme de toutes les fréquences fondamentales "logarithmisées" jusqu’à la

fréquence fondamentale "logarithmisée" présente ;
 La plus grande différence entre la somme présente de toutes les fréquences

fondamentales est la somme précédente du groupe accentuel présent.
Ci-dessous, nous présentons les résultats de cette mini-recherche pour le texte sur les
transports (tab. 10).
148 de 179 224 227 456 1148 319 la 182 225 227 4209 455
149 0 224 227 681 1148 320 0 225 227 4434 455
150 l'U 197 228 227 1829 1148 321 voi 193 227 227 4890 455
151 ni 206 230 227 2060 1148 322 ture 297 246 227 5136 455
152 ver 189 226 227 2287 1148 323 0 246 227 5383 455
------------------------ ------------------------
177 à 88 193 180 4171 449 517 sonnes 262 241 225 4452 457
178 0 193 180 4365 449 518 0 241 225 4693 457
179 Ge 180 224 211 4814 449 519 in 197 228 212 5150 457
180 nève, 252 239 225 5054 449 520 ter 190 227 211 5377 457
181 224 234 227 234 449 521 ro 191 227 211 5605 457
------------------------ ------------------------
230 gers 285 244 227 1416 690 597 teurs 228 234 227 2346 910
231 0 244 227 1661 690 598 0 234 227 2581 910
232 ac 195 228 227 2352 690 599 in 187 226 227 3492 910
233 tu 225 234 227 2586 690 600 flu 209 231 227 3723 910
234 els 259 240 227 2827 690 601 en 189 226 227 3950 910
Tableau 10 : V. 30.01.14, Paradoxe de notre programme (pour l’intégrité du texte voir Annexe A)
88
En guise d’illustration de ce paradoxe, prenons le deuxième cas mentionné dans le tableau 10.
La syllabe en cause est "Ge" ; la somme totale des fréquences fondamentales avant cette
syllabe est 4365, la f0 de "Ge" est 224, or 4365+224=4589, cependant le programme nous
donne 4814, ce qui excède le vrai résultat de 225.
En étudiant ce tableau 10, on constate qu’il y a une régularité surprenante : la plus grande
différence des sommes est toujours n fois plus grande que la syllabe rouge, où n est le nombre
des syllabes du mot qui commence par cette syllabe rouge. Ainsi, par exemple, le mot "l’U-ni-
ver-si-té" a cinq syllabes, la fréquence fondamentale de la première syllabe de ce mot est
228Hz, or 5*228=1140, ce qu'il fallait démontrer.
Il a été difficile de trouver une solution de ce "paradoxe" (fig. 58). Dans notre algorithme, on
a fait en sorte que le mot doit passer entièrement à la nouvelle ligne. C'est pourquoi, en
fonction du nombre de syllabes dans ce mot, on a dû décrémenter le même nombre des
syllabes sur la ligne précédente et également le même nombre d'ordre général de syllabes, ce
qui n'avait pas été pris en compte et le programme ajoutait selon le mot, 5 ou 2 ou n fois le
même pitch à la somme.
Figure 58 : V. 30.01.14, Paradoxe de notre programme résolu
Il nous reste encore à décrire quelques changements radicaux dans l’apparence du programme
en n’oubliant pas de parler d’autres modifications visant à didactiser l’outil. Le design joue
également un rôle important dans la didactisation de notre programme, c’est pourquoi nous lui
avons prêté une grande attention.
89
4 1
Figure 59 : V. 04.02.14
Sur la figure 59, nous pouvons remarquer six chiffres, dont les trois premiers nous présentent
les améliorations qui ont été retenues dans la version finale, ce qui n’est pas le cas des trois
derniers. Cependant, le sixième désigne un concept intéressant et éventuellement utilisable
dans les futures versions de l’outil.
La première modification représente la possibilité de commencer à écouter l’enregistrement à

partir de n’importe quelle syllabe. Le deuxième changement concerne le lecteur MP3, dont
l’apparence a été perfectionnée avec les possibilités offertes par SVG. D’ailleurs, ce lecteur se
base sur le DEWplayer, un lecteur MP3 utilisant les technologies de la programmation flash.
Ces deux changements sont présents dans l’outil depuis la V. 10.10.13.
Le troisième changement, plus récent, apparu dans la V. 02.02.14, a touché l’aspect visuel du
menu. En effet, nous avons réduit les paramètres à manipuler à deux, englobant ceux qui ont
été supprimés, à savoir : l’accentuation et l’intonation. Cependant, dans la V. 27.02.14 le
bouton "l’accentuation" sera divisible en deux autres boutons : l’accent primaire et le groupe
accentuel, permettant de visualiser relativement ces deux paramètres d'accentuation. Le
bouton "Accent primaire" servira donc à visualiser celui-ci en doublant la taille de la dernière
90
syllabe de chaque groupe accentuel par rapport à celle des syllabes inaccentuées. On
marquera également une telle syllabe par la couleur rouge. Le bouton "Groupe Accentuel" y
ajoutera seulement une ellipse.
Effectuée dans la même version de l’outil, la V. 02.02.14, la quatrième modification portait

partiellement sur la visualisation de l’accentuation, et se manifestait par la division de tous les
groupes accentuels en trois groupes de couleur selon leur taille : nous avions indiqué les
groupes courts en vert, les moyens en jaune, et les grands en rouge. Ce dégroupage avait été
entrepris pour signaler aux lecteurs les efforts qu’il faudrait faire pour lire le groupe accentuel
suivant. Toutefois ces couleurs étaient redondantes, car la taille des groupes accentuels parlait
d’elle-même. C’est pourquoi, en ayant consulté les enseignants experts en phonétique, nous
avons décidé de laisser seulement le jaune, constituant le meilleur fond pour les caractères.
Le cinquième point modifié était le passage des groupes accentuels à la nouvelle ligne, ce qui
a été implémenté dans la V. 02.02.14. Ce passage était régulé par une condition prescrivant de
ne passer à la ligne que dans le cas où, sur la ligne présente, il y aurait 10% de groupe
accentuel présent. Nous avions présupposé que cela aurait facilité la lecture. Or, en réalité,
cela risquait d’engendrer de fausses pauses pendant la lecture. Donc cette modification n’a
pas été retenue.
Le même sort attendait la sixième modification, qui figurait f pourtant dans le programme
depuis la V. 13.09.13. Avec toutefois une exception : il s’agit de la visualisation des liaisons
et des enchaînements (fig. 60), qui pourrait être exploitable dans les versions ultérieures de
l’outil, mais qui est jugée superflue pour la version finale présente, en vue d’une expérience
prochaine visant tester l’utilité de notre outil.
Figure 60 : V. 13.09.13, visualisation des liaisons et des enchaînements
Il y avait encore une autre idée intéressante non retenue pour la version finale, mais qui mérite
toutefois une place dans les versions futures de notre système. Il s’agit des boules d’aide, avec
les définitions des mots difficiles qui sont censés apparaître près des mots concernés quand il
n'y a pas de visualisation à l’étape, lorsque l’apprenant se familiarise avec le texte (fig. 61).
91
Figure 61 : V. 04.02.14, Boule d’aide avec la définition du mot
Enfin, pendant cette longue période d’amélioration et de didactisation de notre outil, nous
avons trouvé quelques fautes dans les documents txt contenant les résultats de l’analyse
acoustique et de l’alignement produits pendant la première étape.
Entre autres, nous avons rencontré une fausse détection de la fréquence fondamentale à la fin
des groupes accentuels, ce qui était un problème assez fréquent, que nous pouvons percevoir
en observant l’exemple présenté dans l’Annexe G. Par exemple, en utilisant le point à l’écrit,
on marque ainsi souvent la fin de la phrase. Pour faire la même chose au niveau de la prosodie,
on la prononce avec une intonation descendante, ce que le modèle fait, mais la visualisation
montre le contraire (fig. 62).
Figure 62 : V. 24.01.14, Fausse détection de la fréquence fondamentale
En effet, nous avons comparé les visualisations des enregistrements sonores faites par le
Praat (Boersma et Weenink, 2013) (fig. 63) avec des résultats du document txt (tab. 11) et
nous avons constaté un décalage énorme entre ces deux données.
92
Figure 63 : V. 24.01.14, Fausse détection de la fréquence fondamentale

une 19.746 19.856 172 66 0
trans- 19.856 20.126 209 66 2
plan- 20.126 20.286 233 63 1
ta- 20.286 20.416 177 66 0
tion. 20.416 20.751 373 63 4
Tableau 11 : V. 24.01.14, Fausse détection de la fréquence fondamentale
Dans la figure 63, nous pouvons voir que la vraie fréquence fondamentale de la syllabe "tion"
est 169,6 Hz et non pas 373 Hz. Le problème réside dans la prise en compte erronée de la
fréquence des consonnes ou semi-consonnes par un des programmes de la première étape.
Nous avons dû corriger cette faute manuellement.
En concluant ce sous-chapitre, il convient de mentionner que nous venons de présenter

seulement quelques-uns des éléments importants de notre travail, mais cela donne un aperçu
général de ce qui a été fait. Les autres changements importants seront exposés lors de la
présentation de la version finale de l’outil, ce qui sera effectué plus loin (section 3.1.4).
3.1.4 Version finale
Dans cette section, nous allons découvrir les dernières modifications effectuées sur notre
système, ainsi que la description complète de tous ses éléments et de leur fonctionnement.
Tout d’abord, nous nous intéresserons à l’interface de l’utilisateur, c'est-à-dire l’apparence

visuelle que nous découvrons en premier à l'ouverture du programme. Ensuite, nous
93
décortiquerons chaque objet que nous trouverons sur l’écran, en expliquant l’objectif de leur
présence sur notre page WEB. Ensuite, nous décrypterons les secrets des mécanismes de la
visualisation. Enfin, nous examinerons le cœur de notre outil et la description de sa structure.
3.1.4.1 L’interface de l’utilisateur
Lorsque nous ouvrons notre programme à travers un navigateur qui ne doit être que Google
Chrome ou Opera - car les autres ne supportent pas toutes les fonctionnalités de notre
programme (ch. 3.1.3.1) – une page WEB comportant quatre zones apparaît (fig. 64) :
1. Le menu ;
2. La zone d'affichage ;
3. Le lecteur MP3 ;
4. La barre de défilement.
Figure 64 : Version finale ‒ Interface de l’utilisateur
3.1.4.2 Les éléments de la page WEB principale
La zone de la page WEB principale la plus riche en boutons et en fonctions est le tableau de
bord ou, en langage informatique, le menu du programme (fig. 65). Les boutons de ce dernier
peuvent être clairement divisés en deux groupes : les boutons fonctionnels et les boutons de
navigation. Nous procéderons dans l’ordre susmentionné.
94
Figure 65 : Version finale ‒ Menu
Au total, nous disposons de huit boutons fonctionnels dont sept participent à la visualisation.
Ceux-ci jouent un rôle primordial dans le programme, car ils permettent de visualiser
l’accentuation et l’intonation, les deux paramètres principaux de la prosodie du français. Ces
boutons fonctionnent d’une manière très simple, qui est présentée schématiquement à la
figure 66 (l’exemple du bouton Intonation). Pour activer ou désactiver la visualisation d’un
paramètre, il faut premièrement cocher le bouton correspondant (fig. 66, point 1).
Deuxièmement, il faut confirmer le choix en cliquant sur le bouton Changer (fig. 66, point 2).
Finalement, le résultat apparaîtra dans la zone d’affichage (fig. 66, point 3).
Figure 66 : Version finale ‒ Activation/désactivation des paramètres prosodique
Il faut toutefois souligner une particularité du bouton Accentuation. Lorsque ce dernier est
activé, les boutons Accent primaire et Groupe accentuel apparaissent et nous donnent la
possibilité de visualiser séparément ou ensemble l’accentuation primaire et les groupes
accentuels.
95
Dans le cadre de l’explication du fonctionnement de ces quatre boutons de la visualisation, il

convient d’exposer les mécanismes de la visualisation, c’est-à-dire d’expliquer comment
notre programme visualise tel ou tel élément prosodique avec un éclaircissement au sujet de
notre choix.
Nous avons décidé de visualiser seulement le dernier mot de chaque groupe accentuel, pour
des raisons didactiques, afin de ne pas submerger les apprenants par des informations
supplémentaires qui sont superflues pour le niveau intermédiaire du français visé. Ainsi, le
bouton Accent primaire nous permet de visualiser les paramètres suivants :
L’accentuation primaire, qui est indiquée par la longueur augmentée du dernier mot et par la
couleur rouge de la dernière syllabe d’un groupe accentuel. L’augmentation de la longueur
des lettres est progressive du début du mot à sa fin, tout d’abord, pour signaler
l’accroissement de la durée et de l’intensité vers la fin du groupe accentuel, au point que la
syllabe accentuée acquiert la couleur rouge en étant à l’apogée de cet accroissement.
Cependant, cette démarcation de l’accent primaire crée également un agréable effet esthétique
(fig. 67).
Figure 67 : Version finale ‒ Visualisation de l’accentuation
Les pauses qui ont deux longueurs différentes selon leur durée (fig. 67).
Le bouton Groupe accentuel nous montre les groupes accentuels, dont les limites sont
indiquées par une ellipse jaune. Le choix de la forme d’ellipse pour délimiter les groupes
accentuels se base sur des raisons pratiques, pour bien percevoir la continuité d’un groupe
accentuel, et pour anticiper sa fin. Par contre, en nous basant sur nos préférences esthétiques,
notre choix est arbitraire, parce que d’autres formes peuvent également être utilisées, comme,
par exemple, les carrés, que l’on a rencontrés dans l’Intonation Image Builder (ch. 2.3.2.1).
La couleur jaune ne comporte aucune signification, si ce n’est qu’elle permet de bien mettre
en relief le texte placé sur elle.
En activant le bouton Intonation, nous demandons au programme de visualiser le mouvement

intonatif (fig. 68) sur le dernier mot de chaque groupe accentuel. Cela nous aide à déterminer
96
si l’intonation est descendante ou montante ou, autrement dit, si c’est un groupe accentuel
final ou non.
Figure 68 : Version finale ‒ Visualisation de l’intonation
Au total, selon les paramètres choisis, il y a sept modes de visualisation du texte (fig. 69) :
Quatre simples :
1. Texte sous une forme
graphique standard
2. Accent primaire
3. Groupe accentuel
4. Intonation
Et trois combinatoires :
5. Accent primaire +
Groupe accentuel
Intonation
Groupe accentuel +
Intonation
Figure 69 : Version finale ‒ Modes de la visualisation
Revenons à nos boutons du menu. Il y a encore un autre bouton impliqué dans la visualisation.
Si, au cours de travail, nous voulons avoir immédiatement le texte sous une forme graphique
standard, il faut appuyer sur le bouton Par défaut. Les quatre autres boutons du menu ont une
fonction de navigation ; c’est pourquoi nous les aborderons plus tard dans cette section, lors
de la présentation des autres pages de notre programme. Pour le moment, nous souhaitons
97
nous concentrer sur la description des autres fonctionnalités de notre outil comme, par
exemple, les trois différentes manières d’écouter l’enregistrement.
Nous en avons déjà vu deux manières (ch. 3.1.3.3) que nous rappelons : premièrement, nous
pouvons écouter l'enregistrement en utilisant le lecteur MP3, implémenté par nous-mêmes en
SVG et réalisé à la base du logiciel DEWplayer flash 15 (fig. 70).
Commencer / pauser Stopper l'enregistrement Changer le volume
La barre de progression,
sur laquelle on peut choisir le moment à partir duquel commencer le son
Figure 70 : Version finale ‒ Lecteur MP3
Deuxièmement, on peut cliquer sur n'importe quelle

syllabe pour écouter l'enregistrement à partir de
celle-ci (fig. 71). Figure 71 : Version finale ‒ Syllabe et
l’enregistrement
La troisième possibilité d’écouter le son

découle de la deuxième. En
développant l’idée d’écouter le son à
Figure 72 : Version finale ‒ Groupe accentuel et partir d’une syllabe choisie, nous avons
l’enregistrement
prévu l’option qui consiste à écouter individuellement chaque groupe accentuel. Ce que l’on
peut faire en cliquant sur le petit arbre au-dessus de chaque groupe accentuel (fig. 72). En
effet, notre première version de la manière d’écouter le son supposait de cliquer sur l’ellipse
elle-même ; cela s’est cependant avéré irrationnel. Comme les ellipses sont majoritairement
étroites, la probabilité d’appuyer sur une syllabe au lieu d’une ellipse était très forte, d’où
notre décision d’utiliser une image quelconque au-dessus de l’ellipse. Au demeurant, il faut
remarquer que les images (arbres) appliquées dans notre outil ont l’extension png pour que
leur fond soit transparent, ce qui crée ainsi un mariage cohérent avec le fond du programme.
15
http://www.alsacreations.fr/dewplayer.html - le site officiel de DEWplayer flash
98
En outre, du point de vue didactique, nous avons introduit les explications théoriques des
notions d’accentuation et d’intonation sous deux formes. Premièrement, sous la forme de
bulles d'aide (Annexe D) : par défaut, lorsque le curseur est placé sur le bouton de
l'accentuation ou de l'intonation, une bulle d'aide avec l'explication correspondante apparaît
(fig. 73).
Figure 73 : Version finale ‒ Bulle d'aide avec l'explication théorique
Cette option peut être désactivée. Il suffit de cocher le bouton qui se trouve dans l’angle
supérieur gauche du menu (fig. 64 et 65), puis pour réactiver l’option en question. De
plus, les explications proposées sous cette forme ne sont pas exhaustives. Au contraire, leur
construction est simplifiée et schématisée pour décrire brièvement et efficacement les notions
précitées. Par contre, pour les apprenants souhaitant acquérir des connaissances plus solides
dans le domaine de la prosodie, il existe une autre façon de représenter les explications
théoriques, sous une forme plus compréhensive : la page WEB séparée accessible par le biais
des l’un des boutons de navigation de menu (fig. 74a), dont nous avons déjà parlé
précédemment.
Un autre bouton de navigation nous amène à la page du mode d’emploi (fig. 74b), qui peut
par ailleurs être consulté dans le présent travail à l’Annexe B.
a. consulter les explications sur l'accentuation et l'intonation
b. lire le mode d'emploi
c. apprendre la prosodie du français (accentuation et intonation)
d. revenir à la page d'accueil
Figure 74 : Version finale ‒ Boutons de navigation
99
Lorsque l’on consulte une autre page que celle du programme, le bouton invitant à revenir à
l’apprentissage de la prosodie apparaît (fig. 74c).
Il nous reste encore à mentionner un dernier bouton : celui-ci nous ramène à la page d’accueil
(fig. 74d). Sur cette page, on peut regarder un petit dessin animé réalisé grâce aux
mécanismes SVG (pour les prises d’écran des pages contenant les explications théoriques, le
mode d’emploi et la page d’accueil, voir l’Annexe C).
Sur toutes les pages, sauf la page d’accueil, il existe une fonctionnalité que nous n’avons pas
encore décrite. Elle est mineure, mais très utile : la barre de défilement (fig. 75). Cette barre se
trouve toujours tout à gauche de l'écran et apparaît seulement lorsque le curseur est placé
dessus. Elle est conçue pour un déplacement rapide sur la page.
pour monter rapidement en haut de la page
pour descendre rapidement en bas de la page
Figure 75 : Version finale ‒ Barre de défilement
3.1.4.3 Ajustement de l’outil pour l’expérience
A partir de cette version finale de notre outil, nous avons préparé ensuite deux autres versions
(avec et sans visualisation) pour l’évaluation future de notre outil, et avons élaboré deux
modes d’emploi correspondants (Annexe B).
Les deux versions adaptées à l’expérience ont une modification commune : l’absence du
menu déroulant de choix du texte, afin d’éliminer ainsi la possibilité aux participants d’ouvrir
eux-mêmes les textes, car cela aurait pu influencer les résultats de la recherche. En outre, pour
les deux versions, nous avons laissé seulement deux boutons : Accentuation et Intonation.
Les modifications de la version avec la visualisation s’arrêtent à cette étape, ce qui n’est pas le
cas de la version sans visualisation. Dans celle-ci, en appuyant sur les boutons Accentuation et
Intonation, l’explication théorique correspondante apparaît sur l'écran dans une boîte de
dialogue (fig. 76).
100
Figure 76 : Version de l’outil sans la visualisation - Boîte de dialogue avec l’explication théorique
Ce changement en a directement influencé un autre : la disparition des bulles d’aide des

explications théoriques qui apparaissaient lorsque le curseur était placé sur l’un des boutons
Accentuation ou Intonation.
Après avoir étudié l’apparence visuelle du programme et présenté les fonctions assumées par
les objets de cet outil, nous voulons maintenant passer à la description de la structure de ce
dernier.
3.1.4.4 La description de la structure de l’outil
Dans cette partie de la présentation de l’outil, nous allons expliquer sa structure en énumérant
les différents fichiers qui constituent l’outil et en décrivant leur rôle dans le système.
Le fichier index.php remplit la fonction d’un cerveau appelant les autres documents et
réunissant leurs résultats sous un encadrement dont l’aboutissement est la page principale de
l’apprentissage de la prosodie.
Premièrement, ce document envoie, métaphoriquement parlant, la demande au fichier appelé

initialiser.php, de remplir les paniers avec les matériaux de construction et, informatiquement
parlant, d’initialiser les variables avec des informations qui seront ensuite utilisées par un
autre fichier, SVGenerator.php, pour créer la page WEB en SVG.
101
Deuxièmement, index.php ouvre le fichier SVGenerator.php, qui est responsable de tous les
calculs et de la création prochaine du code SVG, ce qui constitue l’élément crucial de la page
principale de l’entraînement de la prosodie.
Troisièmement, on appelle le document SVG_DEW_player.php, qui dessine le lecteur MP3 en

SVG. Ce lecteur est animé par un code JavaScript qui lie les objets SVG avec les fonctions de
DewPlayer et qui, étant un fichier séparé (SVG_DEW_player.js), est de nouveau sollicité par
index.php.
Les deux autres fichiers utilisant JavaScript, longueurMotSVG.js et showHideAccent.js, sont

respectivement indispensables pour l’ajustement de la longueur des lettres, en calculant
l’espace qu’elles doivent occuper, et pour l’affichage des deux boutons-satellites affichés lors
de l’activation du bouton Accentuation.
Enfin, la description de la mise en page et des styles de la page principale se trouve dans le
fichier CSS, style.css.
Les pages dédiées à la théorie prosodique, theorie.html, le mode d’emploi,

mode_d_emploi.html, ainsi que la page d’accueil, home.svg, sont représentés par des fichiers
séparés raccordés entre eux, et avec la page principale, par des hyperliens.
102
Nombre de Nombre des

No Nom de fichier Taille (KB)
lignes signes
1. index.php 226 10030 9.79
2. initialiser.php 97 3690 3.45
3. SVGenerator.php 547 23456 22.9
4. SVG_DEW_player.php 222 10056 9.913
5. SVG_DEW_player.js 162 5485 5.35
6. longueurMotSVG.js 11 338 0.338
7. showHideAccent.js 106 3286 3.2
8. style.css 482 9812 9.58
9. home.svg 209 9086 8.87
10. homeStyle.css 67 1032 1.032
11. theorie.html 88 4927 4.81
12. mode_d_emploi.html 258 10689 10.4
TOTAL : 2475 91887 89.633
Tableau 12 : Version finale ‒ Taille des fichiers constituant le programme
Au total, nous avons 91887 signes du code écrits sur 2475 lignes d’une taille commune
89.633 KB (tab. 12). Ces chiffres concluent la présentation de notre outil, dont nous
voudrions tirer quelques réflexions qui seront exposées dans la conclusion qui suit.
3.2 CONCLUSION
Dans ce chapitre, nous avons montré tout le processus de développement de notre outil,
depuis son point de départ jusqu’à sa version finale.
Par ailleurs, il faut impérativement remarquer que la conception de l’outil ne commence pas
par le développement du programme lui-même, mais que ce processus prend sa source dans
l’analyse des questions théoriques concernées (ch. 1) et dans la recherche et la description des
autres outils semblables (ch. 2). Cette accumulation d'informations et leur analyse nous ont
permis de mettre en évidence un certain nombre de points indispensables pour entamer les
réflexions sur les concepts, les fonctions et le design de notre futur outil, ainsi que leur
implémentation (ch. 3.1.3).
Ayant préalablement étudié le concept de l’écriture prosodique dans le chapitre précédent

(2.3.3), nous avons tenté ensuite d'implémenter ce mode de visualisation dans notre
103
programme, en apportant tout d’abord dans cette idée les modifications imposées par les
spécificités de la prosodie de la langue française, qui sont importantes selon la didactique de
cette dernière, ce qui prévoit une visualisation de l’accentuation et de l’intonation ciblée sur la
fin des groupes accentuels.
Cependant, pour pouvoir commencer le processus de développement de l’outil lui-même, il a

fallu préparer les résultats d’analyse acoustique des différents enregistrements sonores faits à
cette occasion sur la base de textes adaptés. EasyAlign (Goldman, 2011) et ProsoProm
(Mertens, 2004) nous ont permis de recevoir les résultats de ces analyses sous la forme des
documents txt. De fait, EasyAlign (Goldman, 2011) facilite énormément le travail de
l’alignement du texte orthographique et, ensuite, de sa transcription par rapport à
l’enregistrement sonore. Par contre, cet outil demande une participation humaine assez
importante entre ses trois étapes, et n’est pas sans erreurs. Cela nous amène à la conclusion
qu’il faudra encore l’améliorer pour qu’il soit plus autonome, voire complètement
automatique, et ainsi parfait. Dans le cas contraire, nous pouvons envisager l’adaptation
d’EasyAlign (Goldman, 2011) aux demandes de notre outil de visualisation.
Une fois les résultats de l’analyse acoustique prêts, nous avons pu choisir les outils suivants
par le biais desquels on peut traiter ces données et les visualiser : PHP, qui est utilisé pour
étudier les résultats reçus et les introduire dans le code SVG, également créé par PHP ; SVG,
pour visualiser les paramètres prosodiques ; xHTML, CSS, JavaScript pour assurer une mise
en page, belle et harmonieuse ; et d’autres fonctions du programme censées supporter la
cohérence de son service.
La version finale de notre outil est le fruit d’une longue période d’innombrables essais et tests,
parcourus en partie dans le cadre de ce chapitre. De nombreuses modifications de notre outil,
au fur et à mesure de son application, ont été discutées avec les enseignants experts en
phonétique, assurant ainsi une conformité aux besoins réels des apprenants. Certains de ces
changements ont été retenus, d’autres non, et d’autres encore ont été gardés pour être utilisés
dans les éventuelles versions futures de notre programme.
En guise de comparaison de l’idée de départ avec le résultat final obtenu dans le cadre de ce
travail, nous proposons la figure suivante (77), qui parle d’elle-même :
104
Figure 77 : En haut ‒ Point de départ. Source : Rude (2012 : 256).

En bas ‒ Version finale de notre outil
De plus, ce travail assez significatif nous a permis non seulement d’apprivoiser les langages
de la programmation WEB aux fins de l’enseignement de la prosodie de FLE, mais également
de créer un lien fort entre les nouvelles technologies, la linguistique et la didactique de FLE.
À l'aide de clefs de connaissances d’ordre technologique, nous pouvons ouvrir de nouvelles
portes vers d’autres possibilités d’ordre didactique, à savoir l’enseignement de la prosodie.
Cependant, l’objectif de ce travail de mémoire ne saurait être atteint sans pouvoir tester et
évaluer l’efficacité/l’utilité de notre système dans la pratique. Ainsi, l’objectif que nous
recherchons est l’évaluation de la visualisation faite par notre outil sur des apprenants du FLE.
Dans la suite de ce travail, nous allons nous intéresser à la présentation de cette recherche.
Nous essaierons d’exposer, d'une part, l’étape préparatoire du test susmentionné impliquant le
choix du terrain, la détermination du niveau de la langue visé, le choix des textes à enregistrer,
les passations des apprenants, etc., et, d'autre part, l’analyse et les résultats de cette recherche.
105
4. ÉVALUATION DE L’OUTIL DE VISUALISATION PAR
DES APPRENANTS DE FLE
L'objectif principal de cette évaluation, ainsi que de tout le présent travail, est de répondre à
la question dont nous avons déjà fait mention auparavant (dans l’introduction) : "Un nouveau
système de visualisation de la prosodie : une aide dans l'apprentissage de la prononciation en
français langue étrangère ?". En effet, lorsque nous avons présenté les différents outils
informatiques conçus, partiellement ou entièrement, pour aider les apprenants dans
l’acquisition de la prosodie d’une langue étrangère, nous avons souligné que rares sont ceux
qui peuvent vraiment influencer la prononciation des apprenants. Dans la partie pratique de
ce travail, nous avons présenté un nouvel outil, basé sur le travail préalable de Rude (2012).
Nous avons donc logiquement cherché à savoir si notre outil procure réellement un résultat
bénéfique.
Répondre à cette question n’est possible qu’en faisant tester en pratique notre outil par des
étudiants apprenant le français. Cette évaluation de l’outil consiste en deux étapes :
l’obtention de productions d’apprenants de FLE, et l’évaluation de ces productions par des
spécialistes, afin de mesurer l’apport de l’outil. La première étape (obtention des textes) est
présentée dans la section 4.1, alors que l’évaluation des productions est exposée dans la
section 4.2.
4.1 OBTENTION DES TEXTES
4.1.1 Méthode
4.1.1.1 Participants
Pour éliminer le plus possible de facteurs superflus qui peuvent influencer les résultats du test,
nous avions décidé de choisir les participants en nous basant principalement sur deux
conditions :
Les participants doivent avoir une langue maternelle similaire, et qui était, dans notre cas, le
russe ;
Les participants doivent apprendre le français langue étrangère depuis au moins un semestre
dans un cadre le plus similaire possible, à savoir en immersion à Genève. Une exception à
106
ÉVALUATION DE L’OUTIL DE VISUALISATION PAR DES APPRENANTS DE FLE
cette condition a toutefois été faite pour une étudiante, venue de la République de Bachkirie,
pour des raisons touristiques, parce que son niveau de français était assez haut : B2+, selon le
Cadre Européen Commun de Référence pour les Langues (CECRL).
Ainsi, seize apprenants russophones du français langue étrangère (6 hommes et 10 femmes),

dont l’âge se situait entre 21 et 52 ans (âge moyen : 26,2 ans), de niveau B1-B2+ en français,
ont pris part à l'expérience.
Sept entre eux étaient des étudiants du Centre International de l'Université d'Etat de Moscou
Lomonosov (CIL) à Genève. Leur niveau se situait aux alentours de B1. Six autres suivaient
différents cursus à l’Ecole de langue et de civilisation françaises de l’Université de Genève
(Année Propédeutique (AP) et Diplôme d’Études du Français Langue Étrangère (DEFLE)).
Les trois étudiants de l’AP étaient de niveau B1+ et les trois du DEFLE de niveau B2+. Les
trois étudiants restants apprenaient le FLE en dehors des établissements susmentionnés. Deux
étaient de niveau B1+ et un de niveau B2+.
L’une des six étudiantes de l’Université d’Etat de Moscou Lomonosov, ainsi que l’une des
trois étudiantes de l’AP de l’Université de Genève ont été exclues de l’étude, suite à la
passation, pour des raisons différentes : la première n’était pas motivée et n’avait pas travaillé
durant les séances d’exercices. La seconde était malade lors de la deuxième passation et, de ce
fait, très stressée aussi dans ses lectures. Nous avons par conséquent estimé que cela risquait
de fausser l’évaluation et l’avons éliminée. Au final, quatorze étudiants ont donc pris part à
l’évaluation de l’outil.
Ces quatorze apprenants ont été répartis en deux groupes :
Le groupe A, formé de 7 apprenants, constitue le groupe " contrôle " qui travaille la prosodie
selon une méthode classique, sans la visualisation.
Le groupe B, formé de 7 apprenants, constitue le groupe " test ", qui travaille la prosodie avec
la visualisation offerte par notre outil.
4.1.1.2 Matériel
Pour l’évaluation, nous avons utilisé le matériel suivant :
a) les quatre textes présentés dans la section 3.1.1.
107
b) l’enregistrement, effectué par une locutrice native, de trois des quatre textes :
 "Prendre des photos, une aide pour la mémoire ?" ;
 "Les phobies sont-elles être héréditaires ?" ;
 "En ville, se déplacer en bus et en trams, c’est tendance !".
c) notre outil de la visualisation de la prosodie dans sa version décrite dans la section

3.1.4.3. À cet égard, il convient de remarquer qu’étant installé sur un serveur, notre
système était accessible à distance via Internet16, ce qui nous a obligés à avoir des
ordinateurs connectés au réseau Internet avec des navigateurs déjà préinstallés. Nous
devons toutefois rappeler que notre outil peut proprement fonctionner uniquement sur
les navigateurs Opera ou Google Chrome, ce que nous avons déjà signalé auparavant
en expliquant le travail du langage de la programmation WEB SVG (ch. 3.1.3.1.).
4.1.1.3 Procédure
L’évaluation s’est principalement déroulée dans un laboratoire de langue de l’Université de

Genève équipé d’ordinateurs connectés à Internet et de casques avec microphones. Quelques
apprenants l’ont effectuée dans une salle de classe normale, et disposaient d’un ordinateur
portable connecté à Internet et d’un casque avec microphone.
Les deux groupes d’apprenants (groupe A et groupe B) ont effectué l’évaluation séparément.
Pour chaque groupe, l’évaluation était répartie en trois séances disposées sur cinq jours et
débutait, lors de la première séance, avec l’enregistrement de la lecture du texte Don
d’organes : la Suisse manque-t-elle de cœur. Les apprenants s’entraînaient ensuite à l’aide de
trois textes enregistrés (sans visualisation pour le groupe A et avec visualisation de la
prosodie pour le groupe B), puis, lors de la dernière séance, une deuxième lecture du texte
"Don d’organes" était effectuée par chaque apprenant. L’évaluation de l’efficacité de l’outil a
ensuite été réalisée en comparant la première et la deuxième production de ce même texte.
Les trois séances se sont déroulées de la manière suivante :
Lors de la première séance (pour le plan détaillé de la première séance voir Annexe E), qui
durait environ 90 minutes, les apprenants ont suivi une brève présentation des notions
16
L’accès à l’outil a toutefois été bloqué lors de la phase d’évaluation, afin que les participants ne puissent pas y
accéder.
108
d’accentuation et d’intonation pour le français. Le déroulement de l’évaluation leur a ensuite

été présenté. La séance s’est poursuivie avec la présentation de la version de l’outil en
fonction du groupe. Cette partie introductive s’est terminée par la définition de l’objectif de la
recherche, ainsi que par la présentation de son plan. Les participants ont ensuite reçu une
feuille de papier sur laquelle figurait le texte Don d’organes : la Suisse manque-t-elle de cœur
avec des espaces suffisamment grands pour permettre éventuellement aux apprenants
d'apporter des annotations (crochets, signes d’accentuation, transcription des mots considérés
difficiles, etc.). Pour se familiariser avec le texte (première lecture, déchiffrage graphie-
phonie, recherche du vocabulaire, etc.) et pour pratiquer un peu la lecture à haute voix, les
étudiants disposaient de 10 minutes Nous avons ensuite demandé aux participants de lire ce
texte à haute voix, à débit normal et de s’enregistrer, en précisant qu'ils ne pouvaient le faire
qu’une seule fois. L’enregistrement a été effectué avec les logiciels Audacity 2.0.5 ou Sonos.
Une fois l’enregistrement effectué, la phase d’entraînement pouvait commencer. Les
apprenants disposaient de trois textes modèles lus par une francophone native (Annexe A),
ainsi que de l’outil sans visualisation pour le groupe A, et avec visualisation pour le groupe B.
Un premier texte, "Prendre des photos, une aide pour la mémoire ?", a été mis à leur disposition
lors de la première séance. Nous leur avons conseillé de travailler la lecture des textes de la
manière suivante :
Premièrement, de lire le texte en n’entraînant que l'accentuation (~10min) ;
Deuxièmement, de lire le texte en n’entraînant que l'intonation (~10min) ;
Et enfin, de lire le texte en entraînant les deux (~10min).
En outre, les logiciels Audacity 2.0.5 et/ou Sonos ont permis aux étudiants de s'enregistrer et
de comparer ensuite leur production avec l'original, afin de dépister les éventuelles fautes de
prononciation.
Lors de la deuxième séance, qui durait environ 30 minutes, les apprenants disposaient d’un
deuxième texte, "Les phobies sont-elles être héréditaires ?", pour s’entraîner.
Enfin, lors de la troisième séance, qui durait environ 50 minutes, un troisième texte, "En ville,
se déplacer en bus et en trams, c’est tendance !", leur était proposé pour s’entraîner. Puis le
texte Don d’organes : la Suisse manque-t-elle de cœur était enregistré une deuxième fois.
Le tableau 13 résume, de manière schématique, le déroulement de chaque séance.
109
Séances Temps Activités

1. Introduction (la prosodie, le mode d’emploi, déroulement et objectifs de
l’expérience)
2. Pré-test : lecture du texte "Don d’organes : la Suisse manque-t-elle de
1ère 90 min
cœur ?" + enregistrement de cette production
3. Entraînement avec le texte "Prendre des photos, une aide pour la
mémoire ?"
2ème 30 min 4. Entraînement avec le texte "Les phobies sont-elles être héréditaires ?"
5. Entraînement avec le texte "En ville, se déplacer en bus et en trams, c’est
tendance !"
3ème 50 min
6. Post-test : lecture du texte Don d’organes : la Suisse manque-t-elle de
cœur ? + enregistrement de cette production
Tableau 13 : Déroulement de l’expérience
4.1.2 Résultats
Ainsi, à l’issue des trois séances, nous avons obtenu pour chaque apprenant deux productions
du texte Don d’organes : la Suisse manque-t-elle de cœur ?. Cela représente au total
28 enregistrements, dont l’évaluation est présentée dans la section suivante (4.2).
Les participants ont également fourni un feedback oral concernant l’évaluation, ainsi que des
propositions d’améliorations/modifications. D’une manière générale, tous les apprenants ont
apprécié le travail avec cet outil de visualisation et seraient heureux de pouvoir continuer à
l’utiliser pour travailler leur prononciation. Ils ont relevé que cela les aide à mieux percevoir
le système prosodique du français.
Les participants ont également fait des propositions d’améliorations possibles :
Selon certains participants, il faut encore repenser l’apparence de l’outil qui est pour le
moment trop enfantine.
Certains participants ont demandé l’ajout d’un bouton pause plus accessible que celui qui se
trouve sur le lecteur MP3 en bas de l’écran.
Certains participants ont suggéré de créer une option qui permettrait de faire automatiquement
défiler le texte en bas de la page à l’instar des titres à la fin du film. Cette fonction est
notamment utile quand nous écoutons le son ou lorsque nous lisons le texte.
110
Les utilisateurs de la version sans la visualisation ont suggéré l’ajout d’indices permettant de
repérer rapidement les groupes accentuels, et/ou d’avoir la possibilité que les apprenants
puissent eux-mêmes ajouter ces repères.
4.2 ÉVALUATION DES TEXTES
Les enregistrements des deux productions lues de chaque apprenant (avant et après la phase
d’entraînement) ont ensuite été évalués, par le biais d’un questionnaire affiné, par des
enseignants experts en phonétique FLE, afin de déterminer si l’utilisation de l’outil de
visualisation de la prosodie constitue ou non une aide pour l’apprentissage de la prononciation
du français.
4.2.1 Méthode
4.2.1.1 Evaluateurs
Deux experts en phonétique, enseignants expérimentés de français langue étrangère, ont

évalué les productions des apprenants. L’une était francophone native et l’autre, bilingue,
natif de l’italien.
4.2.1.2 Matériel
Les 28 productions ont été nettoyées (suppression du bruit au début et à la fin de

l’enregistrement), passé en version Mono et égalisées au niveau de l’amplitude (même niveau
sonore). L’évaluation devant se dérouler à l’aveugle, les fichiers sons ont ensuite été
anonymisés de la manière suivante : ils ont été numérotés de 1 à 14 avec X et Y pour chaque
numéro. Chacun de ces numéros correspondant à un sujet. Les lettres X et Y ne correspondent
pas à l’ordre dans lequel les productions ont été faites, mais indiquent seulement que ces deux
productions appartiennent au même sujet.
Cinq critères d’évaluation ont été établis par deux enseignantes de FLE, spécialistes de
phonétique :
 La compréhensibilité globale du texte (incluant les aspects prosodiques et segmentaux

comme la correspondance graphie-phonie par exemple) ;
 Le regroupement adéquat des mots en groupes accentuels ;
111
 Le placement de l'accent primaire dans les groupes accentuels ;
 L’intonation dans les groupes accentuels (niveau micro) ;
 L’intonation dans les phrases (déclarative, interrogatives, exclamatives, etc., soit au

niveau macro).
Chacun de ces critères disposait d’une échelle d’évaluation allant de 1 (très mauvais) à 7 (très
bon).
Une feuille Excel a été élaborée pour l’évaluation. Elle comprenait les numéros des sujets
avec cinq lignes permettant d’indiquer l’évaluation de chacun des cinq critères établis.
Nous avons décidé de ne pas faire évaluer l'ensemble du texte de test mais une partie
seulement, située au centre (Annexe A, la partie du texte pour le test à évaluer est surlignée en
jaune). Cela élimine deux parties de l’enregistrement qui risquent parfois de ne pas être
représentatives au niveau de la maîtrise des éléments prosodiques : le début, lorsqu’il est
parfois difficile de commencer et lorsqu’il faut se familiariser avec une nouvelle tâche, et la
fin où les apprenants peuvent être fatigués. Nous avons donc privilégié une partie
représentative au centre du texte qui contient différents éléments prosodiques :
des phrases longues, p. ex. : "Outre l’absence de campagnes d’information, la mésentente et le

climat de concurrence entre hôpitaux, le défaut d’infrastructures et de financement public, il
faut incriminer une législation restrictive, qui prévoit en matière de don d’organes la règle du
consentement explicite : il ne suffit pas d’avoir sa carte de donneur, en cas de décès, il faut
encore le consentement des proches." ;
des incises, p. ex. : en cas de décès, depuis 2007, relèvent les spécialistes ;
une question : Faut-il aller plus loin ?.
4.2.1.3 Procédure
Les deux passations de chaque participant ont été présentées aux deux évaluateurs à la suite
l'une de l'autre, dans le but de faciliter la comparaison des productions pour un même sujet.
Les participants des deux groupes ont été répartis aléatoirement, afin que les juges ne sachent
pas à quel groupe ils appartiennent (groupe A, sans visualisation ou groupe B, avec
visualisation), ni de quelle passation il s'agit (première ou la deuxième).
112
L’un des juges a évalué les enregistrements de 1 à 14 et l’autre dans le sens contraire, pour
éviter un effet d’accoutumance et de fatigue.
Les productions ont été évaluées sans avoir le texte écrit sous les yeux afin de ne pas
influencer la perception correcte des productions.
Avant de commencer l’évaluation, les deux juges ont passé en revue les critères et se sont mis
d'accord sur la manière d’évaluer chacun d’entre eux.
4.2.1.4 Analyse
Les évaluations reçues de chacun des deux juges, que nous nommerons E1 et E2, ont été
analysées séparément.
Dans les deux cas, nous avons procédé de la manière suivante :
Pour chacun des cinq critères (compréhensibilité, regroupement adéquat, placement de

l’accent primaire dans les groupes accentuels, intonation dans les groupes accentuels et
intonation au niveau des phrases), nous avons soustrait pour chaque participant le résultat de
la passation 1 à celui de la passation 2. Par exemple, pour l’un des juges, si l’intonation dans
les phrases a été évaluée à 2 lors de la passation 1 et à 4 lors de la passation 2, le résultat est
de 2 (4-2=2). Si le résultat de cette soustraction est positif, cela signifie que l’apprenant s’est
amélioré, si le résultat est négatif, cela signifie le contraire. Ensuite, nous avons calculé, pour
chacun des 5 critères, les moyennes de chaque sujet. À partir de ces dernières, nous avons
également obtenu une moyenne globale par groupe (groupe A = sans outil de visualisation et
groupe B = avec outil de visualisation), pour pouvoir examiner la progression de ce groupe
dans son intégralité (tableau 14).
Il convient d’ajouter que, étant donné que, dans les deux groupes, les participants étaient très
hétérogènes, car il s'agissait à la fois d'étudiants du Centre International de l'Université d'Etat
de Moscou Lomonosov (CIL) à Genève (= niveau B1) et d’étudiants de l'AP et du DEFLE de
l’Université de Genève (dès B2), il nous a également paru intéressant d’examiner les résultats
en fonction du niveau. Il en résulte que nous avons également calculé la moyenne pour
chaque critère et à l’intérieur de chaque groupe des étudiants de niveau B1 et des étudiants de
niveau plus avancé (dès B2), ce qui nous permettra d’étudier la dépendance entre la
progression dans l’acquisition de la prosodie et le niveau de langue (tableau 15).
113
Enfin, nous avons également voulu étudier l’impact global de l’outil sur l’apprentissage de la
prosodie du FLE. De ce fait, nous avons calculé, pour chaque juge, les moyennes de
l’ensemble des critères en fonction du groupe (A et B) et nous avons encore obtenu
l’efficacité générale du groupe B par rapport au groupe A en pour cent (tableau 16) selon la
formule suivante :
Efficacité = (moyenne du groupe B – moyenne du groupe A)*100 / moyenne du groupe B.
Grâce à l’analyse que nous venons d’exposer, nous avons obtenu un tableau global des
résultats, dont les données importantes que nous allons décortiquer dans la section suivante
(4.2.2) ont été synthétisées dans les tableaux 14, 15 et 16, ci-dessous. Cependant, l’intégralité
du tableau des résultats figure dans l’Annexe F.
4.2.2 Résultats
Dans le tableau 14, nous retrouvons les moyennes par critère et par groupe pour chaque juge
séparément. Dans ce tableau, les abréviations remplacent les noms complets des critères pour
une meilleure représentation des résultats.
Moyenne par
Groupe_Juge Comp RegGr PlacAcc IntGr IntPh
groupe
GroupeA_E1 -0,43 0,43 0,29 0,43 0,71 0,29
GroupeB_E1 0,86 0,86 0,29 0,14 0,86 0,60
GroupeA_E2 1,00 0,57 0,71 0,29 0,71 0,66
GroupeB_E2 0,71 0,71 0,86 0,86 0,57 0,74
Tableau 14 : Moyennes des évaluations par critère et par groupe pour chaque juge
Nous proposons d’étudier les résultats en commençant par les critères. Nous constatons, tout
d'abord, une baisse considérable de la compréhensibilité globale dans le groupe A (sans la
visualisation) chez le juge E1 (-0,43), ce qui, selon notre observation des productions des
sujets, est lié majoritairement à une mauvaise correspondance graphie-phonie, qui affecte de
manière sensible la compréhensibilité globale du texte lu. Ainsi, par exemple, certains sujets
ont prononcé le mot organes [ɔʁɡan] comme [ɔʁʒɑ̃]. Une autre raison pourrait également
expliquer ce résultat négatif : selon certains apprenants, certains mots dans les textes préparés
leur étaient inconnus ou difficiles à comprendre. En revanche, chez le juge E2, la situation de
la performance au niveau de la compréhensibilité est positive pour les deux groupes. Les
participants du groupe A ont été même plus compréhensibles (1,00) que ceux du groupe B
(0,71).
114
Au niveau du regroupement adéquat, nous remarquons une amélioration significative dans les
deux groupes à la fois chez le juge E1 et E2 Les évaluations des deux juges montre que le
groupe B (E1 : 0,86 et E2 : 0,71) divise le texte en groupes accentuels nettement mieux, chez
E1 même deux fois mieux, que le groupe A (E1 : 0,43 et E2 : 0,57). Cet élément étant l’un des
points spécifiques que l’outil permettait de tester, cette amélioration plus significative du
groupe B est prometteuse.
En ce qui concerne le troisième critère, le placement de l'accent primaire dans les groupes
accentuels, les deux groupes ont obtenu, chez le juge E1, les mêmes résultats (0,29) qui
constituent tout de même une amélioration, tandis que le juge E2 le résultat du groupe B est
supérieur à celui du groupe A (0,86 contre 0,71). Selon les évaluations du juge E2, notre outil
semble donc également assez prometteur quant à l’entraînement du positionnement de l'accent
primaire.
Pour le critère intonation dans les groupes accentuels concernant particulièrement des phrases
longues, les évaluations des juges se contrarient : les résultats du juge E1 montrent une
amélioration moins performante du groupe B (0,14) que du groupe A (0,43). Ceux du juge E2,
au contraire, révèlent que la progression de l’intonation des participants du groupe B est plus
forte que celle du groupe A (0,86 contre 0,29).
Nous constatons de nouveau une divergence entre les juges au niveau des résultats pour le
dernier critère : l’intonation au niveau des phrases. Cependant, cette divergence est moins
marquée que pour le critère précédent. En effet, les deux juges sont d’accord sur le fait que le
groupe A a amélioré son intonation au niveau des phrases (0,71). C’est le groupe B qui est
évalué différemment selon les juges (E2 : 0,57 et E1 : 0.86).
Concernant les deux critères d’évaluation de l’intonation, les résultats sont donc plus mitigés
puisque, si l’ensemble des participants s’améliorent, pour chacun des critères les évaluations
pour le groupe B sont meilleures chez un des deux juges seulement.
D’une manière générale, nous observons une amélioration de tous les critères chez les deux
groupes avec une exception pour le critère de la compréhension globale dans le groupe A.
Nous considérons cette progression positive commune comme une conséquence possible des
explications théoriques que nous avons données à tous les participants au début du test. Cette
information a pu les aider à mieux s’orienter dans l’apprentissage de la prosodie.
115
Au final, si l’on tient compte de la moyenne de l’ensemble des critères, pour chaque juge, le
résultat du groupe B, groupe qui a utilisé l’outil avec la visualisation, est sensiblement plus
élevé que celui du groupe A (Pour le juge E1, 0,60 contre 0,29 et, pour le juge E2, 0,71 contre
0,66).
Comme mentionné précédemment (section 4.2.1.4), en raison des niveaux hétérogènes à

l’intérieur des deux groupes, nous avons également examiné les résultats des groupes en
fonction du niveau de la langue des apprenants. Le tableau 15 présente les résultats pour
chaque juge en fonction des niveaux (B1 et B2) à l’intérieur de chaque groupe (A et B) par
critère. La colonne tout à droite présente les moyennes de l’ensemble des critères par juge,
pour chaque niveau de chaque groupe.
Si l’on examine les moyennes de l’ensemble des cinq critères pour le groupe B (avec
visualisation) en fonction des niveaux (B1 et B2), nous constatons que, les apprenants ayant le
niveau B2 semblent avoir moins progressé (E1 : 0,40 et E2 : 0,70) que leurs collègues du
niveau B1 (E1 : 0,87 et E2 : 0,80). Une explication possible est liée au cursus suivi par les
premiers, qui sont des étudiants de l’AP ou du DEFLE de l’Université de Genève et qui
avaient bénéficié dans l’année en cours d’un enseignement de phonétique et de pratique au
laboratoire de langues. On peut donc supposer que ces apprenants de niveau B2 se sont déjà
bien entraînés en phonétique et en prosodie, ce qui signifie que notre programme n’est peut-
être pas adapté à ce niveau de la langue et qu’il aurait fallu leur proposer quelque chose de
plus adéquat à leur niveau.
Moyenne par
Groupe_Juge_Niveau Comp RegGr PlacAcc IntGr IntPh groupe et
niveau
GroupeA_E1_B1 -0,25 0,25 0,25 0,25 0,75 0,25
GroupeA_E1_B2 -0,67 0,67 0,33 0,67 0,67 0,33
GroupeB_E1_B1 1,33 1,00 -0,67 1,33 1,33 0,87
GroupeB_E1_B2 0,50 0,75 1,00 -0,75 0,50 0,40
GroupeA_E2_B1 1,00 0,50 0,50 0,00 0,25 0,45
GroupeA_E2_B2 1,00 0,67 1,00 0,67 1,33 0,93
GroupeB_E2_B1 0,67 1,00 1,00 0,67 0,67 0,80
GroupeB_E2_B2 0,75 0,50 0,75 1,00 0,50 0,70
Tableau 15 : Par juge, moyennes de chaque critère et moyenne générale pour les deux niveaux de chaque
groupe.
En résumé, cette étude semble avoir répondu affirmativement à la question posée au début de
ce travail, à savoir : "Un nouveau système de visualisation de la prosodie : une aide dans
116
l'apprentissage de la prononciation en français langue étrangère ?". Nous avons tenté de

chiffrer la progression des apprenants des deux groupes. Le tableau 16, présente, pour les
deux juges combinés, les moyennes globales par critère et par groupe et pour l’ensemble des
critères. En nous basant sur la moyenne des cinq critères, nous constations que notre outil
permet une amélioration de 0,2 points, ce qui représenterait 29,79%, et semble donc plus
efficace pour l’apprentissage de la prosodie qu’une approche classique qui se limite seulement
à un support audio.
Moyenne
Groupe_Juge1_Juge2 Comp RegGr PlacAcc IntGr IntPh globale par
groupe
Groupe_A_E1_E2 0,29 0,50 0,50 0,36 0,71 0,47
Groupe_B_E1_E2 0,79 0,79 0,57 0,50 0,71 0,67
Efficacité du GrB par
63,64 36,36 12,50 28,57 0,00 29,79
rapport au GrA (en %)
Tableau 16 : Moyennes pour les deux juges combinés, par groupe et pour chacun des cinq critères
Si l’on examine les résultats séparément pour chaque critère, notre système semble permettre
une amélioration pour l’entraînement de la compréhensibilité globale du texte (0,5 points, soit
63,64%, de plus), et pour le regroupement adéquat des mots en groupes accentuels (0,29
points, soit 36,36%, de plus). L’outil de visualisation s’est avéré également relativement plus
productif que l’approche classique au niveau de deux autres critères : l’entraînement au
placement de l'accent primaire (0,07 points, soit 12,5%, de mieux) et à l’intonation dans les
groupes accentuels (0,14 points, soit 28,57%, de mieux). Le seul critère ne présentant pas une
amélioration différenciée (0,71 points) concerne l’apprentissage de l’intonation dans les
phrases.
Même si les résultats de cette étude sont assez encourageants, le travail de perfectionnement
de notre outil de visualisation de la prosodie n’est toutefois pas terminé. Au contraire, il nous
faut poursuivre nos efforts pour améliorer le système, notamment, par exemple, dans le cadre
de son adaptation aux différents niveaux de langue des apprenants. Après avoir effectué le
bilan de notre travail, nous suggérons quelques pistes d’amélioration, ainsi que des
perspectives de développement dans la partie finale de ce travail.
117
CONCLUSION GÉNÉRALE
Tout au long de ce travail, nous avons effectué un parcours relativement long pour tenter de
trouver la réponse à la question cruciale de départ : "Un nouveau système de visualisation de
la prosodie : une aide dans l'apprentissage de la prononciation en français langue étrangère ?".
Nous avons commencé par présenter les éléments spécifiques de la prosodie française, qui la
distinguent de celle des autres langues, à savoir ceux qui remplissent une fonction
structurante : l’accentuation, l’intonation et la pause (cf. ch. 1). Ensuite, nous nous sommes
intéressés à l’expérience déjà acquise ( ?) dans le domaine de visualisation de la prosodie (cf.
ch. 2). À l’issue de cette revue, nous sommes parvenus à la conclusion que les outils existants
ne sont pas réellement appropriés à l’apprentissage de la prosodie, ce qui a justifié le fait de
concevoir et développer un nouvel outil de visualisation, en nous basant toutefois sur celui de
Rude (2012), qui nous a paru mieux didactisé que les autres. Cette revue des outils existants
nous a montré la nécessité d’éviter certains éléments de visualisation (p. ex. les
oscillogrammes) et nous a également apporté des idées éventuellement intégrables dans notre
outil pour le futur. Dans le chapitre suivant (ch. 3), nous avons présenté les différentes étapes
de conceptualisation et de développement de notre outil de visualisation. Par la suite, nous
avons logiquement poursuivi notre travail (cf. ch. 4) en cherchant à savoir si ce nouvel outil
constitue réellement une aide pour les apprenants, étape que nous avons réalisé par le biais
d’une expérience constituée de deux étapes : la récolte de productions d’apprenants avant et
après l’utilisation de l’outil, et l’évaluation de ces productions par deux experts. Cette
évaluation a permis de confirmer nos espérances en démontrant que notre nouveau système de
visualisation de la prosodie semble apporter une aide assez prometteuse dans l'apprentissage
de la prononciation en français langue étrangère.
Cependant, le nombre restreint de sujets ne nous permet pas de tirer de conclusions à large
échelle à propos de l’efficacité absolue de notre outil. Encouragé par ces premiers résultats
assez engageants, nous souhaitons donc poursuivre notre travail sur l’évaluation de l’outil
avec un nombre de participants plus important. En outre, nous voudrions continuer le travail
de développement-amélioration-correction de notre outil de visualisation. Ces deux aspects
(poursuite de l’évaluation de l’outil dans sa forme actuelle et développement-amélioration-
correction de l’outil) sont présentés ci-dessous.
118
Didactisation et utilisation de l’outil dans sa version actuelle
 Cours d’été
Outre le test que nous avons décrit auparavant dans le présent travail (ch. 4), nous avons déjà
eu la possibilité de faire évaluer notre outil avec un nombre plus grand d’étudiants. Ces
derniers étaient non francophones natifs, venus aux cours d’été organisés par l’Université de
Genève, afin d’apprendre ou de perfectionner le français. Ces cours visent à entraîner toutes
les compétences du français, y compris la compétence phonétique. Dans le cadre de cette
recherche, par le biais d’un questionnaire affiné, nous avons tenté d'organiser l’autoévaluation
et de recueillir les suggestions d’amélioration et l’opinion des utilisateurs sur notre outil en
général, et sur ses éléments en particulier (tels que la lisibilité du texte avec la visualisation,
l’interface utilisateur, etc.). Cependant cette étude ne s’est pas révélée efficace pour les
raisons suivantes :
Premièrement, les heures de travail de l’après-midi dans le laboratoire de langues sont

facultatives.
Deuxièmement, le travail proposé dans ces cours était du libre-service. Les étudiants ont donc
préféré travailler sur le matériel qui était disponible uniquement sur place, étant donné que
notre outil est, quant à lui, accessible en ligne.
Troisièmement, sans pouvoir offrir un encadrement du même type que celui proposé lors de
l’évaluation décrite précédemment (ch. 3) - (cours + présentation du fonctionnement de l’outil
et de la manière de travailler de manière adéquate), méthode qui a montré des résultats
prometteurs lors du premier test - nous avons dû décrire l’utilisation de l’outil par écrit. De
façon générale, les étudiants étaient découragés par cette procédure de mise en œuvre,
considérée comme complexe, notamment par le long lien lui-même vers le site de notre
système, dont l’entrée s'est avérée peu "user friendly".
En revanche, nous devons constater que, malgré ces inconvénients, il y a tout de même eu un
intérêt manifesté par différents étudiants vis-à-vis de notre outil. Ils appréciaient beaucoup
l'idée d'un travail sur la prosodie, bien que cela n'ait pas débouché sur une réponse concrète de
leur part sous la forme de questionnaires remplis.
119
Nous considérons qu’un enseignement utile à tirer de cette expérience consiste dans le fait
qu’il faut plus adapter notre outil au public et au contexte d'apprentissage visés, c’est-à-dire le
didactiser, le rendre encore plus "user friendly" et plus autonome dans sa manipulation.
 Année propédeutique (AP)
La reproduction de l’étude, dont nous avons parlé dans le chapitre 4, sur une plus grande
échelle, pourrait éventuellement être effectuée dans le cadre de l’Année propédeutique (AP)
de l’ELCF, cursus qui propose une large palette d’enseignements prévus pour renforcer les
compétences en français des étudiants de niveau B1 jusqu’au niveau nécessaire afin qu’ils
puissent, par la suite, entamer leurs études dans une des Facultés à l’Université de Genève. À
la différence des cours d’été, les travaux pratiques en laboratoire de langues sont obligatoires
à l’AP. De plus, les étudiants sont guidés dans leur apprentissage de la prononciation par les
enseignants, ce qui permettra d’intégrer harmonieusement le travail avec notre outil dans le
cursus prévu par les enseignants. Par ailleurs, cela contournera la longue consigne de mise en
œuvre, car nous pouvons tout expliquer nous-mêmes en une fois pour tous les étudiants, ce
qui n’est pas possible dans un contexte de libre-service tel que proposé dans les cours d’été.
Ce type d’évaluation nous permettrait donc de mesurer l’efficacité de notre outil sur un
nombre de sujets plus important que lors de la première étude. En parallèle avec ces
perspectives de didactisation et de recherche, nous planifierons la poursuite du développement
et de l’extension de notre outil de visualisation de la prosodie, dont les idées principales sont
présentées ci-dessous :
Développement de l’outil dans le futur
 Correction des limites du programme
Dans un premier temps, nous voudrions pallier aux imperfections actuelles de notre outil.
Nous essaierons notamment de régler la question du fonctionnement du programme sur
d’autres navigateurs que Google Chrome et Opera qui sont, pour le moment, les seuls à
supporter toutes les fonctionnalités de l’outil.
De plus, nous devons résoudre le problème du son, qui peut parfois s’interrompre lorsque l'on
écoute un groupe accentuel. Nous présumons préalablement que ce souci est lié aux différents
scripts qui demandent quelques millisecondes pour leur exécution, ce qui est parfois suffisant
pour retarder le son et le couper. Il peut également arriver que, lorsque l'on appuie sur une
120
syllabe (ou sur un groupe accentuel), le son commence dès le début du texte et non pas à
partir de celle-ci, autre problème pour lequel nous devrons également trouver une solution.
Enfin, en ce qui concerne la visualisation de la durée, quand les lettres sont élargies, elles
deviennent également très épaisses. Pour éviter cet inconvénient, il faudrait essayer de les
insérer en caractères moins gras que la normale.
 Augmentation du nombre de textes modèles
Nous proposons également d’élargir le choix des textes modèles lus oralement, disponibles
pour les apprenants, afin d’augmenter les heures de travail possibles avec notre programme.
 Adaptation de l’outil au niveau B2
Dans les résultats de l’évaluation de notre outil, nous avons montré que celui-ci, dans sa
version actuelle, est mieux adapté au niveau B1 qu’au niveau B2. Une hypothèse envisagée
est que, pour des apprenants de niveau B2, les aspects prosodiques spécifiques que l’outil
permet de travailler (fonction structurante de l’énoncé) sont déjà maîtrisés et il faudrait donc
travailler des paramètres plus fins. Toutefois, comme nous l’avons expliqué dans la
description de la conceptualisation de notre outil (ch. 3), nous avons montré que nous avons
justement limité la visualisation de la prosodie à la dernière syllabe, afin de ne pas surcharger
d’informations les apprenants, comme le suggèrent Rude (2002 : 265) et Komissarchik (2000).
Cependant, ces informations-là, à savoir par exemple la visualisation de la prosodie complète
faite pour toute la phrase, peuvent devenir une des sources possibles de perfectionnement
pour les étudiants du niveau B2.
 Visualisation instantanée
Selon Germain et Martin (2000 : 9/66), la visualisation des éléments prosodiques d’un modèle
ne semble pas être suffisante. Ces auteurs remarquent ainsi que le fait "d’avoir un retour
visuel" sur sa propre production est un élément très important dans l’apprentissage de la
prosodie, car cela permet de comparer sa lecture à celle du modèle, et d’en tirer les
conclusions pour un travail futur.
De ce fait, nous proposons tout d’abord d’ajouter – dans l’outil lui-même et non avec un
système externe, tel que cela a été fait dans le cadre de l’évaluation présentée précédemment
(ch. 3) – la possibilité de s'enregistrer et d’écouter sa production. Cela permettra, par la suite,
121
d’implémenter la fonction de visualisation instantanée de l’enregistrement de l’apprenant, qui

pourra ainsi être comparée directement au modèle.
Idéalement, cette fonction pourrait être aussi intéressante pour le professeur qui déciderait, par
exemple, de visualiser un nouveau texte directement pendant la leçon. À terme, nous
pourrions aussi envisager que les enseignants puissent créer leurs propres exercices, à l’instar
de BetterAccent Tutor et WinPitch LTL.
Cependant, la visualisation instantanée risque d’être assez complexe à mettre en place,

notamment parce que l’analyse de l’enregistrement qui précède la visualisation se fait semi-
automatiquement, ce qui demande une intervention manuelle entre les étapes automatiques.
En revanche, l’intégration de l’enregistreur ne devrait pas constituer un obstacle majeur.
En outre, il serait pédagogiquement productif d’ajouter la possibilité de la comparaison de

l’enregistrement du modèle à celui de l’apprenant pour l’évaluer automatiquement, et
attribuer à l’apprenant une note, comme c’est le cas dans Tell me more, par exemple.
Enfin, pour l’enseignant uniquement, il faudrait concevoir le système de gestion de ces

enregistrements et des textes y relatifs, afin de pouvoir les renommer, les supprimer ou les
ajouter dans la liste des exercices disponibles, etc. Ce système de gestion devrait
éventuellement pouvoir également permettre d’éditer les productions en les préparant pour la
visualisation, afin par exemple de supprimer les répétitions ou les bruits inappropriés, etc.
 Modifications des productions
Si nous parvenons à produire une visualisation instantanée, nous pourrions également

réfléchir à pouvoir travailler sur les productions afin de les modifier. À l'exemple de WinPitch
LTL, qui permet à l’enseignant de modifier la courbe mélodique de l’enregistrement de
l’apprenant pour faire de l’élève son propre modèle, il nous semble ainsi convenable de
prévoir cette option, non seulement sur l’intonation, mais également sur les deux autres
éléments prosodiques, à savoir l’accentuation et la pause.
 Suggestions des participants à nos études
Selon certains participants, il faut encore repenser l’apparence de l’outil, qui est pour le
moment trop enfantine.
122
Certains ont demandé l’ajout d’un bouton pause plus accessible que celui qui se trouve sur le
lecteur MP3 en bas de l’écran. À cet effet, il faudrait ajouter un bouton de pause près des
syllabes, voire utiliser le fond de la zone d’affichage comme bouton de pause.
Certains participants ont suggéré d’ajouter une option qui permettrait de faire
automatiquement défiler le texte en bas de la page à l’instar des titres à la fin d’un film. Cette
fonction est notamment utile quand nous écoutons le son, ou lorsque nous lisons le texte.
Nous pouvons éventuellement concevoir la possibilité de gestion de ce processus en l’arrêtant
ou en le mettant sur pause lorsque nous le voulons.
Un étudiant a remarqué que, sous certaines résolutions d’écran, la barre de défilement se place
devant le texte et bloque ainsi la possibilité d’appuyer sur la syllabe située au-dessous de cette
barre. Nous devrons donc éliminer ce problème dans futur.
 Autres perspectives
Nous pouvons également stipuler l’ajout du support d’une autre langue, comme par exemple,
l’anglais ou le russe pour le travail sur l’acquisition de la prosodie de ces langues.
Dans la même logique, nous admettons l’idée d’étendre le projet à une plateforme qui
permettrait de pratiquer non pas uniquement la prosodie, mais aussi le niveau segmental.
Nous pouvons également réfléchir comment nous pourrions utiliser la possibilité déjà
développée de visualiser les liaisons et enchaînements. L’analyse semi-automatique les
annote, mais ces informations ont été supprimées dans la version actuelle, pour ne se focaliser
que sur les aspects prosodiques de base.
Nous pourrions envisager d’ajouter la transcription en API au-dessous du texte.
Pour conclure, nous suggérons de supprimer le bouton "Changer", et de plutôt faire en sorte que le
changement se produise dès que nous manipulons les paramètres, sans avoir besoin d’une validation.
Dans le cadre de ce travail, nous avons développé un nouvel outil de visualisation adapté à
l’apprentissage de la prosodie du français langue étrangère. Il a permis de mettre en évidence,
d’une part, la nécessité manifeste d’outils tels que le nôtre dans le processus d’enseignement
de la prosodie et, d’autre part, le manque de systèmes réellement efficaces pour les étudiants.
123
Grâce à cette première recherche, nous avons pu démontrer la valeur prometteuse de notre
outil.
Nous tenons à souligner que ce projet est loin d'être terminé, car il faut encore améliorer sa
performance afin d’atteindre l’objectif principal : essayer de pallier au manque d’outils
vraiment efficaces en proposant le nôtre aux enseignants, aux apprenants et aux gens qui
veulent posséder une bonne prononciation. En conclusion, nous devons avouer que ce travail
nous a encore permis de mieux comprendre les paroles de Léonard De Vinci, affirmant que
"les détails font la perfection, et la perfection n'est pas un détail".
124
RÉFÉRENCES
APOLLINAIRE, G. (1956). "La colombe poignardée et jet d'eau" dans Œuvres complètes.
Paris : Gallimard, La Pléiade.
BILLIERES, M. (2008). Le statut de l’intonation dans l’évolution de

l’enseignement/apprentissage de l’oral en FLE, dans CORTIER, C. et BOUCHARD,
R. (dir.). Numéro spécial : Recherches et Application. Quel oral enseigner, cinquante
ans après le Français fondamental ?, Le français dans le monde. Paris: CLE
International, 27-37.
BOERSMA, P. et WEENINK D. (2013). Praat: doing phonetics by computer. Version

5.3.51. http://www.praat.org/.
BOLINGER, D. (1998). Intonation in American English, dans Hirst et Di Cristo (eds).

Intonation Systems: A Survey of Twenty Languages. Cambridge University Press :
45-56
CAMBRA, M. (2003). Une approche ethnographique de la classe de langue étrangère.

Paris : Didier, coll. LAL.
CARTON, F. (1974). Introduction à la phonétique du français. Paris : Bordas.
CAZADE, A. (1999). De l’usage des courbes sonores et autres supports graphiques pour
aider l’apprenant en langues. Alsic 2 (2).
CHAMPAGNE-MUZAR, C. et BOURDAGES, J. S. (1998). Le point sur la phonétique.

Paris : CLE international.
CISEL, M. et BRUILLARD, É. (2012). Chronique des MOOC. Sciences et technologies de

l´information et de la communication pour l´éducation et la formation (Sticef), 19.
DELATTRE, P. (1966a). Les Dix Intonations de base du français, The French Review,
40(1),1-14.
DELATTRE, P. (1966b). Studies in French and Comparative Phonetics, La Haye,

Paris : Mouton.
125
RÉFÉRENCES
DI CRISTO, A. (1978). De la microprosodie à l’intonosyntaxe, thèse d’Etat, Université de

Provence, diffusion Jeanne Lafitte 1985.
EISENBERG, J. D., (2002). SVG Essentials. Publisher: O'Reilly.
FÓNAGY, I. et LÉON, P. (dir). (1980). L’Accent et français contemporain. Montréal, Paris,

Bruxelles : Didier, coll. "Studia Phonetica" 15.
GAK, V. G. - ГАК В. Г. (1989). Сравнительная типология французского и русского

языков, Москва: Просвещение.
GERMAIN A. et MARTIN, P., (2000) Présentation d’un logiciel de visualisation pour

l’apprentissage de l’oral en langue seconde, Alsic 3 (1).
GERMAIN, C. (2008). Évolution de l'enseignement des langues : 5000 ans d'histoire. Paris :
CLE international.
GILBERT, J.B. (2008). Teaching pronunciation using the Prosody Pyramid. New York :
Cambridge University Press
GODWIN-JONES, R. (2009). Emerging technologies speech tools and technologies.

Language Learning & Technology. 13 (3), 4–11.
GOLDMAN, J.-PH. (2010). Tutoriel EasyAlign.

http://latlcui.unige.ch/phonetique/easyalign/Tutorial_EasyAlign.pdf
GOLDMAN, J.-PH. (2011). EasyAlign: an automatic phonetic alignment tool under Praat.
Proceedings of InterSpeech, Firenze, Italy.
GOLDMAN, J.-PH., AVANZI, M., AUCHLIN A. et SIMON A.-C.. (2012). “A

Continuous Prominence Score Based on Acoustic Features”. In: INTERSPEECH
2012, 13th Annual Conference of the International Speech Communication
Association.
GRAMMONT, M. (1958). La prononciation française, Traité pratique. Paris.
GROSBOIS, M. (2012). Didactique des langues et technologies : de l'EAO aux réseaux

sociaux. Paris : PUPS - Presses de l'Université Paris-Sorbonne.
126
RÉFÉRENCES
GROSJEAN, F. (1999). Phonétique prosodique et acoustique. Cours donné à l’Université de

Neuchâtel.
GRUNDSTROM, A. (1973). L’intonation des questions en français standard, dans

Grundstorm et Léon (dir.), Interrogation et intonation, op. cit. : 19-51.
GSsA. (2013). Une Suisse sans armée. № 97. Genève : Atar S.A.
GUAÏTELLA, I. (2000). Les systèmes de la notation de la prosodie et du geste : pourquoi et

comment les utiliser ? dans Apprendre, enseigner, acquérir : la prosodie au cœur du
débat sous la dir. de Guimbretière, E. l'Université de Rouen.
HINCKS, R. (2003). Speech technologies for pronunciation feedback and evaluation.

ReCALL 15(1), 3-20.
HINKELMAN, D. et HALVORSEN, J. (1998). Discourse-oriented Activities For

Pronunciation Teaching. The Proceedings of the JALT 24th Annual International
Conference on Language Teaching/Learning & Educational Materials Expo: 88-92.
HJELMSLEV, L. (1968). Prolégomènes à une théorie du langage. Paris : Minuit.
KOMISSARCHIK J. et KOMISSARCHIK, E. (2000). BetterAccent Tutor – Analysis and

Visualization of Speech Prosody. Speech Technology in Language Learning,
Scotland : Dundee.
LACHERET-DUJOUR, A. et BEAUGENDRE F. (1999). La prosodie du français. Paris :

CNRS.
LAURET, B. (2007). Enseigner la prononciation du français : questions et outils. Paris :

Hachette Français langue étrangère.
LÉON, P. (1993). Précis de Phonostylistique parole et expressivité. Paris : Nathan.
LÉON, P. (2009). Phonétisme et prononciations du français. Paris : Armand Colin.
LÉON, P. et LÉON, M. (2013). La prononciation du français. Paris : Armand Colin.
LEON, P. et MARTIN, P. (1980). DEs Accents, The Melody of Language, L.R. Waugh et
C.H. van Schooneveld éd., Baltimore : University Park Press : 177-185.
127
RÉFÉRENCES
LEON, P. et MARTIN, P. (2000). "Prosodie et technologie" dans Apprendre, enseigner,

acquérir : la prosodie au cœur du débat sous la dir. de Guimbretière, E. l'Université
de Rouen.
MARTIN, P. (1996). Eléments de phonétique avec application au français. Sainte-Foy : Les

presses de l'Université Laval.
MERTENS, P. (2004). Un outil pour la transcription de la prosodie dans les corpus oraux.
Traitement Automatique des langues 45 (2) : 109-130.
MONDADA, L. (2008). La transcription dans la perspective de la linguistique

interactionnelle. Dans BILGER, Mireille (coordination) Données orales les enjeux de
la transcription. No37 : Presses Universitaires de Perpignan : 78-110.
MUNOT, P. et NÈVE, F.-X. (2002). Une introduction à la phonétique. Liège : Céfal.
OLSON, P. (éditeur), et al. (2014, mai 30). Manuel PHP. PHP Documentation Group.
http://www.php.net/manual/fr/, consulté le 02 juin 2014.
PASSY, P. (1890). Etudes sur les changements phonétiques. Paris : Didot.
PATEL, R. et FURR, W. (2011). ReadN'Karaoke: Visualizing Prosody in Children's Books

for Expressive Oral Reading. Proceedings of ACM CHI 2011 Conference on Human
Factors in Computing Systems: 3203 - 3206.
RIEGEL, M., PELLAT, J.-C. et RIOUL, R. (2009). Grammaire méthodique du français.

Paris : Presses Universitaires de France.
RIVENS MOMPEAN, A. (2014). Analyse de Didactique des langues et technologies – De

l'EAO aux réseaux sociaux, Alsic 17.
RUDE, M. (2002). An Intuitive Visual Code for Intonation, Stress, and Rhythm of Language?
JALT2002 at Shizuoka Conference Proceedings: 264-272.
RUDE, M. (2012). Native-like Duration Ratio of Stressed vs. Unstressed Syllables through
Visualizing Prosody. Proceedings Of The 6th International Conference On Speech
Prosody at Shanghai. May 22- 25, 2012. Qiuwu Ma, Hongwei Ding and Daniel Hirst
(eds.). Volume 1: 254-257.
128
RÉFÉRENCES
SEGUI, J. et FERRAND, L. (2000). Leçons de parole. Paris : Odile Jacob.
TELL ME MORE V10 Retail, Speech Recognition Tutorial. (2009). Services Department, HQ,
Auralog.
http://tutorials.tellmemore.com/support/retail/files/V10RetailSpeechManual.pdf,
consulté le 18 août 2014.
TRANEL, B. (2003). Les sons du français. Dans : Yaguello, M. (éd.). Le grand livre de la
langue française. Paris : Seuil, 259-316.
UDERZO. (1983). Les Aventures d'Astérix le Gaulois, Album 27 - Le Fils d'Astérix. Les
Editions Albert René.
UDERZO et GOSCINNY. (1970). Les Aventures d'Astérix le Gaulois, Album 16 - Astérix

chez les Helvètes. Hachette Livre.
SITES
BetterAccent Tutor, le site officiel – http://www.betteraccent.com/
EasyAling, le site officiel – http://latlcui.unige.ch/phonetique/easyalign.php
iPrompt-U, le site officiel – http://www.cadlab.neu.edu/research.php?name=ipromptu
Prosogram, le site officiel – http://bach.arts.kuleuven.be/pmertens/prosogram/
ReadN'karaoke, le site officiel – http://www.cadlab.neu.edu/research.php?name=karaoke
Tell me more V10, le site officiel – http://www.tellmemore.fr/
The international phonetic association – http://www.langsci.ucl.ac.uk/ipa/supras.html
Trésor de la langue française informatisé – http://atilf.atilf.fr/tlf.html
WinPitch LTL, le site officiel – http://www.winpitch.com/wpltlpresentation.htm
129
ANNEXES
TABLE DES ANNEXES

Annexe A : Textes choisis................................................................................................................................ 131
Annexe B : Modes d’emploi............................................................................................................................ 134
Annexe C : Prises d’écran de la page d’accueil et des pages contenant les explications théoriques, le mode
d’emploi .................................................................................................................................... 141
Annexe D : Explications théoriques dans les bulles d’aide .......................................................................... 143
Annexe E : Plan détaillé de la première séance ............................................................................................ 144
Annexe F : Feuilles Excel de résultats ........................................................................................................... 151
Annexe G : Comparaison de deux visualisations du texte "Don d’organes : la Suisse manque-t-elle de
cœur ?" lu oralement : avant et après la correction des fautes dans la détection de la
fréquence fondamentale .......................................................................................................... 153
130
ANNEXES
Annexe A : Textes choisis

Texte pour le test (255 mots ; la partie à évaluer par les juges est surlignée en jaune) :
Don d’organes : la Suisse manque-t-elle de cœur ?
Pratiquée depuis une quarantaine d’année, la transplantation d’organes a permis de sauver

plus de 6000 personnes en Suisse jusqu’ici. Mais chaque année, cinquante personnes décèdent
en Suisse, cinquante vies qui auraient pu être sauvées grâce à une transplantation. Seulement
voilà, les dons d’organes se font de plus en plus rares ! De nombreux patients doivent attendre
des années avant de recevoir un rein ou décèdent même pendant qu’ils sont sur la liste
d’attente lorsqu’il s’agit d’organes comme le foie, le poumon ou le cœur. Outre l’absence de
campagnes d’information, la mésentente et le climat de concurrence entre hôpitaux, le défaut
d’infrastructures et de financement public, il faut incriminer une législation restrictive, qui
prévoit en matière de don d’organes la règle du consentement explicite : il ne suffit pas
d’avoir sa carte de donneur, en cas de décès, il faut encore le consentement des proches.
Depuis 2007, une nouvelle loi sur la transplantation, qui uniformise les pratiques entre
cantons, est entrée en vigueur en Suisse. Elle n’a cependant pas suffi à inverser la tendance à
la pénurie d’organes, relèvent les spécialistes, même s’ils admettent que cette loi a permis
d’améliorer la confiance de la population dans la transplantation. Faut-il aller plus loin ? C’est
la question posée par certains politiciens. Le Conseil des Etats a cependant refusé, en
décembre dernier, de faire de chaque individu un donneur potentiel, comme c’est le cas en
Espagne, par exemple. Le consentement explicite des donneurs et de leurs proches sera donc
toujours indispensable.
Texte d’entraînement 1 (252 mots) :
Prendre des photos, une aide pour la mémoire ?
Saisir des clichés pour vous fabriquer des souvenirs aurait-il l’effet inverse de celui attendu ?
En réalité, d’après une recherche américaine, oui, cela aiderait à oublier ! Photographier un
paysage, une personne ou une œuvre pour mieux s’en rappeler plus tard aurait donc l’effet
inverse et favoriserait la perte de mémoire des détails de l’objet capturé. Ce sont les résultats
d’une étude menée par Denise Jobin, professeure de psychologie de l’Université de Grenoble.
Les participants à la recherche se sont rendus dans un musée local. Ils étaient invités à
regarder l’exposition et à, le cas échéant, s’aider d’un appareil photo pour mieux se rappeler
131
ANNEXES
des choses le jour suivant. Observer ces images devraient permettre de se remémorer des
informations à leur propos, mais c’est le contraire qui est arrivé. Le lendemain, ceux qui
avaient utilisé un appareil photo n’était pas capables de se rappeler les détails de ce qu’ils
avaient capturé. En revanche, les personnes s’étant contentées d’observations, se sont révélés
bien plus aptes à répondre aux questions et à décrire les œuvres. La scientifique en charge de
l’étude explique ce phénomène à la revue Psychologie : "Quand les gens s’appuient sur la
technologie et comptent sur l’appareil pour enregistrer un événement, ils n’utilisent pas toutes
leurs capacités". L’expérience a toutefois révélé un cas où les photographes avaient davantage
de souvenirs : le gros-plan. En ne prenant en image qu’une partie précise d’un objet étudié, ils
étaient capables de fournir bien plus de renseignement à son propos.
Les phobies sont-elles être héréditaires ?
Les angoisses vis-à-vis de certaines situations ou de certains animaux seraient-elles

uniquement d’ordre psychologique ? Et bien non ! Des situations traumatisantes qui auraient
modifié les gènes de nos ancêtres pourraient être à l’origine de nos peurs les plus profondes.
Voilà ce que tendent à montrer les résultats d’une recherche conduite en Suisse par
l’Université de Lausanne. Les expériences effectuées sur des rongeurs ont montré que des
traumatismes pouvaient modifier l’ADN puis altérer le cerveau des générations suivantes. Les
scientifiques ont exercé des souris à craindre le parfum des fleurs de cerisier. Ils ont ensuite
analysé les modifications qui avaient eu lieu dans l’ADN des cobayes et en ont conclu que la
partie du génome consacrée à la sensibilité liée aux odeurs devenait plus active. Le souvenir
de ce traumatisme aurait ensuite été transmis aux deux générations suivantes de souris. Chez
ces dernières, les chercheurs ont noté des modifications dans la structure du cerveau. Les
descendants des sujets ont évité à chaque fois d’entrer en contact avec l’odeur des fleurs de
cerisier, sans avoir eu d’expérience négative étant directement liée à cette odeur. "Je pense
que l’on ne parviendra pas à comprendre l’augmentation de nombreuses peurs, telles que la
phobie de l’avion, de la foule, des araignées ou des serpents, sans adopter une approche qui
examine le comportement des individus à travers plusieurs générations" explique Marc
Legrand, professeur à l’Université de Lyon. Cette découverte ouvre de nouvelles pistes dans
un domaine où le nombre de patients ne cesse d’augmenter.
132
ANNEXES
En ville, se déplacer en bus et en trams, c’est tendance !
Contrairement au modèle qui prévalait il y a une vingtaine d’années, la voiture n’est plus le
principal moyen de transport utilisé dans les villes suisses. C’est ce qui ressort d’une étude
menée conjointement par l’Ecole polytechnique fédérale de Lausanne et le Laboratoire de la
mobilité de l’Université de Genève. Une comparaison des données récoltées à Genève, à
Lausanne, à Berne et à Yverdon en 1994 et en 2011 montre que les usagers actuels ne sont
plus fidèles à un unique mode de transport – en l’occurrence la voiture – mais qu’ils
combinent désormais plusieurs modes de transport en fonction de leurs besoins. L’étude
montre également que l’image de la voiture s’est passablement dégradée ces dernières
décennies, puisqu’elle n’est plus perçue comme un vecteur de liberté, mais est plutôt associée
à la pollution ou au danger. A l’inverse, les transports publics profitent désormais d’une
connotation plus positive pour 52% des Genevois, contre 39% seulement il y a vingt ans.
Même si les différences régionales restent importantes, ces changements se traduisent en
chiffres puisque 81% des personnes interrogées ont un abonnement de transports publics à
Berne, alors qu’ils sont 55% à Lausanne et 48% à Genève et à Yverdon. Parmi les autres
facteurs influençant ce renversement de situation, les chercheurs mentionnent également le
renforcement des mesures pour la lutte contre l’alcool au volant, ainsi que l’augmentation des
embouteillages dans les grandes villes et sur les grands axes routiers suisses.
133
ANNEXES
Annexe B : Modes d’emploi

Annexe B1 : Mode d’emploi pour le groupe A (sans la visualisation)
Tutoriel "ProsodieEnSVG"
Dmitry Bolychev – mars 2014
Ce document décrit l'utilisation du programme "ProsodieEnSVG17".
ProsodieEnSVG est un nouvel outil en ligne qui a pour objectif d'aider les étudiants dans
l'apprentissage de la prononciation en français langue étrangère, et plus spécifiquement dans
l’apprentissage de la prosodie du français (accentuation et intonation). Le système est réalisé
dans le cadre du mémoire de Master ès Lettres de M. Dmitry Bolychev.
Pour un bon fonctionnement du programme, il est préconisé

d’utiliser les navigateurs Chrome ou Opéra.
Sommaire
I. L'interface de l'utilisateur
II. Les boutons "Accentuation" et "Intonation"
1. Le bouton "Accentuation"
2. Le bouton "Intonation"
III.Ecouter l'enregistrement
1. En utilisant le lecteur MP3
2. En cliquant sur n'importe quelle syllabe
IV. D'autres fonctionnalités

1. Boutons de navigation
2. La barre de défilement
V. Limitations du programme
17
"ProsodieEnSVG" - est le nom provisoire du programme qui peut être changé
134
ANNEXES
I. L'interface de l'utilisateur
L'interface de l'utilisateur du programme est composée de quatre zones :
1. Le menu ;
2. La zone d'affichage ;
3. Le lecteur MP3 ;
4. La barre de défilement.
II. Les boutons "Accentuation" et "Intonation"

En appuyant sur les boutons ou , l’explication théorique
correspondante apparaît sur l'écran dans une boîte de dialogue :
Pour fermer la boîte de dialogue, il faut appuyer sur le bouton
135
ANNEXES
III. Ecouter l'enregistrement

Vous pouvez écouter l'enregistrement de deux manières différentes :
1. En utilisant le lecteur MP3
Commencer / pauser Stopper l'enregistrement Changer le volume
La barre de progression,
sur laquelle on peut choisir le moment à partir duquel commencer le son
2. En cliquant sur n'importe quelle syllabe pour

écouter l'enregistrement à partir de cette syllabe
IV. D'autres fonctionnalités

Boutons de navigation
consulter les explications sur l'accentuation et l'intonation
lire le mode d'emploi
revenir à la page d'accueil
apprendre la prosodie du français (accentuation et intonation)
La barre de défilement
Pour faire apparaître la barre de défilement, il faut déplacer le curseur à droite de la page
pour monter rapidement en haut de la page
pour descendre rapidement en bas de la page
136
ANNEXES
V. Limitations du programme
1. Pour un bon fonctionnement du programme, il est préconisé d’utiliser les navigateurs
Chrome ou Opéra ;
2. Il peut arriver que lorsque l'on appuie sur une syllabe le son commence dès le début et
non pas à partir de celle-ci. Il faut alors appuyer une deuxième fois pour que le son
commence dès la syllabe souhaitée. Ce problème apparaît :
a) lors du premier affichage de la page ;
b) quand on recharge la page.
Bonne prononciation !
137
ANNEXES
Annexe B2 : Mode d’emploi pour le groupe B (avec la visualisation ; prise d’écran)
138
ANNEXES
139
ANNEXES
140
ANNEXES
Annexe C : Prises d’écran de la page d’accueil et des pages

contenant les explications théoriques, le mode
d’emploi18
Annexe C1 : La page d’accueil – l’état initial du dessin animé
Annexe C2 : La page d’accueil – l’état final du dessin animé
Une particularité de la page d’accueil est son dessin animé thématique réalisé en SVG (un
langage de programmation WEB) qui se trouve au centre de l’écran au-dessus des boutons de
navigation et qui peut être activé en appuyant sur le petit triangle violet (pour l’arrêter, il faut
appuyer sur le carré violet qui apparaîtra à la place de triangle violet une fois le dessin animé
activé). En affichant progressivement le nom provisoire du notre système, "ProsodieEnSVG",
ce dessin animé présente quelques fonctionnalités du langage SVG.
18 Voir Annexe B2 pour consulter la prise d’écran du mode d’emploi
141
ANNEXES
Annexe C3 : La page contenant les explications théoriques
142
ANNEXES
Annexe D : Explications théoriques dans les bulles d’aide

Annexe D1 : Explications théoriques de l’accentuation
Annexe D2 : Explications théoriques de l’intonation
143
ANNEXES
Annexe E : Plan détaillé de la première séance

Cours : "La prononciation du français. La prosodie : l'accentuation et l'intonation", réalisé
dans le cadre du Travail de mémoire de Master ès Lettres (FLE) de Dmitry Bolychev ;
L'Université de Genève, la Faculté des Lettres, École de Langue et de Civilisation Françaises.
Lieu : Salle B102 (laboratoire de langues) et les autres salles, Uni Bastion, Rue De-Candolle
5, 1211 Genève 4, Suisse
But : L’évaluation pédagogique de l’utilisation d’un nouvel outil de visualisation de la

prosodie du français par des apprenants de FLE.
Équipement nécessaire : Les laboratoires de langues équipés d’ordinateurs ou seulement

ceux parmi ces derniers qui disposent chacun d’un casque avec microphone, du logiciel
d'enregistrement audio, de l'accès à internet et du navigateur Opera ou Chrome. Un projecteur
est également nécessaire pour la présentation PowerPoint pendant la première séance.
Participants de l'évaluation : Les apprenants de FLE qui l’apprennent dans des conditions
similaires et qui ont une biographie langagière quasiment identique (il faut minimum 10
personnes).
Calendrier :
Séances Temps Activités

1. Introduction (la prosodie, le mode d’emploi, déroulement et objectifs de
l’expérience)
2. Pré-test : lecture du texte "Don d’organes : la Suisse manque-t-elle de
1ère 90 min
cœur ?" + enregistrement de cette production
3. Entraînement avec le texte "Prendre des photos, une aide pour la
mémoire ?"
2ème 30 min 4. Entraînement avec le texte "Les phobies sont-elles être héréditaires ?"
5. Entraînement avec le texte "En ville, se déplacer en bus et en trams, c’est
tendance !"
3ème 50 min
6. Post-test : lecture du texte Don d’organes : la Suisse manque-t-elle de
cœur ? + enregistrement de cette production
Evaluation des apprenants°: Pour chaque apprenant, les deux productions (avant et après
l’entraînement) seront évaluées, par le biais d’un questionnaire affiné, par des enseignants de
phonétique FLE.
144
ANNEXES
Le plan de la première séance accompagné de la présentation PowerPoint19 :
Étape 1 – Accueil et présentation (Cette étape est nécessaire pour faire la

connaissance avec les participants, pour les préparer au travail prochain)
Bonjour,
Soyez les bienvenus ici, á l'Université de Genève.
(Diapositive 1)
Je m’appelle Dmitry Bolychev. Je vous donnerai
des cours sur la prononciation du français qui sont
réalisés dans le cadre de mon mémoire.
C’est votre tour maintenant, comment vous
appelez-vous ?
Étape 2 - Présentation du plan du cours

Mes chers amis, aujourd'hui, nous allons travailler
ensemble la prononciation du français et plus
précisément l'accentuation et l'intonation.
Je vous propose de voir le plan de notre premier
cours. Donc, voilà : (Diapositive 2)
Premièrement, nous allons voir de plus près la
notion de la prononciation ;
Deuxièmement, je vais vous montrer le
programme que nous allons utiliser aujourd'hui ;
Troisièmement, nous allons voir ensemble notre
plan de travail. Je vais vous expliquer ce que vous
allez faire aujourd'hui ;
Quatrièmement, nous allons commencer à
travailler. Nous allons mettre la main à la pâte !
Étape 3 - Principale
Partie préparatoire. Explications théoriques
La prosodie du français
Maintenant, si vous n'êtes pas contre, nous allons
parler de la prononciation. (Diapositive 3)
La prononciation du français se distingue de la
prononciation des autres langues par ses deux
aspects caractéristiques, à savoir l'intonation et
l'accentuation. Et nous allons étudier en détails ces
deux aspects, en commençant par l'accentuation.
19
Il faut également noter que chaque élément de la présentation sort en écran l'un après l'autre pour ne pas noyer
les apprenants sous les informations mais pour les aider au contraire à retenir le mieux possible le savoir reçu en
l’ affichant au moyen de la présentation.
145
ANNEXES
L'accentuation (Diapositif 4)
En français, l'accent se marque principalement par
la durée. Une syllabe accentuée sera ainsi deux
fois plus longue qu'une syllabe inaccentuée.
L'accent (primaire) en français tombe toujours sur
la dernière syllabe d'un mot, mais lorsque le mot
est produit en isolé.
Par exemple, nous ne prononçons pas nation, mais
nation, pas nationale, mais national, enfin, pas
nationalité, mais nationalité). En revanche, les
mots peuvent se réunir dans un groupe de mots
(groupe de mots qui vont ensemble), que l'on appelle le groupe rythmique ou bien le groupe
accentuel. Pour que cela soit clair, je voudrais souligner que, pendant mes cours, je vais
utiliser la nation du groupe accentuel.
Il y a une particularité, à savoir que l'accent dans un groupe accentuel ne tombe pas sur la
dernière syllabe de chaque mot, mais sur la dernière syllabe de ce groupe en entier. Dans ce
cas, on appelle un tel accent - l'accent primaire.
Maintenant, nous allons voir un exemple qui nous montre clairement comment on divise une
phrase en groupes accentuels et où se trouve ce fameux accent primaire.
Je vous propose de voir cette phrase :
"Le plus petit des trois cambrioleurs a été aperçu à l'extérieur de la gare à huit heures moins le
quart"
Cette phrase peut être divisée en quatre groupes accentuels, les voici :
[Le plus petit des trois cambrioleurs] [a été aperçu] [à l'extérieur de la gare] [à huit heures
moins le quart], qui correspondent à la division Groupe Sujet + Groupe Verbal + Groupe
Prépositionnel 1 + Groupe Prépositionnel 2.
Maintenant, nous allons essayer ensemble de

diviser une autre phrase en groupe accentuel. La
voici : Un petit chien est revenu à la maison.
(Diapositive 5)
Je vous propose de trouver le premier groupe
accentuel dans cette phrase. […les réponses…]
Maintenant, je vais vous présenter la réponse.
La dernière syllabe de chaque groupe portera un
accent : [Un petit chien] [est revenu] [à la maison.]
En français, l'accent sert donc à indiquer les
frontières de groupes accentuels. Lorsque nous
entendons un accent, nous savons que le groupe
est terminé et qu'un autre groupe va commencer.
Des exemples supplémentaires : [Un des hommes] [a entendu] [les appels à l'aide de la jeune
femme de 24 ans] [et a sauté dans l'eau] [en même temps qu'un autre promeneur.]
[Depuis deux mille sept,] [une nouvelle loi sur la transplantation,] [qui uniformise les
pratiques entre cantons,] [est entrée en vigueur en Suisse.]
146
ANNEXES
Maintenant, nous allons parler de l'intonation.

(Diapositive 6)
L'intonation est une variation de la courbe
mélodique de la voix. L'intonation sert à ajouter
des informations supplémentaires dans la phrase.
Ces informations ne peuvent pas être transmises
par les mots eux-mêmes.
Si vous êtes d'accord, je vous propose de prendre
l’exemple suivant, à savoir la phrase "tu fermes la
porte". Cette phrase peut avoir plusieurs sens
différents selon l'intonation :
 Avec une intonation montante, il s'agit d'une question (Tu fermes la porte ?)
 Avec une intonation qui descend en douceur, il s'agit d'une affirmation (Tu fermes la
porte.)
 Avec une intonation qui descend plus brusquement, il s'agit d'un ordre (Tu fermes la
porte !). Essayez de lire cette phrase avec cette intonation […les réponses…].
Dans une phrase plus longue, l'intonation nous aide à comprendre si le groupe accentuel est le
dernier de la phrase (intonation descendante) ou si la phrase continue (intonation montante).
Voici, la phrase que nous avons déjà vue

(Diapositive 7) :
[Le plus petit des trois cambrioleurs] [a été
aperçu] [à l'extérieur de la gare] [à huit heures
moins le quart].
Nous allons essayer ensemble de lire cette phrase
avec une intonation correcte. […les réponses…].
L'intonation est montante à la fin des trois
premiers groupes, pour indiquer que la phrase
continue, et descendante à la fin du dernier
groupe, pour indiquer que la phrase est terminée.
Prenons encore un exemple : Un petit chien est
revenu à la maison.
En résumé, en français, les syllabes accentuées

indiquent des frontières de groupes accentuels et
l'intonation nous aide à savoir s'il s'agit d'un
groupe accentuel continuatif (la phrase continue,
intonation montante) ou d'un groupe accentuel
final (la phrase est finie, intonation descendante)
(Diapositive 8)
147
ANNEXES
Le programme (nous cessons la présentation et ouvrons le programme. Les explications

suivantes sont basées sur le mode d’emploi présenté dans l’Annexe...)
Nous venons parler de l'accentuation et de l'intonation et, maintenant, nous allons passer au
programme qui nous permet de visualiser l'accentuation et l'intonation. Voici le programme :
(on l'affiche sur l'écran)
Si vous appuyez sur le bouton Accentuation et confirmez votre choix en cliquant sur Changer,
nous allons voir que la taille de la dernière syllabe de chaque groupe accentuel a doublé.
Regardez, ces syllabes sont devenues rouges. Cela nous montre donc l'accent primaire.
On peut voir également les ellipses. Elles marquent les frontières de chaque groupe accentuel.
Regardez, il y a encore les petits arbres sur ces ellipses. En appuyant sur ces arbres vous
pouvez écouter individuellement chaque groupe accentuel.
De plus, vous pouvez commencer à écouter l'enregistrement à partir de n'importe quelle
syllabe du texte. Pour faire cela, il vous suffit d'appuyer sur la syllabe souhaitée. Regardez, si
je clique, par exemple, sur (nous choisissons la syllabe quelconque) nous allons écouter
l'enregistrement à partir de cette syllabe. Voilà…
Pour voir la courbe intonative, nous allons appuyer sur le bouton Intonation. Voilà le résultat :
le programme nous affiche la courbe intonative du texte.
J'attire votre attention au fait que pour activer un paramètre, tout d'abord, il faut appuyer sur le
bouton correspondant et confirmer votre choix en cliquant sur le bouton Changer.
Il y a encore quelques petites choses qui vous vont aider travailler avec ce programme.
Vous avez dû remarquer que si l'on place le curseur sur le bouton de l'accentuation ou de
l'intonation, une explication apparaît. Pour désactiver ces explications déroulantes, il faut cliquer
sur le bouton Activation/désactivation des bulles d’aide. Voilà, nous ne voyons plus ces
explications. Mais si nous voulons les réactiver il faut appuyer de nouveau sur le même bouton.
En effet, vous pouvez toujours consulter les explications sur l'accentuation et l'intonation en
cliquant sur le bouton Théorie.
Vous pouvez aussi lire le mode d'emploi que je vous présente maintenant en cliquant sur le
bouton Mode d’emploi et revenir à la page d'accueil en appuyant sur le bouton Page
d’accueil.
Je voudrais vous présenter encore le lecteur MP3 qui est en bas de la page. L'utilisation de ce
lecteur est très intuitive. Play… Stop… Une barre de déroulement qui nous montre où on en
est avec le son. De plus, cette barre nous permet de commencer à écouter le son à partir du
moment voulu. Enfin, nous pouvons réguler le volume en utilisant ces boutons.
Si vous voulez descendre rapidement en bas de la page il faut déplacer le curseur à droite et
appuyer sur la flèche descendante et, au contraire, pour revenir en haut de la page il faut
appuyer sur la flèche montante.
Maintenant, vous êtes munis de connaissances et vous êtes prêts à travailler.
Partie exécutive
Expérience
Si vous n'êtes pas contre, nous allons continuer par la présentation de l’expérience et, ensuite,
par un test et nous allons reprendre le programme dans quelques minutes.
148
ANNEXES
(Diapositive 9) L’objectif de l’expérience pour

vous est de vous entraîner à travailler
l’accentuation et l’intonation dans la lecture de
textes à l’aide de notre outil de la visualisation de
la prosodie et, pour nous, de vérifier l’efficacité de
ce dernier.
L’expérience consiste en trois séances :
1ère : enregistrement d’un texte test, puis
entraînement avec un autre texte ;
2ème : entraînement avec un 2ème texte ;
3ème : entraînement avec un 3ème texte, puis
enregistrement d’un autre texte test.
Enfin, pour chaque apprenant, les deux productions (avant et après l’entraînement) seront
évaluées, par le biais d’un questionnaire affiné, par des enseignants de phonétique FLE.
Test
Je vais vous distribuer les textes. Les voici. (on
distribue les textes). Sur ces feuilles, vous pouvez
écrire ou dessiner ce que vous voulez (Mais ne
dessinez pas trop, c'est, quand même, un cours de
phonétique et non pas de dessin !) (Diapositive 10)
Donc, prenez le texte, lisez-le à haute voix avec
les écouteurs sur vos oreilles. Vous allez lire tous
au même temps. Vous avez 10 minutes, ensuite,
nous allons vous enregistrer.
Une remarque avant que vous commenciez :
Je veux souligner que maintenant et pendant tous nos cours, il faut travailler surtout vos
intonation et accentuation. (je montre au tableau, où ces notions doivent être présentes)
Ce n'est pas une course de vitesse, mais respectez tout de même le temps.
Est-ce que vous êtes prêt ? […la réponse Oui…] Top, c'est parti !
L'entraînement
La dernière chose que je vous propose à faire
aujourd'hui est de travailler un autre texte mais en
utilisant notre nouveau programme. (Diapositive 11)
Je vous invite donc à ouvrir le programme.
Lisez le texte à haute voix, vous allez lire tous en
même temps, et mettez vos écouteurs.
Nous vous conseillons à vous entraîner selon le
plan de travail suivant (sur l'écran) :
Premièrement, que l'accentuation (~10 minutes)
Deuxièmement, que l'intonation (~10 minutes)
Troisièmement vous pouvez combiner l'accent
primaire avec le groupe accentuel et, après, vous
pouvez y ajouter encore l'intonation.
Si vous avez des questions n’hésitez pas à me les poser.
149
ANNEXES
150
ANNEXES
Annexe F : Feuilles Excel de résultats
Tableau des résultats de l’Evaluateur 1

Moyenne
Sujets Comp1 Comp2 ReSComp RegGr1 RegGr2 ReSRegGr PlacAcc1 PlacAcc2 ReSPlacAcc IntGr1 IntGr2 ReSIntGr IntPh1 IntPh2 ReSIntPh
parsujet
A_S1 4 5 1 2 5 3 2 3 1 3 5 2 3 5 2 1,8
A_S2 6 6 0 4 6 2 5 5 0 4 5 1 4 6 2 1
A_S3 4 2 -2 4 2 -2 5 3 -2 2 2 0 3 2 -1 -1,4
A_S4 6 5 -1 5 6 1 3 4 1 4 4 0 5 6 1 0,4
A_S5 5 4 -1 5 4 -1 4 4 0 4 5 1 7 6 -1 -0,4
A_S6 2 2 0 2 4 2 2 5 3 1 3 2 1 4 3 2
A_S7 4 4 0 4 2 -2 4 3 -1 4 1 -3 3 2 -1 -1,4
Moyenne_A_E1 -0,43 0,43 0,29 0,43 0,71 0,29
Moyenne_A_E1_B1 -0,25 0,25 0,25 0,25 0,75 0,25
Moyenne_A_E1_B2 -0,67 0,67 0,33 0,67 0,67 0,33
B_S8 1 2 1 1 1 0 4 3 -1 3 3 0 3 5 2 0,4
B_S9 3 4 1 6 6 0 4 5 1 3 4 1 5 5 0 0,6
B_S10 2 4 2 3 5 2 5 5 0 4 2 -2 3 4 1 0,6
B_S11 1 3 2 2 3 1 4 4 0 1 2 1 1 2 1 1
B_S12 5 5 0 4 5 1 3 4 1 4 3 -1 4 5 1 0,4
B_S13 2 3 1 1 3 2 4 3 -1 1 4 3 2 3 1 1,2
B_S14 5 4 -1 4 4 0 4 6 2 5 4 -1 6 6 0 0
Moyenne_B_E1 0,86 0,86 0,29 0,14 0,86 0,60
Moyenne_B_E1_B1 1,33 1,00 -0,67 1,33 1,33 0,87
Moyenne_B_E1_B2 0,50 0,75 1,00 -0,75 0,50 0,40
151
ANNEXES
Tableau des résultats de l’Evaluateur 2
Moyenne
Sujets Comp1 Comp2 ReSComp RegGr1 RegGr2 ReSRegGr PlacAcc1 PlacAcc2 ReSPlacAcc IntGr1 IntGr2 ReSIntGr IntPh1 IntPh2 ReSIntPh
par sujet
A_S1 4 5 1 2 3 1 3 4 1 1 1 0 1 2 1 0,8
A_S2 5 6 1 5 6 1 4 5 1 3 4 1 3 5 2 1,2
A_S3 4 4 0 3 4 1 3 3 0 1 2 1 2 2 0 0,4
A_S4 5 6 1 6 6 0 4 5 1 5 5 0 5 6 1 0,6
A_S5 4 5 1 5 6 1 4 5 1 3 4 1 4 5 1 1
A_S6 4 5 1 2 3 1 1 4 3 1 2 1 1 2 1 1,4
A_S7 3 5 2 5 4 -1 5 3 -2 4 2 -2 3 2 -1 -0,8
Moyenne_A_E2 1,00 0,57 0,71 0,29 0,71 0,66
Moyenne_A_E2_B1 1,00 0,50 0,50 0,00 0,25 0,45
Moyenne_A_E2_B2 1,00 0,67 1,00 0,67 1,33 0,93
B_S8 2 3 1 2 3 1 1 2 1 1 2 1 1 2 1 1
B_S9 5 6 1 5 6 1 6 6 0 4 6 2 4 6 2 1,2
B_S10 5 6 1 3 3 0 3 5 2 2 4 2 3 4 1 1,2
B_S11 4 5 1 3 4 1 2 3 1 1 2 1 1 1 0 0,8
B_S12 6 6 0 6 6 0 6 6 0 5 4 -1 6 4 -2 -0,6
B_S13 5 5 0 4 5 1 3 4 1 2 2 0 2 3 1 0,6
B_S14 5 6 1 6 7 1 6 7 1 6 7 1 6 7 1 1
Moyenne_B_E2 0,71 0,71 0,86 0,86 0,57 0,74
Moyenne_B_E2_B1 0,67 1,00 1,00 0,67 0,67 0,80
Moyenne_B_E2_B2 0,75 0,50 0,75 1,00 0,50 0,70
Moyenne_A_E1_E2 0,29 0,50 0,50 0,36 0,71 0,47

Moyenne_B_E1_E2 0,79 0,79 0,57 0,50 0,71 0,67
EfficacitéE1 E2(en%) 63,64 36,36 12,50 28,57 0 29,79
152
ANNEXES
Annexe G : Comparaison de deux visualisations du texte "Don d’organes : la Suisse manque-t-elle
de cœur ?" lu oralement : avant et après la correction des fautes dans la détection de la
fréquence fondamentale
AVANT APRÈS
153
ANNEXES
154

La Prosodie +++

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

La Prosodie +++

Transféré par

Droits d'auteur :

Formats disponibles

Master

Un nouveau système de visualisation de la prosodie: une aide dans

Dans ce travail, nous présentons un nouvel outil informatique permettant de visualiser la

Un nouveau système de visualisation de la prosodie :

présenté à la Faculté des Lettres

Co-directeurs : Prof. Isabelle Racine

PARTIE PRATIQUE ................................................................................................ 70

CONCLUSION GÉNÉRALE .................................................................................. 118

RÉFÉRENCES ....................................................................................................... 125

ANNEXES .............................................................................................................. 130

TABLE DES FIGURES

Figure 31 : Éléments textuels enrichis. Source : Patel et Furr (2011 : 3205)................................................... 57

Les détails font la perfection, et la perfection n'est pas un détail.

(Komissarchik et Komissarchik, 2000)

1.1 PROSODIE ET PHONETIQUE

Dans chaque langue du monde, il y a toutefois un nombre et un inventaire de phonèmes

1.1.2 Prosodie comme un sous-domaine de la phonétique

croient tout, doutent de tout

1.1.3 Définition de la prosodie

Syllabe Syllabe Syllabe

Rime Rime Rime

Noyau Attaque Noyau Coda Attaque Noyau

Figure 2 : Représentation phonologique de la syllabe

français espagnol anglais allemand

les consonnes doubles représentent généralement une seule consonne prononcée :

en dehors de ces deux groupes, deux consonnes différentes se séparent : admis

(Léon, 2013 : 32)

1.1.5 Unités prosodiques supérieures

Observons le découpage en groupes rythmiques en reprenant l’exemple précédent où, cette

Lacheret-Dujour et Beaugendre (1999 : 91) remarquent que, en général, "les constituants

Dans notre travail, nous choisissons toutefois la structure prosodique du français

1.2.1 Définition de l’accentuation

1.2.2 Accentuation primaire

1.2.2.1 Place de l’accent primaire

[lə.ply.pəti.de.tʁwɑ.kɑ̃bʁijɔ.ˈlœʁ] [a.e.te.a.pεʁ.ˈsy] [a.lεk.ste.ʁjœʁ.də.la.ˈgaʁ] [a.ɥit.œʁ.mwε̃.lə.ˈ kaʁ]

Ou en deux groupes rythmiques :

[lə.ply.pəti.de.tʁwɑ.kɑ̃bʁijɔ.lœʁ.a.e.te.a.pεʁ .ˈsy] [a.lεk.ste.ʁjœʁ.də.la.gaʁ.a.ɥit.œʁ.mwε̃.lə.ˈkaʁ]

1.2.2.2 Fonctions de l’accent primaire

1.2.2.3 Caractéristiques acoustiques de l’accent primaire

Ces variables se combinent pour former les variables psychophonétiques : l’accentuation,

Figure 3 : Schéma de la représentation des paramètres prosodiques. Source : Grosjean (1999)

10 dB : bruissement des feuilles dans la brise

1.2.3 Accentuation secondaire

1.2.3.1 Place de l’accent secondaire

1.2.3.2 Fonctions de l’accent secondaire

Ex. C’est ma faute pas la tienne [sε.ˈma.fot|pɑ.la.ˈtjεn ].

Ex. Mais c’est hallucinant comme action ! [mε.sεtˈ̮a.ly.si.nɑ̃|kɔm.aks.ˈjɔ]̃

La troisième fonction est différenciative permettant de mettre en relief deux ou plusieurs

1.2.3.3 Caractéristiques acoustiques de l’accent secondaire

(Léon et Léon, 2013 : 77).

1.3.1 Définition de l’intonation

1.3.2 Fonctions de l’intonation

1. -Si ces œufs Continuation mineure

2. étaient frais, Continuation majeure

3. J’en prendrais. Finalité

4. – Qui les vend ? Interrogation

5. C’est bien toi, Question (Oui ? / non ?)

Implication (c’est quand "le locuteur

9. – Allons donc ! Exclamation

10. Prouve-le-moi. Commandement (ordre/injonction)

Oui\ = C’est mon avis

Le mouvement principal de l’intonation (ascendant ou descendant) se place généralement sur

1.3.3 Caractéristiques acoustiques de l’intonation