Vous êtes sur la page 1sur 382

UNIVERSITE JOSEPH FOURIER-GRENOBLE1

INFORMATIQUE ET MATHEMATIQUE APPLIQUEE





THESE
pour obtenir le grade de

DOCTEUR DE LUNIVERSITE JOSEPH FOURIER
(arrts ministriels du 5 juillet 1984 et du 30 mars 1992)

Discipline informatique



par

Mohamed-Zakaria KURDI

Le 18 avril 2003



Contribution lanalyse du langage oral
spontan






Jury :

Rapporteurs: Jean-Marie Pierrel
Grard Sabah

Examinateurs: Jean-Yves Antoine
Christian Boitet (Prsident)
Alain Lecomte

Directeur de thse: Jean CAELEN


Thse prpare au sein du laboratoire de Communication Langagire
et Interaction Personne-Systme Fdration IMAG
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
Remerciements
Mes travaux de thse prsents dans ce manuscrit nauraient pu aboutir sans laide et la
prsence de nombreuses personnes que je tiens remercier ici :
Tout dabord, Jean CAELEN mon directeur de thse pour mavoir accueilli GEOD,
pour sa confiance, sa prsence et son aide durant les annes de prparation de cette
thse.
Grard SABAH et Jean-Marie PIERREL qui mont fait le plaisir daccepter la charge de
rapporteur ainsi que pour leurs remarques constructives sur mon travail.
Christian BOITET pour les conseils chaleureux et les remarques critiques quil a su me
prodiguer ainsi que pour lhonneur quil ma fait en prsidant le jury de cette thse.
Jean-Yves ANTOINE pour stre intress mon travail ds le dbut, pour avoir anim
le groupe de travail sur la comprhension robuste (qui tait une excellente occasion pour
rencontrer des thsards dautres universits qui travaillent sur la mme thmatique) ainsi
que pour sa participation mon jury de thse.
Alain Lecomte pour les diffrentes discussions enrichissantes quon a eu ainsi que pour
avoir accept de participer mon jury de thse.
Je tiens aussi remercier tous les membres de lquipe GEOD ainsi que ceux du NISLab
Odense. En particulier, jaimerais remercier mes voisins de bureau Luis
VILLASEOR-PINEDA et Mohamed AHAFHAF GEOD ainsi que Mykola
KOLODNYTSKY et Michel GENEREUX au NISlab.
Je remercie finalement Niels-Ole BERNSEN, directeur du NISLab, pour mavoir
accord sa confiance et pour ses encouragements au cours de mon travail dans son
laboratoire.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

1
Table des matires
Introduction gnrale .................................................................................9
1 OBJECTIF ET CONTRIBUTION DE LA THESE...........................................................11
2 LE PLAN DE LA THESE.............................................................................................12
1.1 La premire partie.................................................................................................. 12
1.2 La deuxime partie.................................................................................................. 12
1.3 La troisime partie.................................................................................................. 12
Partie I : Le langage oral spontan, sa reprsentation grammaticale et
son analyse automatique..........................................................................14
0 INTRODUCTION DE LA PREMIERE PARTIE.............................................................15
1 CHAPITRE I.1 : SPECIFICITES LINGUISTIQUES DU LANGAGE ORAL.................16
1.1 Introduction............................................................................................................ 16
1.2 La syntaxe du langage oral...................................................................................... 16
1.2.1 Les aspects syntaxiques de base............................................................................ 16
2.1.1.1 La topologie en franais parl ....................................................................... 16
2.1.1.2 Laccord en genre et en nombre.................................................................... 17
1.2.2 Exemples de constructions syntaxiques complexes et leurs spcificits loral........ 17
2.1.1.3 Linterrogation ............................................................................................ 17
2.1.1.4 Les relatives ................................................................................................ 19
1.3 Les extragrammaticalits du langage oral................................................................ 19
1.3.1 Terminologie ....................................................................................................... 19
1.3.2 Le paradoxe des extragrammaticalits ................................................................... 20
1.3.3 Le schma gnral des extragrammaticalits.......................................................... 22
1.3.4 Les extragrammaticalits lexicales (ELs)............................................................... 22
2.1.1.5 Les pauses................................................................................................... 23
2.1.1.6 Les mots incomplets..................................................................................... 23
2.1.1.7 Les mots oraux............................................................................................ 23
2.1.1.8 Les amalgames ............................................................................................ 24
1.3.5 Les Extragrammaticalits Supralexicales (ESLs).................................................... 24
2.1.1.9 Les rptitions ............................................................................................. 24
2.1.1.10 Les autocorrections ...................................................................................... 24
2.1.1.11 Les faux-dparts .......................................................................................... 25
2.1.1.12 Les incompltudes ....................................................................................... 25
1.4 Les phnomnes discursifs observs dans le dialogue oral......................................... 26
1.4.1 Lanaphore.......................................................................................................... 26
1.4.2 Les ellipses.......................................................................................................... 27
2.1.1.13 Les ellipses situationnelles............................................................................ 27
2.1.1.14 Les ellipses grammaticales ........................................................................... 27
1.4.3 Les dictiques (embrayeurs) ................................................................................. 28
2 CHAPITRE I.2 : LES FORMALISMES POUR LA REPRESENTATION
GRAMMATICALE DU LANGAGE ORAL............................................................................29
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
2
2.1 La Grammaire dArbres Adjoints Lexicaliss (LTAG) ............................................... 29
2.1.1 Dfinition formelle .............................................................................................. 29
2.1.2 Les arbres lmentaires ........................................................................................ 30
2.1.1.15 Les arbres initiaux........................................................................................ 30
2.1.1.16 Les arbres auxiliaires ................................................................................... 30
2.1.1.17 Contraintes de bonne formation des arbres lmentaires ................................. 30
2.1.1.18 Les oprations de composition des arbres ...................................................... 32
2.1.2.1.1 La substitution........................................................................................ 32
2.1.2.1.2 Ladjonction........................................................................................... 32
2.1.1.19 Spcificits de la composition syntaxique des arbres dans LTAG.................... 34
2.1.3 La composition smantique et lopration dunification.......................................... 34
2.1.4 Les extensions du formalisme LTAG.................................................................... 36
2.1.1.20 Les TAGs Synchrones.................................................................................. 37
2.1.1.21 La grammaire dinsertion darbres (TIG) ....................................................... 38
2.1.1.22 La grammaire darbres furcants (TFG) .......................................................... 38
2.1.1.23 La grammaire stochastique darbres adjoints lexicaliss (SLTAG) .................. 39
2.2 La grammaire smantique....................................................................................... 41
2.2.1 Les bases linguistiques de la grammaire smantique............................................... 42
2.2.2 Porte et limites de la grammaire smantique......................................................... 44
2.2.3 Extensions de la grammaire smantique ................................................................ 45
3 CHAPITRE I.3 : LES APPROCHES DANALYSE ROBUSTE DU LANGAGE ORAL..46
3.1 Les approches pour lanalyse syntaxique robuste...................................................... 46
3.1.1 Lanalyse partielle par segments (chunking) .......................................................... 46
2.1.1.24 Principes gnraux....................................................................................... 46
2.1.1.25 Le systme CASS........................................................................................ 47
3.1.1.1.1 Le filtre des segments.............................................................................. 47
3.1.1.1.2 Le filtre des propositions ......................................................................... 48
3.1.1.1.3 Le filtre danalyse ................................................................................... 48
3.1.2 Les approches slectives....................................................................................... 48
2.1.1.26 Principes gnraux....................................................................................... 48
2.1.1.27 Le systme Phoenix ..................................................................................... 49
3.2 Les approches pour le traitement des extragrammaticalits de loral......................... 50
3.2.1 Introduction......................................................................................................... 50
3.2.2 Lapproche danalyse dabord de SRI international.......................................... 51
2.1.1.28 Le schme dannotation................................................................................ 51
2.1.1.29 La dtection et correction des extragrammaticalits........................................ 52
3.2.3 Lapproche stochastique basede patrons de Heeman............................................ 53
2.1.1.30 Le schme dannotation................................................................................ 53
2.1.1.31 La mthode de dtection et de correction des extragrammaticalits ................. 54
2.1.1.32 Limites de lapproche de Heeman................................................................. 56
3.2.4 Lapproche base de mta-rgles syntaxiques de Mark Core.................................. 56
4 CONCLUSION DE LA PREMIERE PARTIE.................................................................60
4.1 Bilan des Spcificits linguistiques du langage oral.................................................. 60
4.2 Bilan des formalismes utiliss pour la reprsentation de loral.................................. 60
4.3 Bilan des approches danalyse robuste du language oral........................................... 61
4.3.1 Les approches pour lanalyse syntaxique robuste ................................................... 61
4.3.2 Les approches pour le traitement des extragrammaticalits de loral........................ 61
Partie II : Etude des phnomnes grammaticaux et extragrammaticaux
du langage oral..........................................................................................63
0 INTRODUCTION DE LA DEUXIEME PARTIE............................................................64
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

3
1 CHAPITRE II.1 : ANALYSE DES EXTRAGRAMMATICALITES DU LANGAGE
ORAL DANS LE TRAINS CORPUS......................................................................................65
1.1 Introduction............................................................................................................ 65
1.2 Le corpus dtude................................................................................................... 65
1.2.1 Slection du corpus .............................................................................................. 65
1.2.2 Validit de nos observations dans le Trains Corpus ................................................ 66
1.2.3 Prsentation du Trains Spoken Dialog Corpus....................................................... 66
1.3 Annotation des donnes........................................................................................... 68
1.3.1 Proposition dun schme dannotation des extragrammaticalits ............................. 68
1.3.2 Les extragrammaticalits lexicales ........................................................................ 68
2.1.1.33 Annotation des hsitations ............................................................................ 68
2.1.1.34 Annotation des amalgames ........................................................................... 69
2.1.1.35 Annotation des mots oraux ........................................................................... 71
1.3.3 Les extragrammaticalits supralexicales ................................................................ 72
2.1.1.36 Annotation des rptitions et autocorrections ................................................. 72
1.3.3.1.1 Les rptitions ........................................................................................ 73
1.3.3.1.2 Les autocorrections ................................................................................. 74
2.1.1.37 Annotation des faux-dparts ......................................................................... 76
1.3.3.1.3 Analyse des relations de dpendance entre les zones cls du faux-dpart..... 76
1.3.3.1.4 Analyse des zones cls dun faux-dpart................................................... 77
2.1.1.38 Annotation des incompltudes ...................................................................... 80
2.1.1.39 Annotation des fausses extragrammaticalits ................................................. 82
1.3.4 Les occurrences multiples dextragrammaticalits.................................................. 82
2.1.1.40 Les extragrammaticalits multiples ............................................................... 82
2.1.1.41 Les extragrammaticalits imbriques............................................................. 83
1.3.5 Discussion des rsultats de notre annotation........................................................... 83
2.1.1.42 Production des extragrammaticalits ............................................................. 83
2.1.1.43 Rgularit des extragrammaticalits .............................................................. 84
1.3.5.1.1 Principes cognitifs de la gnration du langage parl ................................. 84
1.3.5.1.2 Gnration des rptitions........................................................................ 85
1.3.5.1.3 Gnration des auto-corrections ............................................................... 85
1.3.5.1.4 Discussion des deux structures syntaxiques les plus frquemment observes
dans les faux-dparts et les incompltudes ................................................................. 86
1.3.5.1.5 Effet de nos observations sur la gnration des extragrammaticalit sur leur
analyse 87
2 CHAPITRE II.2 : LES FORMALISMES S-TSG ET SM-TAG POUR LANALYSE
GRAMMATICALE DU LANGAGE ORAL SPONTANE.......................................................89
2.1 Introduction............................................................................................................ 89
2.2 Les lments de base pour une thorie syntaxique et leur pertinence pour la
reprsentation de loral....................................................................................................... 90
2.2.1 Le systme casuel................................................................................................ 90
2.2.2 Accord en genre et en nombre............................................................................... 90
2.2.3 Quelles sources dinformations pour le traitement du franais oral ?........................ 90
2.3 La grammaire smantique de substitution darbres (S-TSG)...................................... 91
2.3.1 Les units de base dans la S-TSG.......................................................................... 91
2.1.1.44 Les arbres lexicaux ...................................................................................... 91
2.1.1.45 Les arbres locaux......................................................................................... 92
2.1.1.46 Les arbres globaux....................................................................................... 92
2.3.2 Lopration de combinaison.................................................................................. 92
2.3.3 Dfinition formelle de la S-TSG et son quivalence avec une CFG......................... 93
2.3.4 Porte et limites de la S-TSG................................................................................ 93
2.4 La Grammaire Smantique dAssociation dArbres (Sm-TAG)................................... 94
2.4.1 Dfinition fonctionnelle de la Sm-TAG................................................................. 94
2.1.1.47 La sortie de la grammaire............................................................................. 94
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
4
2.1.1.48 Les units de base........................................................................................ 95
2.1.1.49 Les oprations de composition...................................................................... 99
2.4.1.1.1 Lopration de substitution ...................................................................... 99
2.4.1.1.2 Lopration dassociation......................................................................... 99
2.4.2 Dfinition formelle ............................................................................................ 102
2.1.1.50 La drivation dans Sm-TAG....................................................................... 102
2.1.1.51 Lquivalence avec une CFG...................................................................... 102
2.4.3 Les aspects smantiques de la Sm-TAG.............................................................. 103
2.1.1.52 Catgorisation ........................................................................................... 103
2.1.1.53 Reprsentation des traits............................................................................. 104
2.1.1.54 Unification et propagation smantique......................................................... 104
2.4.3.1.1 Lunification......................................................................................... 105
2.4.3.1.2 La propagation smantique .................................................................... 106
2.4.4 Exemples de traitement avec la Sm-TAG............................................................ 108
2.1.1.55 Mthodologie ............................................................................................ 109
2.1.1.56 La ngation ............................................................................................... 109
2.4.4.1.1 Intrt de la ngation ............................................................................ 109
2.4.4.1.2 Le terme ne........................................................................................... 110
2.4.4.1.3 Les adverbes de ngation....................................................................... 114
2.4.4.1.4 Les dterminants de ngation ................................................................. 117
2.4.4.1.5 La conjonction ngative......................................................................... 119
2.1.1.57 Lemphase................................................................................................. 123
2.4.4.1.6 Intrt de lemphase.............................................................................. 123
2.4.4.1.7 La dislocation....................................................................................... 123
2.4.4.1.8 Lextraction.......................................................................................... 126
2.4.5 La Sm-TAG : un formalisme pour lanalyse du langage oral................................ 129
2.1.1.58 La Sm-TAG et larchitecture logicielle des modules danalyse linguistique du
langage oral............................................................................................................... 129
2.1.1.59 La Sm-TAG : un formalisme pour lanalyse robuste.................................... 129
2.4.6 Discussion de la validit cognitive de la Sm-TAG................................................ 130
2.1.1.60 Un peu de mthodologie ............................................................................. 130
2.1.1.61 Discussion de la plausibilit cognitive de linteraction directe de la syntaxe avec
les connaissances de niveau suprieur ......................................................................... 131
2.1.1.62 Discussion de la validit de ces arguments par rapport la Sm-TAG............. 133
3 CONCLUSION DE LA DEUXIEME PARTIE.............................................................134
3.1 Bilan de lanalyse des extragrammaticalits........................................................... 134
3.2 Bilan de la S-TSG................................................................................................. 134
3.3 Bilan de la Sm-TAG.............................................................................................. 135
Partie III : les systmes Corrector, Safir, Oasis et Navigator pour
lanalyse du langage oral........................................................................137
0 INTRODUCTION DE LA TROISIEME PARTIE..........................................................138
1 CHAPITRE III.1 : LE SYSTEME CORRECTOR POUR LE TRAITEMENT DES
EXTRAGRAMMATICALITES DU LANGAGE ORAL........................................................139
1.1 Requis du systme................................................................................................. 139
1.2 Proprits cls du systme..................................................................................... 140
1.2.1 Emplacement dans le traitement.......................................................................... 140
1.2.2 Larchitecture et les modules du systme............................................................. 141
2.1.1.63 Le gestionnaire du Systme (GS) ................................................................ 143
2.1.1.64 Traitement lexical...................................................................................... 145
1.2.2.1.1 Normalisation lexicale ........................................................................... 145
1.2.2.1.2 Analyse morphologique (tagging et post-tagging) .................................... 145
2.1.1.65 La reconnaissance de patrons...................................................................... 147
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

5
1.2.2.1.3 Prsentation informelle de notre approche............................................... 147
1.2.2.1.4 Le contrle de lapplication des patrons .................................................. 148
1.2.2.1.5 Prsentation formelle de lalgorithme de reconnaissance des patrons ........ 150
2.1.1.66 Ltiquetage syntaxique par Rseaux de Transition Rcursifs RTRs.............. 154
1.2.2.1.6 La tche du module dtiquetage syntaxique ........................................... 154
1.2.2.1.7 Les Rseaux de Transition Rcursifs RTRs............................................. 154
1.2.2.1.8 Prsentation formelle de la version des RTRs que nous avons implante... 158
2.1.1.67 Rsolution de problmes particuliers ........................................................... 160
1.2.2.1.9 Modlisation de la zone ddition........................................................... 160
1.2.2.1.10 Traitement des extragrammaticalits imbriques ................................... 161
1.2.3 Discussion de larchitecture de Corrector............................................................. 163
1.3 Implantation du systme........................................................................................ 164
1.4 Exemples de traitement......................................................................................... 164
1.4.1 Premier exemple ................................................................................................ 164
1.4.2 Deuxime exemple ............................................................................................ 166
1.5 Evaluation et rsultats........................................................................................... 167
1.5.1 Evaluation du temps de calcul de lalgorithme utilis ........................................... 167
2.1.1.68 La moyenne des temps de calcul ................................................................. 168
2.1.1.69 Les pires des temps de calcul observs ........................................................ 169
1.5.2 Evaluation du traitement des extragrammaticalits ............................................... 170
2.1.1.70 Analyse des rsultats.................................................................................. 172
2.1.1.71 Comparaison avec le systme de Heeman.................................................... 173
1.6 Bilan du systme Corrector ................................................................................... 175
2 CHAPITRE III.2 : LES SYSTEMES SAFIR ET OASIS POUR LANALYSE DU
LANGAGE ORAL DANS LE CONTEXTE DE DIALOGUES ORIENTES PAR LA TACHE
177
2.1 Les premiers pas : le systme SAFIR...................................................................... 177
2.1.1 Le corpus de rservation htelire....................................................................... 177
2.1.2 Les requis du systme ........................................................................................ 178
2.1.3 Architecture du systme..................................................................................... 178
2.1.1.72 Justification des choix ................................................................................ 178
2.1.1.73 Le prtraitement......................................................................................... 179
2.1.1.74 Lanalyse linguistique ................................................................................ 179
2.1.3.1.1 Lcriture de la grammaire..................................................................... 179
2.1.3.1.2 Limplantation de la grammaire ............................................................. 181
2.1.4 Implantation du systme..................................................................................... 185
2.1.5 Evaluation et rsultats ........................................................................................ 185
2.1.6 Bilan gnral du systme Safir ............................................................................ 186
2.2 La solution des problmes de Safir : le systme Oasis.............................................. 187
2.2.1 Les requis du systme Oasis ............................................................................... 187
2.2.2 Architecture du systme Oasis ............................................................................ 187
2.1.1.75 Le gestionnaire de systme......................................................................... 188
2.1.1.76 Le module de reconnaissance...................................................................... 190
2.1.1.77 Le prtraitement......................................................................................... 190
2.2.2.1.1 Le traitement lexical.............................................................................. 190
2.2.2.1.2 Analyse morphologique......................................................................... 191
2.1.1.78 Traitement des extragrammaticalits supralexicales...................................... 191
2.1.1.79 La grammaire............................................................................................ 192
2.1.1.80 Lalgorithme danalyse............................................................................... 193
2.2.2.1.3 La premire passe................................................................................. 193
2.2.2.1.4 La deuxime passe................................................................................ 197
2.1.1.81 Le post-traitement...................................................................................... 199
2.1.1.82 Discussion de larchitecture dOasis............................................................ 200
2.2.3 Implantation du systme Oasis............................................................................ 201
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
6
2.2.4 Evaluation du systme Oasis............................................................................... 202
2.1.1.83 Evaluation du temps de calcul de notre algorithme danalyse........................ 202
2.1.1.84 Evaluation quantitative............................................................................... 204
2.2.4.1.1 Le corpus de test................................................................................... 204
2.2.4.1.2 Les rsultats de lvaluation................................................................... 204
2.2.4.1.3 Comparaisons avec dautres travaux....................................................... 205
2.1.1.85 Evaluation qualitative : la campagne dvaluation par dfi............................ 206
2.2.4.1.4 Cadre de lvaluation............................................................................. 206
2.2.4.1.5 Droulement de la campagne dvaluation par dfi.................................. 207
2.2.4.1.6 Les rsultats du systme Oasis ............................................................... 209
2.2.4.1.7 Les premiers rsultats globaux des systmes impliqus dans la campagne. 221
3 CHAPITRE III.3 : LE SYSTEME NAVIGATOR POUR LA COMPREHENSION DES
DIALOGUES MUTLI-DOMAINES ORIENTES PAR LA TACHE........................................224
3.1 Le Projet Vico...................................................................................................... 224
3.2 Architecture du systme Vico................................................................................. 226
3.2.1 Les modules de reconnaissance........................................................................... 228
3.2.2 Le Gestionnaire de Dialogue (GD)...................................................................... 229
3.3 Le module de comprhension de Vico : Navigator................................................... 230
3.3.1 Description des composantes de Navigator .......................................................... 234
3.3.1.1 Le Gestionnaire Global de Navigator (GGN) ............................................... 234
3.3.1.2 Le gestionnaire dune Langue Particulire (GLP)......................................... 234
3.3.1.2.1 Les rgles dactivation des units syntaxiques ......................................... 234
3.3.1.2.2 Les rgles dactivation des units smantiques ........................................ 235
3.3.1.3 Lanalyse grammaticale.............................................................................. 235
3.3.1.3.1 Linterface entre la grammaire et le module danalyse............................. 235
3.3.1.3.2 La modularit de la grammaire............................................................... 239
3.3.1.4 Le module darbitrage ................................................................................ 240
3.3.1.4.1 Le score global de reconnaissance.......................................................... 241
3.3.1.5 Le score danalyse grammaticale ................................................................ 242
3.3.1.5.1 Calcul du Score Global de lEnonc (SGE) ............................................. 243
3.3.1.5.2 Calcul du score normalis...................................................................... 243
3.3.1.6 Lanalyse smantique................................................................................. 244
3.3.1.7 Le module de traitement des extragrammaticalits ....................................... 244
3.3.2 Exemple de traitement........................................................................................ 244
3.3.3 Discussion de larchitecture de Navigator ............................................................ 246
3.3.3.1 Aspects logiciels ........................................................................................ 246
3.3.3.2 Aspects cognitifs........................................................................................ 247
3.3.4 Ralisation du systme Navigator ....................................................................... 247
3.3.4.1 Les grammaires utilises ............................................................................ 247
3.3.4.1.1 Le corpus utilis pour lcriture de la grammaire..................................... 247
3.3.4.1.2 Ecriture de la grammaire........................................................................ 248
3.3.4.2 Description des modules implants ............................................................. 249
3.3.4.2.1 Implantation des modules dpendants de la langue .................................. 249
3.3.4.2.2 Implantation des modules indpendants de la langue ............................... 251
3.3.4.3 Le module denveloppe .............................................................................. 252
3.3.5 Premire evaluation de lanalyse linguistique dans Navigator ............................... 254
3.3.5.1 Objectif de lvaluation .............................................................................. 254
3.3.5.2 Matriel utilis pour lvaluation ................................................................ 255
3.3.5.3 Rsultats et discussion................................................................................ 255
3.3.6 Discussion de la portabilit de la Sm-TAG la lumire du systme Navigator ....... 257
4 CONCLUSION DE LA TROISIEME PARTIE..............................................................259
4.1 Le systme Corrector ............................................................................................ 259
4.2 Analyse linguistique.............................................................................................. 259
4.2.1 Le systme Safir ................................................................................................ 259
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

7
4.2.2 Le systme Oasis ............................................................................................... 259
4.2.2.1 Evaluation quantitative............................................................................... 260
4.2.2.2 Evaluation qualitative................................................................................. 260
4.2.3 Le systme Navigator ......................................................................................... 260
Conclusion et perspectives.....................................................................261
1 BILAN GENERAL.....................................................................................................262
1.1 Traitement des extragrammaticalits...................................................................... 262
1.1.1 Analyse de corpus.............................................................................................. 262
1.1.2 Ralisation du systme Corrector pour le traitement des extragrammaticalits........ 263
1.2 Analyse grammaticale........................................................................................... 263
1.2.1 La Grammaire Smantique de Substitution dArbres (S-TSG)............................... 263
1.2.2 La Grammaire Smantique dAssociation dArbres (Sm-TAG) ............................. 264
1.2.3 Systmes danalyse grammaticale ....................................................................... 264
4.2.3.1 Le systme Safir ........................................................................................ 264
4.2.3.2 Le systme OASIS..................................................................................... 265
4.2.3.3 Le systme Navigator ................................................................................. 265
2 PERSPECTIVES A COURT-TERME...........................................................................266
3 PERSPECTIVES A PLUS LONG TERME...................................................................267
3.1 Modlisation des extragrammaticalits .................................................................. 267
3.2 La Sm-TAG.......................................................................................................... 267
Bibliographie...........................................................................................268
1. REFERENCES BIBLIOGRAPHIQUES........................................................................269
2 BIBLIOGRAPHIE GENERALE..................................................................................281
3 PUBLICATIONS PERSONNELLES............................................................................296
Annexes....................................................................................................297
1 ANNEXE1 : EXTRAITS DES CORPUS UTILISES....................................................298
1.1 Le corpus de rservation htelire ......................................................................... 298
1.2 Extrait du corpus Nespole ..................................................................................... 300
1.3 Extrait du Trains Corpus....................................................................................... 308
1.4 Extrait du corpus des meilleures hypothse de reconnaissance utilises pour tester Oasis
313
1.5 Extrait du corpus utilis pour tester Corrector........................................................ 317
2. ANNEXE 2: EXEMPLE DANNOTATION DES EXTRAGRAMMATICALITES DANS
UN DIALOGUE DU TRAINS CORPUS..............................................................................340
2.1 Annotation des faux dparts et autocorrections....................................................... 340
2.2 Annotation des rptitions..................................................................................... 343
3. ANNEXE 3 : EXEMPLES DE REGLES SYNTAXIQUES UTILISEES POUR LE
TRAITEMENT DES FAUX-DEPARTS................................................................................345
4. ANNEXE 4 : ANNOTATION DU CORPUS DE RESERVATION HOTELIERE........347
5. ANNEXE 5 : LE CORPUS INITIAL AINSI QUUN EXEMPLE DENONCES DERIVES
UTILISES LORS DE LA CAMPAGNE DEVALUATION PAR DEFI..................................349
5.1 Le corpus initial.................................................................................................... 349
5.2 Un extrait du corpus driv ................................................................................... 350
6. ANNEXE 6 : DESCRIPTION DE LA METHODE DCR ETENDUE........................351
7. ANNEXE 7: LES SYSTEMES DANALYSE DU LANGAGE ORAL ET LEURS
UTILISATIONS DANS LES SYSTEMES DE DIALOGUE ORIENTE PAR LA TACHE.......359
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
8
7.1 Schma gnral des systmes de dialogue orients par la tche ............................... 359
7.1.1 Reconnaissance Automatique de la Parole (RAP)................................................. 360
4.2.3.4 Dcodage acoustico-phontique .................................................................. 360
4.2.3.5 Modle de langage ..................................................................................... 360
7.1.2 Analyse linguistique........................................................................................... 360
7.1.3 Comprhension.................................................................................................. 361
7.1.4 La reprsentation intermdiaire........................................................................... 361
7.1.5 La tche ............................................................................................................ 361
4.2.3.6 Le modle de la tche................................................................................. 361
4.2.3.7 Lunivers de la tche .................................................................................. 361
7.1.6 Les problmes des systmes de dialogue orients par la tche............................... 362
7.2 Prsentation de quelques systmes de dialogues orients par la tche...................... 363
7.2.1 La priode des approches thoriques et exprimentales......................................... 363
4.2.3.8 Le systme MYRTILLE I........................................................................... 364
4.2.3.9 Le systme MYRTILLE II ......................................................................... 364
4.2.3.10 Le systme HEARSAY II........................................................................... 364
4.2.3.11 Le systme DIAL....................................................................................... 364
4.2.3.12 Le systme DIRA...................................................................................... 364
4.2.3.13 Le systme CARAMEL............................................................................. 364
7.2.2 La priode des applications relles ...................................................................... 365
4.2.3.14 Le projet ATIS .......................................................................................... 367
7.2.2.1.1 Le systme ATIS de AT&T................................................................... 368
7.2.2.1.2 Le systme ATIS de McGill University .................................................. 369
4.2.3.15 Le projet DARPA Communicator ............................................................... 370
7.2.2.1.3 Le CU Communicator ........................................................................... 370
4.2.3.16 Le projet Verbmobil................................................................................... 372
7.2.2.1.4 Larchitecture de Verbmobil .................................................................. 375
7.2.2.1.5 La reconnaissance automatique de la parole ............................................ 376
7.2.2.1.6 Traitement prosodique........................................................................... 376
7.2.2.1.7 Lapproche multi-moteur pour lanalyse syntaxique robuste..................... 377
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

9
Introduction gnrale
Linterprtation de la parole est un processus qui met en uvre des mcanismes trs complexes et trs
divers afin danalyser un nonc. Une classification extrmement simplificatrice du processus
dinterprtation consiste sparer le traitement de la parole en deux tapes distinctes : la
reconnaissance et la comprhension. Selon cette distinction dichotomique, la reconnaissance consiste
identifier les phonmes et les assembler en mots. La comprhension est considre comme tant le
mcanisme selon lequel on associe une interprtation lnonc reconnu, en prenant en considration
le contexte dans lequel cet nonc est mis. Malgr lexistence de diffrents travaux en
psycholinguistique exprimentale (voir par exemple (Schwartz, 1996), (Kurdi, 1996) pour une revue
gnrale de ces travaux) qui montrent que les relations entre la reconnaissance et la comprhension
sont trop complexes pour tre spares de cette manire, cette distinction a t adopte dans la
majorit des travaux rcents dans le domaine du traitement automatique du langage oral visant
simuler ce processus de comprhension chez les humains. Ainsi, on distingue entre deux champs de
recherche au sein du domaine du traitement automatique du langage oral : la reconnaissance de la
parole et lanalyse linguistique du langage oral qui correspondent approximativement la perception
et la comprhension chez lhumain. Dans cette thse, notre travail sinscrit dans le contexte des
recherches sur lanalyse linguistique du langage oral. Ce domaine a connu rcemment des avances
significatives grce aux dveloppements technologiques dans le domaine de lIntelligence Artificielle
(IA) en gnral, lamlioration de la qualit des systmes de reconnaissance automatique de la
parole, et la proposition de modles linguistiques plus fins qui sont aptes dcrire les diffrentes
proprits du langage oral (Cole, 1996).
Afin de construire une reprsentation smantique correspondant un nonc quelconque, un systme
danalyse linguistique du langage oral doit surmonter des obstacles dont les principaux sont les
suivants :
Problme de la qualit de la reconnaissance de la parole : les systmes actuels de
reconnaissance de la parole spontane sont loin de donner des performances satisfaisantes. En
effet, le taux de reconnaissance varie considrablement selon plusieurs facteurs, comme le dbit
de la parole, la quantit du bruit (la qualit de la reconnaissance baisse avec la diminution de
rapport signal/bruit), etc. Ces erreurs consistent gnralement en insertion, suppression ou
substitution de certains mots de lnonc. Cela ncessite le recours une approche trs flexible
afin de corriger le maximum de ces erreurs dune part et de rduire leffet des erreurs non
corriges sur linterprtation de lnonc dautre part.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
10
Problme des spcificits grammaticales de la parole spontane : comme nous allons le voir
en dtail dans la premire partie de cette thse, la syntaxe de loral prsente certaines
spcificits qui ncessitent dtre prises en considration afin deffectuer une analyse correcte
des noncs oraux.
Problmes des extragrammaticalits de loral : selon diffrentes tudes menes sur plusieurs
corpus (Nakatani et Hirschberg, 1994), (Heeman, 1997), des phnomnes comme les
rptitions, les autocorrections ou les faux-dparts apparaissent dans environ 10% des noncs
dun dialogue. Ces phnomnes ncessitent un traitement particulier afin dviter les erreurs
danalyse syntaxique et smantique quils peuvent causer.
Avec le dveloppement des nouvelles technologies de la communication ainsi que des techniques de
reconnaissance de la parole, on assiste lextension du cahier des charges des systmes d'analyse
linguistique du langage oral. Les exigences principales sont :
Augmentation de la finesse danalyse : cela ncessite lutilisation de modles linguistiques
prcis du langage oral .
Elargissement des domaines de dialogue : cela contribue laugmentation du nombre des
concepts et des mots dans le dialogue et par consquent laugmentation de lambigut
smantique et lexicale.
Conditions relles d'utilisation : cela implique une couverture syntaxique de l'oral plus large
ainsi que la prise en compte des extragrammaticalits.
Ces nouvelles exigences mettent les concepteurs de systmes danalyse du langage oral devant le
dilemme suivant
1
:
Pour rpondre la condition de finesse de l'analyse, les chercheurs ont souvent recours aux
formalismes syntaxiques classiques coupls une approche d'analyse complte. Malgr ses
avantages en terme de finesse, ce choix conduit directement une baisse importante de la
robustesse tant donn que les formalismes syntaxiques classiques ainsi que l'approche
d'analyse complte ont t conus initialement dans le contexte de l'analyse crite et ne sont
donc pas adapts aux particularits grammaticales et extragrammaticales de l'oral ni au
traitement dnoncs ayant des erreurs de reconnaissance.
Pour rpondre la condition de la robustesse, les chercheurs utilisent des approches d'analyse
superficielles et descendantes bases principalement sur la smantique et combines des

1
Ce dilemme se voit clairement dans le projet Verbmobil (Wahlster, 2000). En effet, comme nous allons le voir
en dtail plus loin, les systmes danalyse superficielle ont t plus robustes que ceux qui donnent une analyse
profonde.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

11
approches danalyse partielles ou base de mots cls. Ces approches, malgr leur robustesse, ne
permettent souvent pas de traiter correctement les noncs linguistiquement complexes.
1 Objectif et contribution de la thse
Dans cette thse, nous proposons une approche qui optimise le rapport finesse-robustesse dans un
systme danalyse du langage oral. Avant de montrer la contribution de notre travail par rapport la
problmatique de notre thse prsente ci-dessus, nous dfinissons notre propre compte les notions
de base de cette problmatique :
1. Lanalyse linguistique : par analyse linguistique nous entendons lassociation dune
reprsentation formelle (syntaxique et/ou smantique) un nonc isol de son contexte
dialogique. Nous avons prfr lutilisation de cette expression (analyse linguistique)
plutt que le mot comprhension tant donn que la comprhension couvre des domaines
qui relvent du dialogue comme la rsolution de lanaphore ou de lambigut
contextuelle qui sortent du cadre de notre tude
2
.
2. La robustesse : nous dfinissons la robustesse comme la capacit du systme donner
une analyse correcte quelles que soient les conditions dans lesquelles lanalyse est faite.
Dans le contexte des systmes danalyse linguistique de la parole, cela signifie que le
systme doit tre capable de donner une interprtation correcte mme dans les cas o
lnonc contient des erreurs de reconnaissance, des extragrammaticalits, une
construction syntaxique particulire, etc.
3. La profondeur : ce que nous entendons par profondeur est la capacit du systme
construire une reprsentation syntaxique et smantique dun nonc quelles que soient sa
forme et sa complexit linguistique (constructions relatives, ellipses, incises, etc.). Les
reprsentations fournies doivent reflter fidlement toutes les variations linguistiques qui

2
La comprhension peut tre vue comme une contextualisation dialogique de lanalyse linguistique. Par exemple
un nonc elliptique comme : deux est interprt par un module danalyse linguistique en lassociant une
reprsentation comme: nombre(deux). Le module de comprhension prend cette reprsentation et lancre dans le
contexte de la conversation en cours. Ainsi, si lnonc oui est prcd par une question du systme comme :
combien de chambres voulez vous, le module de comprhension enrichit la reprsentation initiale obtenue avec le
module danalyse linguistique et sa sortie peut tre une reprsentation comme :
chambres_demandes(nombre (2)). Par extension, la comprhension peut tre considre comme la construction
de lanalyse linguistique ainsi que sa contextualisation.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
12
ont un effet sur le sens utile de lnonc. Le sens utile est le sens ncessaire pour le
droulement dun change dialogique pertinent entre deux agents.
Nous pouvons rsumer les objectifs de notre thse par les points suivants :
1. Etude des phnomnes extragrammaticaux en particulier en ce qui concerne leur rgularit
aussi bien que leur rapport avec la grammaire de la langue en gnral.
2. Proposition du formalisme Semantic Tree Association Grammar (Sm-TAG) qui est destin au
traitement des phnomnes grammaticaux du langage oral.
3. Implantation de quatre systmes bass sur nos tudes des extragrammaticalits ainsi que sur la
Sm-TAG et valuation de ladaptation de ces systmes au traitement des phnomnes
grammaticaux et extragrammaticaux du langage oral.
2 Le plan de la thse
1.1 La premire partie
Cette partie sarticule autour de trois chapitres :
Le premier chapitre prsente les diffrentes spcificits communicationnelles et linguistiques du
langage oral. Nous allons en particulier, nous concentrer sur les aspects grammaticaux et
extragrammaticaux du langage oral.
Le deuxime chapitre est consacr la prsentation de deux formalismes qui sont utiliss pour la
reprsentation des phnomnes grammaticaux du langage oral.
Dans le troisime chapitre, nous allons prsenter les principales approches pour lanalyse syntaxique
robuste ainsi que pour le traitement des extragrammaticalits du langage oral.
1.2 La deuxime partie
Consacre aux tudes thoriques que nous avons effectues, cette partie, est compose de deux
chapitres :
Dans le premier chapitre, nous allons dcrire notre mthode danalyse du Trains Corpus ainsi que les
rsultats de cette analyse.
Dans le deuxime chapitre, nous allons prsenter la formalisation de la grammaire smantique de
substitution darbres (S-TSG) ainsi que les diffrentes proprits formelles et linguistiques de la
grammaire smantique dAssociation dArbres (Sm-TAG) que nous avons propos spcifiquement
pour prendre en considration les phnomnes de loral.
1.3 La troisime partie
Consacre aux applications des modles thoriques, cette partie contient deux chapitres :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

13
Le premier chapitre sera consacr au systme Corrector qui est une mise en uvre applicative de notre
modle sur les extragrammaticalits. Le systme Corrector est bas sur une approche intgre qui
combine des techniques diverses (notamment la reconnaissance de patron et lanalyse superficielle)
pour traiter les diffrentes formes dextragrammaticalits.
Consacr aux applications des formalismes S-TSG et Sm-TAG, le deuxime chapitre porte sur les
systmes SAFIR, OASIS et NAVIGATOR. Ces trois systmes sont bass sur une approche danalyse
partielle et slective qui leur permet dtre robustes par rapport aux diffrentes sources de problmes
danalyse comme les erreurs de reconnaissance et les extragrammaticalits. Les mthodes utilises
pour lvaluation de ces systmes ainsi que les rsultats obtenus seront aussi prsents dans ce
chapitre.






t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
14




Partie I : Le langage oral spontan, sa reprsentation
grammaticale et son analyse automatique
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

15
0 Introduction de la premire partie
Cette partie dtaille les diffrentes proprits linguistiques du langage oral ainsi que les principaux
formalismes syntaxiques et smantiques qui peuvent tre utiliss pour reprsenter ces diffrentes
proprits. Ainsi, cette partie sarticule autour de deux chapitres :
Les diffrentes spcificits linguistiques du langage oral. Dans cette prsentation, une attention
particulire sera accorde sur les phnomnes syntaxiques et discursifs observs loral ainsi
que sur les diffrents phnomnes dextragrammaticalits.
Les deux formalismes grammaticaux qui ont inspir notre travail : LTAG et la grammaire
smantique.
Les approches principales pour lanalyse robuste du langage oral spontan.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
16
1 Chapitre I.1 : Spcificits linguistiques du langage oral
1.1 Introduction
Ce chapitre a pour objectif de montrer les diffrents aspects linguistiques du langage oral spontan
oraux avec une mise en vidence des phnomnes grammaticaux, extragrammaticaux et discursifs.
1.2 La syntaxe du langage oral
Dans le domaine de la parole, un nombre assez considrable dtudes a port sur les aspects
phontique et phonologique, mais la syntaxe, qui est pourtant une discipline centrale dans la
linguistique, est la seule rester soumise au rgne du scripturocentrisme comme le souligne (Kerbat-
Orecchioni, 2001). En effet, les tudes syntaxiques ont essentiellement port sur lcrit en ngligeant
loral considr comme une forme appauvrie et parfois dviante de lcrit. Le manque de ressources
linguistiques cause des difficults de collecte et de transcription de dialogues oraux (voir (Blanche-
Benveniste, 1987) pour une revue gnrale de ces problmes) ainsi que limportance assez limite du
traitement syntaxique de loral avant les annes quatre-vingt-dix constituent dautres raisons ce
retard.
1.2.1 Les aspects syntaxiques de base
Nous allons prsenter dans les paragraphes suivants les principaux aspects syntaxiques en franais
parl classs par grandes classes de phnomnes.
2.1.1.1 La topologie en franais parl
Il sagit de lordre selon lequel les mots sont agencs au sein de la phrase. En gnral, la topologie
permet de savoir la fonction dun argument selon sa position par rapport au verbe (Lazard, 1994). Par
exemple, le franais est une langue ordre SVO (Sujet Verbe Objet). Selon les langues, cet ordre peut
varier de fixe totalement variable. A lcrit, le franais respecte parfaitement lordonnancement
standard. Cependant, loral ne semble pas obir la mme rgle. Par exemple, les noncs suivants
sont parfaitement possibles dans une conversation parle :
Mon cahier je lai oubli la maison (antposition dun SN : OSV) (1)
A 200 mtres vous trouvez une pharmacie (antposition dun SP : OSVO) (2)
Moi mon pre je laime beaucoup (double marquage: SOSOV) (3)
La question qui se pose est de savoir quelle est limportance de ces cas en terme de frquence dans les
conversations parles puis de savoir si cette frquence dpend du contexte syntaxique (cest--dire,
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

17
est-elle plus importante dans un contexte syntaxique C1 que dans un autre contexte syntaxique C2)
(Antoine et Goulian, 2001) ont essay de rpondre ces questions dans une tude rcente base sur
trois corpus de franais parl
3
. Ainsi, ces chercheurs ont montr que dans des situations ordinaires le
langage finalis respecte lordonnancement privilgi.
2.1.1.2 Laccord en genre et en nombre
En franais, il sagit dun mcanisme selon lequel un nom ou un pronom donn exerce une contrainte
formelle sur les pronoms qui le reprsentent, sur les verbes dont il est sujet, sur les adjectifs ou
participes passs qui se rapportent lui (Dubois, 1994). Selon les constructions, laccord est plus ou
moins respect loral. Par exemple, le non-respect de laccord entre le substantif et/ou ses adjectifs
sont trs rares (exemples 4 et 5), alors que laccord en genre entre lattribut et le mot auquel il se
rapporte est trs frquent (Sauvageot, 1972). Voici une srie dexemple de non-respect de laccord
(les trois premiers sont tirs de (Sauvageot, 1972)).
Une voiture metteur (4)
Les revenus salariaux (5)
Les dispositions que nous avons pris (6)
Cest mes amis (7)
Notons que mme en cas de respect de laccord, ce respect nest souvent pas marqu par des
ralisations phontiques perceptibles par lauditeur de lnonc. Par exemple, le e utilis pour marquer
le genre fminin nest associ un phonme que dans des contextes exceptionnels comme lorsquil est
prcd dun s : mise, admise.
1.2.2 Exemples de constructions syntaxiques complexes et leurs spcificits
loral
2.1.1.3 Linterrogation
Linterrogation sous toutes ses formes est un moyen linguistique particulirement important dans le
dialogue. Trois dispositifs sont utiliss en franais parl pour marquer linterrogation (Gadet, 1989),
(Capelle et Frrot, 1979) :
1. Linversion : il sagit de placer le verbe avant le sujet (qui peut tre un nom ou un pronom)
comme dans les exemples suivants :
La chambre est-elle libre ? (8)
Arrive-il ce soir ? (9)
Ce dispositif est utilis la fois loral et lcrit.

3
Il sagit des corpus : Air France (Morel, et al., 1989), Murol (Bessac et Caelen, 1995), Levelt (Ozkan, 1994).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
18
2. Les interrogatifs : sont des pronoms, des adjectifs ou des adverbes qui indiquent linterrogation
sans changer lordre des lments de lnonc. Par contre, les interrogatifs eux-mmes peuvent
venir au dbut (les exemples 10, 13, 15, 16 et 17) ou la fin de lnonc (les exemples 11, 12 et
14).
Est-ce quelle est chre ? (adverbe dinterrogation) (10)
Elle est trs chre nest-ce pas ? (11)
Cest trs loin dici non ? (12)
Laquelle des deux est moins chre ? (pronom interrogatif objet) (13)
Son prix cest combien? (14)
Quest-ce que vous avez comme services ? (15)
Cest quand que commence le spectacle ? (16)
Quels services proposez-vous ? (adjectif interrogatif) (17)
Les exemples 11, 12 et 14 sont propres loral. Pour le reste, il sagit dexemples partags loral et
lcrit.
3. Lintonation : Lintonation montante marque toutes les formes dinterrogation celles qui
impliquent un lment syntaxique ou pas. Dans ce deuxime cas, elle permet toute seule
dexprimer linterrogation en maintenant gnralement lordre des mots lnonc assertif.
Lintonation interrogative est gnralement montante (exemple 19) contrairement lintonation
des noncs dclaratifs qui est descendante (exemple 18).

Elle est confortable (nonc dclaratif) (18)

Elle est confortable ? (nonc interrogatif)
(19)
Linterrogation peut porter sur la totalit de lnonc ou sur une partie seulement.
Les noncs interrogatifs qui nimpliquent que la prosodie pour marquer linterrogation
constituent le cas le plus frquent loral (Gadet, 1989). Cette frquence est due essentiellement
des raisons dconomie et defficacit. Les autres dispositifs de marquage de linterrogation
tant considrs comme redondants dune part et dautre part ces dispositifs ne sont pas
ncessaires pour faciliter laccs perceptif de lauditeur laspect interrogatif de lnonc :
lintonation tant trs facilement perceptible par les auditeurs cause notamment de sa dure
importante en gnral.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

19
2.1.1.4 Les relatives
La relative est considre comme lun des principaux exemples de divergence entre loral et lcrit
(Gadet, 1989). Une proposition relative est une proposition qui contient un pronom relatif enchss
dans le syntagme nominal constituant dune phrase dite principale. Le syntagme nominal qui sert de
base lenchssement est appel antcdent. Soit les noncs :
Le professeur dont je parle (20)
Le professeur de qui je parle (21)
Outre les formes dites standards utilises la fois loral et lcrit (comme dans les exemples (20)
et (21)), trois types de relatives peuvent tre observs uniquement loral (Gadet, 1989) :
Les relatives dites de franais populaire : ces relatives peuvent tre ralises avec un clitique
(22), avec un groupe prpositionnel (23) ou avec un possessif (24) :
Le prof que jen parle (22)
Le prof que je parle de lui (23)
Le prof que je parle de sa matire (24)
Relative dfective : cette forme est dite dfective parce quelle cre une ambigut entre lobjet
direct et lobjet indirect cest pourquoi elle est la moins frquente compare aux autres.
Le mot (du directeur) que je parle (25)
Relative plonastique : ces relatives ont une structure similaire aux relatives dites de franais
populaire et elles sen distinguent par le pronom dobjet.
Le prof dont jen parle (26)
Le prof dont je parle de lui (27)
Le prof dont je parle de sa matire (28)
1.3 Les extragrammaticalits du langage oral
1.3.1 Terminologie
Extragrammaticalits, inattendus structurels, spontanits, non-continuits (disfluencies), autant de
mots ont t proposs dans la littrature pour dsigner les phnomnes spontans de loral comme
lhsitation, la rptition, lautocorrection, etc. Chacun de ces termes a sa motivation. Dans Inattendus
structurels, dune part, le mot structurel est trop gnral et peut dsigner toute sorte de phnomnes
linguistiques et dautre part, le mot inattendu porte un jugement a priori sur la prdictibilit dun de
ces phnomnes. En effet, plusieurs tudes ont montr que, sachant le contexte, ces phnomnes sont
parfaitement prvisibles (Lickley, 1994), (Shriberg, 1994). Quant au mot spontanit, il est trop vague
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
20
et gnral et ne donne pas dindication sur la nature des phnomnes dsigns. En particulier ce terme
ne permet pas de distinguer les spontanits grammaticales des spontanits extragrammaticales. Le
terme non-continuits (disfluency) (Shriberg, 1994), (Lickley, 1994), (Heeman, 1997), (Core, 1999),
porte essentiellement sur laspect phontique des phnomnes. Or, les phnomnes de loral ne sont
pas toujours accompagns de variations phontiques particulires ou dinterruptions comme le laisse
entendre ce terme. Le terme extragrammaticalit (Carbonell, 1984) nous semble le plus appropri. En
effet, il est suffisamment gnral et prcis pour couvrir les diffrents phnomnes spontans de loral
qui ne dpendent pas directement de la syntaxe de la langue.
1.3.2 Le paradoxe des extragrammaticalits
La diffrence principale entre les phnomnes grammaticaux de loral et les extragrammaticalits est
que les premiers dpendent entirement de contraintes inhrentes la grammaire (ils sont lis la
comptence linguistique) alors que les seconds sont lis lusage de la langue dans les conditions
relles (phnomnes de performance). Autrement dit, loccurrence dune extragrammaticalit dpend
principalement de raisons externes la langue. Ainsi, nous nous trouvons devant le paradoxe suivant :
les extragrammaticalits, tout en tant causes par des raisons compltement externes la grammaire
de la langue, se manifestent sous une forme grammaticale : des constructions syntaxiques considres
comme tant mal-formes par rapport la grammaire de la langue mais dont la construction nest pas
compltement indpendante delle (lextragrammaticalit se manifeste comme une srie ditems
lexicaux, de syntagmes dont dpendent directement de la grammaire de la langue. Pour mettre au clair
ce paradoxe, nous dressons un schma gnral de lmission des extragrammaticalits dans la figure
suivante :













t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

21


















Figure 1. Schma gnral des sources dmission dune extragrammaticalit
Comme nous pouvons le constater dans le schma prcdent, les raisons des extragrammaticalits sont
multiples. En voici une description gnrale :
1. Les raisons cognitives : il sagit dun ensemble de raisons qui peuvent varier entre ltat
motionnel du sujet, son degr de concentration et la complexit de la tche quil doit rsoudre.
Par exemple, une tche difficile ncessite plus de calculs cognitifs quune tche simple. Dans
certains cas, cela peut dclencher des extragrammaticalits afin de remplir le silence ncessaire
la rflexion.
2. Les raisons physiologiques : il sagit dun ensemble de raisons qui sont lies principalement
la production sonore de la parole. Cela peut consister adapter la segmentation de lnonc au
rythme de la respiration dans les cas dun effort physique important ou le besoin soudain de
dgagement du conduit respiratoire qui se traduit par des toux volontaires ou involontaires et
qui ont par effet linterruption du flux de la parole.
3. Raisons dialogiques : certaines extragrammaticalits rsultent de la ngociation de la prise du
tour de parole. Ainsi, dans le cas de russite de la prise du tour de parole par un interlocuteur,
Raisons
cognitives
Raisons
physiologiques
Raisons
dialogiques
Raisons lies
au monde
Manifestation grammaticale de
lextragrammaticalit au sein de lnonc
Comptence
Phrase
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
22
lnonc en cours dmission est interrompu. Dans ce genre de situations, on assiste
typiquement des cas dincompltude. Pour ailleurs, nous avons observ informellement des
tentatives non russies de prise de la parole qui se sont traduites par une dconcentration du
locuteur et son mission de certaines extragrammaticalits avant de pouvoir continuer son
nonc normalement.
4. Raisons lies au monde : il sagit dun nombre infini dvnements qui peuvent parfois capter
de manire trs forte lattention du locuteur et qui ont pour rsultat soit larrt immdiat de la
prononciation soit une dconcentration importante du locuteur. Par exemple, un conducteur en
cours de conversation et dont la voiture est heurte par un vlo ou une autre voiture peut arrter
son nonc et en commencer un autre pour rpondre la situation urgente.
1.3.3 Le schma gnral des extragrammaticalits
Gnralement, les extragrammaticalits de loral peuvent tre divises en trois zones temporelles selon
le schma prsent dans la figure 2 (Shriberg, 1994).
Point dinterruption

.... So lets see <sil> um <sil> lets go

Reparandum Zone ddition Remplaant
Figure 2. Schma gnral des extragrammaticalits
1. Le remplaant : Il sagit de la zone que le locuteur introduit pour remplacer le reparandum.
2. Le reparandum : Cest la partie de lnonc que le locuteur juge incorrecte ou non ncessaire et
quil remplace par le segment remplaant.
3. La zone ddition : Cest lensemble des mots qui sparent les deux zones prcdentes et qui
commence gnralement par le point dinterruption, qui est caractris par une augmentation
considrable de la frquence fondamentale sur une hsitation ou un mot incomplet. Parfois la zone
ddition peut tre porteuse de sens, comme cest le cas gnralement des expressions phatiques
utilises pour maintenir le contact et remplir le silence (wait a moment please).
Malgr son intrt, ce schma ne permet pas de rendre compte de tous les phnomnes
dextragrammaticalits en particulier les extragrammaticalits lexicales et les faux-dparts.
Dans les paragraphes suivants nous allons prsenter les diffrentes formes dextragrammaticalits que
nous avons class dans deux groupes : les extragrammaticalits lexicales et les extragrammaticalits
supralexicales.
1.3.4 Les extragrammaticalits lexicales (ELs)
Il sagit dun ensemble de phnomnes lexicaux propres la langue parle. Ces phnomnes peuvent
avoir plusieurs formes et peuvent tre de diffrentes natures : morphologique, phontique.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

23
2.1.1.5 Les pauses
La pause est lun des phnomnes les plus caractristiques de la production de la parole spontane.
Dun point de vue communicatif, en gnral, les pauses sont produites lorsque le locuteur veut se
donner du temps pour prparer le reste de son nonc. Deux types de pauses sont couramment
observs loral :
i. Les pauses simples : Les pauses simples sont caractrises par labsence totale du signal de
parole pendant un laps de temps dont la dure varie selon les locuteurs (Lickley, 1994). La
diffrence principale entre la pause simple et les silences normaux est que la pause ne semble
dpendre daucune rgle linguistique (une pause peut se produire mme au sein dun mot) alors
que le silence est un phnomne acoustique dont la production dpend dun ensemble de rgles
prosodiques et phonosyntaxiques assez complexes (Rossi, et al., 1981). Par ailleurs, dun point
de vue fonctionnel, la pause a principalement pour fonction de prparer le reste de lnonc
alors que les pauses ont des fonctions phonosyntaxiques prcises comme la segmentation de
lnonc.
ii. Les pauses remplies (ou les hsitations) : les pauses remplies, sont caractrises par la
continuation de production de signal acoustique pendant la priode de pause (non-production
de segments smantiquement interprtables). Ainsi, lhsitation sert renforcer lhomognit
discursive et continuer capter lattention de linterlocuteur mme pendant les priodes de
non-production dunits linguistiques interprtables. Tout comme la pause simple, la pause
remplie peut intervenir tout moment dans lnonc sans nuire son intelligibilit. Cependant,
lhsitation est plus dpendante du contexte que la pause simple. En effet, les expriences
psycholinguistiques ont montr que les hsitations sont plus frquentes devant des mots
lexicaux (qui sont moins prdictibles) que devant les mots grammaticaux (Maclay et
Osgood, 1967).
2.1.1.6 Les mots incomplets
Lincompltude de certains mots de lnonc est un phnomne assez frquent loral : () I still
have plenty of time and then <sil> <laughter> <sil> thre- <sil> and then it's <sil> s- four hours + back
+
Bien quils ne soient pas une fin en soi dans le traitement, les mots incomplets constituent un
indicateur assez important pour la dtection des extragrammaticalits supralexicales.
Malheureusement, cette information nest pas encore utilisable dans des conditions relles, puisque les
systmes actuels de reconnaissance de la parole ne reproduisent pas les mots incomplets.
2.1.1.7 Les mots oraux
Il sagit dun ensemble de ralisations lexicales propres loral et qui sont souvent des ralisations
simplifies de mots standards. Par exemple, ouais pour oui, yeah pour yes, etc. Les mots oraux eux-
mme constituent un phnomne grammatical normal li principalement au niveau social de
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
24
lutilisation de la langue : contexte formel ou informel. Cependant, dans certains contextes, ce niveau
de la langue lui-mme peut faire lobjet dune correction. Par exemple, un locuteur qui juge que le mot
oral quil a utilis nest pas appropri par rapport la situation peut procder au remplacement de ce
mot par son quivalent formel comme dans lnonc : ouais euh oui tout fait.
2.1.1.8 Les amalgames
Par amalgame nous voulons dire lassemblage de deux mots ou plus dans une seule entit lexicale
4
. Ce
genre dassemblage est assez courant en franais et en anglais parls o lon utilise souvent des formes
lexicales pour dsigner le sujet et le verbe en mme temps comme : Chui pour je suis, Id be (I would
be), Ill (I will), etc. Les amalgames sont des phnomnes grammaticaux dont lutilisation dpend de
contraintes sociales. Tout comme les mots oraux, les amalgames peuvent dans certians contextes tre
impliques dans des extragrammaticalits visant corriger le niveau de la langue.
1.3.5 Les Extragrammaticalits Supralexicales (ESLs)
Nous distinguons entre quatre phnomnes dextragrammaticalits supralexicales : les rptitions, les
autocorrections, les faux-dparts et les incompltudes.
2.1.1.9 Les rptitions
Il sagit de la rptition dun mot ou dune srie de mots. La rptition est dfinie sur des critres
purement morphologiques. Par consquent, la formulation et la paraphrase dun nonc ou dun
segment (o lon rpte deux segments qui ont le mme sens) ne sont pas considres comme tant
des rptitions : (..) ce serait un vol Paris Delhi plus un vol un vol intrieur.
La rptition nest pas toujours une redondance. Elle peut aussi avoir une fonction communicative. Par
exemple, lorsquun locuteur nest pas sr que son message (ou une partie de son message) sera
clairement peru par son auditeur cause dune mauvaise articulation, dun bruit dans le canal, etc. il
le rpte. Par ailleurs, la rptition est un moyen pragmatique assez frquent pour marquer une
affirmation ou une insistance comme dans lnonc 29 :
oui oui je vous en prends une (29)
Dans cet nonc, la rptition du mot oui a une fonction daffirmation.
2.1.1.10 Les autocorrections
Lautocorrection consiste remplacer un mot ou une srie de mots par dautres afin de modifier ou
corriger le sens de lnonc. Lautocorrection nest pas compltement alatoire et porte souvent sur un
segment qui peut compter un ou plusieurs syntagmes (Core, 1999), cest pourquoi elle est
frquemment accompagne par une rptition partielle du segment corrig. Soit lnonc 30 :

4
En fait notre dfinition de lamalgame ne couvre pas les phnomnes dassemblage de morphmes (comme au :
+ le) qui sont commun loral et lcrit.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

25
Oui : jai la jai les pages Web oui (30)
Dan cet nonc, lautocorrection se fait en rptant le segment jai et en remplaant le mot la parle
mot les. On note que les deux mots ont la mme catgorie morphologique (article dfini) et la mme
fonction syntaxique (dterminant).
2.1.1.11 Les faux-dparts
Il sagit de labandon de ce qui a t dit et du recommencement dun autre nonc. Syntaxiquement,
cela se manifeste par la succession dun segment incomplet (ou mal form) et dun segment complet.
Prenons lnonc :
() oui c'est e a se prend au deuxime tage (31)
Contrairement lautocorrection, il nexiste aucune analogie entre le segment remplac et le reste de
lnonc. Ainsi, nous pouvons remarquer dans lexemple (31) que le segment abandonn cest na
pratiquement pas de relation avec a se prendcette forme dextragrammaticalit est la plus difficile
traiter tant donn que les critres de dtection (essentiellement lincompltude dun segment) sont
trs vagues et peuvent mener de nombreux problmes la fois de surgnration et de sous-
gnration.
2.1.1.12 Les incompltudes
Sur le plan syntaxique, un nonc incomplet est un nonc qui ncessite un ou plusieurs lments sa
fin afin quil soit grammaticalement bien form (au sens de la grammaire classique du terme) ou
compltement interprtable smantiquement. Plus concrtement, nous pouvons distinguer deux types
dnoncs incomplets :
1. Un nonc auquel il manque un ou plusieurs constituants. Par exemple, lnonc (32) est
considr comme incomplet puisquil se termine par une conjonction de coordination qui
ncessite lexistence dune construction syntaxique qui complte lnonc.
peu prs trois heures si vous devez changer Vrone et
(32)
2. Un nonc dont tous les constituants ncessaires sont prsents mais dont le dernier est
incomplet. Lnonc 33, par exemple, est considr comme incomplet puisquil se termine par
un constituant incomplet (un syntagme nominal dans ce cas).
() et ils offrent des forf (33)
Lincompltude est le phnomne le moins tudi parmi les diffrentes formes dextragrammaticalits
que nous avons pass en revue. En effet, il na pas t considr par les principales tudes menes sur
la dtection e la correction des extragrammaticalits (Heeman, 1997), (Shriberg, 1994), (Core, 1999).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
26
1.4 Les phnomnes discursifs observs dans le dialogue oral
Afin de lier les noncs dun dialogue les uns aux autres dune part et dautre afin dancrer ces
noncs au contexte dialogique, nous observons dans les dialogues oraux le recours une srie de
dispositifs dont les principaux seront prsents dans les paragraphes suivants.
1.4.1 Lanaphore
Lanaphore est un moyen trs important pour assurer le lien entre les diffrentes units discursives tant
loral qu lcrit. Son rle est cependant plus central loral qu lcrit vu la structure dialogique
qui implique un change entre deux interlocuteurs et ncessite ainsi la rfrence des parties du
discours cites prcdemment.
La dfinition gnralement donne de lanaphore est la suivante : lanaphore est un dispositif qui met
en relation deux units linguistiques dont la premire est gnralement pronominale (pronom
personnel ou dmonstratif) appele anaphorique et dont la deuxime est un segment antrieur (souvent
un syntagme nominal) comme dans lexemple suivant (Dubois, 1994) :
Pierre, je le vois souvent. (34)
Une dfinition plus fine pour lanaphore a t propose dans (Krahmer et Piwek, 2000). Cette
dfinition est base sur plusieurs critres comme la dpendance contextuelle pour interprter
lanaphore, le type de lantcdent, le type de la relation entre lanaphorique et lantcdent, et
lintervalle des interprtations autorises par lanaphore.
Ainsi, dans un dialogue, nous pouvons distinguer deux types dantcdents :
1. Antcdent immdiat : il sagit des cas o lanaphorique et lantcdent se trouvent dans le
mme tour de parole, comme dans lnonc 38.
2. Antcdent lointain : ce sont les cas o lanaphorique et lantcdent se trouvent dans deux
tours de parole diffrents et qui peuvent appartenir deux locuteurs diffrents. Prenons comme
exemple le segment suivant extrait du dialogue (jfs5.l) du corpus de rservation htelire :
H= Alors, j'aurais une chambre pour une personne avec douche et WC au quatrime tage
donnant sur le jardin 380 Francs petit djeuner compris.
C= C'est trs bien, je la prends. (35)
Dans cet exemple, nous pouvons voir que lanaphorique la et son antcdent se trouvent dans
deux tours de parole de deux locuteurs diffrents (respectivement celui du client C et celui de
lhtelier H). Notons aussi lambigut formelle de rattachement de lanaphorique puisque dans
lnonc H plusieurs syntagmes nominaux de genre fminin sont candidats : une chambre, une
personne, douche.
Des cas encore plus complexes peuvent tre observs o lanaphorique se propage travers plusieurs
tours de parole. Dans ces cas, lanaphore est trs difficile dtecter puisquelle ncessite la
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

27
considration dune fentre contextuelle trs importante et qui contient souvent beaucoup
dambiguts.
1.4.2 Les ellipses
Lellipse consiste omettre un certain nombre dlments dun nonc sans affecter son intelligibilit.
En effet, lomission cre un effet de puzzle qui permet lauditeur de retrouver les lments omis et
de complter linformation. Tout comme lanaphore, lellipse est un phnomne linguistique commun
entre loral et lcrit mme si elle joue un rle plus important loral notamment dans les rponses
certaines questions. En gnral, lellipse constitue un moyen important pour viter les redondances et
par consquent rendre la conversation plus simple et spontane. Deux types dellipses peuvent tre
distingus :
2.1.1.13 Les ellipses situationnelles
Il sagit dun ensemble dellipses dont linterprtation dpend troitement de la situation dlocution.
Comme nous avons vu dans les paragraphes prcdents, cette situation peut-tre lhistorique du
dialogue, le contexte physique dans lequel se droule la conversation, les connaissances gnrales du
monde, etc. Voici un exemple dellipse situationnelle :
A : vous voulez une chambre simple ou une chambre double.
B : une simple. (36)
Dans cet exemple, nous remarquons la double ellipse dans la rponse : suppression de la formule de
demande je voudrais et du mot chambre utilise pour viter la rptition de linformation fournie dans
question pose.
2.1.1.14 Les ellipses grammaticales
Ce sont des ellipses qui consistent omettre des mots que la connaissance syntaxique de la langue
permet dinfrer. La forme la plus tudie des ellipses grammaticales est lellipse verbale (Hardt,
1997). Dans ce genre dellipse, le syntagme verbal est supprim dans des contextes o il est considr
infrable comme dans lexemple :
Pierre mangedes cerises, Paul des fraises. (37)
Dans lnonc prcdent, le verbe de la deuxime proposition est supprim, ce qui laisse entendre
quil sagit du mme verbe que celui de la premire proposition mange.
Par ailleurs, des ellipses mixtes peuvent tre observes dans certains contextes. Pour illustrer ces
ellipses, prenons comme exemple lchange suivant :
A : Quest ce que tu en penses ? (38)
B : compltement daccord. (39)
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
28
Dans lnonc (43) on a supprim le segment je suis dont linfrence est facile partir de la rgle
syntaxique : sujet + verbe tre + qualificatif, daccord. Notons que la syntaxe toute seule est
suffisante pour infrer le verbe tre. La syntaxe a aussi jou un rle direct dans linfrence du sujet,
cependant la forme du sujet (nom, pronom) ainsi que la personne (1
re
du singulier, 2
me
du pluriel,
etc.) ncessite le contexte discursif. Ainsi, lanalyse finale de cette ellipse mobilise la fois des
connaissances syntaxiques et contextuelles.
Certaines formes de lellipse peuvent tre vues comme un cas particulier de lanaphore (Krahmer et
Piwek, 2000). En effet, lellipse est base sur un lien fort une partie prcdente du discours tout
comme lanaphore. Cependant, contrairement lanaphore o lon a besoin dun dispositif linguistique
pour renvoyer la partie prcdente du discours, lellipse est caractrise par la suppression des
lments communs avec ce qui a t dit.
1.4.3 Les dictiques (embrayeurs)
Il sagit dune classe de mots qui nont pas de rfrence propre dans la langue mais qui ne reoive un
sens que lorsquils sont inclus dans un message. Les dictiques regroupent un ensemble relativement
considrable de catgories grammaticales comme les dmonstratifs, les adverbes de lieu et de temps,
les pronoms personnels et les articles (Dubois, 1994).
Les dictiques peuvent faire rfrence plusieurs aspects du contexte dlocution comme :
1. Lespace dans lequel cet nonc est produit. Exemple : tu peux le poser ici (reprsentation de
lespace).
2. Le temps au moment de lnonc. Exemple : il fait beau aujourdhui.
3. Le sujet parlant (modalisation). Exemple : je le lui ai dit.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

29
2 Chapitre I.2 : Les formalismes pour la reprsentation
grammaticale du langage oral
Nous allons consacrer ce chapitre la prsentation de deux formalismes grammaticaux que nous
avons jug particulirement pertinents pour notre travail. Il sagit de la Grammaire dArbres Adjoints
Lexicaliss et de la grammaire smantique. Les motivations de notre choix sont le fait que les deux
formalismes sont considrs comme standards respectivement dans le traitement de lcrit et de loral.
De plus, ces deux formalismes constituent les deux principales sources dinspiration de notre
formalisme Sm-TAG.
2.1 La Grammaire dArbres Adjoints Lexicaliss (LTAG)
5

Le formalisme des Grammaires d'Arbres Adjoints a t dcrit tout d'abord dans (Joshi et al., 75), sous
le nom initial de Tree Adjunct Grammar. Ce formalisme a t ensuite dvelopp par dautres
chercheurs particulirement aux universits de Pennsylvanie, USA et Paris 7 (Voir (Abeill, 1993)
pour les tapes de dveloppement de ce formalisme).
2.1.1 Dfinition formelle
Dun point de vue formel, le formalisme LTAG peut tre dfini comme un quintuplet (, NT, I, A, S),
o (Joshi et Schabes, 1999) :
i- est un ensemble fini de symboles terminaux.
ii- NT est un ensemble fini de symboles non-terminaux. NT = .
iii- S est le symbole non-terminal distingu : S NT.
iv- I est un ensemble fini darbres appels arbres initiaux qui sont caractriss par les points
suivants :
Les nuds internes sont tiquets avec des symboles non-terminaux.
Les nuds frontires des arbres initiaux sont tiquets par des terminaux et des non-
terminaux.
v- A est un ensemble fini darbres appels arbres auxiliaires qui sont caractriss par les points
suivants :
Les nuds internes sont tiquets avec des symboles non-terminaux.

5
Lexicalized Tree Adjoining Grammar.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
30
Les nuds sur les frontires des arbres auxiliaires sont tiquets avec des symboles non-
terminaux.
Dun point de vue fonctionnel, LTAG peut tre dcrit selon trois points :
1. Les units de traitement (les arbres lmentaires).
2. Les oprations de composition.
3. Les traits et lunification.
2.1.2 Les arbres lmentaires
Contrairement aux formalismes syntaxiques classiques bass sur le mot, lunit de traitement dans une
grammaire LTAG est larbre lmentaire. Ainsi, une grammaire LTAG peut tre considre comme
un ensemble fini darbres lmentaires. Tout arbre lmentaire a au moins un de ses nuds feuilles
occup par un item lexical qui joue le rle de tte et quon appelle gnralement lancre de cet arbre.
En LTAG, la profondeur des arbres lmentaires nest pas limite une branche
6
. Par ailleurs, deux
types darbres lmentaires se distinguent dans ce formalisme :
2.1.1.15 Les arbres initiaux
Il sagit dun ensemble darbres qui se combinent par substitution et qui correspondent aux structures
syntaxiques de base. Ces arbres sont gnralement nots par ().
2.1.1.16 Les arbres auxiliaires
Les arbres auxiliaires se combinent par adjonction. Ces arbres ont un nud feuille (appel nud pied)
portant un non-terminal de mme catgorie que le nud racine. Les arbres auxiliaires sont utiliss
pour la reprsentation des modifieurs (adjectifs, adverbes, relatives), des verbes compltives, des
verbes modaux et des verbes auxiliaires. Ces arbres sont nots gnralement par ().
Les nuds feuilles des arbres lmentaires peuvent tre annots par des symboles terminaux et non-
terminaux. Deux types de nuds annots par des non-terminaux peuvent tre distingus : les nuds
substitution marqus par () et les nuds adjonction marqus par (*).
2.1.1.17 Contraintes de bonne formation des arbres lmentaires
La construction des arbres lmentaires obit quatre de principes de bonne formation (Abeill,
1993).
1. Principe dancrage lexical : chaque arbre lmentaire doit tre associ au moins une tte
lexicale. A la diffrence de HPSG
7
et dautres formalismes, la tte lexicale dun arbre
lmentaire dans LTAG ne peut pas tre vide
8
. De plus, un arbre lmentaire peut tre ancr par
un ensemble ditems lexicaux, on parle alors de co-ttes. Les co-ttes sont gnralement des

6
La profondeur est le nombre de branches qui sparent le nud racine de larbre de lancre de cet arbre.
7
Head Driven Phrase Structure Grammar.
8
Cest lune des raisons principales de la difficult de traitement des ellipses dans le cadre de ce formalisme.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

31
complmenteurs fonctionnels tel que de et que. Ainsi, chaque entre lexicale sont associs
l'ensemble des structures qui caractriseront ses emplois possibles. Lexique et grammaire se
confondent alors en un lexique syntaxique. Dun point de vue informatique, la lexicalisation
permet de mobiliser uniquement le sous-ensemble des arbres lmentaires de la grammaire
effectivement ancrs par les mots de la phrase.
2. Principe de cooccurrence prdicat-arguments : tout prdicat doit contenir dans sa structure
lmentaire au moins un nud pour les arguments quil sous-catgorise.
3. Principe de consistance smantique : tout arbre lmentaire correspond une reprsentation
smantique non vide.
4. Principe de non compositionnalit : un arbre lmentaire correspond une seule unit
smantique.
Les principes smantiques (2 et 3) sont assez vagues (aucune dfinition claire nest donne de ce
quon entend par unit smantique) et sont utiliss dans la LTAG essentiellement pour empcher la
plupart des lments fonctionnels (prpositions, complmenteurs, etc.) de constituer des arbres
lmentaires autonomes (principes 2). Le principe (3) sert limiter la taille des arbres lmentaires et
empcher lancrage de certains arbres par des lments non ncessaires.
Voici quelques exemples darbres lmentaires en LTAG :
(1) (2) (3) (4)
N N P P


N0 V N0 V N1


Franois journal descend lit


(1) (2) (3) (4)
N V P V


A N* V* Adv N0 V p1* V V*


bon bien veut peut
Figure 3. Exemples darbres lmentaires initiaux et auxiliaires
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
32
2.1.1.18 Les oprations de composition des arbres
Nous pouvons distinguer entre deux types de contraintes sur la composition des arbres lmentaires au
sein du formalisme LTAG : les contraintes syntaxiques et les contraintes smantiques. Ces diffrentes
contraintes influencent la nature des oprations de composition utilise. Dans la LTAG, deux
oprations de composition syntaxique sont possibles : la substitution et ladjonction.
2.1.2.1.1 La substitution
La substitution est similaire l'opration de rcriture pour une CFG. Elle permet d'insrer un arbre,
initial ou driv, un nud de substitution d'un arbre lmentaire ou driv qui est not par le signe :
. La substitution est une opration obligatoire un nud terminal de substitution. Un exemple de
substitution est linsertion de larbre initial dun dterminent dans larbre dun groupe nominal.

A A

A


Det SN SN

Det N Det N

Une maison Une maison
Figure 4. Lopration de substitution en LTAG

2.1.2.1.2 Ladjonction
Ladjonction est une opration spcifique au formalisme LTAG. Elle permet d'insrer un arbre
auxiliaire (ou driv dun auxiliaire) un nud interne ou racine d'un arbre lmentaire ou driv. Le
nud X, o a lieu ladjonction, est remplac par un arbre lmentaire dont la racine et le nud pied
doivent tre tiquets par la catgorie X. Le schma gnral de lopration dadjonction est prsent
dans la figure suivante.




t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

33




X
X

X
X
*





X


Figure 5. Schma gnral de lopration dadjonction
Pour illustrer lopration dadjonction, prenons comme exemple linsertion de larbre auxiliaire
correspondant ladverbe au nud intrieur V de larbre initial du verbe marche.
P V P


N0 V V* Adv N0 V


marche bien V* Adv


marche bien
Figure 6. Exemple dadjonction
Afin de contrler ladjonction dans une grammaire LTAG G = (, NT, I, A, S), trois types de
contraintes sont dfinis sur ladjonction un nud donn dadjonction (Joshi et Schabes, 1999) :
Adjonction slective (SA (T))
9
: cette contrainte autorise ladjonction aux seuls membres de
lensemble T A des arbres auxiliaires. Dans ce cas ladjonction nest pas obligatoire.
Adjonction nulle (NA)
10
: cette contrainte interdit tout type dadjonction au nud donn.

9
Simplification de Selective adjunction of T.
10
Simplification de Null adjunction.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
34
Adjonction obligatoire (OA(T))
11
: cette contrainte oblige tout arbre auxiliaire membre de
lensemble T A de sadjoindre au nud donn.
2.1.1.19 Spcificits de la composition syntaxique des arbres dans LTAG
Dans le formalisme LTAG, le processus de composition des units lmentaires en units plus larges
ou la drivation prsente plusieurs spcificit compar aux autres formalismes syntaxiques classiques.
En effet, contrairement aux grammaires syntagmatiques de type CFG ou autre, la drivation ne se
caractrise pas comme une chane obtenue par d'autres chanes mais comme un arbre obtenu d'autres
arbres. Le rsultat direct de cette diffrence est la distinction au sein du formalisme LTAG de deux
modes de reprsentation du rsultat de la drivation qui sont larbre driv et larbre de drivation.
1. Larbre driv : est similaire larbre danalyse dans les formalismes syntagmatiques. Il sagit
dun arbre la racine duquel se trouve le symbole distingu du formalisme et aux feuilles
duquel se trouvent les items lexicaux de lnonc analys.
2. Larbre de drivation : ce genre darbres nexiste pas dans les formalismes syntagmatiques
(nous pouvons dire que larbre de drivation et larbre driv sont identiques dans ce genre de
formalismes). Il sagit dun arbre dans lequel les nuds portent des couples (arbre lmentaire,
adresse du nud de larbre suprieur o cet arbre a t insr). La fonction principale des arbres
de drivation est de faire apparatre les dpendances entre les items lexicaux (tte des arbres
lmentaires).
Voici un exemple dun arbre de drivation et dun arbre de drivation correspondant.
Arbre driv : Arbre de drivation
P

V
N
V Adv


Franois lit beaucoup
Figure 7. Un exemple dun arbre driv et un arbre de drivation correspondant
2.1.3 La composition smantique et lopration dunification
Afin dintgrer des contraintes smantiques sur la composition des arbres des lmentaires dans le
formalisme LTAG, les nuds de ces arbres ont t dcors avec des structures de traits. Il sagit de

11
Simplification de Obligatory adjunction of T.
3 (lit)

(1) 1 (Franois) 2 (beaucoup) (2)
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

35
structures atomiques qui ont la forme (attribut, valeur). En TAG, les traits peuvent tre
morphologiques, syntaxiques et smantiques. Les traits sont dfinis au niveau des arbres lmentaires
et doivent tre conservs dans les arbres drivs. Deux types de traits sont associs chaque nud :
Des traits amont (top) qui indiquent les relations du nud avec les nuds qui le
dominent.
Des traits aval (bottom) qui indiquent les relations du nud avec les nuds quil domine.

(1) (2) (3)
N t : N t : P
b :<det>+ b : <det>=-,
<pers>=3, <num>=sing, t : <num>=X,<pers>y
<num>=sing <genre>=masc N0 t : <num>=X, V b : <mode>=ind,
<pers>=y, <pers>=3, <num>=sing
<anim>=+

Marie livre descend
Figure 8. Exemples de structures de traits associs aux arbres lmentaires
Outre le regroupement des traits, lopration dunification permet dexprimer les contraintes sur les
rattachements possibles darbres. Ainsi, les deux oprations syntaxiques de formalisme TAG sont
contraintes par lunification de deux manires :
En cas de substitution, les traits amont du nud racine de larbre substitu doivent sunifier
avec les traits du nud o il y a eu substitution.
En cas dadjonction, on doit avoir dune part, unification des traits amont du nud racine de
larbre auxiliaire avec les traits amont du nud recevant ladjonction, et dautre part, unification
des traits du nud pied de larbre auxiliaire avec les traits pied du nud recevant ladjonction.
A la fin dune analyse, pour chaque drivation complte obtenue, les parties amont et avale doivent
sunifier chaque nud de larbre driv correspondant. Voici un exemple dunification :
P P

t : <num>=X,<pers>y
N0 t : <num>=sing, V b : <mode>=ind, N0 t : <num>=sing, V b : <mode>=ind,
<pers>=y <pers>=3, <pers>=3, <num>=sing
<det>=+ <anim>=+
b : <num>=sing,
Franois descend
<pers>=3
<det>=+
Franois descend
Figure 9. Un exemple dunification
Le schma de lunification des traits en cas dadjonction est prsent dans la figure suivante :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
36



() ()
t : f1
Xb : g1
X
X t :f
b :g t :f1f
t : f2 X b :g1
X
*
b :g2




X t :f2
b :g2g

Figure 10. Schma de ladjonction avec unification
Malgr leur utilit dans le traitement, lenrichissement du formalisme par des traits est une tche assez
difficile et ncessite beaucoup de travail. En ce qui ladaptation au traitement des dialogues oraux,
certains de ces traits semblent redondants et rptitifs. En effet, la connaissance du contexte,
accessible via le modle de la tche, permet dinfrer une bonne partie de ces traits sans chercher les
vrifier de manire linguistique travers les traits. Par exemple les traits relatifs au locuteur sont
connus priori laide du modle de la tche : on sait quil sagit dun tre humain singulier. On peut
mme savoir plus dinformations sur lui comme son rle dans la conversation (cela dpend de la
nature de lapplication : client, expert cherchant vrifier une information, chauffeur de voiture, etc.).
De plus, linfrence des informations travers les traits nest pas un processus fiable notamment
cause des erreurs de reconnaissance de la parole, des phnomnes linguistiques de loral, etc.
2.1.4 Les extensions du formalisme LTAG
Au cours de la dernire dcennie, le formalisme LTAG a suscit un grand intrt au sein de la
communaut de linguistique computationnelle. Ainsi, diffrents sous formalismes inspirs des LTAGs
ont vu le jour. Certains sont motivs par des raisons linguistiques comme la simplification de
linteraction syntaxe-smantique (les TAGs Synchrones (Shieber et Schabes, 1990)), dautres par des
intrts formels et computationnels comme la grammaire dinsertion darbres TIG
12
(Schabes, 1995).
Dans les paragraphes suivants, nous nous contenterons de prsenter les sous formalismes ayant un
rapprochement direct avec notre travail.

12
Tree Insertion Grammar.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

37
2.1.1.20 Les TAGs Synchrones
Pour rendre linteraction syntaxe-smantique plus explicite au sein du formalisme LTAG, (Shieber et
Schabes, 1990) ont propos de parallliser la structure syntaxique, reprsente par les arbres
lmentaires, et une structure de prdicat argument qui sert de squelette dinterprtation smantique
larbre lmentaire auquel elle est associe. La reprsentation smantique, elle aussi, a la forme dune
structure arborescente. Ainsi, chaque arbre lmentaire est associ au moins un arbre smantique et
on dfinit des les liens entre les nuds des deux arbres qui exercent des contraintes sur les drivations
possibles.
S T


SN SV R


V SN
regarde

regarde

Figure 11. Exemple dun arbre syntaxique et dun arbre smantique synchroniss
Loriginalit principale de ce formalisme est que les drivations syntaxiques et smantiques doivent
tre synchronises. Ainsi, la drivation de deux arbres <
1
,
2
> se fait selon les tapes suivantes :
1. Choisir de manire non-dterministe un lien entre deux nuds (n
1

1
et n
2

2
)
2. Choisir de manire non-dterministe une paire darbres <
1,

2
>de la grammaire.
3. Crer la paire <
1
<
1
, n
1
>
,

2
<
2
, n
2
>> o

<, n>

est le rsultat dune relation primitive sur
au nud n en utilisant .
La traduction automatique est lapplication la plus courante de ce formalisme. Le principe de base de
ces applications est dutiliser des rgles de transfert dune langue une autre. Ainsi, pour chaque arbre
de drivation dans la langue de dpart est construit un arbre de drivation correspondant dans la
langue cible. Ceci est fait en tablissant un lien entre chaque nud des deux cts et en prservant les
relations de dominance entre les nuds dans larbre de drivation source. Le schma du transfert est
prsent dans la figure suivante (Prigent, 1994) :




t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
38








Figure 12. Schma dun transfert simple
Une version modifie de ce formalisme a t propose pour la traduction automatique de la parole
(Cavazza, 1998b).
2.1.1.21 La grammaire dinsertion darbres (TIG)
La motivation principale de ce formalisme est de proposer une version du formalisme LTAG
quivalente une CFG et par consquent analysable en un temps cubique o(Gn
3
) (Schabes et Waters,
1995). Ainsi, le formalisme TIG est propos comme un compromis entre les LTAG et la CFG de
manire combiner lefficacit computationnelle dune grammaire CFG au pouvoir expressif dune
grammaire lexicalise. La TIG est un formalisme bas sur les arbres et qui, tout comme les LTAG,
utilise deux oprations : ladjonction et la substitution. La diffrence principale entre la LTAG et la
TIG est que dans la dernire ladjonction a t contrainte de manire liminer la dpendance au
contexte cause par certains types dadjonction.
2.1.1.22 La grammaire darbres furcants (TFG
13
)
Le formalisme dArbres Furcants TFG sinscrit dans le contexte des formalismes visant simplifier le
modle LTAG afin de le rendre plus abordable pour des applications relles. Lopration de base
utilise dans ce formalisme (la furcation) remonte (De Smedt et Kempen, 1990), mais la dfinition
gnrale du formalisme a t faite par (Cavazza, 1998a), et puis dvelopp par (Roussel, 1999). Les
diffrences principales entre la TFG et LTAG peuvent se rsumer dans les points suivants :
1. Remplacement de ladjonction par lopration de furcation. Cette opration vite lajout dun
niveau syntagmatique supplmentaire la diffrence de ladjonction. Ce changement entrane une
simplification syntaxique importante du formalisme et le rend faiblement quivalent une
grammaire indpendante du contexte CFG, la diffrence de LTAG qui est un formalisme
lgrement dpendant du contexte.
2. Abandon du principe de co-occurrence prdicat argument pour la construction des arbres
lmentaires du formalisme.

13
Tree Furcation Grammar.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

39
3. Adoption du modle de smantique interprtative bas sur les travaux de (Rastier, 1987) pour la
reprsentation des traits.
Ce formalisme a fait lobjet dune implantation dans le contexte dun systme danalyse robuste de la
parole (Roussel, 1999). Cependant, son adaptation au traitement de la parole reste une question
ouverte selon les termes de (Roussel, 1999). En effet, le sacrifice de la proprit fondamentale des
LTAG (le principe de co-occurrence prdicat argument) au profit dun ensemble de principe
smantique gnraux nous semble un choix discutable. Ces principes sont tellement gnraux quils ne
sont pas suffisant pour contraindre les arbres et ne permettent pas une intgration efficace des
informations supra-linguistiques relatives la tche qui sont la fois fiables et faciles modliser.
2.1.1.23 La grammaire stochastique darbres adjoints lexicaliss (SLTAG
14
)
Les premires versions stochastiques du formalisme LTAG ont t proposes en 1992 par (Resnik,
1992), (Schabes, 1992). Ces modles sont bass sur les travaux de (Jelinek et al, 19990) sur les SCFGs
(les CFGs Stochastiques).
Comme montr dans la figure 13, une CFG stochastique se distingue dune CFG classique par deux
points :
1. Les rgles de rcritures sont associes chacune une probabilit, comme montr dans la
figure suivante :

(S1) S SN SV (0.5)
(S2) S S SP (0.35)
(S3) S NP VP (0.15)

(SV1) SV V SN (0.4)
(SV2) SV V SP (0.6)

Figure 13. Fragment dune grammaire CFG stochastique
2. Calcul dune probabilit pour chaque drivation possible. Le calcul de la probabilit dune est
facilit par le fait que chaque rcriture dans une CFG est indpendante du contexte et ainsi la
probabilit de la drivation peut tre calcule en multipliant les probabilits des rgles de
rcritures.
Paralllement, une SLTAG consiste associer des probabilits chaque arbre et puis sa combinaison
avec un autre arbre (par substitution ou adjonction).
Pour une dfinition formelle de ce modle, considrons les notations suivantes (Resnik, 1992) :

14
Stochastic Lexicalized Tree Adjoining Grammar.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
40
s() comme lensemble des nuds frontires de larbre qui sont marqu pour la substitution.
Cet ensemble peut tre vide dans certains cas.
a() comme lensemble des nuds frontires.
S(, , ) comme la substitution de larbre et larbre au nud .
A(, , ) ladjonction de larbre auxiliaire et larbre au nud et A(, non, ) comme la
non-adjonction.
= (s + a) lensemble des opration de substitution s et dadjonction a).
Ainsi, une SCFG peut tre dfinie comme un 5-tuple (Resnik, 1992), <I, A, P
I
,

P
S
, P
A
> o :
1. I est un ensemble darbres initiaux.
2. A est un ensemble darbres auxiliaires.
3. P
I
est une fonction de I dans lintervalle [0,1], tel que P
I
() = 1. Cette fonction reprsente la
probabilit quune drivation soit partir de larbre .
4. P
S
est une fonction de dans lintervalle [0,1] tel que I A, s() /I/ Ps(S(,
, ) = 1.
5. P
A
est aussi une fonction de dans lintervalle [0,1] tel que I A, a() / A
none I/ P
A
(A(,, ) = 1.
Ainsi, le formalisme SLTAG prsente trois avantages principaux comme cadre pour lanalyse des
langues naturelles (Resnik, 1992), (Joshi et Shabes, 1999) :
1. Le principe de co-occurrence prdicat argument vite les problmes lis la taille de la fentre
dans les approches base de n-grammes. Ainsi, on associe une seule probabilit tous les
lments lis syntaxiquement plutt que dassocier chacun une probabilit diffrente.
2. LTAG tant un formalisme lexicalis, les probabilits associes aux oprations structurales sont
aussi sensibles au contexte lexical. Cette prise en considration du contexte lexical nest pas faite
au dtriment de lindpendance des probabilits des oprations puisque les adjonctions et les
substitutions dans des nuds diffrents sont indpendants les uns des autres.
3. Reprsentation flexible du lexique permettant de reprsenter les arbres ancrs par un ou plusieurs
mots ainsi que les schmes syntagmatiques, ce qui permet une reprsentation conomique pour le
traitement de certains cas comme les expressions idiomatiques.
Malgr ces avantages, le formalisme SLTAG prsente des inconvnients pratiques notamment en ce
qui concerne la taille importante des donnes ncessaires lapprentissage des paramtres de la
grammaire.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

41
2.2 La grammaire smantique
Depuis le dbut de la philosophie, notamment avec Aristote, les philosophes du langage ont distingu
entre trois lments : la parole, les tats de lme et les choses. Cette distinction triadique sest
cristallise plus tard avec les philosophes du moyen ge comme saint Thomas dAcquint qui la
reformule ainsi (cit dans (Rastier, 1991, page 75)) : les paroles sont les signes des penses et les
penses des similitudes des choses. Ce qui signifie que, selon cette distinction, les paroles se rfrent
aux choses moyennant les concepts. La triade de la signification est prsente dans la figure suivante.






Figure 14. La triade de la signification
La distinction entre structure conceptuelle et structure linguistique a trouv un regain dintrt dans la
linguistique moderne avec les grammaires gnrales, les travaux de ((Ogden et Richards, 1923), cit
dans (Rastier, 1991)) sur la smantique et elle continue tre une ide fondamentale dans les travaux
actuels en philosophie du langage.
Par ailleurs, plusieurs travaux dans les domaines de la psychologie et de lintelligence artificielle, ont
montr que la mmoire humaine est organise selon des schmas qui organise les concepts suivant
leurs relations smantiques et leur pertinence par rapport au contexte (Minsky, 1975), (Kuipers, 1975),
(Schank, 1977), (Schank et Abelson, 1977).
Cest dans ce contexte quest ne la grammaire smantique (Burton, 1975) qui est, notre
connaissance, le premier proposer la grammaire smantique.
De nos jours, diffrentes formes de ce formalisme ont t proposes. Ces formes sont tellement
diffrentes quelles clipsent les points communs et amnent mme penser quil ne sagit pas du
mme formalisme. Cette diffrence est accentue par la raret des tudes linguistiques de ce
formalisme
15
. Par exemple, au niveau terminologique, certains chercheurs parlent de grammaire
smantique (Burton,1975), (Ward, 1991), (Gavald, 2000), grammaire conceptuelle (Perennou, 1996),
smantique globale (De Mori, 1994), grammaire de cas (Minker et al., 1996).
Dans ce qui suit, nous allons nous efforcer de prsenter ce formalisme dans ses aspects gnraux
indpendamment des diffrences superficielle et terminologique.

15
A notre connaissance, la seule exception est le travail de (Perennou, 1996).
mot choses
concept
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
42
2.2.1 Les bases linguistiques de la grammaire smantique
Comme nous avons vu dans les paragraphes prcdents, les formalismes syntaxiques comme LTAG
permettent danalyser les noncs en procdant de manire smasiologique, cest--dire en
commenant par la nature morpho-syntaxique de chaque mot, en examinant son environnement
syntaxique et puis en lui associant une structure smantique et puis pragmatique.
Contrairement aux formalismes classiques, la grammaire smantique procde de manire
onomasiologique, cest--dire le point de dpart de la grammaire est la reprsentation pragmatique
finale (appele smantique par abus de langage) et puis dans une deuxime tape lassociation cette
structure idalement de toutes les formes possibles de sa ralisation dans le contexte dutilisation du
systme.
Afin de mettre au clair cette diffrence importante, examinons lexemple suivant :
Jarrive mardi prochain (40)
Lanalyse de cet nonc selon lapproche smasiologique se fait selon les tapes suivantes :
Analyse syntaxique : cette phase consiste associer un arbre syntaxique lnonc selon les
principes que nous avons vu dans le paragraphe prcdent sur le formalisme LTAG.
Analyse smantique : association des rles aux mots : agent, patient, etc.
Analyse pragmatique et discursive : association des fonctions pragmatiques, thme, rhme, etc.
Dans le contexte dune approche onomasiologique comme la grammaire smantique, le point de
dpart est ltablissement dune liste contenant lensemble des units smantiques susceptibles dtre
utilises dans le contexte dune application. Diffrents critres ont t proposs dans la littrature pour
ltablissement de cette liste en particulier pour dfinir les units smantiques. Malgr leurs
divergences, ces critres ont un commun un pragmatisme qui les pousse choisir les units qui
facilitent le plus limplantation, sans se soucier des aspects linguistiques thoriques.
Par exemple, dans les noncs suivants :
1 Je voudrais rserver une chambre pour deux personnes.
2 Cest pour rserver une chambre pour deux personnes.
3 Je vous appelle pour rserver une chambre pour deux personnes.
On remarque que ces trois noncs ont le mme sens (dans le contexte dun dialogue de rservation
htelire). Ainsi, nous pouvons considrer que les segments : je voudrais, cest pour et je vous appelle
pour ont la mme fonction et peuvent donc tre associs la mme catgorie smantique
[formule_demande].
Les postulats de base derrire la grammaire smantique sont les suivants :
Lunit smantique est exprime dans un nonc par plusieurs mots ou une squence de mots
(qui apparaissent dans lnonc).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

43
Le sens gnral de lnonc peut tre reprsent par lensemble des units smantiques.
Dun point de vue formel, la grammaire smantique est quivalente une grammaire de type CFG
(Gavald, 2000) mais, notre connaissance, aucune vraie dfinition formelle na t donne de ce
formalisme; les seules indications donnes ce propos sont gnralement que la grammaire
smantique est une CFG dans laquelle les non-terminaux peuvent tre de nature smantique.
Pour rendre les ides de ce formalisme examinons lexemple suivant de grammaire smantique :

[my_unavailability]
16

(i *BABBLE CANT *MEET +[temporal]
(+[temporal] BE *BABBLE BAD *FOR_ME)



Figure 15. Un exemple de grammaire smantique classique (Mayfield et al., 1995)
La premire remarque que nous pouvons faire propos de cette grammaire, cest que la catgorisation
des mots est faite sur des critres purement smantiques : on ne distingue pas si un mot est, par

16
Les mots marqus avec * sont facultatifs, les mots marqus avec + sont des mots qui peuvent se rpter. Les
mots en lettres capitales sont des non-terminaux dont les rcritures sont prsentes entre parenthses. Les mots
entre crochets correspondent des expressions spciales.
BABBLE BE
(really) (is)
(probably) (would be)
(kind of) BAD
(unfortunately) (bad)
CANT (tight)
(cant) (booked solid)
(Couldnt) (Packed)
(dont want to) (out)
MEET (no good)
(Meet) FOR ME
(do it) (for me)
(make it)
(here)
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
44
exemple, un adverbe ou un nom. Deuximement, on peut voir que les units sont, elles aussi, dfinies
sur des critres purement smantiques et que la syntaxe bien que prsente au sein de certains de ces
segments (par lintermdiaire de lordre des mots) nest pas exprime de manire dclarative.
Par exemple, le non-terminal (CANT) est reprsent comme lensemble des formes de verbes
ngatifs. Cet amalgame entre la syntaxe au sein de la smantique nous oblige recrer une deuxime
rgle pour le non-terminal CAN (la forme affirmative du verbe). Donc, chaque fois que nous allons
stoker un non-terminal correspondant une structure dans laquelle il y a un verbe affirmatif nous
sommes obligs de crer une structure ngative quivalente et lassocier un autre non-terminal. En
dautres termes, pour exprimer la ngation dans un formalisme syntaxique, il faut un nombre trs
limit de rgles alors que dans la grammaire smantique il faut N rgles o N est le nombre des
constructions verbales dans la grammaire.
2.2.2 Porte et limites de la grammaire smantique
Ce formalisme est le plus couramment utilis dans le contexte des systmes de traitement automatique
la parole. Ceci est d une srie davantages :
1. Sur le plan computationnel : quivalence forte avec les grammaires CFG, pour lesquelles il
existe plusieurs algorithmes dont le temps danalyse est cubique.
2. Sur le plan de la tche danalyse : ce formalisme permet daugmenter la robustesse de lanalyse,
tant donn que la dimension syntaxique y est limite lordre des mots implicitement. Ainsi, le
systme vite la plupart des erreurs syntaxiques qui peuvent rsulter de problmes de
reconnaissances ou autres.
3. Sur le plan pratique : la mise en uvre de ce formalisme est plus facile que pour les grammaires
syntaxiques classiques et ncessite moins dexpertise en linguistique.
Malgr ces avantages, la grammaire smantique ne constitue pas une solution idale pour le traitement
des dialogues dans les domaines limits et encore moins pour le traitement de textes ouverts. Les
principaux inconvnients de ce formalisme se rsument dans les points suivants :
1. La grammaire smantique na pas un statut linguistique et formel bien dfini. Cela rduit les
possibilits de comparaison objectives avec les autres formalismes et rend son choix pour une
application quelconque une tche difficile. Cela rend aussi la tche de lenseignement de ce
formalisme plus difficile.
2. Linteraction directe entre les connaissances linguistiques et lunivers conceptuel de la tche, qui
est lavantage principal de la grammaire smantique, est aussi son principal inconvnient. En effet,
la dpendance de la tche rduit considrablement la portabilit de la grammaire vers dautres
domaines applicatifs et rend obligatoire lcriture dune nouvelle grammaire chaque changement
de domaine.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

45
3. Ce formalisme est adapt des applications de petite taille gnralement et prsente des difficults
pour des applications dont le domaine est large en particulier pour reprsenter les relations
smantiques entre les diffrentes units (Pieraccini et Levin, 1995).
4. A cause de la rduction du rle de la syntaxe dans la grammaire smantique ne permet pas de
reflter facilement certaines nuances smantiques exprimes par des phnomnes syntaxiques
complexes. En effet, lexpression des contraintes syntaxiques nest pas une procdure conomique
en terme de nombre de rgles comme cest le cas de la ngation.
2.2.3 Extensions de la grammaire smantique
A notre connaissance, il ny a pas eu de vraies extensions de la grammaire smantique. Cependant, des
amnagements ont t faits de ce formalisme afin de ladapter au traitement de dialogues dont le
domaine est large (les dialogue dits multi-domaine). Lun des principaux travaux dans ce contexte, est
la Grammaire Smantique Modulaire propose par les chercheurs du ISL-CMU (Woszczyna et al,
1998). Comme lindique son nom, ce formalisme permet de sparer les grammaires des sous-domaines
en fichiers indpendants qui se compltent de manire modulaire. Les auteurs de ce formalisme
numrent les avantages suivants (Wosczyna et al, 1998) :
1. La sparation des grammaires des sous-domaines permet diffrents linguistes de travailler en
parallle pour lcriture de la grammaire sans interfrence de leurs travaux.
2. Cration dune grammaire inter-domaine (qui contient des expressions de temps, date, politesse,
etc.) dont lutilit est le maintien de la consistance de lanalyse et laugmentation de la portabilit
du systme, tant donn que cette grammaire peut tre utilise dans un bon nombre dapplications.
3. Dun point de vue ingnierie du logiciel, la sparation des sous-grammaires permet de distinguer
le domaine correspondant chaque nonc. La reconnaissance du domaine de lnonc permet de
rsoudre certaines ambiguts causes par llargissement du domaine.
Malgr les avantages de cette modularit, la dpendance la tche reste une limitation importante de
ce formalisme. De plus, les problmes lis au traitement des phnomnes syntaxiques et la finesse de
lanalyse avec la grammaire smantique classique restent compltement poss avec ce formalisme.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
46

3 Chapitre I.3 : Les approches danalyse robuste du
langage oral
Afin de prendre en considrations les diffrentes sources de manque de robustesse loral, diffrentes
techniques ont t proposes et testes dans la littrature dans des contextes applicatifs divers. Nous
distinguons entre deux types dapproches : les approches pour lanalyse syntaxique robuste et les
approches pour le traitement des extragrammaticalits.
3.1 Les approches pour lanalyse syntaxique robuste
Comme nous lavons dit au dbut de cette thse, un systme robuste est un systme qui est capable de
fournir une analyse correcte mme dans les cas dune entre dforme ou inattendue. Les diffrentes
techniques danalyse robuste ont t dveloppes dans le cadre de travaux sur loral tout comme sur
lcrit. Dans les deux cas, lobjectif des travaux est lutilisation des algorithmes danalyse dans des
conditions relles : erreurs de reconnaissance et extragrammaticalits pour la parole et fautes de frappe
et erreurs grammaticales dans les textes crits. Les principales techniques utilises dans lanalyse
robuste consistent en des extensions dalgorithmes classiques danalyse afin de les dynamiser et les
rendre plus adapts aux inattendus des applications relles. Par ailleurs, certaines approches se sont
inspires de travaux dans des domaines relativement loin comme la recherche dinformations et la
classification de documents.
3.1.1 Lanalyse partielle par segments (chunking)
2.1.1.24 Principes gnraux
Inspir par les travaux de (Gee et Grosjean, 1983) en psycholinguistique, (Abney, 1991), (Abney,
1995) propose une approche danalyse partielle base sur le segment (chunk parsing). Les segments,
considrs comme unit de base de traitement, sont des structures syntaxiques correspondants un
graphe connect dans larbre danalyse dun nonc. Ces units sont dfinies selon leurs ttes
syntaxiques majeures. Les ttes syntaxiques sont gnralement des mots contenu (non
grammaticaux) lexception des cas o un mot apparat entre un mot grammatical mg et un mot
contenu que slectionne mg.
Dans un systme danalyse par segment, le processus danalyse est divis en deux parties
compltement distinctes (contrairement aux approches classiques dans lesquelles les deux tapes sont
fusionnes) :
La segmentation : il sagit de convertir le flux de mots en un flux de segments.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

47
Lattachement : consiste attacher les segments obtenus dans la phase prcdente au sein
dune structure globale qui set larbre danalyse de lnonc. Concernant la partie prcdente,
cette tape nest pas obligatoire ou au moins elle nest pas systmatique. Ainsi, un analyseur
partiel peut fournir des arbres danalyse complets et des segments partiels ou des segments
partiels uniquement.
Diffrentes approches similaires celle dAbney ont t proposes, comme celle de (At-Mokhtar et
Chanod, 1997), (Grefenstette, 1999) base sur des techniques de FSAs et celle du supertagging
propose par (Srinivas, 1996), (Srinivas, 1997), dans le cadre du formalisme LTAG.
2.1.1.25 Le systme CASS
CASS (Cascaded Analysis of Syntaxctic Structure) est un systme danalyse syntaxique robuste base
de segments. Ce systme a t dvelopp par Steven Abney luniversit de Tbingen en Allemagne
(Abney, 1991), (Abney, 1996). CASS utilise un ensemble danalyseurs simples qui sappliquent en
cascade pour construire une reprsentation syntaxique globale de lnonc.
Lentre de CASS est la sorite du module danalyse morphologique de Church qui fournit les POS
tags aux mots ainsi que les syntagmes nominaux simples (non-rcursifs). Notons que le taux de
traitement des syntagmes nominaux est infrieur celui des POS tags. Le traitement de cette entre
dans le systme se fait selon trois tapes :
3.1.1.1.1 Le filtre des segments
Ce module est bas sur deux sous-filtres :
1. Le filtre des syntagmes nominaux : ce module utilise des expressions rgulires pour
assembler les syntagmes nominaux sur la base de lanalyse superficielle fournie par le
reconnaisseur de syntagmes nominaux de Church. De mme ce module corrige les erreurs
de traitement des syntagmes nominaux par le module de Church comme ceux rsultants
des adjectifs prnominaux.
2. Le filtre des segments : ce module utilise aussi des expressions rgulires pour
reconnatre le reste des segments. Voici un exemple de la sortie de ce module avec
lnonc : In south Australia beds of boulders were deposited.
CS
[pp in [Np south Australia beds]]
[pp of[ Np boulders]]
[Vp were deposited]
.CS
Comme nous pouvons le voir le systme a commis une erreur danalyse ( cause du tagger) du
premier syntagme nominal south Australia beds.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
48
3.1.1.1.2 Le filtre des propositions
Le filtre des propositions consiste en deux sous-filtres :
1. Le filtre brut : ce filtre essaie de reconnatre les frontires des propositions simples ainsi que de
marquer le sujet et le prdicat de la proposition. Sil narrive pas identifier un seul sujet ou
prdicat, ce module identifie le type derreur rencontr comme lexistence de plusieurs syntagmes
verbaux ou labsence du sujet ( cause dune ellipse par exemple), etc.
2. Le filtre des propositions corriges : ce module essaie de corriger les erreurs identifies par le
module prcdent en appliquant des patrons spcifiques chaque cas. Voici par exemple le patron
utilis pour la correction des complmenteurs non-analyss : [pp X
p
-time NP] VP [
clause
X
c
NP ... VP]. Au cas o aucun des patrons nest pas applicable lentre, le systme utilise des
heuristiques gnrales qui lui permettent damliorer lanalyse sur la base dinformations partielles
(comme lexistence dune syntagme nominal cot dun syntagme verbal, un syntagme verbal
seul, etc.). Ainsi, aprs cette tape, lanalyse obtenue pour lnonc devient comme suivant :
[
pp
in south Australia]
[
Subj
[Np beds]]
[
pp
of boulders]
[
Pred
[Vp were deposited]]
Comme nous pouvons le voir dans lanalyse prcdente, le systme a russi corriger lerreur
danalyse dans le premier sntagme.
3.1.1.1.3 Le filtre danalyse
Contrairement aux modules prcdents, le filtre danalyse est bas sur des rgles rcursives (pas des
expressions rgulires). La fonction principale de module est dassembler les structures rcursives en
attachant les nuds les uns aux autres selon la nature des ttes de ces structures et les contraintes
grammaticales sur leur assemblage. Par exemple, un segment Y peut tre attach un segment X
seulement si la tte de X peut avoir Y comme argument ou modifieur.
Les rsultats de Cass ont montr quil est la fois assez robuste et trs rapide pour le traitement des
corpus crits. Ces rsultats sont principalement dus larchitecture de ce systme qui consiste
appliquer diffrents niveaux danalyse en cascade avec des rgles et des patrons qui permettent de
corriger les erreurs effectues dans les tapes prcdentes.
3.1.2 Les approches slectives
2.1.1.26 Principes gnraux
Les approches slectives consistent nanalyser que les parties juges pertinentes de lnonc reu.
Ces approches sont appuyes par des observations simples sur le traitement humain de la parole qui est
caractris par la variation du degr de lattention. Dun point de vue informatique, il sagit souvent
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

49
dquiper lalgorithme danalyse par un filtre qui permet, selon un certain nombre de contraintes,
dignorer un(des) mot(s) ou les segments non pertinents ou non analysables.
Diffrents degrs de slectivit ont t utiliss dans la littrature. Cela varie entre des approches assez
proches de lanalyse base de mots cls comme (Luzzati, 1987), (Rouillard, 2000) jusqu des
approches couverture plus raisonnable comme lalgorithme GLR* de (Lavie, 1997) ou les diffrentes
implantations des grammaires smantiques Carnegie Mellon University, (Mayfield, 1995), (Gavald,
2000), (Bousquet, 2002). Contrairement ce que certains chercheurs dans le domaine pensent, les
approches slectives ne sont pas forcment synonymes de perte dinformation ou danalyse
superficielle. En effet, une stratgie slective bien conue peut tre ajoute nimporte quel systme
danalyse syntaxique sans affecter sa profondeur danalyse. Le seul inconvnient de ces approches est
quelles augmentent la complexit computationnelle des algorithmes auxquels elle est ajoute. Par
exemple, (Wang, 2001) dcrit un algorithme de type chart augment par une stratgie slective (pour
lanalyse dune grammaire smantique quivalent CFG) dont la complexit est O(n
4
) au lieu de
O(n
3
) comme cest le cas de plusieurs algorithmes classiques pour la CFG
17
.
2.1.1.27 Le systme Phoenix
Les chercheurs de lISL-CMU (Interactive Systems Labs. Carnegie Mellon University) ont adopt
une approche base de grammaires smantiques stochastiques pour leur systme ATIS. Lapproche
adopte est base sur un module danalyse syntactico-smantique qui a pour entre la sortie du
systme de reconnaissance et dont la sortie est traite par un module danalyse smantique.
Larchitecture gnrale de ce systme est prsente dans le schma suivant :







Figure 16. Architecture du systme ATIS du ISL-CMU
Comme nous pouvons le voir dans la figure prcdente, lanalyse syntactico-smantique se fait en
deux tapes :

17
Cette information est mentionne indirectement dans larticle de Wang mais elle a t donne explicitement au
cours de lexpos oral de cet article la confrence Eurospeech 2001 Aalborg au Danemark.
GS
Grammaire
stochastique Reconnaissance
de la parole
Schma
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
50
1. Analyse superficielle de la parole : le treillis de mots (sortie du module de reconnaissance) est
analys tout dabord par une grammaire stochastique (de paires) relativement lche, afin de
pouvoir tolrer les parties qui contiennent des extragrammaticalits.
2. Le module danalyse base de Grammaire Smantique : ce module a deux tches
principales. Tout dabord, il essaye danalyser les parties extragrammaticales (tolres par la
grammaire de bi-grammes) en lui imposant des contraintes supplmentaires laide dune
grammaire smantique. Ensuite, il traduit la reprsentation smantique de lnonc en schma.
La grammaire smantique utilise est convertie en un RTR stochastique capable de rsoudre les
ambiguts conceptuelles. A titre dexemple, la rgle prsente dans la figure 15 a t
implmente sous la forme du rseau de transition suivant :

I really can not do it next week and the week after



I BABBLE CANT MEET DATE
Figure 17. Exemple de rseau de transition rcursif utilis par phnix
Les rseaux implants nont pas de contraintes particulires sur le nombre des slots reconnatre.
Ainsi, lanalyseur est capable de traiter tous les concepts pertinents qui se trouvent dans la chane
dentre. Il est aussi capable dignorer tous les mots qui ne font pas partie du lexique de lanalyseur et
qui figurent entre ces concepts (et pas lintrieur dun segment conceptuel), mais il est par contre,
incapable de traiter les mots du lexique qui figurent dans des positions non pertinentes. Ces dernires
conduisent lanalyseur ignorer tout simplement le concept en cours danalyse (on choue le
reconnatre) mais ne conduisent pas lchec total de lanalyse des autres concepts (Mayfield et al.,
1995).
3.2 Les approches pour le traitement des extragrammaticalits de
loral
3.2.1 Introduction
Comme nous avons vu dans la premire partie, les extragrammaticalits de loral jouent un rle
important dans le traitement des dialogues. A cause de cette importance, ce phnomne a fait lobjet
de nombreuses tudes. A notre connaissance, les premires tudes des extragrammaticalits remontent
au dbut du sicle pass avec les travaux en psychanalyse mens notamment par (Freud, 1901) et dont
lobjectif tait danalyser lintention cache du locuteur en observant ses lapsus. Au-del de ces
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

51
premiers travaux, les extragrammaticalits de loral ont fait lobjet dtudes descriptives et
applicatives dans des disciplines diverses qui dpasse largement notre centre dintrt ici :
1. Etudes linguistiques : diffrentes tudes descriptives ont t menes afin de caractriser les
principaux aspects linguistiques des extragrammaticalits en particulier leurs proprits
acoustiques et prosodiques. A titre dexemple, nous pouvons citer les travaux de (Hockett,
1967) et lanalyse de corpus de (Nakatani et Hirshberg, 1994).
2. Etudes psychologiques : la partie principale de ces tudes porte sur la production des
extragrammaticalits par les humains selon plusieurs points de vue comme les diffrences
individuelles de production et lunit psycholinguistique de traitement (Maclay et Osgood,
1967), linteraction entre la structure des extragrammaticalits et leurs processus de gnration
(Levelt, 1983), le rle de facteurs communicatifs (connaissance des locuteurs, familiarit avec
le thme de la conversation, etc.), (Fox Tree et Schrock, 1999), la production des
extragrammaticalits par les aphasiques (Hartsuiker et Kolk,1998), etc. Des tudes moins
nombreuses ont port sur la perception des extragrammaticalits. Nous pouvons citer sur ce
sujet les travaux de Robin Lickley luniversit dEdinburgh (Lickley, 1994).
3. Etudes applicatives en traitement automatique de la parole : plusieurs travaux ont port
sur la dtection et la correction des extragrammaticalits de la parle spontane. Parmi les
premiers travaux, nous pouvons citer (Carbonell et Hayes, 1983) qui ont propos lutilisation
de patrons simples pour traiter certaines extragrammaticalits. Dans la mme priode (Hindle,
1983) propose une approche syntaxique dterministe pour la correction des patrons (il
considre le point dinterruption comme tant dj dtect). Par ailleurs, des travaux rcents
ont port sur la production des extragrammaticalits dans le cadre dun moteur de gnration
incrmental (Finkler, 1997).
Dans les paragraphes suivants, nous allons nous limiter aux approches relativement rcentes dans le
domaine du traitement automatique de la parole.
3.2.2 Lapproche danalyse dabord de SRI international
Fond sur 607 noncs contenant des extragrammaticalits extraits du corpus ATIS (Air Travel
Information Services), le travail de (Bear et al., 1992), (Shriberg, 1994) est lun des premiers
reprendre les travaux sur les extragrammaticalits dans un cadre applicatif.
2.1.1.28 Le schme dannotation
La premire tape de ce travail consistait proposer un schme de notation qui combine la simplicit
la finesse ncessaire pour la reprsentation des diffrentes formes dextragrammaticalits. Les aspects
de base de ce schme de notation sont les suivants (Bear et al., 1992) :
1. Le point dinterruption est reprsent par une barre verticale (|).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
52
2. Correspondance identique : pour montrer que deux mots aux deux cts dune interruption sont
identiques, on les marque M (M est la premire lettre du mot anglais matching).
3. Le remplacement : indique le remplacement dun mot avant le point dinterruption par un mot
aprs. Les deux mots doivent tre similaires morphologiquement. En gnral ils doivent tre de la
mme catgorie ou dune variante morphologique de celle-ci comme les cas damalgames : I/Id.
4. Mots neutres : tous les mots dans la zone dune extragrammaticalit est not X.
5. Un tiret (-) est ajout aux signes prcdents en cas dincompltude.
Voici quelques exemples de la notation.
I want fl- flights to Boston
M
1
- | M
1

What what are the fares
M
1
| M
1
Show me flights daily flights
M
1
| X M
1

2.1.1.29 La dtection et correction des extragrammaticalits
Lapproche propose consiste combiner deux techniques :
1. Analyse syntaxique et smantique : Afin de rduire les surgnrations des patrons, les
chercheurs de SRI ont utilis les modules danalyse syntaxique et smantique du systme GEMINI
qui est une re-implantation du core language engine (Alshawi, 1992).
2. Reconnaissance de patron (pattern matching) : cette technique est utilise pour dtecter les
phnomnes simples tel que, la rptition dune squence de mots comme I would like a book I
would like a flight ou des anomalies syntaxiques simples comme : a the, ou to from, etc.
Ainsi, lanalyse se fait selon deux tapes : tout dabord le systme tente danalyser les noncs
syntaxiquement et smantiquement et puis dans la deuxime phase, il passe les noncs au
reconnaisseur de patrons. Dans ce cas, deux types de dcision sont possibles :
Les parties dnoncs qui ont t correctement traites par les modules danalyse syntaxique et
smantique et qui sont signales comme tant extragrammaticales par le reconnaisseur de patrons
sont considrs comme des surgnrations (false-positive cases).
Les parties dnoncs incompltement analyses par les modules linguistiques et qui sont
signales par le reconnaisseur de patrons comme tant extragrammaticales sont considres
comme tant des extragrammaticalits relles.
Linconvnient principal de cette combinaison est quelle est incompatible avec les approches
danalyse partielle qui sont les plus adaptes au traitement de loral. Cela nous met devant un
dilemme :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

53
Dune part, lutilisation dune mthode danalyse partielle (qui russit pratiquement toujours donner
une analyse) nous empche de juger la grammaticalit dun nonc et par consquent rend ce type de
combinaison impossible. Dautre part, les mthodes danalyse classiques sont bien adaptes pour le
jugement de grammaticalit (tous les noncs analyss sont compltement corrects grammaticalement)
mais elles chouent souvent traiter correctement des phnomnes syntaxiques propres ou frquents
loral comme les problmes daccord, les ellipses, etc. Par ailleurs, des checs causs par lun de ces
phnomnes peut conduire une erreur de jugement dune extragrammaticalit. De plus, le jugement
de non-grammaticalit dun nonc nest pas informatif concernant la surgnration dun patron
lorsquon a un nonc avec plusieurs segments dtects comme correspondant des
extragrammaticalits : on ne sait pas si tous les segments sont rellement extragrammaticaux ou si
seulement certains dentre eux le sont. Finalement, cette approche rend le module de traitement des
extragrammaticalits compltement dpendant de lanalyseur syntaxique et par consquent elle rduit
considrablement sa portabilit (on ne peut pas utiliser le module de traitement des
extragrammaticalits avec dautres systmes).
Les rsultats obtenus par (Bear et al., 1992) pour la correction des extragrammaticalits sont 43% de
rappel et 50% de prcision. (Dowding et al., 1993) a utilis les mmes donnes dapprentissage avec
des modifications lgres sur lentranement a obtenu un rappel de 30% et une prcision de 62%.
3.2.3 Lapproche stochastique basede patrons de Heeman
Ce travail est ralis dans le cadre du projet amricain TRAINS luniversit de Rochester. Le corpus
utilis a t spcialement collect par (Heeman et Allen, 1995) pour tudier les extragrammaticalits
de loral
18
.
2.1.1.30 Le schme dannotation
La premire tape du travail de Heeman a consist proposer une version modifie du schme
dannotation des chercheurs de SRI. Les principaux symboles utiliss dans ce schme sont : ipr pour
marquer le point dinterruption. Une srie de suffixe est utilise pour marquer le type
dextragrammaticalit comme : mod pour les patrons modification repairs, can pour les faux-dparts
cancels, et pour les mots ddition editing terms. Les cas ambigus sont marqus par un (+) la fin. La
diffrence principale entre le schme de Heeman et celui de SRI est que celui de Heeman ne permet
pas le partage de la zone remplace dans le cas dextragrammaticalits imbriques.
Lannotation concerne les rptitions, les patrons et les faux-dparts. Tous les cas qui couvrent une
partie dun mot ou plus ont t considrs dans lanalyse.
Voil un exemple dun cas annot selon le schme de Heeman :


18
Une prsentation dtaille de ce corpus sera faite dans la troisime partie de cette thse.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
54
Engine two from Elmi(ra)- or engine three from Elmira
m1 r2 m3 m4 et m1 r2 m3 m4
I : pmod+
Enonc (d93-15.2 utt42)
Figure 18. Un exemple dune extragrammaticalit annote selon le schme de (Heeman, 1997)
2.1.1.31 La mthode de dtection et de correction des extragrammaticalits
Diffrentes sources dinformations ont t utilises dans la dtection et la correction des
extragrammaticalits. Ces sources couvrent lidentit des mots (pour les rptitions), des informations
syntaxiques de bas niveau, les transitions entre les mots et les indices acoustiques et prosodiques (en
particulier le silence). Suite lannotation des extragrammaticalits, Heeman obtient 1302 cas
dextragrammaticalits avec 160 structures diffrentes (Heeman, 1997). Afin dviter les
surgnrations de certains patrons, Heeman propose une srie de rgles pour les contraindre (Heeman
et Allen, 1994). Ces rgles portent essentiellement sur la forme de la zone ddition et sa localisation
par rapport au point dinterruption dune part et le reste de lextragrammaticalit dautre part. Par
ailleurs, pour intgrer les diffrentes sources de connaissance, il utilise un modle d langage bas sur
les catgories morpho-syntaxiques plutt que sur les mots.
Ainsi, il utilise un modle de langage dans lequel plusieurs variables (correspondant aux diffrentes
sources de connaissances) sont utilises :
WPRETS = arg Max Pr(WPRETS|A) (1)
WPRET
= arg Max Pr(A|WPRETS) Pr(WPRETS) (2)
WPRET Pr(A)
= arg max Pr(A|WPRETS)Pr(WPRETS) (3)
WPRET
O W est la squence de mots dentre, P la squence des tiquettes morphologiques (POS tags)
correspondant W, R est lensemble des variables dune extragrammaticalit (Repair), Eest
lensemble des mots dune zone ddition, T correspond aux tons, S au silence et A au signal de
parole. Dans lquation (3), le premier terme correspond au modle acoustique et le second correspond
au modle de langage. Ainsi, le modle de langage peut tre reprsent comme suivant :
Pr(W
1, N
P
1, N
R
1, N
E
1, N
T
1
,
N
T
1,

N
) (4)
O N est le nombre de mots dans la squence dentre.
Le silence ainsi que les fragments de mots (considrs comme une partie de la zone ddition) sont
aussi utiliss dans le processus de traitement. Ces indices sont certes importants dans la dtection
dune extragrammaticalit, mais le problme est que ces sources dinformation ne sont pas fiables
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

55
avec une sortie de reconnaissance relle : les mots incomplets ntant pas reproduits par les systmes
de reconnaissance et les silences ntant pas faciles dtecter par les modles acoustiques.
Dans leur article (Heeman & Allen, 1994) prsentent un cas dextragrammaticalit imbriqu et
montrent trs sommairement comment leur systme le traite sans donner aucune information sur le
mcanisme de contrle qui est le point cl dans ce genre de situations. Etant donn quun traitement
avec un algorithme gauche-droite classique est incapable de prendre en considration ce phnomne
puisquil est incapable dassigner deux catgories diffrentes un mme mot, nous avons dduit de cet
exemple que le systme rinitialise le traitement chaque dtection et correction dune
extragrammaticalit. Ainsi, Le systme analyse lnonc une seule fois au cas de non-existence
dextragrammaticalit et dans le cas doccurrence dextragrammaticalits il lanalyse N+1 fois o N
est le nombre des occurrences des cas dextragrammaticalit, ce qui ne nous semble pas tre une
solution conomique.
Les rsultats obtenus par Heeman sont prsents dans le tableau suivant :
Phnomne Action Rappel Prcision
Discontinuits
Dtection 75.88 82.51

Correction 75.65 82.26
Rparations
Dtection 80.87 83.37

Correction 77.95 80.36
Faux-dparts
Dtection 48.58 69.21

Correction 36.21 51.59
Total
Dtection 76.79 86.66

Correction 65.85 74.32
Tableau 1. Les rsultats obtenus par (Heeman, 1997) sur la dtection et la correction des
extragrammaticalits
Compars aux rsultats obtenus par (Bear et al., 1992), (Dowding et al., 1993), le travail de Heeman
prsente une avance significative. En effet, cette avance est cependant relativiser tant donn que
les deux approches nont pas t testes sur le mme corpus de test, et nont pas la mme dfinition
des diffrents phnomnes (en particulier le faux-dpart et lautocorrection). Par ailleurs, Heeman ne
donne pas le pourcentage des extragrammaticalits imbriques traits dans le cadre de son approche.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
56
Une approche similaire t propos par (Stolke et Shriberg, 1996) dans lobjectif damliorer les
rsultats de la reconnaissance de la parole. Le rsultat naffiche pas une diffrence notable de
performance seulement 0,02% quant la perplexit du modle de langage, le modle augment affiche
une perplexit suprieure de 1,8%.
2.1.1.32 Limites de lapproche de Heeman
1. Insuffisance de linformation fournie par les POS tags : lutilisation des tags comme
lunique source de connaissance morphologique pour le traitement de certains phnomnes est
trop limitative. En effet, dans certains cas nous avons besoin dinformations morphologiques
dtailles afin de pouvoir analyser correctement un cas dextragrammaticalit : personne,
fonction syntaxique (sujet, objet pour les pronoms), etc. Prenons comme exemple la
construction suivante : prep + pronpers. Cette construction est impossible si pronpers est sujet
(to I) et elle est parfaitement grammaticale si llment de catgorie pronpers est objet (to it).
2. Limitation syntaxique de N-grams : cette limitation cache la dimension syntaxique et
smantique des extragrammaticalits. En effet, lutilisation des N-grammes limite en la prise en
considration du contexte morphologique quelques mots alors quon a parfois besoin de
contexte plus important pour pouvoir dtecter une extragrammaticalit. Prenons les exemples
suivants pour mettre au clair cette ide :
It will take it. (41)
It will take it is midnight. (42)
We would have to do it. (43)
We would have to do you think it is possible to do it. (44)
Comme nous pouvons le remarquer dans lnonc 47, le mot it est considr comme un objet et
lnonc est justement considr comme tant bien form puisque le verbe take est un verbe
transitif. Par contre, dans lnonc 48, le mot it peut tre, la fois, sujet et objet, dune part,
cause de lambigut morphologique de cet item et dautre part, cause de sa situation entre
deux syntagmes verbaux. Ainsi, nous avons besoin dun dispositif qui prend en considration le
contexte droit afin de dsambiguser cette structure syntaxique et dcider que le premier
syntagme est mal form et quil sagit, par consquent, dun faux dpart. Les mmes remarques
sappliquent lnonc 50 o le verbe do peut appartenir deux syntagmes.
3.2.4 Lapproche base de mta-rgles syntaxiques de Mark Core
Ce travail est men dans le cadre dune approche gnrale de lanalyse robuste des dialogues au sein
du groupe de dialogue de luniversit de Rochester (Core, 1999). La particularit principale de ce
travail est lintroduction des informations linguistiques (en particulier la syntaxe) dans le traitement
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

57
des extragrammaticalits dune manire originale (diffrente de celle de SRI). En effet, Selon cette
approche le traitement se fait en deux tapes :
1. Dtection des extragrammaticalits : la dtection des extragrammaticalit se fait avec un
modle de langage statistique (celui de Heeman, prsent dans la section prcdente). La
fonction principale de ce module est de dtecter les extragrammaticalits et de proposer une
premire dlimitation de chacune de ces extragrammaticalits.
2. Analyse syntaxique : la fonction du module danalyse syntaxique est de donner une
interprtation qui couvre la totalit des mots de lnonc dentre. Pour cela, il traite les
extragrammaticalits dtectes par le module statistique laide de mta-rgles ddies
spcialement cette tche. La diffrence principale entre le traitement dans cette phase et celui
du Heeman est que le systme considre non les relations entre les mots (comme cest le cas
dans lapproche de Heeman) mais plutt les relations entre les structures syntaxiques qui
dominent les mots. Deux types de mta-rgles sont utiliss pour le traitement des
extragrammaticalits :
i- La mta-rgle de la zone ddition : base sur une liste de mots qui peuvent
potentiellement constituer une zone ddition ou une partie delle, la mta-rgle de la
zone ddition dtecte tous les segments susceptibles dtre une zone ddition et
dclenche directement la mta-rgle de la zone ddition.
XP




Y
1
Y
i
ZE
1
ZE
Q
Y
i+1
Y
N
i1, 2, Q >0
Figure 19. La rgle de la zone ddition propose par (Core et Schubert, 1998)
Dans la figure prcdente, XP peut correspondre nimporte quel constituant dun
nonc dont les sous-constituants peuvent tre interrompus par une zone ddition.
La mta-rgle a t implante au sein dun algorithme de type chart en autorisant tous
les syntagmes amorcs avant la zone ddition potentielle dapparatre aprs cette zone.
En dautres termes, la mta-rgle permet danalyser lnonc dentre sans considrer la
zone ddition.
ii- La mta-rgle des autocorrections et faux-dparts : la fonction principale de cette
mta-rgle est de dlimiter une extragrammaticalit amorce (par le module prcdent)
prcisant le dbut et la fin des zones remplaces et remplaantes puis, elle permet
..

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
58
lalgorithme dignorer la zone remplace et de considrer uniquement la zone
remplaante. Le schma gnral de cette rgle est prsent dans la figure suivante :







XP XP K0, K1, M0, U>0



Y
1
. Y
k
Z
1 ..
Z
L
ET
1
. ET
M
Z
1 ..
Z
U
P
1 .
P
N


Zone remplace point dinterruption
Figure 20. La mta-rgle de traitement des autocorrections et faux dparts
Dans la rgle prsente ci-dessus, la nature des composantes XP et XP nest pas prcise, mais
gnralement, chaque composante est constitue dun ensemble de syntagmes Z et Z qui dpendent
directement delle. Dans le cas dautocorrection et faux-dparts, les syntagmes Z
i
et Z
i
tendent tre
du mme type. Ces mta-rgles sont implantes selon le mme principe que les mta-rgles de la zone
ddition : les arcs qui se terminent avant la zone remplace sont lis directement au dbut de la zone
remplaante, permettant ainsi de traiter lnonc en ignorant la zone remplace ainsi que la zone
ddition qui peut la suivre.
Lutilisation gnralise des mta-rgles pour tous les phnomnes nous semble difficile justifier. En
effet, le traitement dune bonne partie de ces phnomnes (en particulier les extragrammaticalits
lexicales, les rptitions et les autocorrections avec rptition) ne ncessite pas la mobilisation
dinformations syntaxiques et peut tre ralis avec de simples techniques de reconnaissance de
patrons qui sont, par ailleurs, plus restrictifs que les rgles : gnralement on considre lidentit des
mots plutt que leur catgorie morphologique, ce qui rduit considrablement les surgnrations.
Par ailleurs, lintgration de mta-rgles au sein dun algorithme gauche droite de type chart ou autre
ne permet pas la prise en considration des extragrammaticalits imbriques tant donn que celles-ci
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

59
ont besoin de plusieurs passages
19
. En terme de calcul, lajout des mta-rgles sest rvl trs coteux
(Core, 1999). En effet, le temps de traitement dun nonc avec un analyseur simple est de 0.36
secondes alors quavec un analyseur augment par les mta-rgles, le temps est de 0.91. Autrement
dit, lajout des mta-rgles a augment le temps de calcul de trois fois approximativement.
Sur le plan des rsultats, deux expriences ont t menes. Dans la premire une ancienne version du
systme de Heeman a t utilise. Les expriences de (Core, 1999) ont montr un avancement de 1.6%
en terme de rappel mais une perte de 12,4% en prcision. Ralise avec une version plus rcente du
systme de Heeman, la deuxime exprience a confirm la lgre amlioration du rappel avec lajout
des mta-rgles : le rappel a augment de 1,02%. Par ailleurs, cette exprience a montr une diffrence
encore plus importante en terme de prcision : la version augmente affiche une prcision infrieure
de 40.33% au systme de Heeman. Outre les critiques formules prcdemment, il nous semble que
cette perte en prcision est cause par la faible interactivit entre le module statistique de dtection et
lanalyseur symbolique. Par ailleurs, lauteur avance la faible couverture de lanalyseur utilis comme
tant la premire raison dchec de traitement.
Des approches similaires celle de Core ont t proposes par diffrents chercheurs. Par exemple,
(McKelvie, 1998) propose une approche base de mta-rgles. Outre que les units syntaxiques
classiques, ses mta-rgles considrent deux catgories :
Les syntagmes dditions (ED) qui sont les hsitations, bruits, exclamations, etc.
Les marqueurs discursifs (AFF) qui correspondent des mots comme oui, ok, etc. et qui
marquent gnralement le dbut et la fin dun nonc.
Les mta-rgles utilises sont assez simples gnralement. Prenons, par exemple, la rgle suivante :
X X, ED, AFF
Cette rgle permet dignorer tous les diteurs qui apparaissent aprs un constituant X.
Cette approche a t ralise sur le Glasgow Maptask corpus, mais lauteur ne donne pas de rsultats
exprimentaux.

19
Ce point fera lobjet dune discussion dtaille dans le premier chapitre de la quatrime partie de cette thse.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
60

4 Conclusion de la premire partie
Dans cette partie, nous avons fait une revue gnrale des diffrentes proprits linguistiques du
langage oral utilis en dialogue, ainsi que des principaux formalismes syntaxiques et smantiques
utiliss pour la reprsentation de ces diffrentes proprits.
4.1 Bilan des Spcificits linguistiques du l angage oral
Les principales spcificits de loral que nous avons passes en revue dans cette partie peuvent tre
rsums dans les deux points suivants :
Syntaxe : nous avons vu les principales spcificits syntaxiques de loral par rapport lcrit.
Extragrammaticalits : nous avons vu que les conditions de production de la parole en ligne
impliquent des phnomnes dhsitation, dautocorrections, faux-dparts, etc. qui sont propres
loral et qui ncessitent un dispositif particulier pour les traiter dans le contexte dun systme
danalyse linguistique du langage oral.
4.2 Bilan des formalismes utiliss pour la reprsentation de loral
Nous avons prsent dans cette partie deux formalismes grammaticaux que nous avons jugs
reprsentatifs des travaux dans la littrature. Il sagit du formalisme LTAG et ses drivs ainsi que de
la grammaire smantique classique. Nous avons vu que ces deux approches ont des avantages et
inconvnients opposs pour le traitement de loral. En effet, le formalisme LTAG est bien adapt pour
le traitement profond et il permet la prise en considration des phnomnes syntaxique dans lanalyse.
Par contre, ce formalisme ne permet pas une interaction suffisante avec la tche du dialogue et a
certaines difficults traiter des phnomnes comme les ellipses. A loppos, la grammaire
smantique permet facilement la prise en considration des phnomnes smantiques mais elle choue
prendre en considration de manire efficace de phnomnes syntaxique comme la ngation. Par
ailleurs, cette grammaire nest pas dfinie formellement et na pratiquement pas de statut linguistique.
Dans cette partie, nous avons prsent quelques techniques danalyse robuste et leur application au
traitement du langage oral.
Afin de situer cette revue de la littrature dans le contexte de la problmatique gnrale de notre thse,
nous avons jug bon de dresser un bilan gnral qui synthtise les principaux points problmatiques
qui peuvent influencer nos choix futurs :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

61
4.3 Bilan des approches danalyse robuste du language oral
4.3.1 Les approches pour lanalyse syntaxique robuste
Les approches slectives : les approches slectives semblent une bonne solution pour les
problmes de sous-gnration de la grammaire du systme (un problme qui rsulte la fois du
presque invitable manque de donnes ou des problmes lis au bruit dans lentre). Le cot de
ces avantages est gnralement laugmentation de la complexit algorithmique.
Analyse partielle : lapproche danalyse partielle semble bien adapte aux besoins dun
systme danalyse linguistique du langage oral. En effet, cela donne une bonne au systme par
rapport aux diffrentes sources de manque de robustesse comme les extragrammaticalits, les
erreurs de reconnaissance, etc.
4.3.2 Les approches pour le traitement des extragrammaticalits de loral
Plusieurs sources de connaissance ont t utilises dans la littrature pour le traitement des
extragrammaticalits. En voici les principales :
1. Les informations structurales : elles concernent lidentit de chaque mot et celles des mots
qui le succdent et suivent
20
. Lavantage de cette information est sa fiabilit et sa simplicit
dutilisation mais son utilisation est gnralement limite la dtection des rptitions.
Certaines approches ont nglig cette source dinformations (Cori, 1997), (McKelvie, 1998),
(Core, 1999), ce qui nous semble difficilement justifiable dun point de vue pratique.
2. Les informations morpho-syntaxiques : elles concernent essentiellement les catgories
morpho-syntaxiques des mots ou des segments (chunks) et leurs successions possibles. Par
exemple, la succession de deux dterminants est juge extragrammaticale et par consquent, le
cas est trait comme une autocorrection. Certains systmes ont utilis des rgles plus complexes
afin de modliser des cas impliquant des constituants syntagmatiques. Dans ce genre de cas, des
analyseurs classiques ont t faits pour assumer cette tche. Ces rgles ont gnralement t
implantes comme des mta-rgles syntaxiques dans un module de post-traitement. Plusieurs
remarques peuvent tre formules propos de cette utilisation :
i Dpendance du module de traitement des extragrammaticalits de lanalyseur syntaxique
utilis dans lapplication, ce qui rduit considrablement sa portabilit.
ii Cot lev de traitement, puisque cela ncessite lutilisation dun analyseur syntaxique
classique.

20
Cest dire le systme vrifie si deux mots sont identiques ou pas sans se soucier de leurs catgories
morphologiques respectives.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
62
iii Lutilisation dun analyseur syntaxique classique (pas robuste par rapport aux
extragrammaticalit et aux erreurs de reconnaissance) peut tre une source de certaines
erreurs.
3. Les informations acoustico-prosodiques : il sagit dun ensemble dinformations de natures
diverses comme la pause silencieuse et le contour mlodique qui ont t utilises afin de
segmenter lentre en constituants syntaxiques et par consquent localiser le centre de
lextragrammaticalit dans lnonc.
4. Les extragrammaticalits lexicales : ces extragrammaticalits constituent une source
importante pour la dtection des extragrammaticalits supralexicales. Le problme est que
certaines formes de ces extragrammaticalits (notamment les mots incomplets) ne sont pas
reproduites par le systme de reconnaissance. Cela rend lutilisation de ces formes dans le
traitement (comme la fait (Heeman, 1997)) une dmarche irraliste.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

63










Partie II : Etude des phnomnes grammaticaux et
extragrammaticaux du langage oral
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
64
0 Introduction de la deuxime partie
Aprs avoir fait une revue gnrale des proprits du langage oral, des diffrents formalismes qui
peuvent tre utiliss pour sa reprsentation ainsi que des diffrentes approches dans le domaine de
lanalyse syntaxique robuste du langage parl, nous allons dans cette partie prsenter notre
contribution ltude de loral sur deux axes :
Analyse du Trains Corpus dont nous avons extrait environ 6000 cas dextragrammaticalits
lexicales et 928 cas dextragrammaticalits supralexicales.
Modlisation grammaticale de loral. Sur ce plan nous avons contribu deux niveaux :
i. Formalisation de la grammaire smantique et sa reprsentation en tant quune grammaire
darbre au sein de laquelle diffrents niveaux dunits peuvent tre respects.
ii. Proposition du formalisme Sm-TAG qui intgre, ct des informations smantiques, des
informations syntaxiques explicites.

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

65
1 Chapitre II.1 : Analyse des extragrammaticalits du
langage oral dans le Trains corpus
1.1 Introduction
Dans ce chapitre, nous nous proposons pour faire une tude thorique base sur la considration des
diffrentes sources linguistiques susceptibles de jouer un rle dans la reprsentation et le traitement
des extragrammaticalits avec une attention particulire sur la dimension syntaxique de ces
phnomnes. Laspect prosodique, bien quimportant, ne sera pas abord dans notre tude. Ceci est d
plusieurs raisons :
Thoriques : essentiellement d au fait que cet aspect nous semble bien tudi par les autres
chercheurs (Nakatani et Hirshberg, 1994), (Lickley, 1994), (Shriberg, 1994).
Pratiques : Outre le fait que lanalyse linguistique robuste est lobjectif principal de notre
thse. La limitation de notre tude aux aspects linguistiques nous permet daller plus loin dans
lanalyse du rle de ceux-ci qui sont moins explors que celui de la prosodie.
1.2 Le corpus dtude
1.2.1 Slection du corpus
Au dbut de notre tude, nous avons essay de trouver un corpus qui contient un nombre raisonnable
dextragrammaticalit et dont lannotation est faite de manire suffisamment fine pour nous permettre
dobserver les diffrentes proprits de ces phnomnes. Malheureusement, nous navons pas russi
trouver un tel corpus pour le franais. insi, nous avons dcid de travailler sur langlais en raison de
la disponibilit de sources linguistiques importantes pour cette langue.
Aprs avoir effectu diffrentes recherches dans notre entourage aussi bien que sur Internet nous
avons russi collecter des extraits de trois corpus considrs comme tant des corpus standards dans
le domaine du dialogue oral spontan orient par la tche. Il sagit du Trains Corpus (Heeman et
Allen, 1995), du Corpus ATIS (Hemphill, 1990) et du Switchboard Corpus (Godfrey et al., 1992).
Aprs avoir compar les trois corpus, nous avons opt pour le Trains Corpus pour les raisons
suivantes :
La finesse dannotation : lannotation du Trains Corpus est la plus fine des trois corpus
notamment en ce qui concerne les vnements lis aux extragrammaticalits (clicks, silences,
etc.).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
66
Bien que les corpus ATIS et Switchboard aient fait lobjet dtudes portant sur les
extragrammaticalits, le Trains corpus est celui qui nous permet deffectuer les meilleures
comparaisons de notre travail avec les travaux prcdents (notamment en terme de qualit de
traitement). En effet le Swichboard corpus et lATIS corpus ont fait lobjet dtudes
essentiellement descriptives (Hirschberg et Nakatani, 1994), (Meteer et al., 1995) alors que le
Trains Corpus a fait lobjet de deux tudes cls pour notre travail : celle de (Heeman, 1998), et
celle de (Core, 1999).
Disponibilit : la totalit de ce corpus est disponible gratuitement sur Internet
21
aussi bien qu
travers la Linguistic Data Consortium (LDC) (contrairement au corpus ATIS qui ntait
disponible que partiellement).
1.2.2 Validit de nos observations dans le Trains Corpus
Lune des premires questions que nous nous sommes poses au dbut de notre travail sur le Trains
Corpus tait la validit de nos observations sur dautres corpus, en particulier en ce qui concerne les
phnomnes complexes. Ainsi, nous avons essay de vrifier les occurrences des phnomnes
complexes (comme les extragrammaticalits imbriques que nous allons voir plus loin) dans un autre
corpus. Pour ce faire, nous avons procd une annotation informelle des extragrammaticalits dans
une dizaine de dialogues extraits du Swicboard corpus. Les rsultats de notre annotation nous ont
permis dobserver une similarit des phnomnes dans les deux corpus tant simples que complexes (y
compris les occurrences multiples des extragrammaticalits
22
). Par ailleurs, nous avons observ
informellement (que a soit dans nos interactions personnelles ou dans dialogues oraux diffuss
travers les mdias audio ou audiovisuels) les diffrentes formes dextragrammaticalits que nous
avons trouves dans le Trains Corpus.
1.2.3 Prsentation du Trains Spoken Dialog Corpus
Le Trains Spoken Dialog Corpus (dsormais le Trains corpus) est le corpus que nous avons utilis
dans notre analyse thorique des extragrammaticalits. Il sagit dun corpus qui a t collect par Peter
Heeman et James Allen (Heeman et Allen, 1995) luniversit de Rochester aux Etats Unis. La tche
de ce corpus est la ngociation de transport de marchandises via le chemin de fer. Notre choix de ce
corpus a t motiv par la frquence relativement leve des extragrammaticalit ainsi que la
complexit des phnomnes observs (notamment cause de la complexit de la tche de dialogue)
dune part et dautre part cause de la bonne qualit du corpus tant dun point de vue collecte que
transcription. Les proprits cls de ce corpus sont prsentes en dtail dans les points suivants :

21
Ce corpus est disponible en ligne lURL suivant :
http://www.cs.rochester.edu/research/cisd/resources/trains.html
22
Pour des exemples de ces cas complexes dans le Swichboard Corpus le lecteure peut consulter ( Meteer et al.,
1995) page 15.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

67
1. La technique de collecte : ce corpus a t collect selon la technique du magicien dOz. Ainsi,
deux personnes sont impliques chaque collecte de donnes. La premire joue le rle de la
machine la deuxime joue le rle du client. Un coordinateur tait aussi prsent chaque
enregistrement afin de surveiller la qualit du travail.
2. Haute qualit denregistrement du signal de la parole : cela permet dutiliser ce corpus pour
lentranement des modles acoustiques des systmes de reconnaissance de la parole, et surtout
cela aide augmenter la qualit de la transcription notamment concernant la transcription des
hsitations, des mots incomplets, des silences, etc. qui sont des indices prcieux dans ltude des
extragrammaticalits.
3. Sujets : les sujets qui ont jou le rle du systme sont des experts en informatique familiers avec
la tche du dialogue. Par contre, les sujets qui ont jou le rle du client sont gnralement des
nafs non familiers aux systmes de dialogues homme-machine. 34 sujets ont particip la
collecte du corpus et ont form 25 paires dinterlocuteurs.
4. La tche des dialogues : la tche des dialogues est la ngociation du transfert de marchandise
dune ville lautre. Cette tche a t dcrite sous formes de scnarios dont le nombre est de 20.
Le plan gnral correspondant aux tches accomplir est prsent dans la figure 37.
5. Transcription : tous les mots ont t reproduits dans la transcription avec le respect de leur
orthographe : les mots normaux, les mots incomplets, les mots amalgams, etc. Outre les mots,
certains indicateurs phontiques ou prosodiques ont t reproduits dans la transcription comme :
les silences, les clicks, les bruits, les rires, etc.
6. Taille : la partie distribue publiquement du Trains Corpus comporte 93 dialogues, 52000 mots
(approximativement) et environ 5300 tours de parole.

Figure 21. Le plan utilis pour la collection du Train corpus

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
68
1.3 Annotation des donnes
1.3.1 Proposition dun schme dannotation des extragrammaticalits
Nous avons adopt un schme dannotation qui consiste extraire les informations ncessaires et
suffisantes la modlisation des phnomnes que nous cherchons tudier. La particularit de notre
dmarche consiste tablir un systme dannotation diffrent pour chaque ensemble de phnomnes
qui partagent les mme proprits. Ainsi, nous avons adopt trois systmes diffrents qui
correspondent aux principales formes dextragrammaticalits observes. Notre schme d annotation
na pas t propose a priori. En effet, tout dabord, nous avons analys une partie du corpus afin
dobserver les tendances gnrales. Sur la base de cette observation, nous avons ensuite construit une
premire version de la mthode dannotation. La version dfinitive a t faite en enrichissant la
premire version au fur et mesure de lanalyse du corpus. Les dtails des schmes seront donns
dans les paragraphes suivants avec la prsentation du processus dannotation.
Lannotation des donnes consiste associer les extragrammaticalits observes dans le corpus aux
tiquettes correspondantes que nous avons adoptes dans notre schme dannotation. Nous avons suivi
trois procdures diffrentes une pour chacun des groupes de phnomnes pour lequel nous avons
propos une mthode dannotation spcifique.
1.3.2 Les extragrammaticalits lexicales
Lobjectif de lannotation des extragrammaticalits lexicales est de reprer toutes les formes de ces
phnomnes. Lannotation dans cette phase porte uniquement sur les extragrammaticalits lexicales en
occurrences isoles. Cest--dire indpendamment dune extragrammaticalit supralexicale, les
extragrammaticalits lexicales qui apparaissent au sein dune extragrammaticalit supralexicale tant
considrs comme un lment de cette dernire.
Les fragments de mots ont t ngligs la fois lorsquil sagissait dune occurrence simple
dincompltude de mot ou dune occurrence au sein dune autre extragrammaticalit. Dune part,
parce que le traitement de ce phnomne est trivial (dans une application cible, il suffit de filtrer les
mots inconnus) et dautre part, dans le cas dune entre orale (qui est lapplication que nous visons
derrire notre tude des corpus transcrits), les mots incomplets ne sont pas reproduits par le systme de
reconnaissance de la parole.
2.1.1.33 Annotation des hsitations
Lannotation des hsitations est assez simple, il sagit de faire la liste de toutes les formes dhsitations
observes dans le corpus. Les rsultats de notre analyse sont prsents dans le tableau suivant :




t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

69
Hsitation Nb Occurrences
um 1013
uh 1171
mm 337
mm-hm 301
hm 293
oh 282
huh 49
uh-huh 44
ooh 11
ah 11
Total 3512
Tableau 2. Les hsitations observes dans notre corpus et leurs frquences
Aprs avoir fait quelques oprations simples de calcul, nous avons trouv que les hsitations
constituent 6,75% des mots dans notre corpus et que 66,26% des noncs contiennent des hsitations.
2.1.1.34 Annotation des amalgames
Lamalgame est un phnomne grammatical dont certaines formes sont propres loral. Nous avons
jug bon dinclure lanalyse de ces phnomnes dans notre tude tant donn que dans certains cas les
occurrences des amalgames ont un effet direct sur le traitement des extragrammaticalits comme la
succession dune expression amalgame et de la mme expression en forme standard : Ill I will (dans
ce cas, on peut dire que lobjet de lextragrammaticalit est la correction de lamalgame qui dnote un
niveau de conversation informel).
Dans cette tape, notre travail a consist faire la liste de toutes les formes damalgames observes
dans le corpus et les associer leurs formes standards qui sont utilises tant loral qu lcrit. La
liste complte des mots trouvs avec leurs frquences est prsente dans le tableau 3 :





t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
70

Amalgames et mots oraux Forme standard Construction Occurrences
Aren't Are not Verbe adverbe 7
Avon's Avon is Prop verbe 1
Can't Can not Verbe adverbe 56
Could've Could have Vaux verbe 4
Didn't Did not Verbe adverbe 13
Doesn't Does not Verbe adverbe 37
Don't Do not Verbe adverbe 91
Hadn't Had not Verbe adverbe 2
Hasn't Has not Verbe adverbe 1
Here's Here is Adverbe verbe 69
Wasn't Was not Verbe adverbe 5
I'd I would Pronpers vaux 61
I'll I will Pronpers vaux 143
I'm I am Pronpers verbe 123
it'd It would Pronpers vaux 6
It'll It will Pronpers vaux 83
It's It is Pronpers verbe 194
I've I have Pronpers verbe 7
Gotta got to Verbe prep 14
Let's Let us Verbe Pronpers 156
Long's Long is Adverbe verbe 2
One's One is Pron verbe 5
That'd That would Pron vaux 4
That'll That will Pron vaux 100
That's That is Pron verbe 351
Them's Them is Pronpers verbe 1
There'd There would Adv vaux 1
There's There is Adv verbe 65
They'll They will Pronpers vaux 18
They're They are Pronpers verbe 15
Wanna I want Pronpers verbe 61
We'll We will Pronpers vaux 135
We're We are Pronpers verbe 130
We've We have Pronpers verbe 8
Who's Who is Pron verbe 2
Won't Will not Vaux adv 24
Wouldn't Would not Vaux adv 17
You'd You would Pronpers vaux 14
You'll You will Pronpers vaux 28
You're You are Pronpers verbe 69
You've You have Pronpers verbe 21
Somme des cas 2212
Tableau 3. Formes damalgames et leurs frquences
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

71
Selon nos calculs, 4,22% des mots de notre corpus correspondent des amalgames et 41,47% des
noncs contiennent une occurrence dun amalgame.
Comme le montre le tableau 3, les diffrentes formes damalgames observes dans notre corpus
correspondent des constructions verbales, en particulier les constructions pronom verbe qui occupent
une place largement dominante parmi les occurrences des autres formes. La rpartition des
occurrences entre les diffrentes constructions est prsente dans la figure 38.
0
100
200
300
400
500
600
700
A
d
v
e
r
b
e


v
a
u
x
p
r
o
p

v
e
r
b
e
V
a
u
x

v
e
r
b
e
V
a
u
x

a
d
v
P
r
o
n

v
a
u
x
A
d
v
e
r
b
e

v
e
r
b
e
V
e
r
b
e

P
r
o
n
p
e
r
s
V
e
r
b
e

a
d
v
e
r
b
e
P
r
o
n

v
e
r
b
e
p
r
o
n
p
e
r
s

v
a
u
x
P
r
o
n
p
e
r
s

v
e
r
b
e
Series1

Figure 22. Les diffrentes constructions damalgames et leurs frquences
Comme le montre la figure prcdente, les trois constructions les plus dominantes sont les
constructions pronom personnel verbe, pronom personnel verbe auxiliaire et pronom verbe. Nous
remarquons aussi que les onze constructions observes dans notre corpus impliquent un verbe ou une
forme verbale.
2.1.1.35 Annotation des mots oraux
Dans notre corpus, nous avons observ des mots qui sont des quivalences elliptiques de mots
standards que nous avons appel les mots oraux. Bien que ces mots ne soient pas une partie intgrante
des extragrammaticalits (il sagit en effet dun phnomne grammatical propre loral), nous avons
jug bon de les inclure dans notre tude tant donn que ces mots entrent dans la construction de
certaines extragrammaticalits et ont un effet direct sur leur traitement (comme dans la rptition dun
mot oral et de sa forme standard : yeah yes). Les deux exemples les plus courants que nous avons
observs sont :
Les quivalents informels de yes (238 occurrences) : yeah (235 occurrences) et yep (108
occurrences).
La version orale de because (68 occurrences) : cause (68 occurrences).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
72
Ces statistiques nous montrent que les versions standards et les versions informelles (propres loral)
sont tous les deux utiliss malgr lavantage relativement lger des mots informels.
1.3.3 Les extragrammaticalits supralexicales
2.1.1.36 Annotation des rptitions et autocorrections
Le schme dannotation des rptitions et des autocorrections est essentiellement inspir des travaux
de (Bear, 1994) avec certaines modifications. En voici les principales tiquettes :
Mx Mots identiques
Rx Remplacement
E Editeurs (silence, hsitation, mots incomplets)
X Mots neutres
Tableau 4. Signes utiliss pour ltiquetage des rptitions et des autocorrections
Ainsi, toutes les rptitions et autocorrections observes sont tiquetes sous forme de patrons
runissant leurs diffrents lments. Contrairement aux approches prcdentes, nous avons abord
ltiquetage du corpus avec le minimum de prjugs. Ainsi, nous avons adopt deux mthodes
dtiquetage :
La premire, globale, consiste tiqueter les phnomnes tels quils apparaissent dans le
corpus, ce qui nous a permis de considrer des patrons reprsentant des successions
dextragrammaticalits (des occurrences de plusieurs phnomnes en un mme nonc). Voici
un exemple dnonc tiquet (selon le format global) :
() <sil> do I <sil> I need two <sil> do I need two <sil> engines for the (...)
M1 M2 E M22 M3 M4 E M12 M23 M32 M42
Nous remarquons que dans lnonc prcdent les extragrammaticalits ont t annots tels
quelles sont sans aucune segmentation a priori ce qui nous permet dobserver la relation entre
les deux extragrammaticalits qui se trouvent dans cet nonc.
La seconde, locale, similaire celle de (Bear, 1994), et de (Heeman, 1994), consiste
considrer chacune des occurrences part. Le rsultat de notre tiquetage consiste en 48 patrons
(locaux) dont les plus frquents sont reprsents dans les tableaux 5 et 6. Il faut distinguer entre
la forme de surface (les patrons) et la forme linguistique qui indique la nature linguistique des
lments remplacs. Ces reprsentations superficielles ont t enrichies par des annotations des
modifications syntaxiques dans les autocorrections. Par exemple, lnonc : okay so that'll take
<sil> so that'll be seven a.m. (d93-10.5, utt12) est annot de la manire suivante :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

73
1. Un patron correspondant la structure superficielle de lautocorrection est construit :
M1M2M3R1 M1M2M3R1
23
.
2. Une paire de transition correspondant aux catgories des faux-dparts qui sont impliqus dans le
phnomne.
1.3.3.1.1 Les rptitions
Par rptition, nous entendons la reprise dun mot ou dun ensemble de mots pas celle dun segment
diffrent avec le mme sens (la paraphrase). Ainsi, des cas comme lnonc 56 ne sont pas considrs
comme des rptitions. Puisque les deux segments repris ne sont pas parfaitement identiques en terme
de mots.
() engine E one wasn't <sil> maybe it wasn't the best thing. (d93-19.5, utt52) (45)
Cette rgle nest cependant pas absolue. En effet, elle ne permet pas toujours de dcider la nature du
phnomne en cas dambiguts formelle entre une autocorrection et une rptition. Dans notre corpus,
deux types dambiguts ont t observs :
1. Rptition avec linsertion dun mot : il sagit de linsertion dun mot avant la zone rpte.
Dans ce cas, nous sommes devant une ambigut puisque ces cas peuvent tre considrs
comme une rptition ou comme une autocorrection par insertion. Selon la nature des mots
insrs, nous avons distingu deux cas :
i. Insertion dun mot qui peut tre un diteur comme dans lexemple suivant :
() lets see maybe it would yeah it would ()
(d93-26.2, utt41) (46)
Dans ce cas, nous pouvons considrer quil sagit dune autocorrection par insertion de
yeah qui est utilis pour renforcer le sens du segment et en mme temps, nous pouvons
considrer quil sagit dune rptition puisque nous avons deux segments identiques qui
sont spars par un diteur. Nous avons dcid de classer ces cas avec les rptitions,
dune part cause de la forte ressemblance avec les rptitions normales avec une zone
ddition et dautre part, cause du rle secondaire de la modification smantique
apporte par linsertion de ce genre de mots.
ii. Insertion dun mot normal : il sagit gnralement de linsertion dun modifieur (adverbe,
adjectif, etc.) avant la zone rpte. A titre dexemple, examinons le cas suivant :
The probably the trip from Avon to Corning takes () (d93-19.4, utt29) (47)

23
Nous prsupposons que lamalgame Ill a dj t rsolue.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
74
Dans le segment The probably the, si nous considrons le mot probably comme tant un mot
neutre, nous pouvons juger le cas comme une rptition avec un mot neutre entre les deux
segments rpts et le cas peut ainsi tre annot avec le patron M1XM1. Par contre, si nous
considrons la modification smantique apporte par ladverbe probably, il nous semble clair
quil sagit plutt dune autocorrection.
2. Rptition avec la suppression dun mot : prenons lexemple suivant :
() so we just need to get um <sil> let's see <sil> we need to get um <sil> to <sil> Dansville
<sil> two boxcars of oranges (utt34, d93-11.2) (48)
Lextragrammaticalit dans lnonc prcdent, peut tre considr une rptition avec un mot
inconnu dans lune des deux parties du patron comme : M- X M-. Ce qui renforce le choix de la
rptition est que le mot supprim joue un rle smantique mineur et les segments remplac et
remplaant ont pratiquement le mme sens. De mme, ce phnomne peut tre considr comme
une autocorrection avec suppression tant donn que la partie remplace et la partie remplaante
de lextragrammaticalit ne sont pas parfaitement identiques.
Dans notre corpus nous avons observ 256 cas de rptitions rpartis sur 12 patrons diffrents. Les
diffrents patrons observs ainsi que leurs frquences sont prsents dans le tableau suivant :
Patron %
M1 ed M1 43,95
M2 ed M2 25,82
M1 M1 10,98
M4 ed M4 4,39
M3 ed M3 3,46
M5 ed M5 3,29
M1 X M1 3,29
M2 X M2 1,64
M1 ed M3 ed M3 1,09
M6 M6 0,05
M4 M4 0,05
M1 ed M5 ed M5 0,05
Tableau 5. Les patrons de rptition avec leurs pourcentages
Comme nous pouvons le remarquer dans ce tableau, il existe une tendance gnrale selon
laquelle la frquence dun patron est inversement proportionnelle sa taille. Autrement dit,
plus le patron est petit plus il est frquent et vice versa.
1.3.3.1.2 Les autocorrections
Nous avons observ trois procds dautocorrection dans notre corpus :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

75
Linsertion dun mot : comme nous avons vu dans la section prcdente, il sagit dune
modification smantique apporte un segment par linsertion dun mot au dbut ou au
lintrieur de ce segment.
Le remplacement dun mot : dans ce cas, on remplace un mot par un autre souvent de la
mme catgorie ou dont le rle fonctionnel est assez proche (comme : cardinal ou dterminant).
Le remplacement est parfois accompagn par la reprise dune srie de mots comme dans
lnonc suivant :
yeah I need to ship <sil> one boxcar of bananas <sil> one boxcar of oranges <sil> and one
tanker of OJ <sil> to Bath (utt2, d93-11.3) (49)
La modification de lordre des mots : ce procd est particulirement utilis pour remplacer
une construction verbale affirmative par une construction interrogative comme dans lnonc
suivant :
I don't know if that's is that the maximum number <sil> possible <sil>
(utt27, d93-8.3) (50)
Notre corpus contient 241 cas dautocorrections rpartis sur 35 patrons. Voici les 15 patrons les plus
frquemment observs avec leurs frquences :
Patron %
R1R1 24,71
M1R1 8,64
M2R1 6,74
R1edR1 6,74
R1M1 6,74
M2R1Xed 5,61
M1R1M2 3,37
R1R2 3,37
M1M2R1M3M4R2M5 M1M2R1'M3M4R2'M5 2,24
M1R1R2 2,24
M2R1M3 2,24
M3R1 2,24
R1M4 R1M4 1,12
R1R2M1 1,12
R1XR1 1,12
M4XM4 1,12
Tableau 6. Les quinze patrons dautocorrection les plus courants avec leurs frquences
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
76
La tendance observe dans les rptitions est aussi confirme avec les autocorrections : la frquence
dun patron est inversement proportionnelle sa taille.
2.1.1.37 Annotation des faux-dparts
Comme nous avons vu dans la premire partie de cette thse, les faux-dparts consistent abandonner
ce que le locuteur vient de dire et recommencer nouveau. Ce processus dabandon segmente
lnonc en plusieurs zones ayant des fonctions diffrentes.
Dans notre corpus, nous avons observ 272 cas de faux-dparts dont 25% se trouvent dans des faux-
dparts multiples. Ainsi, nous avons utilis des rgles pour annoter ces phnomnes. Le schma
gnral de ces rgles est prsent dans la figure suivante :
Faux_dpart

Frontire_dbut Segment_extg Editeur Frontire_finale

Figure 23. Schma gnral des autocorrections
Comme nous pouvons le remarquer dans la figure prcdente, les zones impliques dans ces rgles
sont les suivantes : la frontire de dbut, le segment extragrammatical, la zone ddition et la frontire
finale. Avant de prsenter les proprits de chaque zone dans le schma, nous allons commencer par la
prsentation des relations entre ces units.
1.3.3.1.3 Analyse des relations de dpendance entre les zones cls du faux-dpart
Les dpendances syntaxiques entre les diffrentes zones au sein dun faux-dpart ont un impact
important sur la dtection de ceux-ci. En effet, dans certains cas, llment situ aprs la rupture (qui
peut tre marque par une zone ddition ou par la prosodie seulement) peut tre vu comme un
complment naturel du dernier syntagme de lextragrammaticalit. Examinons le schma suivant pour
mettre au clair cette ide :






Figure 24. Schma gnral des relations de dpendances entre les constituants du segment
extragrammatical et de la frontire finale
XPe
1
XPe
n
XPf
1
XPf
2
XPf
n

Faux_dpart
Frontire_dbut segment extragrammtical Editeur Frontire
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

77
Comme nous pouvons le voir dans la figure prcdente, il peut y avoir une ambigut de lattachement
du premier syntagme de la frontire XPf
1
qui peut tre vu comme dpendant/dominant du dernier
syntagme du segment extragrammatical XPe
n
aussi bien que du deuxime syntagme de la frontire
XPf
2
.
Prenons lnonc suivant titre dexemple : So it is not gonna be going to <sil> the easiest way is to
go to Bath or Corning. Prenons larbre danalyse simplifi de lnonc pour montrer lambigut de
dpendance :






gonna be going to <sil> the easiest way is to go to
Figure 25. Arbre montrant lambigut de dpendance du premier syntagme dune extragrammaticalit
Comme nous pouvons voir dans larbre danalyse prcdent le syntagme nominal the easiest
way peut tre attach au dernier syntagme du segment extragrammatical. A ce moment l il
est considr comme un objet du prdicat verbal going. De mme, ce syntagme peut tre
attach au prdicat verbal is droite et ce moment l il joue le rle de sujet. Ainsi, dans le
contexte dun systme de traitement des extragrammaticalit, la rsolution de lambigut
dattachement des segments frontires est un facteur dcisif pour la dtection dun faux-
dpart.
1.3.3.1.4 Analyse des zones cls dun faux-dpart
1. Frontire de dbut
La dlimitation de la frontire de dbut dun faux-dpart est ncessaire afin dtablir la limite gauche
de cette extragrammaticalit. Plusieurs sources dinformations sont aussi utilises afin de dlimiter
cette frontire :
La marque de dbut de lnonc : les cas qui commencent au dbut de lnonc ont
automatiquement leur frontire gauche qui est dlimite par ce dbut. Selon nos statistiques,
cette source dinformation est particulirement utile puisque 71% des faux-dparts sont situs
au dbut de lnonc et 12% (cest--dire 38% du reste) se trouvent dans des faux-dparts
multiples qui commencent au dbut de lnonc.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
78
Des informations diverses : diffrents types dindices linguistiques, smantiques et discursifs
sont utiliss pour marquer le dbut dun faux-dpart. Ainsi, des mots comme les adverbes ou les
hsitations sont considrs comme des indices particulirement utiles dans la dlimitation de la
frontire gauche dun faux-dpart.
2. Segment extragrammatical
24

Nous avons tabli une typologie syntaxique gnrale des segments extragrammaticaux afin dobserver
leur degr de rgularit. Dans notre corpus, nous avons pu distinguer entre deux types de segments
extragrammaticaux :
1. Des segments extragrammaticaux composs dun seul syntagme auquel il manque un ou
plusieurs mots.
2. Des segments composs de plusieurs syntagmes dont le dernier est incomplet.
Dans les deux cas prcdents, le dernier syntagme du segment extragrammatical est la partie qui
dtermine sa nature. Ainsi, dans notre typologie nous nous sommes concentrs uniquement sur ce
dernier syntagme. Le schme dannotation que nous avons adopt consiste annoter les syntagmes
complets au sein du segment extragrammatical par le label : n(XP) o n (n 0) est le nombre des
syntagmes et XP est un syntagme de nature quelconque. Par exemple, le segment extragrammatical :
pronpers Vpres infto (I want to) est prsent comme :
1(XP) vpres infto
Selon nos calculs, les valeurs de n vont entre 0 et 4 syntagmes. Le pourcentage des constructions o n
est gal zro est de 15,78% et la moyenne de n est de 1,64 syntagmes. Nous avons observ au total
29 constructions dont 84,49% se terminent par un verbe ou un verbe suivi par un argument
(prposition, adverbe, etc.).Voici le tableau gnral des principales constructions observes :









24
Ces segments sont appels : segments_extg dans la rgle schmatique pour des raisons de concision.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

79


Structure Pourcentage
n(XP) v 51,92
n(XP) v infto 19,23
n(XP) det 9,61
n(XP) pron 7,69
n(XP) v adv 5,769
n(XP) v pronpers 3,84
n(XP) vaux vinf 3,84
n(XP) v prep 3,84
n(XP) v det 3,84
n(XP) coord adv 3,84
n(XP) adv prep 3,84
Tableau 7. Les principales structures des segments extragrammaticaux dans les faux-dparts et leurs
frquences
Par ailleurs, le problme de la dtection des segments extragrammaticaux est que les critres de
dcision dans ce cas ne sont pas toujours absolus. Ainsi, nous pouvons distinguer entre deux types de
segments extragrammaticaux :
i- Des segments absolument extragrammaticaux : il sagit de segments qui sont jugs comme
extragrammaticaux quel que soit le contexte dans lequel ils apparaissant. Gnralement, ce sont
les formes les plus simples des faux-dparts, comme les occurrences isoles de dterminants, de
prpositions, etc.
ii- Des segments relativement extragrammaticaux : il sagit, dans ce cas, de segments qui sont
parfaitement grammaticaux dans certains contextes et qui sont extragrammaticaux dans
dautres. Ce sont gnralement des formes impliquant des structures syntaxiques complexes
comme dans le segment :
pronpers + vpres + infto
Ce segment est considr comme tant parfaitement grammatical sil est suivi par un verbe
infinitif mais il est jug extragrammatical sil est suivi dun syntagme nominal par exemple.
3. Zone ddition
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
80
La modlisation de la zone ddition est similaire ce que nous avons vu dans les patrons, la
diffrence cest que dans certains cas lexistence de la zone ddition est obligatoire pour la
considration dun segment comme tant extragrammatical. Parfois, le type mme de cette zone est
dcisif pour juger quil sagit dune extragrammaticalit. Soit lexemple suivant :
but but um it was okay w- what um we only need one boxcar of OJ right (d93-18.4, utt76) (51)
Dans cet exemple, nous sommes devant deux possibilits danalyse pour le faux dpart soulign :
Considrer que les deux verbes de lnonc was et need appartiennent la mme construction
verbale et par consquent considrer le pronom what comme un pronom objet.
Considrer que lnonc contient deux prdicats verbaux : was et need : un premier (celui de
was) avec une construction extragrammatical et le second (celui de need) correspond la zone
reprise.
Lexistence de la zone ddition okay w- what um est le seul lment qui permet, dans ce cas, de faire
le choix entre les deux interprtations et par consquent de trancher en faveur de la deuxime.
4. Frontire finale
La frontire finale peut consister en un seul mot, un seul segment ou mme une srie de segments.
Cette frontire a une double fonction, dune part, elle permet de marquer ltendue dune
extragrammaticalit et dautre part, elle sert rduire la surgnration dune rgle en contraignant le
contexte droit dun segment extragrammatical.
2.1.1.38 Annotation des incompltudes
Le schma dincompltude est assez similaire celui du faux-dpart. En effet, la seule diffrence entre
les deux est que, dans le faux-dpart, la plupart des cas commencent au dbut de lnonc (et ont donc
leur frontire gauche qui est dlimit a priori) alors que leur frontire droite est dlimiter. Pour les
incompltudes, il est rare de trouver un segment qui commence au dbut de lnonc mais, par
dfinition, les incompltudes nont pas un contexte droit et donc pas de zone ddition, ce qui rsout
une partie du problme. Le schma gnral des rgles dincompltudes est prsent dans la figure
suivante :
Incompltude


frontire_dbut segment_extg Fin de lnonc


Figure 26. Schma gnral des incompltudes
Dans notre corpus, nous avons observ 83 cas dincompltude. Pour annoter ces cas, nous avons
adopt le schma gnral que nous avons utilis avec les faux-dparts : n(XP). Mme si la procdure
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

81
dannotation est similaire celle des faux-dparts, deux prcisions lies la nature des incompltudes
mritent tre cites :
1. Nous avons compt tous les syntagmes observs y compris les syntagmes rpts ou corrigs. Par
exemple, dans lnonc : I think I think the bannana are already there because like nous comptons
les syntagmes I et think chacun deux fois.
2. Par ailleurs, nous nous sommes limit dans notre analyse aux mots complets tant donn que nous
ne pouvons pas associer une catgorie grammaticale aux mots incomplets dont lidentit est
gnralement inconnue (les sujets prononcent les premires lettres dun mot et en gnral cela ne
suffit pas lidentifier).
Daprs nos calculs, la valeur moyenne de n (le nombre moyen des syntagmes qui prcdent le
segment final) est de 3,70. Nous navons pas observ de cas ou le nombre des syntagmes qui ont
prcd le syntagme final est 0. Par ailleurs, le nombre le plus large de syntagmes que nous avons
observs tait 10 (un cas unique). Comme nous pouvons le remarquer, ces valeurs sont suprieures
celles observes avec les faux dparts (o les valeurs de n variaient entre 0 et 4 et la moyennes des
syntagmes prcdant le syntagme final tait de 1,64). Cette diffrence est due principalement au fait
que les incompltudes apparaissent, par dfinition, la fin de lnonc alors que les faux-dparts
tendent tre observs en dbut de lnonc.
Les principales constructions observes dans notre corpus ainsi que leurs frquences sont donnes
dans le tableau suivant :
Structure Pourcentage
N(XP) v 26,08
N(XP) v infto 15,21
N(XP) coord 15,21
N(XP) pron 8,69
N(XP) prep 8,69
N(XP) v det 6,52
N(XP) det 6,52
N(XP) adv 4,34
N(XP) name 4,34
N(XP) conjonction 2,17
N(XP) v adv 2,17
Tableau 8. Les constructions des incompltudes observes dans notre corpus et leurs frquences
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
82
La premire observation que nous pouvons faire est que, tout comme dans les faux-dparts, les
constructions verbales sont dominantes dans les incompltudes. En effet, 50% des cas que nous avons
observs se terminent par une construction verbale incomplte. Cette domination est cependant moins
claire quavec les faux-dparts et nous observons une augmentation nette des frquences dautres
constructions en particulier celle de la coordination. Pour affiner notre analyse, nous avons jug bon
de distinguer entre deux types de coordinations :
1. Coordination syntaxique : il sagit gnralement de la coordination de deux arguments du
prdicat verbal. Comme il sagit dincompltude, les cas qui sont les coordinations entre les
objets selon le schma suivant : Prdicat_verbal objet
1
conjonction_de_coordination objet
2
.
2. Coordination discursive : il sagit de la coordination qui tablit un lien entre deux
propositions. Le schma gnral de ce genre de coordination est le suivant : proposition
1

conjonction_de_coordination proposition
2
.
Ainsi, aprs avoir distingu entre les deux formes de coordination, nous avons trouv que 77,77% des
coordinations sont des coordinations discursives. Pour le reste (22,22% des cas), il ntait pas possible
pour nous de savoir sil sagit dune coordination syntaxique ou discursive : les indices linguistiques et
contextuels ntaient pas suffisants pour juger.
2.1.1.39 Annotation des fausses extragrammaticalits
Outre les extragrammaticalits, nous avons annot aussi les noncs qui contiennent des segments qui
ont la forme dune extragrammaticalit sans en tre une. Prenons lexemple suivant :
That's gonna take the longe(st)- well it's gonna take <sil> two four six hours to get back to Corning with
those two boxcars (utt32, d93-19.4) (52)
Dans cet exemple, le segment two four six hours a la forme dune autocorrection mais en ralit il
sagit du comptage haute voix du nombre dheure que dure le voyage.
Lobjectif principal de cette annotation est dobserver les cas dambigut et de proposer des solutions
adaptes ce problme. Nous avons annot 159 occurrences de ce genre dans notre corpus.
1.3.4 Les occurrences multiples dextragrammaticalits
Dans certains contextes, le locuteur peut produire plus dune extragrammaticalits dans le mme
nonc. Selon la relation entre ces extragrammaticalits, nous pouvons distinguer entre deux cas :
2.1.1.40 Les extragrammaticalits multiples
Dans ce cas, lnonc contient plusieurs extragrammaticalits compltement spares, comme dans
lexemple suivant :
Now the problem is is that one engine can <sil> pull at most three three loaded boxcars
(utt55, d93-12.4) (53)
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

83
Dans cet exemple, nous remarquons que les deux rptitions de is et de three sont compltement
indpendantes lune de lautre malgr leur occurrence dans le mme nonc.
Les occurrences multiples peuvent porter sur des phnomnes du mme genre (comme dans lexemple
prcdent) ou peuvent impliquer deux formes diffrentes dextragrammaticalit : une rptition avec
une incompltude, par exemple.
Dans notre corpus, 9,34 des occurrences des extragrammaticalits se trouvent dans une configuration
multiple.
2.1.1.41 Les extragrammaticalits imbriques
Il sagit de deux extragrammaticalits qui ont, au moins, un mot en commun. Pour mettre au clair cette
dfinition, examinons lexemple suivant :
() <sil> do I <sil> I need two <sil> do I need two <sil> engines for the (...)
M1 M2 E M22 M3 M4 E M12 M23 M32 M42

(utt39, d92a-1.2)
Figure 27. Exemple de deux extragrammaticalits imbriques
Dans cet exemple, nous remarquons que la rptition du mot I est imbrique au sein de la rptition de
do I need two.
Daprs nos statistiques, 8,24% des occurrences totales des extragrammaticalits sont des cas
imbriqus. Comme nous allons le montrer dans le premier chapitre de la quatrime partie,
limbrication est un phnomne qui ncessite un traitement particulier afin de pouvoir normaliser
lnonc correctement.
1.3.5 Discussion des rsultats de notre annotation
Dans ce paragraphe nous allons discuter les rsultats de notre annotation des extragrammaticalits
dans le Trains Corpus des points de vue linguistique et cognitif. Nous allons en particulier, prsenter
les deux principales raisons de production des extragrammaticalits que nous avons observes,
discuter la rgularit des extragrammaticalits que nous avons annot et finalement parler des
implications de nos observations sur un module ddi la dtection et la dlimitation des
extragrammaticalits.
2.1.1.42 Production des extragrammaticalits
Dans notre analyse du corpus nous avons pu distinguer entre quatre sources principales pour la
production des extragrammaticalits :
1. Non-adquation sociale : nous avons observ des cas o les sujets se rendent comptent que la
forme linguistique quils ont adopte ne correspond pas au contexte social du dialogue. Ainsi ils
procdent une auto-correction pour atteindre un niveau sociolinguistique adapt. Le cas le plus
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
84
reprsentatif de ce genre dextragrammaticalit est le remplacement des mots oraux et des
amalgames par des formes standards comme dans : Ill uh I will ou yeah yes. Comme nous
pouvons le remarquer dans les deux exemples prcdents, les deux formes (remplaante et
remplace) sont identiques smantiquement et la seule diffrence entre elles est le niveau
sociolinguistique associ chacune des formes.
2. Continuit du message : lune des principales raisons de production des extragrammaticalits
que nous avons observes est de garder la continuit des messages mis. En dautres termes,
certaines extragrammaticalits ont pour seule fonction de remplir les trous phontiques dans
lnonc.
3. Non-adquation smantique : dans ce cas les extragrammaticalits sont gnres pour changer
le contenu smantique du fragment dnonc gnr.
4. Non-adquation linguistique : les sujets peuvent se rendre compte que la structure quils ont
choisie ne permet pas dtablir un lien syntaxique, smantique et/ou discursif avec les
constructions quils ont planifies de dire aprs la construction en cours de production. Ainsi, ils
effectuent un changement pour pouvoir atteindre leur objectif communicatif.
2.1.1.43 Rgularit des extragrammaticalits
Notre annotation du corpus a montr que les extragrammaticalits ne sont pas des phnomnes
irrguliers comme on pourrait le penser vue les htrognits des raisons de la production de ces
phnomnes. Cela est assez clair avec les rptitions et les autocorrections dont la rgularit les rend
assez facilement modlisable avec des patrons qui impliquent des connaissances linguistiques assez
rduites. En ce qui concerne les faux-dparts et les incompltudes, bien que la rgularit de ces
phnomnes soit moins vidente premire vue, nous avons constat dans notre annotation de ces
phnomnes que leurs formes semblent tre soumises des considrations grammaticales.
Avant de discuter les cas que nous avons observ, nous allons commencer par une prsentation des
principes cognitifs cls de la gnration du langage oral.
1.3.5.1.1 Principes cognitifs de la gnration du langage parl
Diffrents travaux dans le domaine de la psycholinguistique exprimentale (Garett, 1988), (Levelt,
1989), ont montr que la conversion dune forrme conceptuelle pr-verbale en un nonc parl est
faite selon un nombre de processus (modules) indpendants et spcialiss chacun dans une tche
particulire :
1. Le module de planification smantique (conceptualiseur) : ce module planifie un contenu
smantique pour tre exprim. Ainsi la sortie de ce module est une reprsentation smantique
correspondant ce contenu.
2. Le module de formulation linguistique (le fomaliseur) : ce module effectue la formulation
linguistique de la reprsentation smantique reue du conceptualiseur. Cela est fait en
slectionnant les items lexicaux utiliser et en prenant en considration les contraintes
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

85
phonologiques et syntaxiques de la langue utilise pour la gnration. Ainsi, la sortie de ce
module est une reprsentation phonologique et syntaxique abstraite.
3. Gnrateur de son (articulateur) : la sortie du formulateur est convertie en un signal de parole
par le gnrateur de son (lappareil articulatoir).
Par ailleurs, il est communment admis que la gnration de la parole se fait de manire incrmentale
(Kempen et Hoenkamp, 1987), cest--dire, un module ne doit pas attendre la fin du traitement dans le
module prcdent pour commencer travailler. Par exemple, le module de gnration phontique peut
commencer gnrer des sons partir dune formulation linguistique du premier fragment de lnonc
et produit le reste au fur et mesure de la rception des formulations linguistiques du reste des
fragments. Finalement, en ce qui concerne le niveau syntaxique (qui est le sujet de notre discussion),
diffrents travaux ont montr quil existe un processus damorage qui permet de planifier les
segments syntaxiques lavance (Branigan et al., 1995), (Scheepers et Corley, 2000). Ces travaux ont,
par ailleurs, montr que le groupe verbal joue un rle central dans ce processus.
1.3.5.1.2 Gnration des rptitions
25

Les rptitions ont pour fonction de remplir le vide dans lnonc afin garder un minimum de
continuit dans le message. Selon les principes gnraux de la gnration de la parole, le mcanisme
de gnration des rptitions peut tre rsum dans les poins suivants :
1. Le module de planification smantique produit une reprsentation partielle, cette reprsentation
est formule linguistiquement et puis gnre phontiquement.
2. Pour des raisons diverses lies au cot cognitif de la tche ou ltat psychologique du sujet, le
module de planification smantique tarde envoyer le segment suivant de la reprsentation
smantique de lnonc gnrer.
3. Le module de formulation linguistique dcide de rpter le dernier segment gnr en attendant
la rception de la reprsentation smantique du segment suivant.
1.3.5.1.3 Gnration des auto-corrections
La gnration des auto-corrections se fait selon les deux tapes suivantes :
1. Le module de planification smantique produit une reprsentation partielle, cette reprsentation
est formule linguistiquement et la forme linguistique produite est gnre phontiquement.
2. Le module de planification smantique se rend compte que la reprsentation smantique quil
vient de produire contient une erreur et dcide de reproduire la reprsentation du segment
gnr avec la correction de lerreur.

25
Dans notre discussion de la gnration des rptitions et des auto-corrections, nous avons exclu les facteurs
biologiques (toux, problmes de respiration, etc.) tant donn que nous navons pas observ des cas de ce genre
dans notre corpus.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
86
Comme nous pouvons le remarquer, la production des auto-corrections tout comme celle des
rptitions est lie uniquement au dysfonctionnement du module de planification smantique et
nimplique pas le module de formulation syntaxique qui joue un rle passif dans ce cas.
1.3.5.1.4 Discussion des deux structures syntaxiques les plus frquemment observes dans
les faux-dparts et les incompltudes
Dans notre analyse des faux-dparts et des incompltudes, nous avons observ quil existe deux
formes dominantes des segments extragrammaticaux : les constructions verbales et les coordinations.
Dans ce paragraphe, nous allons discuter ces deux formes la lumire des principes gnraux de la
gnration du langage parl que nous avons prsent dans le paragraphe prcdant ainsi que les
spcificits linguistiques de la langue de notre corpus : langlais.
1. Les constructions verbales : nous avons vu que les segments extragrammaticaux dans les faux-
dparts taient majoritairement de nature verbale (84,49%). De mme, la moiti des
constructions de ces segments dans les incompltudes tait de nature verbale. Comme nous
estimons que cette frquence est intimement lie lordre canonique des mots en anglais, nous
allons commencer par la prsentation de celui ci et puis discuter sa pertinence par rapport la
forme des extragrammaticalits produites. En effet, langlais est une langue o lordre
canonique est : SVO (Sujet Verbe Objet). Ainsi, dans cette langue, le prdicat verbal joue un
rle central au sens propre et figur du terme. Voici une reprsentation schmatique des
relations entre le verbe et ses arguments dans les langues SVO :


Sujet Verbe Objet
Figure 28. Schma gnral des relations entre le prdicat verbal et ses arguments dans les langues SVO
Comme nous pouvons remarquer dans la figure prcdente, toute mise en relation du sujet et de
lobjet dans les langues SVO ncessite le passage par le prdicat verbal (contrairement aux
langues SOV, par exemple, o une premire relation entre le sujet et lobjet est tablie et dont la
nature est clarifie ultrieurement avec la production du prdicat verbal). Ainsi, nous estimons
que la gnration des faux dparts se fait de la manire suivante :
i. Planification dun contenu smantique et gnration de la reprsentation smantique
correspondant ce contenu (la reprsentation smantique peut tre formule et transmise
au module suivant de manire incrmentale).
ii. Formulation linguistique incrmentale correspondant la reprsentation linguistique
obtenue. Cette formulation se fait en construisant la reprsentation phonologique et
syntaxique du premier constituant de lnonc gnrer et en amorant celle du (ou des)
constituant(s) qui dpendent directement du constituant formul ou des quels il dpend
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

87
directement. Ainsi, dans les langues SVO, le premier constituant formul est le
constituant nominal sujet qui permet damorcer uniquement le constituant verbal. Mais,
comme nous avons vu au dbut de ce paragraphe, cela ne suffit pas de juger
compltement ladquation de la forme partiellement gnre par rapport la
reprsentation smantique (qui peut tre reue partiellement ce stade de la gnration).
Dans la deuxime tape, le prdicat verbal est formul et le constituant nominal est
amorc. Cela permet de constituer une premire formulation linguistique complte de
lnonc et, par consquent, juger son degr de correspondance avec la reprsentation
smantique reue. Ainsi, lorsque la forme gnre est juge comme tant non-approprie
par rapport au contenu smantique planifi, cette forme est nglige et une nouvelle
formulation est commence.
2. Les coordinations : nous avons vu que les coordinations taient assez frquemment observes
comme point dinterruption de lnonc en particulier dans les incompltudes (o ils couvrent
plus de 15% des cas). Nous avons vu quau moins 77,77% des coordinations observes taient
des coordinations discursives. Ainsi, la lumire des principes cognitifs de gnration des
extragrammaticalits nous pouvons expliquer ces observations par les points suivants :
i- Les sujets gnrent le dernier fragment de leur proposition mais ne sont pas encore
certains que le contenu smantique quils veulent exprimer est totalement formul dans la
proposition quils viennent de produire : le module de planification smantique na pas
encore donn le signe de fin de reprsentation smantique.
ii- A cause du retard du signe de la fin, le module de formulation linguistique dcide quune
nouvelle proposition est en cours de planification au niveau smantique et gnre la
conjonction de coordinations (sans rfrer un contenu smantique explicite de la part du
module de planification smantique) pour lier la proposition produite la proposition
attendue.
iii- Le module de planification smantique envoie un signe de fin plutt quune
reprsentation smantique et lnonc produit est incomplet.
1.3.5.1.5 Effet de nos observations sur la gnration des extragrammaticalit sur leur analyse
Nos observations sur la gnration ainsi que sur la structure des extragrammaticalits ont plusieurs
implications par rapport un module danalyse des extragrammaticalits :
1. Les extragrammaticalits ne sont pas des phnomnes irrguliers comme on pourrait le penser.
Cependant le degr de rgularit de ces phnomnes varie dun phnomne lautre (les faux
dparts sont moins rguliers que les rptitions par exemple). Ainsi, nous pouvons utiliser
diffrentes techniques pour traiter ces phnomnes selon leur degr de complexit.
2. Les connaissances linguistiques ont rle minimal dans la production des rptitions et des auto-
corrections.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
88
3. Les connaissances syntaxiques permettent non seulement de dlimiter ltendue des faux-
dparts et des incompltudes mais aussi dtecter leur prsence ( notre connaissance, tous les
travaux prcdents ont utilis la syntaxe pour la dlimitation seulement). Pour ce faire, les
dpendances syntaxiques des syntagmes au sein de lnonc oral doivent tre modlises
correctement. En effet, nous avons vu que la non-prise en considration des dpendances
syntaxiques peuvent mener des erreurs de dtection ou des surgnrations.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

89
2 Chapitre II.2 : Les formalismes S-TSG et Sm-TAG pour
lanalyse grammaticale du langage oral spontan
2.1 Introduction
Depuis le dbut des tudes linguistiques, la langue a toujours t considre comme un niveau de
connaissance part entire bien distinct des autres niveaux de connaissance ncessaires pour
ltablissement dun dialogue : connaissances mtalinguistiques, connaissance sur le monde, etc. En
effet, cette distinction nette est motive, sur le plan thorique, par la volont de la linguistique, qui est
une discipline relativement jeune, de saffirmer comme une branche compltement indpendante de
linvestigation scientifique. Sur le plan pratique, cette sparation peut tre motive par le fait que des
tudes interdisciplinaires sont plus difficiles mener que des recherches mono-disciplinaires tant
donn quelles ncessitent des connaissances approfondies dans des domaines assez varis. De plus,
ltablissement dun modle formel universel capable de prendre en considration les diffrents
niveaux de connaissances et leurs interactions semble une tche trs difficile dans le contexte de ltat
actuel de lart dans le domaine des sciences cognitives.
Cependant, cette sparation dans le contexte des recherches sur les dialogues orients vers la tche ne
nous semble pas justifie. En effet, dans ce contexte, les connaissances sur le monde ainsi que les
connaissances linguistiques peuvent tre modlises avec un degr raisonnable de finesse. Cela
permet dexplorer de nouveaux modles qui permettent de rendre compte de linteraction des
diffrents niveaux de connaissance.
Par ailleurs, comme nous avons vu dans la premire partie de cette thse, prs dun sicle aprs la
rvolution Saussurienne, dont lune des principales ralisations est la sparation entre la langue et la
parole, loral reste un thme marginal dans les travaux dans les domaines de la syntaxe et de la
smantique. En effet, les diffrentes thories linguistiques sont consacres la reprsentation de lcrit
et ngligent presque totalement loral qui est pourtant la forme de communication la plus spontane et
la plus courante entre les humains.
Ainsi, nous proposons la Grammaire Smantique dAssociation dArbres Sm-TAG comme un
formalisme qui tente de combler ce vide dans les travaux prcdents. Les proprits principales de
notre formalisme sont :
La prise en considration des connaissances sur le monde dans la reprsentation syntaxique des
dialogues oraux.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
90
La prise en considration des phnomnes linguistiques de loral dans la dfinition du
formalisme.
Avant de prsenter les diffrentes proprits de ce formalisme, nous allons commencer par la
prsentation des lments syntaxiques de base ncessaires pour la reprsentation de loral. Nous allons
ensuite prsenter une formalisation de la grammaire smantique classique qui tait notre premier pas
pour la proposition de notre formalisme.
2.2 Les lments de base pour une thorie syntaxique et leur
pertinence pour la reprsentation de loral
Les connaissances syntaxiques peuvent tre divises en deux sources principales :
2.2.1 Le systme casuel
Il sagit de lensemble des moyens utiliss par une langue pour marquer les rles syntaxiques (sujet,
objet, etc.). En franais, ces moyens sont :
a. La topologie : il sagit de lordre selon lequel les mots sont agencs au sein de la phrase. En
gnral, la topologie permet de savoir la fonction dun argument selon sa position par rapport au
verbe (Lazard, 1994). Par exemple, le franais est une langue ordre SVO (Sujet Verbe Objet).
Selon les langues, cet ordre peut varier entre fixe et totalement variable. Comme nous avons vu
dans la premire partie de cette thse, le franais oral tend tre une langue ordre fixe.
b. Les prpositions : les prpositions indiquent le cas du syntagme qui vient aprs (vocatif, datif,
etc.).
c. Flexion casuelle : en franais, ce moyen est limit la distinction entre pronoms je (sujet) et me
(objet).
2.2.2 Accord en genre et en nombre
En franais, il sagit dun mcanisme selon lequel un nom ou un pronom donn exerce une contrainte
formelle sur les pronoms qui le reprsentent, sur les verbes dont il est sujet, sur les adjectifs ou
participes passs qui se rapportent lui (Dubois, 1994). Laccord est gnralement utilis pour
rsoudre certaines ambiguts dattachement surtout en cas de dpendances lointaines (qui ne sont pas
trs frquentes loral).
2.2.3 Quelles sources dinformations pour le traitement du franais oral ?
Pour slectionner les sources dinformations considrer dans la Sm-TAG, deux critres ont t
retenus :
1. Lintrt de linformation : elle est juge selon limportance du rle que joue cette information
dans le traitement de lnonc.
2. La fiabilit de linformation : elle est juge selon la rgularit de celle-ci ainsi que la possibilit
de son bruitage.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

91
Ainsi, nous avons retenu le systme casuel dans notre formalisme. En fait, dune part, il sagit la fois
dune information ncessaire et fiable pour le traitement. Ncessaire, puisquelle permet de prciser
les diffrents rles syntaxiques et smantiques. Elle est fiable cause de la rgularit des diffrents
moyens de marquage casuel en franais.
Par ailleurs, laccord na pas t considr dans la Sm-TAG. Dune part, linformation quil vhicule
nest pas centrale dans le traitement et dautre part, il sagit dune information non fiable. En fait, les
erreurs daccords sont parmi les erreurs les plus frquentes des systmes de reconnaissance de la
parole sans oublier les cas assez frquents de non-respect de laccord en franais oral dont les
expressions clives constituent lexemple typique : cest des trucs (au lieu de ce sont des trucs).
2.3 La grammaire smantique de substitution darbres (S-TSG)
26

La S-TSG est une formalisation que nous avons propose de la grammaire smantique classique.
Notre prsentation sera limite aux aspects formels tant donn que les diffrentes proprits de la
grammaire smantique ont t prsentes dans la premire partie de cette thse.
2.3.1 Les units de base dans la S-TSG
Les arbres constituent les units de base dans la S-TSG. Contrairement la LTAG, ces arbres ne sont
pas forcment ancrs par un item lexical. Par ailleurs, il nexiste pas darbres auxiliaires dans la S-
TSG, les arbres initiaux tant les seuls arbres possibles dans ce formalisme. La profondeur des arbres
de tous types est limite une branche. Cela veut dire que nous pouvons reprsenter ce formalisme
la fois de manire syntagmatique ou comme un formalisme darbres (Abeill, 1993). Dans ce travail,
nous avons opt pour la reprsentation comme un formalisme darbres principalement pour pouvoir le
comparer lautre formalisme que nous avons propos (la Sm-TAG) ainsi qu dautres formalismes
comme LTAG et ses drivs.
2.1.1.44 Les arbres lexicaux
Il sagit darbres dont la racine correspond une catgorie smantique associe un item lexical qui
est lancre de cet arbre. En voici quelques exemples darbres lexicaux :
Pron_je verbe_rserver adverbe_negation





je rserve pas
Figure 29. Exemples darbres lexicaux dans la S-TSG
Les arbres servent lier le lexique des structures suprieures qui sont les arbres locaux.

26
S-TSG est lacronyme de : Semantic Tree Substitution Grammar.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
92
2.1.1.45 Les arbres locaux
Les arbres locaux correspondent aux segments conceptuels dans la grammaire smantique. Comme
nous avons vu dans la premire partie de cette thse, ces units ne sont pas dfinies selon des critres
clairement dfinis. Voici quelques exemples de ces arbres :
Formule_demande Concept_negation



Pron_je verbe_rserver adverb_negation
Figure 30. Des arbres locaux dans le formalisme S-TSG
Nous remarquons que les catgories dans ces arbres sont toutes de nature smantique ou syntaxico-
smantique comme la catgorie (pron_je).
2.1.1.46 Les arbres globaux
Les arbres globaux sont destins lier les arbres locaux en units plus importantes et reprsenter leurs
dpendances smantiques servant ainsi les dsambiguser. Voici quelques exemples darbres
globaux :
demande_rservation_chambre objet_demand_chambre



formule_demande objet_demand_chambre expression_chambre proprits_chambre
Figure 31. Exemple de deux arbres globaux dans le formalisme S-TSG
Comme nous pouvons le voir dans lexemple prcdent, un arbre global peut dominer un arbre local
(formule_demande) ou un autre arbre global dans certains cas (objet_demand_chambre) mais pas
darbres lexicaux directement.
2.3.2 Lopration de combinaison
En S-TSG, seule lopration de substitution (similaire celle du formalisme LTAG) est utilise pour
combiner les arbres. Ladjonction nest pas possible dans ce formalisme. Voici un exemple de
substitution :






t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

93

Pron_je verbe_rserver Formule_demande Formule_demande

Pron_je verbe_rserver Pron_je verbe_rserver
je rserve

je rserve
Figure 32. Un exemple de substitution dans le formalisme S-TSG
2.3.3 Dfinition formelle de la S-TSG et son quivalence avec une CFG
Dun point de vue formel, la S-TSG peut tre dfinie comme un quadruplet (, NT, I, S) o :
est un ensemble fini de symboles terminaux.
NT est un ensemble de symboles non-terminaux. Les symboles non-terminaux sont des
catgories smantiques drives dun modle de la tche du dialogue.
I est un ensemble fini darbres lmentaires appels arbres initiaux. La profondeur de ces arbres
est limite une branche. Les nuds internes ainsi que les nuds sur les frontires peuvent tre
annots avec des symboles terminaux ou non-terminaux. Les non-terminaux du nud frontire
sont marqus pour la substitution. Contrairement aux grammaires classiques les non-terminaux
sont gnralement de nature smantique.
S est un symbole non-terminal distingu (S est laxiome de la grammaire). Contrairement aux
approches classiques, laxiome dune grammaire peut tre une multitude de symboles. Ainsi,
dans certains cas, tous les non-terminaux de la grammaire peuvent tre laxiome de la
grammaire. Cette diffrence, permet de faire des analyses partielles.
La S-TSG est un formalisme fortement quivalent une CFG. Pour prouver cette quivalence, il faut
prouver le thorme suivant : pour toute grammaire S-TSG G = (, NT, I, S) il existe une CFG G =
(, NT, P, S) qui gnre le mme langage.
La preuve de ce thorme est un processus trivial (voir une preuve similaire dans (Shabes et Waters,
1995)), il faut remplacer tous les arbres lmentaires t par des rgles de rcriture R. Pour ce faire, il
faut suivre les dmarches suivantes : ltiquette de la racine de t devient la partie gauche de la rgle R.
Les tiquettes sur la frontire de t deviennent la partie droite de R.
Par ailleurs, vu que la profondeur des arbres de la S-TSG est limite une branche, larbre de
drivation ainsi que larbre driv sont identiques tout comme dans les CFGs.
2.3.4 Porte et limites de la S-TSG
Les avantages de la S-TSG peuvent tre rsums dans les deux points suivants :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
94
1. Thorique : tant dfini formellement et linguistiquement, la S-TSG rend possible la
comparaison de la grammaire smantique avec les autres formalismes et permet dtablir des
bilans pour juger ladaptation de ce formalisme par rapport une tche particulire compar
dautres formalismes candidats lutilisation pour cette tche.
2. Pratique : lavantage principal de la S-TSG par rapport la grammaire smantique classique
est la distinction entre les trois types darbres : les arbres lexicaux, locaux et globaux. Cela
facilite la tche dcriture de la grammaire ainsi que de sa modification. Par ailleurs, cela rend
lenseignement de ce formalisme plus facile.
Ntant quune formalisation de la grammaire smantique, la S-TSG prsente tous les inconvnients
de ce dernier : pauvret syntaxique, non-pertinence linguistique, etc. Ces inconvnients thoriques, ont
t confirm aprs notre implantation et notre test dune grammaire S-TSG au sein de notre systme
SAFIR que nous allons prsenter en dtail plus loin dans la quatrime partie de cette thse. Ainsi, nous
avons propos une version avance de ce formalisme qui combine les avantages de la grammaire
smantique ceux des grammaires syntaxiques classiques. Nous avons baptis ce formalisme la
grammaire smantique dassociation darbres Sm-TAG.
2.4 La Grammaire Smantique dAssociation dArbres (Sm-TAG)
La Sm-TAG est un formalisme hybride (syntaxique / smantique
27
) bas sur lunification. La proprit
essentielle de la Sm-TAG est de permettre une linairisation directe des structures smantiques
fonctionnelles celles des structures syntaxiques. Ainsi, nous avons un seul arbre pour reprsenter la
phrase au lieu dun arbre spar pour la syntaxe et un autre arbre pour la smantique comme nous
avons vu avec les TAGs synchrones par exemple. Nous avons propos la Sm-TAG comme un
compromis entre, dune part, les grammaires syntaxiques classiques qui ne permettent pas dobtenir
une analyse robuste et la grammaire smantique qui ne fournit pas une analyse profonde.
Bien que la Sm-TAG prsente des proprits intressantes pour dautres tches comme la gnration
dans le contexte de systmes de dialogues oraux spontans, nous allons nous concentrer dans notre
prsentation et argumentation sur ses avantages pour lanalyse du langage oral spontan tant donn
que cette application constitue lobjectif principal de notre thse.
2.4.1 Dfinition fonctionnelle de la Sm-TAG
Dun point de vue fonctionnel, un formalisme comme la Sm-TAG peut tre dfini selon trois facteurs :
2.1.1.47 La sortie de la grammaire
La sortie de la grammaire est une reprsentation logique correspondant lanalyse de la phrase. Cette
reprsentation a la forme dun ensemble darbres annots avec des labels correspondant aux
diffrentes catgories syntaxiques et smantiques.

27
Le mot smantique est utilis ici au sens large du terme.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

95
2.1.1.48 Les units de base
Les arbres lmentaires sont diviss en trois parties : des arbres lexicaux, des arbres locaux et des
arbres globaux. Cette division est base sur des critres syntaxiques, smantiques et pragmatiques.
1. Les arbres lexicaux : les arbres lexicaux sont les units les plus simples dans la Sm-TAG. Ils
constituent le noyau la fois syntaxique et lexical du formalisme. Il sagit gnralement
darbres dont la racine est tiquete par une catgorie syntaxique et qui sont ancrs chacun par
un item lexical. Deux types darbres lexicaux sont utiliss :
i- Les arbres lexicaux auxiliaires : il sagit darbres de profondeur 2 correspondant aux
modifieurs (adverbes, adjectifs, etc.) et qui se lient aux autres arbres par lopration
dassociation (cf. section 5.1.1.3.).
ii- Les arbres lexicaux initiaux : il sagit darbres de profondeur 1 ou 2 correspondants aux
items lexicaux normaux et qui sassocient aux autres arbres par lopration de substitution
(cf. section 5.1.1.3.).
Arbres lexicaux initiaux Arbres lexicaux auxiliaires


SN Det. N N V

Pron_pers Adj. Adv.

Je une maison bonne bien
Figure 33. Exemples darbres lexicaux
Voici un tableau gnral qui reprsente les proprits cls de notre formalisme :












t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
96






















Figure 34. Schma fonctionnel de la Sm-TAG
2. Les arbres locaux : il sagit dun ensemble darbres dont les racines sont annotes avec des
symboles non-terminaux et dont les nuds feuilles sont annots avec des non-terminaux ou
avec des terminaux. La profondeur maximale de ces arbres est limite une seule branche. Les
arbres locaux sont construits selon trois principes de bonne formation :
i. Principe de consistance smantique : chaque arbre local doit avoir une reprsentation
smantique non vide.
Oprations
de composition
Arbres
lexicaux
initiaux
Arbres
lexicaux
auxiliaires
Arbres lexicaux
Arbres lmentaires
Reste
des
arbres
Arbres
lexicaux
auxiliaires
Arbres locaux
Arbres globaux
Arbres drivs
Sm-TAG
Association Substitution
Unification
Propagation
Arbres drivs
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

97
ii. Principe de non compositionnalit smantique : chaque arbre local correspond une unit
smantique unique. Une unit smantique est dfinie selon un ensemble de considrations
smantiques et communicatives dont les principales sont
28
:
a- Topicalit : dans lnonc certains segments jouent le rle de thme qui indique ce dont
parle le locuteur. Dautres segments peuvent jouer le rle du rhme. Le rhme est un
segment qui donne des informations portant sur le thme. Contrairement aux approches
classiques, ce que nous considrons comme thme ou rhme nest pas forcment le thme
ou le rhme global de lnonc mais nous concevons plutt la relation thme-rhme un
niveau local qui marque la relation de dtermination smantique des segments les uns par
rapport aux autres.
b- Donn vs. non donn : on distingue ce que le systme connat a priori (par le modle de
la tche) de ce qui est nouveau.
c- Importance : on distingue ce qui est soulign comme important de ce qui est secondaire.
Dans la Sm-TAG ce critre a une valeur binaire. Cest--dire on distingue uniquement
entre deux types dunits :
Des units pertinentes qui sont considre comme arbres lmentaires dans la
grammaire.
Des units non pertinentes qui ne sont pas considres comme arbres lmentaires
puisque linformation quelles vhiculent nest pas ncessaire pour la tche du
systme. Par exemple, dans lnonc :
all oui cest le bureau du ministre jaimerais avoir des informations sur la
disponibilit de votre suite
Dans cet nonc, le segment cest le bureau du ministre, nest pas considr comme
pertinent dans le contexte dun systme de rservation automatique de chambres
puisque la fonction du client ntant pas considre comme un critre qui exige une
raction particulire de la part du systme et par consquent il nest pas associ un
arbre lmentaire.
Ce critre est la base de la stratgie slective qui permet de localiser les segments
pertinents dans le message.
Pour rendre les principes de segmentation plus concrets, examinons lexemple suivant : je
voudrais rserver un billet de train.

28
Voir (Andrews, 1985) pour la prsentation de principes similaires dans le contexte de la syntaxe typologique
et fonctionnelle.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
98
Le mot je ne peut pas constituer un segment puisquil est donn (on sait priori que
linterlocuteur est un client).
Les segments je voudrais et rserver peuvent constituer des arbres lmentaires
puisquils constituent une articulation thmatique (ou une relation thme/rhme) qui
vhicule une information importante pour la tche.
Les mots un et billet ainsi que les mots de et train ne peuvent pas constituer des
segments indpendants puisquils ne font pas partie dune articulation thmatique.
Les segments un billet et de train constituent dans le contexte dun dialogue multi-
domaine (dans lequel on peut avoir une demande de billet davion par exemple) une
articulation thmatique informative. Par contre, dans le contexte dun dialogue de
rservation de billets de trains uniquement, un billet de train constitue un seul
segment, puisque larticulation entre un billet et de train nest pas informative.
Ainsi, le rsultat de la segmentation dans le contexte dun dialogue multi-domaine est le
suivant : [je voudrais] [rserver] [un billet] [de train]. Dans le contexte dun systme de
rservation de billets de trains uniquement la segmentation est la suivante : [je voudrais]
[rserver] [un billet de train].
iii. Principes syntaxiques : contrairement LTAG, la construction des arbres locaux est
essentiellement base sur la smantique. Cependant, la syntaxe nest pas totalement exclue
de la segmentation. Ainsi, en Sm-TAG les principes syntaxiques sont utiliss pour contrler
les principes smantiques en cas dambigut ou dinsuffisance de ceux-ci par exemple. En
dautres termes, on peut avoir des arbres locaux qui violent les principes syntaxiques, mais
lorsque les principes smantiques autorisent une multitude de segmentations, la priorit est
donne aux arbres qui respectent les principes syntaxiques.
Le principe de co-occurrence prdicat argument est le principe syntaxique le plus important
dans Sm-TAG. Prenons comme exemple lnonc : Oui cest pour deux personnes. Cet
nonc peut tre segment de deux manires selon les critres smantiques :
[Oui] [cest] [pour deux personnes]
[Oui][ cest pour] [deux personnes]
Parmi ces deux possibilits, seule la deuxime sera retenue tant donn quelle est la seule
satisfaire la condition de co-occurrence du prdicat (le verbe tre) et ses arguments (le
dmonstratif ce et la prposition pour).
3. Les arbres globaux : il sagit dun ensemble darbres dont les nuds racines et feuilles sont
annots avec des non-terminaux. Le rle de ces arbres consiste assembler les arbres locaux ou
globaux en segments plus importants. La bonne formation dun arbre global est base sur le
principe de co-occurrence dun prdicat et de ses arguments. La relation prdicat/argument est,
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

99
elle aussi, base sur des critres essentiellement smantiques. Des exemples darbres
lmentaires locaux et globaux sont prsents ci-dessous dans la figure 48 :




1

2

Demande_chambre Objet_demand_chambre Formule_de_demande



Formule_demande Objet_demande_chambre Chambre Caractre_chambre Sn V
Figure 35. Arbres lmentaires locaux et globaux
2.1.1.49 Les oprations de composition
Il sagit des oprations qui permettent dunifier les arbres lmentaires en arbres de drivation. Deux
oprations sont utilises dans la Sm-TAG :
2.4.1.1.1 Lopration de substitution
Lopration de substitution dans la Sm-TAG est similaire la substitution dans les formalismes LTAG
et S-TSG que nous avons prsents prcdemment. Toutes fois, voici un exemple de substitution dans
la Sm-TAG :
Sn V
Formule_demande
Pron_pers Formule_demande

Sn V + Je + voudrais Sn V

Pron_pers

Je voudrais
Figure 36. Lopration de substitution
2.4.1.1.2 Lopration dassociation
Cette opration est trs proche de lopration dadjonction du formalisme TIG (Tree Insertion
Grammar) (Schabes, 1994) et de lopration de Furcation du formalisme TFG (Tree-Furcating
Grammar), (Cavazza et constant, 1996), (Roussel, 1999).
Les diffrences principales entre cette opration et lopration dadjonction classique des LTAGs se
rsument dans les points suivants (Schabes, 1994) :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
100
a. Les arbres auxiliaires englobants sont interdits ainsi que les arbres auxiliaires vides. Ce qui
conduit limiter les arbres auxiliaires uniquement aux arbres auxiliaires gauches ou aux arbres
auxiliaires droit.
b. Il est interdit quun arbre auxiliaire gauche (droit) sassocie un nud situ lpine dorsale (le
chemin entre la racine et le pied de larbre) gauche (droit) de larbre auxiliaire.
c. Lassociation est aussi interdite avec un nud qui est situ droit (gauche) de lpine dorsale
de larbre auxiliaire gauche(droit) T. sachant que, pour quun arbre T soit un arbre gauche
(droit), chaque nud frontire doit tre tiquet avec .
Voici les schmas correspondants ladjonction englobante et aux diffrents types dassociation :


A A

A

A
*

w
1
w
3
w
5
w
2
w
4
w
1
w
5


w
2
A w
4



w
3

Figure 37. Adjonction englobante interdite en TIG et en Sm-TAG

A A

A

A
*

w
2
w
1
w
3
w
4
w
1
w
4


w
2
A



w
3
Figure 38. Association gauche


t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

101







A A

A

A
*

w
1
w
3
w
4
w
2
w
1
w
4


A w
2



w
3
Figure 39. Association droite



N N N


Adj. + Adj.

Bonne chambre
Bonne chambre
Figure 40. Un exemple dassociation
En dautres termes, la diffrence principale entre lopration dassociation et ladjonction classique
dans LTAG est que lopration dassociation permet la composition des arbres sans avoir recours un
niveau supplmentaire. Par ailleurs, compare ladjonction de la TIG, lassociation peut tre vue
comme une restriction de cette dernire. En effet, ladjonction simultane est abandonne dans la Sm-
TAG puisquelle nest pas dune utilit relle pour notre analyse.
Lajout de lopration dassociation a pour effet daugmenter la gnrativit de la grammaire en
permettant une intgration souple des modifieurs avec le reste des structures lmentaires de la
grammaire.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
102
2.4.2 Dfinition formelle
Formellement, la Sm-TAG peut tre reprsente par un quintuplet (, NT, S, I, A) o :
est un ensemble fini de symboles terminaux.
NT est un ensemble de symboles non-terminaux. Les symboles non-terminaux peuvent tre des
catgories syntaxiques ou smantiques.
S est un symbole non-terminal distingu (S est laxiome de la grammaire). Contrairement aux
approches classiques, laxiome dune grammaire peut tre une multitude de symboles. Ainsi, dans
certains cas, tous les non-terminaux de la grammaire peuvent tre laxiome de la grammaire. Cette
diffrence, permet de faire des analyses partielles dans lesquelles des constituants sous-phrastiques
peuvent tre considrs comme des structures bien formes.
I est un ensemble fini darbres lmentaires appels arbres initiaux. Les nuds internes ainsi que les
nuds sur les frontires sont annots avec des symboles terminaux ou non-terminaux. Les non-
terminaux du nud frontire sont marqus pour la substitution.
A les arbres auxiliaires sont les arbres caractriss par les points suivants :
Les nuds internes sont annots avec des symboles non-termiaux.
Les nuds sur les frontires sont annots avec des symboles terminaux (les ancres des
arbres)
29
.
2.1.1.50 La drivation dans Sm-TAG
La composition des arbres dans la Sm-TAG, tout comme LTAG ou nimporte quel autre formalisme
base darbres dont la profondeur est suprieure une branche, peut tre reprsente de deux manires :
avec les arbres drivs qui reprsentent le produit de la composition dune part et dautre part, les
arbres de drivation qui reprsentent la manire dont ce produit a t obtenu.
2.1.1.51 Lquivalence avec une CFG
Tout dabord, tout comme dans la TIG (Schabes et Waters, 1994), toute CFG peut tre convertie
trivialement en une Sm-TAG qui gnre les mmes arbres. Cela est possible en remplaant toute rgle
R par un arbre de profondeur 1. Les lments de la partie droite de la rgle R deviennent les tiquettes
de larbre ainsi cre, avec des non-terminaux marqus pour la substitution. Si la partie droite de R est
vide, larbre lmentaire cr a un seul lment de frontire marqu avec Paralllement, une Sm-
TAG qui nutilise pas darbres auxiliaires (et par consquent nutilise pas lopration dassociation) et
qui contient uniquement des arbres initiaux de profondeur 1, peut tre convertie automatiquement en
une CFG en remplaant les arbres initiaux de cette grammaire par des rgles de rcriture CFG.

29
Tous les arbres auxiliaires sont des arbres lexicaux qui sont, comme leur nom lindique, ancrs par un item
lexical.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

103
Pour prouver formellement lquivalence gnrative entre la Sm-TAG et la CFG il faut prouver que
pour tout langage gnr par une grammaire Sm-TAG G = (, NT, S, L
t
) il existe une grammaire
CFG G= (, NT, S, L
t
) qui gnre le mme langage.
Ce thorme a t prouv pour lopration dadjonction de la TIG par (Schabes, 1994). Dans ce qui
suit nous adaptons cette preuve pour la Sm-TAG, lassociation tant simplement une restriction de
ladjonction de la TIG. Lide principale de la preuve de ce thorme est base sur llimination des
arbres auxiliaires pour arriver une version avec des arbres initiaux uniquement et dont la conversion
en CFG est triviale comme nous avons vu. Les tapes de cette preuve sont les suivantes :
Pour chaque non-terminal A
i
dans NT, ajouter deux non-terminaux supplmentaires Y
i
et Z
i
pour
crer un nouvel ensemble de non-terminaux NT.
Pour chaque non-terminal A
i
ajouter les rgles suivantes P : Y
i
et Z
i
.
Changer tous les nuds dans chaque arbre lmentaire dans I et A de la manire suivante :
soit A
i
ltiquette de .. Si et seulement si une association gauche est possible alors ajouter
un fils gauche tiquet avec Y
i
et le marquer pour la substitution. Si et seulement si une
association droite est possible alors ajouter un nouveau fils droit de tiquet Z
i
et le
marquer pour la substitution.
Convertir tous les arbres auxiliaires t dans A en arbres initiaux de la manire suivante : soit A
i

une tiquette de la racine de t. Si t est un arbre auxiliaire gauche, alors ajouter une nouvelle
racine tiquete Yi avec deux fils : gauche et droite un nud tiquet Yi et marqu pour la
substitution. Sinon, ajouter une nouvelle racine tiquete Zi avec deux fils : gauche et
droite un nud tiquet avec Zi et marqu pour la substitution. Changer ltiquette du nud
pied de t avec ., ce qui rend ainsi t un arbre initial.
Maintenant, tous les arbres t sont des arbres initiaux. Chacun de ces arbres peut tre converti en
une rgle R dans P de la manire suivante : ltiquette de racine de t devient la partie gauche de
R. Les tiquettes sur la frontire de t avec nimporte quelle occurrence de omis, deviennent la
partie droite de R.
Il nest pas inutile de rappeler que G gnre uniquement les mmes chanes que G mais il ne gnre
pas les mmes arbres.
2.4.3 Les aspects smantiques de la Sm-TAG
2.1.1.52 Catgorisation
Les catgories associes aux nuds des arbres lmentaires peuvent consister tout simplement en
catgories syntaxiques classiques ou en catgories smantico-pragmatiques dduites directement dune
ontologie superficielle de la tche. Lontologie contient en gnral les concepts cls de lapplication
ainsi que les relations de dpendances entre eux.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
104
2.1.1.53 Reprsentation des traits
Les nuds des arbres lmentaires sont dcors dun ensemble de traits de natures diverses. Ces traits
servent contraindre lunification des nuds des arbres selon des critres syntaxiques et smantiques.
Les traits peuvent tre des traits syntaxiques classiques (nombre, genre, etc.) ainsi que des macro-traits
MTs induits directement de lontologie la tche. Ces MTs constituent la diffrence principale entre la
Sm-TAG et les grammaires dunification classiques. Le choix du type de traits correspondant un
nud est essentiellement dpendant de la frquence et de la fonction de ce nud. Les traits
syntaxiques sont utiliss pour les items lexicaux partags entre les diffrents arbres. Cela permet de
faire le partage des ressources lexicales entre les arbres (ce qui nest pas le cas avec les grammaires
smantiques classiques). Les MTs sont gnralement utiliss pour les items propres chaque arbre ce
qui permet de faire lconomie de la vrification dun ensemble de traits syntaxiques redondants. Par
ailleurs, les traits sont diviss en deux parties (comme dans les LTAGs). Nous avons, dune part, des
traits amonts qui indiquent la relation dun nud avec les nuds qui le dominent, et dautre part, nous
avons des traits avals qui indiquent la relation du nud avec ceux quil domine. Voici quelques
structures de traits :
Formule_de_demande


Sn Sv





Figure 41. Exemple de structures de traits possibles dans le formalisme Sm-TAG
Lexistence des traits ainsi que leur finesse est un paramtre que lon peut modifier selon les besoins et
les moyens. Ainsi, une grammaire Sm-TAG peut tre crite sans traits, uniquement avec des traits
syntaxiques et smantiques classiques ou uniquement avec des macro-traits ou bien comme dans
lexemple prsent ci-dessus avec des traits hybrides.
2.1.1.54 Unification et propagation smantique
Comme nous venons de voir dans les deux paragraphes prcdents, linformation smantique est
reprsente de deux manires au sein des arbres lmentaires. Au niveau des arbres lexicaux, la
smantique est reprsente sous formes de traits qui enrichissent les non-terminaux de la grammaire
alors quelle est code directement dans les non-terminaux des arbres locaux et globaux. Ainsi, nous
avons deux oprations qui correspondent ces deux types dinformations :
Amont : Formule_de_demande
Aval : [verbe_volont
*
]
Amont : Formule_de_demande
Aval : [Pronpers, Nombre :
Sing/Pl]

Sv =



Sn =
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

105
2.4.3.1.1 Lunification
Cette opration a une double fonction : dune part elle formule des contraintes sur les deux oprations
syntaxiques (la substitution et lassociation) et dautres elle gre la propagation de ces contraintes au
cours de lanalyse. Elle consiste vrifier que les traits amonts dun nud racine de larbre substitu
sunifient avec les traits amonts du nud o a lieu la substitution. Dans le cas dune association, il doit
y avoir, dune part, unification du trait amont de la racine de larbre auxiliaire avec les traits amonts du
nud qui reoit lassociation. Dautre part, les traits avals du nud pied de larbre auxiliaire doivent
sunifier avec les traits avals du nud recevant ladjonction.
Voici deux exemples simplifis de substitution et dassociation avec unification des traits :

objet_dem
Det t :- N t : <form_dem>
b : <num>=2 b : <objet> =chambre
t : - Det N t :
<objet_dem>
b : <num>=Y b : <objet>=X

deux chambres

objet_dem



Det <num>=2 N <objet_dem>
<objet>=chambre




deux chambres
La mme structure prcdente avec un modifieur (adjectif : double) peut donner le rsultat suivant :




N t : <objet> =X N t : <objet> =chambre
b: <carac>=double b : <carac>=Y
Adj.
+ (.)

doubles chambres




t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
106




N


Det <num>=2 N
<objet>=chambre
<carac>=double
Adj.

deux chambres doubles
Figure 42. Exemples de substitution et dassociation avec unification des traits
2.4.3.1.2 La propagation smantique
La propagation smantique est une opration qui porte sur les non-terminaux des arbres danalyse.
Elle vise principalement mieux intgrer les catgories smantiques et les catgories syntaxiques
associes aux branches des diffrents arbres lmentaires. Au dpart, les arbres locaux sont associs
chacun une catgorie smantique simple qui correspond son rle dans le discours. Au fur et
mesure de lanalyse, la reprsentation smantique associe aux arbres danalyse senrichit. Cet
enrichissement se fait selon deux mcanismes de base : la propagation prdicative et la propagation
inductive.
Propagation prdicative : elle consiste monter la racine dun arbre vers la racine de larbre
qui le domine. Elle est utilise notamment pour les connecteurs discursifs et pour les
reprsentations smantiques des lments qui ne font pas partie dune articulation thmatique.
Le schma gnral de cette opration est prsent dans la figure suivante :


coord (X,Y)


X coord Y

COORD
Figure 43. Schma gnral de lhritage simple
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

107
Comme nous pouvons le voir dans lexemple prcdent, les catgories racines des arbres
ombrs sont propages chacune vers sa place spcifique au sein dun prdicat correspondant la
structure smantique de la construction.
Propagation inductive : les racines des arbres lexicaux initiaux sont converties de manire
inductive en catgories smantiques. Cela permet dintgrer les arbres construits selon des
critres syntaxiques (essentiellement ceux construits avec lopration dassociation) avec les
arbres locaux et globaux qui sont bass principalement sur une catgorisation smantique. Pour
mettre au clair cette opration, examinons lexemple suivant :
N N N

Adj. + Nom_ville adj. Nom_ville

belle ville
belle ville
Aprs la propagation inductive de la catgorie intermdiaire de larbre qui a reu lassociation
Nom_ville nous obtenons :
Nom_ville

Adj. N

belle ville
Larbre ainsi obtenu peut tre substitu un nud dun arbre local comme sil tait un arbre lexical
simple dont la racine est nom_ville.










t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
108



Det Nom_ville Expression_ville

+ adj. N + Det Nom_ville

une belle ville
Expression_ville

Det Nom_ville
Adj. N

une belle ville
Figure 44. Exemple de propagation inductive
Ces deux mcanismes sont compltement indpendants de lunification. En effet, contrairement
lunification qui se passe simultanment aux oprations syntaxiques lassociation et la substitution, la
propagation smantique est faite a posteriori sur le rsultat obtenu avec les oprations syntaxiques
ainsi que lopration dunification. Par ailleurs, il faut noter que lopration de propagation prdicative
est associe lopration de substitution alors que lopration de propagation inductive est lie
lopration dassociation.
2.4.4 Exemples de traitement avec la Sm-TAG
Dans ces paragraphes nous allons nous concentrer sur deux problmes prcis :
1. Montrer la porte de la Sm-TAG en terme de traitement des phnomnes syntaxiques
complexes.
2. Montrer ladquation des solutions proposes dans le cadre de la Sm-TAG avec les travaux dans
le domaine de la syntaxe formelle notamment en ce qui conern leffet de linteraction directe
entre la syntaxe et la smantique sur le changement potentielle des relations de dpendance
entre les constituants de lnonc.
Notre tude porte sur deux phnomnes linguistiques que nous avons jugs importants pour un
formalisme de traitement du langage oral. Il sagit de la ngation et de lemphase. Le choix de ces
deux phnomnes est motiv par plusieurs raisons que nous allons discuter plus loin.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

109
2.1.1.55 Mthodologie
Lobjectif principal de notre tude tant de montrer la manire dont on traite les formes cls des
phnomnes viss (la ngation et lemphase). Nous avons dcid de commencer dabord par
ltablissement dune typologie de ces phnomnes
30
. Ainsi, afin de garantir la fois la couverture des
phnomnes complexes et les occurrences relles de ces phnomnes dans les dialogues rels, nous
avons jug bon dtablir cette typologie sur la base de deux sources dinformations qui sont la fois
diffrentes et complmentaires :
1. Les typologies et les grammaires existantes : cette source nous a permis en particulier de couvrir
les diffrentes constructions et formes des phnomnes viss tant sur le plan de lcrit que sur
celui de loral. Diffrents ouvrage de rfrence ont t utiliss pour cette tche. Nous pouvons
en citer : (Gadet, 1992), (Gadet, 1989), (Blasco-Dulbecco, 1999), (Blanche-Benveniste, 1990),
(Blanche-Benveniste, 1997). Par ailleurs, nous avons utilis plusieurs articles de recherche qui
portent sur des points particuliers. Les rfrences de ces articles seront cites au cours de la
prsentation.
2. Analyse de corpus : lanalyse de corpus de dialogue oraux nous a permis dobserver les
occurrences orales des phnomnes viss et leurs divergences possibles avec les descriptions
des phnomnes. Trois corpus ont t utiliss pour cette tche : le corpus de rservation
htelire du laboratoire CLIPS-IMAG (Hollard, 1997), le corpus Murol (Caelen et al., 1997), le
corpus du projet DALI (Sabah, 1997).
La typologie obtenue a t code sous forme de rgles syntaxiques dont le nombre total est de 137
rgles : 32 rgles pour lemphase et 105 pour la ngation. Ces rgles ont servi de base pour gnrer (
la main) un corpus de 252 noncs contenant les diffrentes structures dcrites par la grammaire (voir
(Kurdi et Ahafhaf, 2002) inclus lannexe de cette thse, pour plus de dtails sur le processus de
gnration).
Ainsi, dans notre tude nous avons pris ce corpus comme une base pour extraire les cas cls qui nous
semblent intressants de discuter en ce qui concerne la couverture et la profondeur de la Sm-TAG.
2.1.1.56 La ngation
Nous allons commencer ce paragraphe par une discussion de lintrt de la ngation pour notre tude.
Nous allons ensuite passer la prsentation des diffrents lments de la ngation ainsi que leurs
variations formelles et fonctionnelles.
2.4.4.1.1 Intrt de la ngation
Lintrt de la ngation par rapport notre tude est pluridimensionnel. En effet, ce phnomne
combine diffrentes proprits intressantes la fois pour loral et la Sm-TAG :

30
Cette typolgie a t ralise en collaboration avec notre collgue Mohamed Ahafhaf (voir (Kurdi et Ahafhaf,
2002)).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
110
La ngation est un phnomne qui est la fois smantique, syntaxique et lexical. En effet, dun
point de vue smantique la ngation est quivalente un oprateur qui inverse la valeur de
vrit dune proposition. Dun point de vue syntaxique, la ngation implique diffrentes
structures grammaticales qui interfrent parfois avec dautres phnomnes comme la
coordination ou lellipse. Sur le plan lexical, la ngation, selon les cas implique lutilisation de
termes appartenant diffrentes catgories morphologiques : adverbes, dterminants, pronoms,
etc. Ainsi, cest un phnomne particulirement intressant pour notre formalisme qui combine
les niveaux smantiques, syntaxique et lexical dans le mme cadre.
La ngation est un phnomne qui prsente des particularits intressantes loral. En effet,
comme nous avons vu dans la premire partie de cette thse, la ngation est considre par
certains chercheurs comme larchtype de dviance de loral par rapport la syntaxe de lcrit.
2.4.4.1.2 Le terme ne
Le terme ne est lun des deux lments qui sont gnralement utiliss pour marquer la ngation : le
terme ne coupl avec un autre lment dont la nature peut varier selon le type de la ngation. Par
ailleurs, ce terme peut tre spar du deuxime lment par dautres mots ou constituants (un
syntagme verbal gnralement) comme dans :
(54) je ne voudrais pas une chambre simple
De plus, le terme ne prcde directement le deuxime lment de la ngation dans les constructions
infinitives :
(55) Il ma demand de ne pas annuler la rservation
Finalement, le ne tout seul peut indiquer dans certains cas la ngation. Il sagit du ne dit littraire qui
utiliser avec certains verbes comme : cesser, pouvoir, oser, etc.
(56) Il ne cesse de parler
Comme son nom lindique le ne littraire est utilis dans les uvres littraires. Par ailleurs, ce terme
est aussi utilis loral.
Outre son emploi comme un lment de ngation, le mot ne peut tre utilis dans diverses
constructions tant dans des textes littraires que dans les dialogues oraux. Dans ce cas, il est appel le
ne expltif. Trois types de contextes peuvent tre distingus :
1. Le ne qui prcde un certain nombre de verbes (comme craindre, douter empcher nier, etc.).
(57) Elle a peur quil ne revienne
2. Le ne avec des conjonctions : le schma gnral de ces constructions est le suivant : conjonction
pronom ne verbe :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

111
(58) Cest possible moins que la chambre ne soit rserve
En dehors de moins que, diffrentes conjonctions peuvent prcder le terme ne. Nous pouvons
en citer : avant que, de peur que et de crainte que.
3. Le ne coupl avec des comparatifs : le mot ne peut tre coupl avec un comparatif comme dans
lexemple suivant :
(59) La chambre est plus chre que je ne le pensais
Sur le plan fonctionnel, comme nous avons dit dans les paragraphes prcdents, la possibilit de
suppression du mot ne loral constitue lun des principaux points de divergence entre la syntaxe de
lcrit et celle de loral. Cependant, llision du ne nest pas toujours possible loral et comme nous
avons vu dans certains cas, le ne tout seul peut marquer la ngation. Cette souplesse dutilisation a
rendu le statut du ne un sujet de dbat au sein de la communaut de linguistique franaise. En effet, il
existe trois possibilits pour analyser le terme ne :
Le premier de ces courants (voir par exemple (Corblin, 1995) et (Abeill et Godard, 1997))
considre le ne comme un clitic jouant le rle de laffixe du verbe et donc ntant pas vraiment
une partie de la ngation. Outre la possibilit de son lision, ce groupe prend comme argument
le fait que le terme ne est utilis dans des constructions non ngatives comme celles que nous
venons de voir avec le ne expltif.
Le deuxime courant stipule que le terme ne est un lment de la ngation (voir (Muller, 1991)).
Dans notre tude nous nous inscrivons dans le cadre de ce courant pour les deux raisons
suivantes :
i. Comme nous avons vu, dans certains contextes, le terme ne peut tout seul exprimer la
ngation. Cela veut dire que ce terme joue un rle direct dans le marquage de la ngation.
ii. A loral, la suppression du ne nest pas possible dans les contextes o ce terme joue un
rle de dsambigusation syntaxique comme dans la ngation et la coordination de deux
syntagmes verbaux :
(60) il ne mange ni ne boit rien
Comme nous pouvons le constater, le premier ne dans lnonc prcdent nest pas
facultatif que a soit loral ou lcrit puisquil sert dlimiter ltendue de la ngation.
Ce point fera lobjet dune discussion plus approfondie plus loin dans la section des
conjonctions ngatives.
Outre ces deux possibilits prcdentes, le mot ne peut tre vu comme la premire composante
dun morphme discontinu dont la deuxime partie est le deuxime lment de la ngation (pas,
point, etc.). Selon cette possibilit le morphme de la ngation a la forme suivante :
ne . Second lment (pas, point, rien, etc.).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
112
Comme nous avons vu, cette analyse nest pas compatible avec les donnes relles. En effet,
dune part, nous avons observ un bon nombre de cas o lun des deux lments de la ngation
est facultatif ou parfois impossible. Dautre part, comme nous allons le voir plus loin, les mots
qui peuvent jouer le rle du second lment de la ngation ont des formes et des fonctions
syntaxiques assez varies (adverbes, pronoms, dterminants, etc.). Cela rduit la possibilit de
lexistence dun morphme unique.
Ainsi, sur le plan syntaxique, nous considrons le terme ne comme tant un lment part entire dans
lnonc et qui joue un rle parfois central dans les constructions ngatives. Par contre, sur le plan
discursif, le terme ne ne joue pas un rle particulier dans lnonc (il ne peut pas tre thme ou rhme
par exemple). Par ailleurs, ce terme na pas un effet direct sur le changement des rles thmatiques au
sein de lnonc. Cela limite son traitement au niveau des arbres lexicaux au sein du formalisme Sm-
TAG.
Ainsi, dans le contexte danalyse par la Sm-TAG, nous sommes devant trois configurations qui
ncessitent des techniques diffrentes de traitement :
1. La configuration gnrique (ne verbe pas) : dans cette configuration le mot ne joue le rle
dadverbe de ngation au mme titre que le mot pas (ou nimporte quel mot qui peut tre sa
place). Le traitement de cet adverbe est similaire celui des autres adverbes. Voici comme
exemple le traitement du segment () ne rserve pas :




V V V V

Adv_ngation verb_rserver Adv_ngation Adv_ngation verb_rserver Adv_ngation

ne rserve pas ne rserve pas
Figure 45. Exemple de traitement du ne dans la configuration gnrique
2. La configuration infinitive : dans ce cas, comme nous avons vu, le terme ne et le second
lment de la ngation se mettent devant le verbe formant une locution ngative : pour montrer
la manire dont les locutions de ngations (ne pas) sont traites dans le cadre de la Sm-TAG,
prenons comme exemple le segment dnonc suivant et son traitement : ne pas rserver.


Association Association
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

113






V V V

locution_ngative verbe_rserver locution_ngative verbe_rserver

adv_ngation adv_ngation adv_ngation adv_ngation

ne pas rserver ne pas rserver


ng(verbe_rserver)

locution_ngative V

adv_ngation adv_ngation

ne pas rserver
Figure 46. Exemple de la ngation dun verbe infinitif
Comme nous pouvons le voir dans lexemple prcdent, la locution ngative qui est reprsente
par un arbre couvre les deux lments de la ngation (ne et pas). Par ailleurs nous avons vu que
cet arbre a pour racine la catgorie verbe. Cela permet de le lier nimporte quel prdicat verbal
laide de lopration dassociation.
3. Le ne seul : nous avons vu que le mot ne peut tre utilis tout seul dans deux cas : le ne littraire
et le ne expltif. Le traitement de ces deux termes nest pas fondamentalement diffrent de celui
des adverbes en gnral. En effet, chacun de ces deux termes est reprsent par un arbre lexical
dont la racine est la catgorie verbe qui lui permet de sassocier aux prdicats verbaux de
lnonc. Pour rsoudre lambigut possible entre ces deux termes qui ont des comportements
Propagation
inductive
Propagation
prdicative
Association
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
114
syntaxiques et smantiques diffrents, les racines des arbres qui les reprsentent sont enrichies
par des traits smantiques indiquant la nature de ladverbe que le verbe peut prendre pour
marquer la ngation. Cette distinction est possible tant donn que les groupes de verbes qui
peuvent tre modifis par chacun de ces deux adverbes sont des groupes ferms et dont les
membres peuvent tre dlimits facilement. Voici les arbres utiliss pour le ne expltif et le ne
ngatif :
V<Type ngation adverbe>=littraire V <Type ngation adverbe>=expltif

Adv_ngation expltif

ne ne
Figure 47. Les arbres lexicaux utiliss pour la reprsentation du neexpltif et du nengatif
Aprs lassociation, la catgorie Adv_ngation est propage la racine de larbre cre
contrairement la catgorie expltif.
2.4.4.1.3 Les adverbes de ngation
Selon nos observations des trois corpus que nous avons utiliss dans notre tude, la forme la plus
frquemment utilise comme deuxime lment de ngation est les adverbes de ngation. Sur le plan
syntaxique, il existe trois manires pour prsenter les relations de ces adverbes avec le verbe en
franais (Abeill et Godard, 1997) :
La premire consiste utiliser des catgories fonctionnelles suprieures au verbe.
La deuxime consiste le traiter au mme niveau que le verbe au sein du syntagme verbal.
Finalement, la troisime consiste adjoindre ladverbe directement au verbe.
Nous estimons avec (Williams, 1994) que la troisime possibilit est la meilleure la fois cause de
sa simplicit formelle et cause des diffrentes donnes empiriques qui montrent que le comportement
de ladverbe de ngation nest pas fondamentalement diffrent de celui des autres adverbes en
franais. En effet, dans cette langue, comme le notent (Di Sciullo et Williams, 1987) les diffrents
types dadverbes peuvent sadjoindre droite du verbe. Voici, titre dexemple, larbre danalyse
syntaxique de lnonc : je ne voudrais pas une chambre.





t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

115




S

Sn Sv

Pron_pers V Sn

V adv

je (ne)-voudrais pas une chambre
Figure 48. Arbre syntaxique correspondant lnonc ngatif
Comme nous pouvons le voir dans la figure prcdente, ladverbe est trait comme un modifieur du
verbe et il est ainsi directement associ lui.
Sur le plan discursif, les adverbes de ngation ont un comportement similaire celui du terme ne. En
effet, les adverbes de ngation ne jouent pas un rle thmatique particulier dans lnonc et nont pas
un effet direct sur la distribution des rles thmatiques. Cependant, ces adverbes servent gnralement
dlimiter des segments qui jouent un rle thmatique. Voici un exemple de deux noncs
respectivement affirmatif et ngatif analyss dun point de vue discursif :
Je voudrais une chambre
Thme Rhme
Je ne voudrais pas une chambre
Thme Rhme
Figure 49. Analyse discursive dun nonc avec un adverbe de ngation
En ce qui concerne le traitement dans la Sm-TAG, bien que la priorit dans ce formalisme soit donne
aux critres smantiques plutt quaux critres syntaxiques, il nexiste pas de conflit entre la syntaxe et
la smantique par rapport la relation entre le verbe et ladverbe. Pour mettre au clair cette ide,
examinons le traitement de lnonc : je ne voudrais pas une chambre, dans le cadre de la Sm-TAG.


t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
116

1

2

Demande_rservation_chambre Formule_demande

Formule_demande objet_chambre Sn verbe_demande


3

1


V V V

verbe_demande adv_ngation verbe_demande adv_ngation

(ne)-voudrais pas voudrais pas

Formule_demande

Sn verbe_demande

Pron_pers V adv_ngation

je (ne)-voudrais pas

Demande_rservation_chambre

Formule_demande objet_chambre(chambre)

Sn verbe_demande

Pron_pers V adv

je (ne)-voudrais pas une chambre
Figure 50. La reprsentation dune construction ngative dans la Sm-TAG
Association
propagation
inductive
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

117
Comme nous pouvons le remarquer dans les deux arbres danalyse, larbre danalyse syntaxique et
larbre danalyse par la Sm-TAG, le traitement de ladverbe de ngation est fait pratiquement de la
mme manire dans les deux cas. En effet, dans larbre Sm-TAG le verbe et ladverbe appartiennent
au mme niveau danalyse et sont domins directement par le mme constituant suprieur : le
constituant verbe_demande joue le mme rle que le constituant Sn dans larbre syntaxique.
2.4.4.1.4 Les dterminants de ngation
Contrairement aux adverbes de ngation, les dterminants de ngation agissent sur les constituants
nominaux. Ces lments sont parfois appels dterminants indfinis (Riegel et al., 1994), ou mme
adjectifs de ngation. Sur le plan smantique, les dterminants de ngation indiquent quil nexiste pas
doccurrence dans lunivers rfrentiel pertinent qui vrifie le prdicat.
En franais, il existe diffrents dterminants de ngation tel que : aucun, nul(le), pas un(e), pas un(e)
seul(e), etc. Comme nous pouvons le remarquer dans la liste prcdente, nous pouvons distinguer
entre deux types dadjectifs : des adjectifs simples (aucun, nul) et des adjectifs composs (pas un, pas
une seule, etc.).
1. Les dterminants simples : il sagit de mots qui dterminent directement la tte du syntagme
nominal comme nous pouvons le voir dans larbre danalyse syntaxique du segment : aucune
chambre.
Sn

Dt N

Aucune chambre
Figure 51. Arbre syntaxique partiel reprsentant la place dun dterminant de ngation au sein dun
syntagme nominal
Sur le plan discursif, tout comme les adverbes de ngation, les dterminants de ngation ne jouent pas
un rle thmatique dans lnonc. Ainsi, dans le cadre de la Sm-TAG, ces lments sont traits
laide darbres lexicaux seulement. Par ailleurs, le traitement de ces lments est similaire celui des
dterminants en gnral : substitution du dterminant au nud correspondant dans larbre local. Voici
titre dexemple le traitement de lnonc : je ne voudrais aucune chambre.





t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
118

1

2

3

Dt_ngatif N objet_demande

mot_chambre Dt_ngatif mot_chambre

aucune chambre

demande(chambre)

formule_demande objet_demande(chambre)

Sn verbe_demande dt_ngatif mot_chambre

Pron_pers V

je (ne)-voudrais aucune chambre
Figure 52. Le traitement des dterminants ngatifs simples dans le cadre de la Sm-TAG
Comme nous pouvons le remarquer dans les arbres prcdents, la seule diffrence entre larbre
Sm-TAG et larbre danalyse syntaxique rside dans la nature du constituant qui groupe le
dterminant ngatif et le nom : objet_demande dans larbre Sm-TAG vs. Sn dans larbre
danalyse syntaxique. Cela montre que les dpendances syntaxiques sont respectes dans ce
phnomne.
2. Les dterminants composs : le problme principal li au traitement de ces dterminants
compars aux prcdents est leur aspect semi-fig. En effet, la ngation est constitue dune
locution dont le deuxime lment est un dterminant qui, comme tout autre dterminant,
saccorde en genre et nombre avec le nom quil dtermine.
(61) Il (ne) connat pas un seul htel.
(62) Pas une chambre na t prise.
Pour rsoudre le problme de ce semi-figement tout en conservant la cohrence de traitement,
ces locutions sont traites avec un arbre dont la tte est le dterminant :


Substitution Substitution
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

119





Det Det det_locution_ngative

adv_ngatif adv_ngatif dt

pas un/une

det_locution_ngative det_locution_ngative

adv_ngatif dt adv_ngatif dt adjectif

pas un/une pas un/une seul(e)
Figure 53. Les arbres utiliss pour le traitement des locutions ngatives
Les arbres ainsi construits peuvent tre associs larbre danalyse laide de lopration de
substitution. Ainsi, cette solution permet de combiner les deux avantages suivants :
1. Sur le plan linguistique, elle permet de prendre en considration la particularit de la relation
entre les mots formants la locution en les groupant au sein dun mme arbre.
2. Dun point de vue pratique, elle constitue une solution acceptable qui permet de prendre en
considration la souplesse de ces constructions lie notamment laccord du dterminant avec
le nom.
2.4.4.1.5 La conjonction ngative
Lorsque la ngation porte sur plus dun syntagme ou groupe nominal, des conjonctions ngatives sont
utilises. Le schma gnral de ce type de ngation est le suivant : ni constituant
1
ni constituant
2
.
Ainsi, deux grands types de constructions ngatives avec des conjonctions peuvent tre distingus : la
coordination de constituants verbaux et la coordination de constituants non verbaux. Pour la simplicit
de lexpos, nous allons commencer par la prsentation du deuxime type.
1. Coordination des constituants non-verbaux : comme nous pouvons le voir dans les exemples
suivants, les conjonctions ngatives peuvent coordonner diffrents types de constituansts non-
verbaux :
Association
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
120

(63) Ni Franois ni Pierre ne sont venus (sujets, Sn)
(64) Il nest arriv ni tt ni tard .. (complment circonstanciel de temps)
(65) je ne voudrais ni une chambre ni une suite(objets, Sn)
Comme nous pouvons remarquer dans les exemples prcdents, le terme ne est obligatoire avant
les verbes. Dun point de vue discursif, chacun des lments coordonns joue un rle thmatique
particulier dans lnonc. Prenons titre dexemple la structure discursive de lnonc 65 qui est
prsente dans la figure suivante :
Je ne voudrais ni une chambre ni une suite
focus
1
focus
2

Thme Rhme
Figure 54. Analyse discursive dun nonc avec des conjonctions ngatives
Comme nous pouvons le voir dans la figure prcdente, les deux lments coordonns jouent
chacun le rle de focus et constituent ensemble le rhme de lnonc.
Pour discuter les aspects syntaxiques des conjonctions ngatives examinons larbre danalyse
syntaxique de lnonc 65 :
S
Sn Sv

Pron Sv Sn
V conj Gn conj Gn


Je ne voudrais ni une chambre ni une suite
Figure 55. Arbre danalyse syntaxique dun nonc avec des conjonctions ngatives
Si nous comparons larbre danalyse syntaxique lanalyse discursive de lnonc 65, nous
pouvons noter que les constituants coordonns ont dans les deux cas un rle identique. De
mme, dans les deux cas, les constituants coordonns dpendent dun mme constituant de
niveau suprieur (Rhme dans la structure discursive et Sn dans la structure syntaxique).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

121
Dans le cadre de la Sm-TAG, un arbre spcial est utilis pour traiter ce genre de constructions :

Construction_conjonctive_ngative

Conj_ng cat_sem(X) Conj_ng cat_sem(Y)
Figure 56. Arbre de base pour le traitement de la coordination des constituants non-verbaux
Deux remarques peuvent tre faites propos de cet arbre :
Les dpendances syntaxiques des diffrentes composantes de la construction sont
respectes mme si les catgories des racines de ces constructions ne sont pas
syntaxiques. En effet, nous remarquons que les conjonctions ngatives dpendent
directement de la construction principale de coordination
(Construction_conjonctive_ngative) au mme titre que les arbres coordonns.
Cet arbre est valable quelle que soit la fonction syntaxique des lments coordonns
(sujet, objet direct ou objet indirect) ou leur structure (participe, adjectif, Sn, Sp, etc.).
Pour concrtiser ces ides prenons comme exemple larbre danalyse suivant :


demande(ngation, chambre, suite)

Formule_demande objet_demande(ngation, chambre, suite)

Sn verbe_demande Conj_ng objet_demande(chambre) Conj_ng objet_demande (suite)

Pron_pers V

Je (ne)-voudrais ni une chambre ni une suite
Figure 57. Arbre danalyse dun nonc avec des conjonctions ngatives
Comme nous pouvons le remarquer dans larbre prcdent, la catgorie racine des deux arbres
coordonns objet_demande a t propage la racine de larbre de la construction de
coordination (les deux lments coordonns ont toujours la mme catgorie racine dans les cas
que nous avons observs dans notre corpus). Ceci est fait laide de lopration de propagation
inductive. Par ailleurs, les arguments des racines des arbres coordonns sont propags laide de
Propagations
induvites et
prdicatives
Propagation
prdicative
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
122
lopration de propagation prdicative la racine de la construction de coordination et ensuite ce
mme contenu est propag aussi laide de lopration de propagation prdicative la racine de
larbre danalyse. La racine finale obtenue correspond la structure smantique globale de
lnonc analys.
2. La coordination de constituants verbaux : ce type de construction consiste coordonner deux
constituants verbaux avec une conjonction ngative.
(66) Il ne parle ni ne lit le russe
La diffrence principale avec la coordination des constituants non-verbaux, comme nous
pouvons le constater dans lexemple prcdent, est que nous avons une seule conjonction de
coordination plutt que deux. Par ailleurs, comme nous avons deux constituants verbaux, le
terme ne se rpte deux fois : une fois devant chaque constituant verbal. Pour tester la possibilit
de supprimer lun de ces deux termes, nous avons demand des locuteurs natifs de juger la
grammaticalit des trois noncs suivants :
(67) Il parle ni lit le russe*
(68) Il parle ni ne lit le russe*
(69) Il ne parle ni lit le russe ( la limite de lacceptable)
Comme nous pouvons le voir dans les noncs prcdents, les deux cas o le premier ne est
supprim ont t jug agrammaticaux par les sujets. Ce jugement est motiv par lambigut
cre par labsence du premier ne. En effet, dans ce cas les sujets sattendent un complment
du premier prdicat verbal quils jugent affirmatif mais sa place ils trouvent une conjonction
ngative et un autre prdicat verbal. En ce qui concerne le troisime cas, il est jug la limite de
lacceptable puisque la prsence du terme ne avant le premier prdicat verbal permet de savoir
quil sagit dune construction ngative. Labsence de symtrie entre les deux constituants
verbaux est le point qui rend cette possibilit la limite de la grammaticalit. En effet, notre
observation de symtrie syntaxique et discursive dans la coordination des constituants non-
verbaux est valable ici aussi.
Dun point de vue traitement avec la Sm-TAG, le traitement de ces constructions se fait avec
larbre suivant :
Construction_conjonctive_ngative

cat_sem(X) Conj_ng cat_sem(Y)
Figure 58. Arbre de base pour le traitement de la coordination des constituants verbaux
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

123
Le mcanisme de traitement de la coordination des constituants verbaux est assez similaire
celui des constituants non-verbaux. En effet, dans ce cas aussi nous utilisons les oprations de
propagation inductives et prdicatives pour enrichir progressivement la construction obtenue.
2.1.1.57 Lemphase
2.4.4.1.6 Intrt de lemphase
La mise en emphase est un procd qui consiste attribuer une importance particulire une partie de
lnonc mis par le locuteur. Le choix de ce phnomne est motiv par les raisons suivantes :
1. Cest un phnomne grammatical qui a une implication forte sur les niveaux smantiques et
discursifs de lnonc. Cela lui donne un intrt particulier pour notre formalisme qui intgre
ces diffrents niveaux.
2. La mise en emphase se fait selon diffrents mcanismes lis lordre des mots dans lnonc
qui joue un rle particulirement important dans le cadre de la Sm-TAG pour lattribution des
fonctions syntaxiques et des rles smantiques et discursifs.
En franais, deux moyens syntaxiques sont possibles pour mettre un lment en emphase
31
: la
dislocation et lextraction.
2.4.4.1.7 La dislocation
Ce moyen consiste dtacher un constituant en tte ou en fin de lnonc avec une reprise avec un
pronom. En effet, la dislocation est associe un double marquage o llment dtach est remplac
par une apposition (un pronom) qui contribue la mise en focus de llment remplac. Prenons les
deux noncs suivants :
(70) Je prends la chambre
(71) La chambre je la prends
Comme nous pouvons le remarquer dans les deux noncs prcdents : le syntagme nominal la
chambre dtach au dbut de lnonc a t aussi marqu par le pronom la.
La dislocation prend diffrentes formes selon la nature de llment dtach ou celle de lapposition
utilise. Ainsi, nous pouvons distinguer entre deux principaux types de dislocation :
4. Dtachement dun syntagme nominal : le syntagme nominal peut tre dtach en tte ou en
fin de lnonc. Les fonctions des syntagmes dtachs sont assez varis comme nous pouvons le
voir dans les exemples suivants :

31
Outres ces deux moyens syntaxiques, le franais dispose de laccent dinsistance pour mettre un lment en
emphase. Laccent dinsistence peut mettre en valeur des lments linguistiques de types varis : sujet, verbe, la
tte du syntagme nominal objet, etc. Ce moyen na pas t retenu dans notre tude tant donn quil ne met pas
en uvre des transformations syntaxiques ou smantiques qui permettent de montrer un trait particulier de la
Sm-TAG.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
124
(72) Ces chambres elles sont bonnes (Sujet)
(73) La rservation cela/a/cest important (sujet)
(74) Ces chambres je les prends (complment dobjet direct)
(75) Ce sjour ma femme en rve (complment dobjet indirect)
(76) Dans cet htel on (y) trouve des belles chambres (complment circonstanciel de
lieu)
Comme nous pouvons le voir dans les noncs prcdents, llment dtach est repris par un
pronom clitique ou dmonstratif pour garder lordre canonique des lments de lnonc. La
seule exception cette rgle est le dtachement du complment circonstanciel de lieu qui, selon
la grammaire normative, ne doit pas tre repris par un pronom. A loral, lobligation ou
linterdiction de reprise par un pronom ne sont pas toujours respectes (Riegel, 1994). En effet,
les complments obligatoires lcrit sont parfois omis loral et vice-vera, le complment
circonstanciel de lieu est parfois repris par le pronom y.
Sur le plan discursif, cette dislocation consiste inverser les rles thmatiques des constituants.
En effet, lorsquun thme est dtach, il devient un rhme ou vice-versa.
Syntaxiquement, le dtachement consiste modifier la dpendance du syntagme nominal par
rapport au verbe de lnonc. Prenons lexemple suivant pour discuter concrtement cette ide :
S S
Sn1 Sv Sn2 Sn1 Sv

Pr V Sn2 Pron V


Je prends cette chambre Cette chambre je la prends
Figure 59. Analyse syntaxique dun nonc avec une dislocation dun syntagme nominal objet
Comme nous pouvons le remarquer dans la figure prcdente, le rattachement du Sn2 est
diffrent dans lnonc sans dislocation de celle de lnonc avec dislocation. En effet, ce
syntagme tant une apposition du pronom objet la on pourrait penser quil doit dpendre du
syntagme verbal au mme titre que le pronom objet la. Une telle analyse viole la rgle de
continuit des lments de larbre danalyse tant donn que le pronom sujet Sn1 spare Sn2 et
Sv. Par ailleurs, sur le plan smantique, lattachement du Sn1 la racine de larbre directement
permet dexprimer sa distinction par rapport au reste de lnonc.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

125
Ainsi, nous avons adopt lanalyse prsente dans la figure prcdente o le syntagme nominal
dtach dpend directement de la racine de larbre danalyse. Lanalyse obtenue dans le cadre de
la Sm-TAG est prsente dans la figure suivante :

demande_rservation_chambre

Demand_rservation objet_demande(chambre)

Sn V


Je prends cette chambre

demande_rservation_chambre
objet_demande(chambre) demand_rservation

pron_sujet V
pron_objet

Cette chambre je la prends
Figure 60. Analyse dun nonc avec extraction dans le cadre de la Sm-TAG
Nous pouvons remarquer deux points dans les deux arbres danalyse prcdents compars aux
arbres syntaxiques des mmes noncs :
i. La Sm-TAG permet de garder cette spcifi du thme par rapport au reste de lnonc en
permettant de lattacher directement la racine de lnonc.
ii. Le traitement du pronom personnel, attach au verbe laide de lopration dassociation,
dans larbre danalyse Sm-TAG est assez similaire celui de larbre danalyse syntaxique
du mme nonc.
2. Dtachement de groupes infinitifs et de propositions subordonnes compltives : le
dtachement des groupes infinitifs et des compltives se fait pratiquement dans les mmes
conditions. En effet, dans les deux cas, il est associ aux pronoms personnels ou dmonstratifs,
dont la rpartition dpend de la mme fonction syntaxique. Le dtachement des groupes
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
126
infinitifs qui jouent la fonction sujet est la forme principale de dtachement des groupes
infinitifs ou des compltives. Lusage des groupes infinitifs et des compltives comme sujet
nest pas trs frquent mme si cela est possible dun point de vue grammatical. Ainsi, dans
lusage courant, le dtachement de ces constructions est la forme prfre (Riegel, 1994). Dans
ce cas, seuls les pronoms dmonstratifs ou impersonnels peuvent tre utiliss pour la reprise du
groupe dtach. Par ailleurs, tout comme les groupes nominaux, les groupes infinitifs et les
compltives dtachs peuvent tre en dbut ou en fin de lnonc. Voici quelques exemples :
(77) rserver maintenant Cela mennuie. (groupe infinitif/ dbut)
(78) que Frank ait rserv Cela amuse Franoise. (compltive/ dbut)
(79) Cest dommage que la chambre soit rserve. (compltive/ fin)
(80) Il est dommage que la chambre soit rserve. (compltive/ fin/ pronom
impersonnel)
Sur le plan discursif, ce type de dtachement consiste en linversement des emplacements des
lments occupants des rles thmatiques. En ce qui concerne la Sm-TAG, le traitement de ces
phnomnes est assez similaire celui des cas de dtachement des syntagmes nominaux. En
effet, les pronoms dmonstratifs ou impersonnels sont traits de la mme manire que les
pronoms clitiques ou dmonstratifs utiliss pour reprendre les syntagmes nominaux.
2.4.4.1.8 Lextraction
Ce phnomne consiste associer un prsentatif et un relatif pour extraire un constituant de la phrase
et qui permet dobtenir les clives. Par ailleurs, une construction similaire dite semi-clive peut tre
associe aux phnomnes dextraction. En effet, cette construction combine lextraction et le
dtachement dun constituant pour le mettre en emphase.
1. Les clives : le clivage est lun des principaux moyens demphase en franais. Il consiste en
lemploi des prsentatifs cest.. qui / que qui encadrent, en le plaant en tte de phrase,
llment mis en emphase qui peut tre de natures diverses. En effet, comme nous pouvons le
voir dans les exemples suivants, lextraction peut affecter des sujets (clive sur lagent), des
objets (clive sur le patient), des complments circonstanciels, etc. (Riegel, 1994).
(81) Cest le client qui rserve la chambre. (clive sur lagent)
(82) Cest la chambre que rserve le client. (clive sur le patient)
(83) Cest demain que jarrive (complment circonstanciel)
Sur le plan discursif, la mise en emphase peut porter sur le thme (clives sur le lagent) ou sur
le rhme (clives sur le patient ou sur le complment circonstanciel).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

127
Llment verbal des prsentatifs peut varier en temps et en mode. Cette variation reste
cependant facultative.
(84) Cest avec une C.B. que jai pay.
(85) Cest avec une C.B. que je paye.
Laccord entre dune part le groupe nominal mis en emphase par les prsentatifs et le verbe est
facultatif loral. En effet, comme nous avons vu dans lintroduction de ce chapitre, le non-
respect de laccord dans les clives constitue le cas prototypique du non respect de laccord
loral en franais.
(86) Ce sont les clients qui rservent.
(87) Cest les clients qui rservent.
Par ailleurs, lextraction est un phnomne qui sinscrit dans une problmatique plus vaste qui
est celle de lordre des mots (Blasco-Dulbecco, 1999). En effet, outre le dplacement du
groupe mis en relief la tte de la phrase, le pronom que donne la libert de changement de
lordre entre le syntagme nominal sujet et le verbe de la phrase : sujet verbe vs. verbe sujet.
Par contre, cette variation nest pas possible avec qui.
(88) Cest la chambre que rserve le client.
(89) Cest la chambre que le client rserve.
(90) Cest le client qui rserve la chambre.
(91) Cest le garon qui la chambre rserve. (agrammatical)
Dun point de vue traitement dans le cadre de la Sm-TAG, trois points peuvent tre nots :
i. Laccord ntant pas une source dinformation retenue dans le cadre du formalisme Sm-
TAG, les cas dextraction o laccord nest pas respect ne posent pas un problme
particulier pour le traitement avec ce formalisme.
ii. Les extractions portent sur des lments qui jouent un rle discursif particulier (en
gnral thme ou rhme). Ainsi, ladoption des units discursives (plutt que
syntaxiques) comme base de lanalyse dans la Sm-TAG nous permet de capter toutes les
subtilits des extractions.
iii. Les prsentatifs (cest qui/que) sont la seule partie qui ncessite un traitement
particulier au sein de la Sm-TAG. Comme nous lavons vu, il sagit dlments
auxiliaires dont la fonction est la mise en emphase du groupe encadr. La structure
rsultante (cest lment_encadr que/qui) a les mmes proprits syntaxiques et
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
128
smantiques que celles de llment encadr. Ainsi, nous avons jug bon de traiter ces
prsentatifs comme une construction semi-fige qui hrite sa reprsentation smantique
de llment encadr.


Prsentatif_thme Cat_sm_X

dmonst V_tre Nom pron_relatif dmonst V_tre Nom pron_relatif

Cat_sm_X

c est X qui c est X qui
Figure 61. Larbre de base pour le traitement des prsentatifs et le processus dhritage smantique
Comme nous pouvons le remarquer dans la figure prcdente, larbre utilis est indpendant de
la structure encadre qui peut tre un syntagme nominal, syntagme prpositionnel, complment
circonstanciel, etc. Cela permet dutiliser ces arbres pour traiter les prsentatifs quelle que soit
lapplication dans laquelle ces arbres sont utiliss.
2. Les pseudo-clives : les noncs pseudo-clivs sont spars en deux parties ; introduite par ce
que, la premire partie consiste gnralement en une relative priphrastique alorsque la
deuxime partie qui est introduite par cest peut consister en un groupe nominal, infinintif ou
une compltive.
(92) Ce que je voudrais cest une chambre. (groupe nominal)
(93) Ce que je dsire cest de rserver une bonne chambre. (infinitif)
(94) Ce que je veux cest que vous me trouviez une chambre. (compltive)
Le rle des prsentatifs utiliss dans les semi-clives se limite la distinction des lments mis
en emphase du reste de lnonc. Pour vrifier cette ide, il suffit de supprimer les prsentatifs
ce que cest pour voir que lnonc obtenu est quivalant smantiquement lnonc avec
les prsentatifs ( lexception de lemphase elle-mme bien entendu).
Par ailleurs, sur le plan discursif, les semi-clives sont assez similaires aux clives dans la
mesure o llment mis en emphase est toujours un lment qui joue un rle thmatique
particulier dans lnonc. Par contre, nous navons pas observ des cas dinversement de
position comme dans les clives sur le patient. Le schma gnral des semi-clives est le
suivant : ce que Thme cest Rhme. Ainsi, les prsentatifs peuvent tre considrs, sur le plan
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

129
syntaxique, comme des expressions figes qui jouent le rle de lauxiliaire la construction
prsente par ces lments.
Voici lanalyse propose dans le cadre de la Sm-TAG pour le traitement des prsentatifs utiliss
dans les semi-clives :

cat_smantique cat_smantique

prsentatif cat_smantique prsentatif cat_smantique



ce que lment mis en emphase cest lment mis en emphase
Figure 62. Le traitement des prsentatifs des semi-figes dans le cadre de la Sm-TAG
Comme nous pouvons le remarquer dans la figure prcdente, les prsentatifs sont considrs
comme des lments auxillaires par rapport aux lments prsents dont la nature smantique
dlimite le contenu des lments prsents. Par ailleurs, nous pouvons aussi remarquer que ces
arbres ne dpendent pas de llment prssent et peuvent ainsi tre utiliss dans diffrentes
grammaires destines des applications diffrentes.
2.4.5 La Sm-TAG : un formalisme pour lanalyse du langage oral
2.1.1.58 La Sm-TAG et larchitecture logicielle des modules danalyse linguistique du
langage oral
Linteraction des diffrentes sources de connaissances au sein du systme danalyse linguistique est
lun des problmes centraux dans la conception et la ralisation de larchitecture de ce systme. En
effet, les interdpendances de ces diffrentes connaissances obligent parfois utiliser des architectures
complexes afin de prendre ces interdpendances en considration lors de lanalyse (Delmonte et
Bianchi, 2002), (Mahesh, 1995). Lun des problmes majeurs quaffrontent les systmes modulaires
est la conversion (ou traduction) des informations manant dun module A en un format
comprhensible par un module B qui a besoin de cette information pour prendre ses dcisions.
Lintgration des diffrentes sources de connaissances au sein du mme cadre formel (comme la Sm-
TAG) nous semble la meilleure solution de ce problme.
2.1.1.59 La Sm-TAG : un formalisme pour lanalyse robuste
La source principale du manque de robustesse dun point de vue dun formalisme linguistique est la
complexit des traits vrifier. En effet, plus un formalisme est complexe plus nous avons une chance
davoir un problme li une contrainte dont la vrification par lalgorithme danalyse est ncessite
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
130
par ce formalisme. Lexemple le plus clair de ce genre de cas est le phnomne de laccord. En effet,
la vrification de laccord du sujet avec le verbe ncessite le recours des dispositifs spciaux comme
les traits daccords ou autres. Le problme est que le systme de reconnaissance peut crer des erreurs
de reconnaissance partielles o le mot est reproduit avec la mauvaise marque daccord. Ce cas est
particulirement valable pour le franais o laccord est marqu souvent par des e muets comme :
arrive, rserve, claire, etc. Cela sapplique aussi aux verbes o cest parfois impossible de distinguer
phontiquement les formes plurielles ou singulires dun verbe comme arrives, arrive, arrivent,
manges, mange, mangent, etc. Le principe de pertinence que nous avons adopt au sein de la Sm-TAG
nous permet daugmenter la robustesse de lanalyse en nous passons des sources de connaissances
dont le rle nest pas central dans le traitement et qui peuvent au contraire constituer une source de
bruit.
2.4.6 Discussion de la validit cognitive de la Sm-TAG
La facult de langage fait partie intgrante du systme cognitif gnral chez lhomme. Ainsi, tout
modle du langage humain doit tre compatible avec les connaissances que nous avons sur la
cognition humaine.
2.1.1.60 Un peu de mthodologie
Diffrents travaux dans le domaine de la psycholinguistique computationnelle prsentent des
approches algorithmiques ou linguistiques comme tant plausibles cognitivement (voir (Milward et
Sturt, 1995), (Kaiser, 1999), comme exemples de ces travaux). Or, la notion de plausibilit cognitive
reste nos yeux assez vague et ne permet pas de donner un jugement prcis sur ladquation des
approches proposes avec la ralit cognitive. Ainsi, avant de commencer la discussion de la
plausibilit cognitive de la Sm-TAG, nous allons commencer par la prsentation de ce dont nous
entendons. En effet, notre conception sur la validit cognitive peut tre rsume dans les points
suivants :
1. Nous savons formellement avec le thorme dincompltude de (Gdel, 1931) quun modle
parfait nexiste pas. Ainsi, sur le plan de la modlisation cognitive du traitement du langage,
cela veut dire quil nexiste pas un modle parfait du processeur linguistique humain. Autrement
dit, les modles dits pertinents cognitivement ne le sont que partiellement.
2. Nous savons travers les diffrents travaux dans le domaine de la psychologie exprimentale et
de la neurophysiologie (voir (Rosenbaum, 1987) pour une revue gnrale de ces travaux) que
lesprit-cervau humain traite linformation selon des techniques extrmement varies et qui
changent selon les besoins de la situation.
3. Comme il est impossible dune part de proposer un modle parfait du processeur humain et
dautre part vue la richesse des mcanismes de traitements utiliss par ce processeur il est
presque difficile de proposer une approche qui ne soit pas partiellement pertinente
cognitivement.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

131
Ainsi, une approche plausible cognitivement est une approche dont les traits cls sont pertinents dans
le cadre contextuel pour lequel cette approche est propose.
Dans notre cas, discuter la plausibilit cognitive de la Sm-TAG revient discuter ladquation de son
trait principal (qui est le mode dinteraction entre la syntaxe et les connaissances de niveau suprieur)
avec les rsultats des travaux dans le domaine de la psycholinguistique exprimentale.
2.1.1.61 Discussion de la plausibilit cognitive de linteraction directe de la syntaxe avec les
connaissances de niveau suprieur
Comme nous avons vu dans les paragraphes prcdents, le mode dinteraction directe entre la syntaxe
et la smantique est lune des proprits les plus caractristiques de la Sm-TAG par rapport la
majorit des formalismes grammaticaux qui distinguent nettement entre le niveau syntaxique et les
niveaux danalyses de rang suprieur comme la smantique et le discours. Un bon nombre de travaux
dans le domaine de la psycholinguistique exprimentale a montr lexistence dune stratgie
dintgration prcoce des informations syntaxiques avec les informations de haut-niveau au cours du
processus de comprhension
32
.
Parmi ces travaux nous pouvons citer ceux de (Tyler et Marslen-Wilson, 1977) qui ont procd une
exprience visant vrifier si la smantique intervient avant la fin de lnonc ou si au contraire elle
intervient au cours du traitement en parallle avec lanalyse syntaxique. Pour ce faire, ils ont utilis
des paires ambigus adjectif-verbe tel que Landing planes dans des noncs comme 95 :
(95) a. If you walk too near the runway, landingplanes
33

b. I youve been trained as a pilot, landingplanes.
Les rsultats de cette exprience ont montr que la smantique intervient avant la fin de lnonc. En
effet, lorsque le mot planes tait suivi par un mot appropri par rapport au contexte (comme are pour
(95a)), le temps de rponse tait moins long que dans les cas o il y avait dans le mme endroit un mot
inappropri (comme is pour (95a)). Cela montre que les sujets ont une prfrence smantique (induite
de leurs connaissances gnrales sur le monde ainsi que de lanalyse smantique du dbut de lnonc)

32
En fait, le mode dinteraction de la syntaxe et des connaissances de hat niveau est un sujet de controverse entre
les spcialistes de la psycholinguistique exprimentale. Comme nous estimons avec ((Crooker, 1996) voir page
28) que la raison principale de ces controverses est la limitation des moyens actuels dinvestigation scientifique
(outils de dtection des mouvements oculaires, outils dimagerie crbrale, limitations lies au contrle des
variables exprimentales, etc.) et pas les aspects inhrents linteraction entre la syntaxe et les connaissances de
haut-niveau proprement dits (qui sont lobjet de notre travail), avons prfr dviter dentrer dans ces dbats et
de nous limiter aux arguments en faveur de linteraction directe de la syntaxe et de la smantique.
33
Nous avons jug bon de donner les exemples des matriels linguistiques utiliss dans les diffrents travaux que
nous prsentons tels quils sont (en anglais) afin de conserver toutes les proprits linguistiques de ces matriels
sans biais.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
132
quils appliquent pour choisir lanalyse syntaxique la plus plausible. Par ailleurs, (Crain et Steedman,
1985) ont utilis des noncs passifs avec des propositions relatives pour montrer que la smantique
ainsi que le contexte rfrentiel peuvent guider le choix de la structure syntaxique. Par exemple, avec
des noncs comme :
(96) a. The teachers taught by the Berliz method passed the test.
b. The children taught by the Berliz method passed the test.
Ainsi, les noncs similaires (96b) ont t jugs comme tant grammaticaux plus frquemment que
les noncs du type (96a). La diffrence smantique entre les deux noncs semble tre la raison de cet
cart dans le jugement tant donn quil est plus probable quun enfant soit enseign quun professeur.
En outre, ces chercheurs ont montr que ces indices smantiques interviennent avant la fin de lnonc
ou mme avant une frontire syntagmatique. Ainsi, (Crain et Steedman, 1985) concluent en
considrant limpasse danalyse
34
comme un phnomne contextuel qui peut tre vit par la
connaissance du contexte dans lequel un nonc est ralis. Par exemple, selon ces chercheurs, les
noncs du type (96a) taient jugs agrammaticaux parce que leur biais smantique les loignait de
lhypothse dune structure relative et les menait une impasse danalyse lorsquils rencontrent le
verbe passed. Cette impasse danalyse a t vite dans les noncs similaires (96b) o le contexte
smantique permet de guider les sujets vers une structure relative qui est la bonne syntaxiquement.
Une tude similaire celle de Crain et Steedman a t mene par (Trueszell et Tanenhaus, 1994) avec
une perspective danalyse du discours. En effet, les chercheurs ont utilis des noncs avec des verbes
ambigus (dont la forme est identique aux participes passs quivalents) comme :
(97) a. The fossile examined.
b. The archeologist examined.
Comme nous pouvons le remarquer dans les noncs prcdents, le verbe examined a la mme forme
que le participe pass du mme verbe. Ainsi, ces chercheurs ont trouv comme (Crain et Steedman,
1985) que les connaissances smantiques influencent directement le choix de la structure syntaxique et
conduisent parfois des impasses danalyse.
(Carpenter et Just, 1988) ont procd une tude des mouvements oculaires de la lecture. Leurs
travaux ont montr que la dure de fixation des mots anormaux smantiquement par rapport au
contexte tait plus longue que celle de mots quivalents (en terme de longueur, frquence, et

34
Limpasse danalyse est la traduction que nous proposons de lexpression garden path. Il sagit des cas
dambigut locale qui guident le processeur humain vers une analyse unique partir de laquelle il est difficile
ou parfois impossible de faire une correction de lanalyse (voir (Croocker, 1996) page 7, pour plus de dtails sur
ce phnomne).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

133
adaptation syntaxique par rapport au reste de lnonc) mais normaux smantiquement. Cela montre
que lanalyse smantique se fait en parallle avec le processus de lecture (et donc avec lanalyse
syntaxique).
Plusieurs expriences visant clarifier le rle du contexte discursif dans la comprhension ont t
menes (Spivey-Knowlton et Tanenhaus, 1994), (Boland et al., 1995). Dans une tude rcente
(Altmann, 1999) dcrit deux expriences sur ce problme. Dans ces deux expriences les sujets
devaient lire des noncs du type :
(98) He drank some.
Ces noncs ont t utiliss dans des contextes qui introduisent ou pas des objets potables. Lide est
quaprs le verbe drank les sujets sont supposs penser que lnonc na pas un sens si lobjet de ce
verbe nest pas un lment potable. Ainsi, aprs avoir demand aux sujets dexaminer diffrents
groupes dnoncs, il a observ que les rponses ngatives (cest--dire que lnonc nas pas de sens)
ncessitent plus de temps lorsque le contexte antrieur. Lauteur conclut que les rles smantiques
(agent, patient, rcipient, etc.) associs aux arguments discursivement antrieurs dun verbe (les
arguments situs dans un tour de parole antcdent) sont slectionns au point de la tte verbale par les
sujets en prenant en considration les rles disponibles (qui nont pas t encore associs un item
lexical) mme lorsque lentit qui rfre explicitement ces antcdents (les pronoms anaphoriques)
est postverbale et que cette entit nest pas encore traite par les sujets. Cela montre, dune part que le
contexte discursif intervient dans lanalyse syntaxique dun nonc et que dautre part, cette
intervention se fait en parallle avec lanalyse syntaxique tant donn que son effet est dtect avant la
fin du traitement de lnonc.
2.1.1.62 Discussion de la validit de ces arguments par rapport la Sm-TAG
Un bon nombre de chercheurs qui travaillent dans le domaine de la psycholinguistique soutient
lhypothse de lintgration immdiate des diffrentes sources de connaissances impliques dans la
comprhension : syntaxe, smantique, connaissances sur le monde. Nous avons vu aussi que cette
hypothse a t valide la fois sur des noncs isols que sur des noncs ancrs dans un contexte
discursif particulier. Cela nous permet de confirmer la validit de lide de lintgration que nous
avons adopte dans le cadre de la Sm-TAG. Cependant, comme nous avons vu, les rsultats
exprimentaux ne nous permettent pas de savoir prcisment la (ou les) stratgie(s) utilise(s) par le
processus humain pour combiner ces diffrentes sources de connaissance. Par consquent, le mode
dintgration propos par la Sm-TAG (tout comme les autres approches qui intgrent diffrentes
sources de connaissances dans la comprhension comme celle de (McClealand et Kawamoto, 1986))
doit tre vu comme une mtaphore dont les bases sont plausibles cognitivement mais pas comme un
modle formel de ce mode dintgration.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
134

3 Conclusion de la deuxime partie
Dans cette partie, nous avons prsent nos deux tudes thoriques menes dans le cadre de cette thse.
Il sagit du modle des extragrammaticalits de loral que nous avons propos sur la base de notre
analyse du Trains Corpus ainsi que la formalisation de la grammaire smantique et la proposition du
formalisme Sm-TAG comme un cadre pour le traitement la fois robuste et profond de loral.
En conclusion, nous allons tablir un bilan gnral de ces deux tudes par rapport ltat de lart que
nous avons prsent dans les deux premires parties de cette thse :
3.1 Bilan de lanalyse des extragrammaticalits
Notre tude vise modliser les aspects syntaxiques des extragrammaticalits. Notre travail, ce
propos, se distingue par la proposition de schmas diffrents pour les diffrents types
dextragrammaticalits que nous avons observs dans notre corpus :
Les extragrammaticalits lexicales : nous avons distingu, au sein de cette catgorie, plusieurs
types comme les amalgames et les mots oraux.
Les rptitions et les autocorrections : sur ce plan, nous avons propos un modle base de
patron, inspir des travaux prcdents (Shriberg, 1994), (Heeman, 1997). Par ailleurs, nous
avons adopt une mthode dtiquetage deux niveaux qui permet de prendre en considration
le contexte dans lequel un patron apparat ainsi que les relations et les conflits ventuels quil
peut y avoir entre les patrons.
Les faux dparts et les incompltudes : nous avons propos un schma gnral qui segmente ces
extragrammaticalits en un ensemble de zones qui jouent chacune un rle particulier dans la
dtection et la dlimitation. Cette distinction des diffrentes zones permet de contextualiser les
segments mal forms et de rduire, par consquent, le nombre des cas de surgnrations.
Notre tude contient une analyse dtaille des occurrences multiples et imbriques des diffrentes
formes dextragrammaticalits au sein du mme nonc. Par ailleurs, nous avons pris en considration
les fausses extragrammaticalits dans notre analyse du corpus afin de mettre laccent sur laspect
smantique des extragrammaticalits.
3.2 Bilan de la S-TSG
La S-TSG est une formalisation que nous avons propose de la grammaire smantique classique. Les
points cls qui distinguent la S-TSG de la grammaire smantique classique sont les suivants :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

135
Points thoriques : ayant un statut linguistique et mathmatique bien dfini, la S-TSG est
facilement comparables dautres formalismes et approches pour le traitement de loral.
Points pratiques : la structuration de la S-TSG, selon trois niveaux dunits : arbres lexicaux,
arbres locaux et arbres globaux. Cela rend lcriture et la modification de la grammaire une
tche plus facile compare celle avec la grammaire smantique classique.
3.3 Bilan de la Sm-TAG
La Sm-TAG est un formalisme hybride qui intgre diffrents niveaux de reprsentation au sein du
mme cadre. Ceci est essentiellement d linteraction directe de la syntaxe et de la smantique au
sein de ce formalisme qui est notamment ralise grce aux oprations dassociation et de propagation
smantique. Les proprits cls de ce formalisme peuvent tre rsumes dans les points suivants :
1. Contrairement la grammaire smantique classique, les diffrentes proprits formelles et
linguistiques sont analyses et bien connues.
2. Equivalence faible avec une CFG : cela facilite considrablement la tche de lanalyse avec des
algorithmes efficaces et rend la ralisation dune version stochastique de ce formalisme une
tche raliste.
3. Un modle smantique compact bas sur lintgration de la notion de la pertinence dans la
dfinition des traits. Par ailleurs, nous avons propos deux oprations sur les non-terminaux de
la grammaire qui facilitent lintgration des arbres syntaxiques intermdiaires au sein des arbres
smantiques.
4. Adoption des units discursives comme base de traitement : comme nous avons vu dans les
exemples de traitement des phnomnes linguistiques avec la Sm-TAG, cela na pas constitu
une limite pour traiter les diffrentes formes des phnomnes que nous avons abords. En effet,
nous avons vu que des phnomnes comme lemphase ou la ngation affectent uniquement les
segments qui jouent un rle thmatique dans lnonc : on ne peut pas mettre en emphase ou
nier un lment que nous jugeons comme marginal. Par ailleurs, nous avons vu quavec la Sm-
TAG, nous pouvons traiter des cas syntaxiquement et smantiquement complexes comme des
noncs avec la fois des constructions ngatives et des coordinations, et ce de manire simple.
5. Non-violation des relations de dpendance syntaxique : bien que la priorit principale dans la
Sm-TAG soit donne la smantique, les relations de dpendance dans les phnomnes
syntaxiques (comme la ngation) ont t conserves.
6. Gnralisation : la gnralisation est une proprit importante dun formalisme linguistique, en
particulier, pour un formalisme comme le ntre qui intgre des connaissances dpendantes de la
tches (qui sont par dfinition non-gnralisables). Nous avons vu dans les paragraphes
prcdents que les procdures utilises dans la Sm-TAG pour traiter les diffrentes formes des
phnomnes linguistiques considrs dans nos exemples sont indpendantes de la tche. Cela
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
136
contribue augmenter le pouvoir expressif de la grammaire (dans la mesure o nous pouvons
couvrir plus de phnomnes avec un nombre relativement limit darbres et de rgles
dinfrences) ainsi qu augmenter sa portabilit (puisque nous disposons dun noyau
indpendant de la tche qui peut tre utilis dans diffrentes applications).
7. Adquation avec les rsultats des travaux dans le domaine de la psycholinguistique
exprimentale : linteraction directe entre la syntaxe et la smantique (qui est le trait distinctif
principal de la Sm-TAG) est compatible avec les rsultats de plusieurs travaux dans le domaine
de la psycholinguistique exprimentale qui stipulent que la syntaxe et la smantique
interviennent en mme temps au cours du traitement de lnonc.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

137













Partie III : les systmes Corrector, Safir, Oasis et Navigator
pour lanalyse du langage oral
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
138
0 Introduction de la troisime partie
Aprs avoir dress un bilan gnral des contraintes dun systme danalyse linguistique du langage
oral dans les deux premires parties de cette thse et aprs avoir propos des modles pour les
phnomnes grammaticaux et extragrammaticaux de loral, dans la troisime partie, nous allons nous
consacrer dans cette partie la ralisation de ces modles afin de tester leur validit applicative.
Dans cette partie, nous allons prsenter trois systmes dans le cadre de deux axes applicatifs :
Traitement des extragrammaticalits : sur cet axe, nous allons prsenter le systme
Corrector. Il sagit de limplantation du modle thorique des extragrammaticalits que nous
avons propos dans le premier chapitre de la troisime partie de cette thse.
Analyse linguistique du langage oral : nous allons, sur cet axe, prsenter les systmes SAFIR
et OASIS qui sont respectivement des implantations que nous avons ralises de la S-TSG et de
la Sm-TAG. Le systme SAFIR est un prototype destin faire une valuation prliminaire de
nos choix thoriques et pratiques alors que le systme OASIS est conu dans une optique
dintgration dans le cadre dune application relle qui est dans notre cas la traduction
automatique de la parole.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

139
1 Chapitre III.1 : Le systme Corrector pour le traitement
des extragrammaticalits du langage oral
Rappelons quil existe deux tendances diamtralement opposes dans la littrature. Selon la premire,
il est possible dutiliser des techniques trs superficielles base de N-grams et de patrons pour traiter
tous les phnomnes dextragrammaticalits. Par ailleurs, les chercheurs qui suivent la deuxime
tendance soutiennent que la syntaxe est absolument ncessaire pour le traitement et gnralisent, par
consquent, son utilisation tous les phnomnes. Or, comme nous avons dit dans notre discussion
des diffrentes mthodes, il nous semble que certains phnomnes comme les extragrammaticalits
lexicales, les rptitions et les autocorrections peuvent tre traits avec des approches base de
patrons de manire plus simple et plus efficace quavec la grammaire, puisque ces phnomnes, par
leur nature mme, ne ncessitent pas dinformations syntaxiques profondes. Par contre, nous avons
montr laide dexemples quavec des approches superficielles base de N-grams, il est impossible
de prendre en considration suffisamment de contexte pour traiter certains cas.
Par ailleurs, dans notre analyse du Trains Corpus, nous avons vu quil est possible de procder une
modlisation syntaxique fine des faux-dparts et des incompltudes. Nous avons vu aussi que la prise
en considration des dpendances entre les syntagmes constitue un facteur cl pour la dtection de
certains phnomne.
Ainsi, la solution idale, nos yeux, consiste combiner les approches base de patrons celles
danalyse syntaxique afin doptimiser le rapport cot de traitement/efficacit dans le traitement. Les
informations smantiques peuvent tre aussi ajoutes condition de ne pas rendre le systme
dpendant de la tche.
Ainsi, nous prsentons le systme Corrector qui est bas sur lintgration de techniques de
reconnaissance de patrons, danalyse syntaxique et smantique superficielle.
1.1 Requis du systme
Corrector est destin traiter les extragrammaticalits du langage oral cest--dire dtecter la
prsence de ces phnomnes et dlimiter leur tendue dans lnonc.
Les principaux requis de notre systme peuvent tre rsums dans les points suivants :
Portabilit : le systme doit tre utilisable non seulement dans diffrents domaines
dapplication (ngociation de transport, rservation touristique, etc.) mais aussi il doit tre facile
intgrer au sein de systmes divers dont les composantes sont trs diffrentes. Ainsi, Corrector
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
140
doit servir de module de traitement des extragrammaticalits et sintgrer au sein de systmes
qui ne sont pas conus a priori pour le traitement de loral sans ncessiter des changements
significatifs dans leurs architectures ou modules.
Prcision : par prcision nous entendons la capacit du systme dtecter et corriger
uniquement les cas dextragrammaticalit sans traiter les cas normaux mme si ceux-ci
prsentent des similarits formelles avec des extragrammaticalits. Cette proprit est
extrmement importante pour un module de traitement des extragrammaticalit dans la mesure
o des traitements errons dune extragrammaticalit peuvent conduire des erreurs
dinterprtation qui sont parfois plus graves que celles que peuvent crer les
extragrammaticalits elles-mmes.
Couverture : le systme doit tre capable de traiter les diffrentes formes des
extragrammaticalit quel que soit leur degr de complexit.
Simplicit : le systme doit tre capable de traiter les extragrammaticalits avec le minimum de
cot et les grammaires utilises doivent tre faciles modifier.
Comme nous pouvons le deviner, certains de ces requis sont contradictoires. Par exemple,
laugmentation de la couverture de lanalyse augmente aussi les risques de surgnration.
1.2 Proprits cls du systme
Pour rpondre aux diffrents requis, nous avons propos un systme dont les proprits principales
sont :
1.2.1 Emplacement dans le traitement
Afin de garantir lindpendance totale la fois du domaine dapplication et du systme au sein duquel
le module de traitement des extragrammaticalits sera intgr, lemplacement en tant que module de
prtraitement semble la solution la plus approprie. En effet, cela rduit considrablement linteraction
entre le module de traitement des extragrammaticalits et les autres modules du systme. Par
consquent cela cre une autonomie des deux parties chacune par rapport lautre. Ainsi, le mme
module peut tre utilis dans diffrentes applications et avec des environnements logiciels et
thoriques (quelque soit la nature de lapproche utilise pour le module danalyse). Par ailleurs, cela
donne plus de libert en ce qui concerne le choix des techniques de traitement puisque nous navons
pas de contraintes externes prendre en considration lors de la conception du module de traitement
des extragrammaticalits. Finalement, compar aux autres techniques de traitement des
extragrammaticalits (en particulier aux techniques de post-traitement), le prtraitement permet de
distinguer plus finement les types dextragrammaticalits traits. En effet, les approches qui traitent les
extragrammaticalits au cours de lanalyse syntaxique (avec une stratgie slective par exemple) ou en
postraitement (avec des rgles smantiques) ne permettent pas didentifier le type de
lextragrammaticalit : avec les approches slectives on perd toute trace de lexistence de
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

141

Systme principal
Corrector
lextragrammaticalit alors que les approches smantiques ne permettent pas de distinguer les
rptitions des auto-corrections. Par exemple, les segments je voudrais jaimerais (auto-correction) et
je voudrais je voudrais (rptition) ont une bonne chance davoir la mme reprsentation smantique
et cela ne permet pas au module de post-traitement de savoir sil sagit dun rptition ou dune auto-
correction.
Ainsi, notre approche ouvre la porte devant des expriences visant tester lutilit des informations
relatives lexistence des extragrammaticalits dans diffrents domaines applicatifs. Par exemple,
dans le contexte dun systme de dialogue homme-machine, linformation sur lexistence dune
extragrammaticalit peut tre prise en considration par le gestionnaire de dialogue afin de choisir la
stratgie de dialogue la plus approprie. Par ailleurs, lidentification des extragrammaticalits dans un
systme de traduction de la parole permet de gnrer lquivalent de ces extragrammaticalits dans la
langue cible et de donner, par consquent, une dimension spontane au dialogue en refltant
partiellement ltat psychologique des locuteurs exprim par les extragrammaticalits.
Voici une prsentation schmatique de lemplacement de notre module.

Entre : noncs oraux transcrits Sortie : analyse linguistique







Figure 63. Schma de lemplacement du module de traitement des extragrammaticalits
Comme nous remarquons dans la figure prcdente, linteraction est limite au traitement de la sortie
du module de normalisation par le module suivant dans le systme principal qui est considr comme
une boite noire.
1.2.2 Larchitecture et les modules du systme
Pour implanter les diffrentes fonctionnalits de Corrector nous avons adopt une architecture
modulaire base de Hub (Gestionnaire de systme). Les motivations de notre choix ainsi quune
discussion gnrale de larchitecture seront discutes plus loin.
Du point de vue du traitement, les phnomnes que nous avons obtenus lors de lannotation du corpus,
peuvent tre classs en trois types :
1. Des phnomnes qui peuvent tre traits avec linformation structurale uniquement reprsente
sous forme de patrons.
Sortie : : noncs normaliss
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
142
2. Des phnomnes qui peuvent tre traits uniquement avec linformation morpho-syntaxique
reprsentables avec une grammaire syntaxique superficielle ou la grammaire smantique.
3. Des phnomnes ncessitant la fois linformation syntaxique et linformation structurale. Ces
phnomnes sont reprsents avec des patrons mixtes.
Ainsi, nous avons propos une architecture dans laquelle le traitement se fait par diffrents modules
qui utilisent chacun lune des trois techniques prsentes ci-dessus. Cela se fait selon trois tapes
principales :
1. Traitement lexical.
2. Traitement des Extragrammaticalits Supralexicales (ESLs) premire passe.
3. Traitement des (ESLs) deuxime passe.
Le schma gnral de cette architecture est prsent dans la figure suivante :




















Figure 64. Architecture du systme Corrector
Entre du
systme : noncs
oraux transcrits
Sortie du systme :
noncs dont les
extragrammaticalits
sont tiquets

Gestionnaire du systme
Normalisation
lexicale
Tagging
(Xerox)
Post-tagging

Reconnaissance
globale de
patrons
Mta-rgles
Analyse syntaxique

Reconnaissance
locale de
patrons
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

143
Cette division modulaire renforce la portabilit du systme. En effet, la rpartition des tches aux
diffrents modules et en particulier lindpendance du systme vis vis du tagger (le seul module
externe).
2.1.1.63 Le gestionnaire du Systme (GS)
Le GS est un Hub qui a une fonction purement logicielle et qui joue le rle de corridor de
linformation entre le reste des moduels du systme (voir (Garlan and Shaw, 1993) pour plus
dinformations sur les Hubs ainsi que leur diffrence avec les tableaux noirs). Ainsi, linformation au
sein de ce module est propage selon un ordre ascendant : du niveau lexical jusquau niveau
syntaxique. Si nous considrons le GS comme un client qui appelle des fonctions diverses localises
au sein des modules du systme (qui sont considrs comme des serveurs), le flux de linformation
rsultant de linteraction peut tre rsum dans le tableau suivant :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
144

Entre Source Destination Traitement Destination
Enonc oral transcrit Interface
utilisateur
GS
Enonc oral transcrit GS Traitement lexical Traitement des
extragrammaticalits
lexicales,
normalisation de
certains mots oraux et
analyse
morphologique
GS
Enonc oral analys
morphologiquement
et dont les
phnomnes
lexicaux sont
normaliss
GS Reconnaissance
locale de patrons
Traitement des
rptitions et des
autocorrections dont
ltendue est limite
GS
Enonc dont les
rptitions et les
auto-corrections
locales sont traites
GS Reconnaissance
globale de patrons
Traitement des
rptitions et des
autocorrections dont
ltendue est large
GS
Enonc dont les
rptitions et les
autocorrections sont
traites
GS Traitement des faux-
dparts et des
incompltudes
GS
Enonc dont les
extragrammaticalits
sont dtects et
dlimits
GS Interface
utilisateur

Tableau 9. Le flux de linformation au sein du systme Corrector
Outre la transmission de linformation entre les diffrents modules, le GS de corrector est aussi charg
dadapter le format de sortie de chaque module au module suivant.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

145
2.1.1.64 Traitement lexical
1.2.2.1.1 Normalisation lexicale
La fonction principale de ce module est la dtection et le traitement des ELs. Outre lvitement de
certains problmes que peuvent causer ces phnomnes aux analyseurs morphologique et syntaxique,
certaines ELs peuvent causer des erreurs de dtection au module de traitement des ESLs comme dans
lexemple suivant : Ill uh I will. On remarque dans cet exemple que lamalgame cache la rptition
de la squence I will.
Ce module est bas sur une table de conversion contenant dune part les diffrentes formes dELs
rencontres dans notre corpus et dautre part les formes crites de ces ELs.
1.2.2.1.2 Analyse morphologique (tagging et post-tagging)
La fonction principale de lanalyse morphologique est de fournir les parties du discours auxquelles
appartiennent les mots de lnonc. Cette technique joue un rle important dans le traitement des
extragrammaticalits en particulier pour le traitement des autocorrections, faux-dparts et
incompltudes.
La construction dun tagger pour lanalyse morphologique tant une tche qui dpasse largement nos
moyens ainsi que les objectifs de notre travail, nous avons dcid dutiliser un systme dj
disponible.
Ainsi, sur ce point, notre travail sest limit choisir le tagger le plus adapt au traitement de loral
parmi les systmes disponibles (qui sont destins au traitement de lcrit) et lenrichir laide de
certaines fonctions de post-traitement afin de combler ses principaux lacunes par rapport notre tche.
Notre choix est bas sur un test informel de quatre taggers disponibles sur Internet :
1. Le MBT tagger de lquipe ILK (Induction of Linguistic Knowledge) luniversit de
Tilburg
35
.
2. Le tagger du groupe MLTT du laboratoire de Xerox Grenoble.
3. QuickTag de Cogilex (entreprise canadienne base Montral).
4. CLAWS tagger du groupe UCREl de luniversit de Lancaster.
Le choix a t fait sur la base dun test informel dune vingtaine dnoncs qui contiennent des
extragrammaticalits de diffrents types que nous avons extraits du Trains corpus. Deux principaux
critres ont t retenus pour lvaluation des systmes :
a. Ladaptation de la sortie : elle porte essentiellement sur la finesse de lanalyse et son
adaptation nos besoins. Par exemple, les systmes MBT, QuickTag et CLAWS sont dots
dune fonction particulire de traitement des mots inconnus qui associe des catgories
morphologiques induites du contexte (adjectif, nom, etc.) aux mots inconnus. Cela nous

35
Ce tagger peut tre test lURL suivant : http://ilk.kub.nl/
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
146
empche de dtecter les mots incomplets (qui sont inconnus par le systme) et de les traiter
correctement. Par contre, le tagger de Xerox associe ces mots une catgorie morphologique
tout en indiquant que ces mots ne font pas partie de son lexique. Par exemple, ce systme
associe la catgorie : +guessed+ADJ un mot inconnu, qui selon son contexte, peut tre
considr comme un adjectif.
b. La qualit des rsultats : nous avons accord une attention particulire la qualit danalyse
en cas dextragrammaticalit, pour choisir lanalyseur le plus robuste.
Le rsultat de ce test a t clairement en faveur du tagger de Xerox, dune part, parce que sa sortie,
comme nous avons vu, est plus adapte que les autres systmes et dautre part parce que nos tests ont
montr quil est plus le plus robuste aux extragrammaticalits.
Malgr notre effort de choisir le systme le plus adapt, le tagger de Xerox tant un outil gnraliste, il
est normal que des incompltudes ou des inadaptations partielles de son fonctionnement soient
observes par rapport notre tche spcifique. Deux aspects relatifs au tagging ont t observs et
traits :
1. Le manque de finesse : dans certains cas, le traitement dune extragrammaticalit ncessite des
informations qui vont au-del de la simple catgorie morphologique. Par exemple, dans certains
cas, nous avons besoin de savoir si un pronom est sujet ou objet pour juger sil est un
complment dun syntagme verbal prcdent SV
p
ou dun syntagme verbal suivant SV
s
afin de
dcider si la phrase constitue par SV
p
est complte ou non. Ainsi, nous avons dcid
daugmenter la sortie du tagger afin de ladapter nos besoins. Pour simplifier le traitement, cet
enrichissement nest fait que dans les cas o lon en a besoin. En effet, il ne sagit pas dun
module de post-tagging, mais plutt dune base lexicale laquelle le systme fait appel au cours
de lanalyse syntaxique lorsquil y a un segment dont le traitement ncessite la vrification
affine des proprits morpho-syntaxiques dun de ses mots. La base lexicale utilise consiste
en la srie des mots enrichir associs leurs nouvelles catgories. Il sagit essentiellement des
verbes transitifs observs dans le corpus ainsi que des pronoms personnels sujet.
2. Des erreurs relatives lapplication : il sagit gnralement d'erreurs prvisibles et
rptitives danalyse de mots propres au domaine de notre corpus. Par exemple, les mots :
Corning et Coring qui sont des noms de lieux dans notre corpus sont considrs par le tagger
comme tant des participes prsents ou des adjectifs dont les racines sont respectivement : corn,
et core (que nous navons pas observ dans notre corpus). Ce genre de cas est corrig
directement avec un module de post-tagging. Il sagit dune simple table de conversion qui
contient dune part, les mots que le systme analyse incorrectement de manire systmatique et
dautre part, les versions correctes de leur analyse.
3. Des erreurs dues des raisons diverses : ce sont des erreurs occasionnelles dues au tagger lui-
mme ou aux extragrammaticalits dans notre corpus. Ces erreurs sont pratiquement
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

147
impossibles corriger avec des post-traitements. Pour viter ce problme, nous avons dcid de
rduire au maximum lutilisation des informations morphologiques. Ainsi, comme nous allons
voir en dtail dans les paragraphes suivants, le traitement dune bonne partie des
extragrammaticalits supralexicales se fait laide de patrons ne ncessitant que des
informations structurales. Par ailleurs, nous avons introduit les grammaires smantiques pour le
traitement de certaines zones ddition, ce qui rduit le besoin des catgories morphologiques et
finalement, nous avons opt pour des rgles syntaxiques souples (analyse partielle par
segments) qui ncessitent le recours un contexte assez large afin de rduire leffet des erreurs
locales de tagging.
Le lien avec le serveur de Xerox o se trouve le tagger et notre systme se fait avec un script qui
envoie les noncs pr-normaliss au tagger, rcupre la sortie du tagging et la formate de manire la
rendre adapte au module suivant. Ce script est une version que nous avons adapte du code de notre
collgue Jos Rouillard qui est utilise pour son systme Halpin (Rouillard, 2000).
2.1.1.65 La reconnaissance de patrons
La reconnaissance de patron est un dispositif conomique et facilement gnralisable et portable dune
application une autre voire dune langue une autre, dans certains cas. De plus, il est facile intgrer
avec dautres techniques de traitement.
1.2.2.1.3 Prsentation informelle de notre approche
Comme nous avons vu dans la partie thorique, la diffrence principale entre cette technique et
lanalyse grammaticale normale est que dans ce cas, nous avons des informations structurales bases
sur lidentit des mots ct des informations morphologiques qui peuvent tre prsentes dans
certains patrons. Ainsi, deux types de patrons ont t utiliss :
Des patrons simples : il sagit des patrons bass uniquement sur les informations structurales
comme le patron : M1 M2 M1 M2, o lon a besoin de vrifier uniquement lidentit du mot et
son emplacement dans la chane.
Des patrons hybrides : ce sont des patrons qui combinent linformation structurale la
morphologie ou mme la grammaire smantique. Linformation morphologique consiste en
lenrichissement des patrons de certains lments dont le traitement se fait non pas en
considrant leur identit mais plutt avec leur catgorie morpho-syntaxique et sa relation avec
celle dautres lments. Pour mettre au clair ce point, examinons le patron suivant : M1 M2 R1
M1 M2 R1. Dans ce patron, les lments rpts (reprsents par M) sont analyss en
considrant leur identit et leur emplacement dans la chane. Par contre, les mots reprsents par
un R (qui correspondent des remplacements) sont traits selon leurs catgories
morphologiques respectives. En gnral, il sagit de deux mots diffrents dont les catgories
sont identiques ou assez proches fonctionnellement, comme : un cardinal et un dterminant.
Sachant que lordre dapparition de ces lments dans lnonc est aussi pris en considration.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
148
Les informations smantiques sont intgres dans les patrons afin de reprsenter la zone
ddition. Par exemple, dans le patron : M1 Ed M1 llment Ed peut correspondre une rgle
dune grammaire smantique. Cette rgle peut tre : Ed Verb_wait det Moment_word (wait a
moment).
Pour limplantation du module de reconnaissance des patrons, la premire phase de notre travail a
consist tendre et gnraliser certains patrons obtenus lors de la phase danalyse thorique. Voici
quelques exemples de ce processus :
La transition interdite entre deux catgories identiques utilise comme critre pour la dtection de
lautocorrection a t gnralise toutes les catgories avec certaines exceptions comme pour les
cardinaux.
Nous avons ajout des patrons avec des zones ddition pour tous les patrons sans zone ddition
et pour lesquels nous navons pas observ un quivalent avec zone ddition. Nous avons aussi
fait lopration inverse pour les patrons observs uniquement avec des zones ddition. Par
exemple, le patron R1 M1 M2 R1M1M2 a t observ uniquement sans zone ddition mais.
Ainsi, nous avons ajout la version avec une zone ddition : R1M1M2 Ed R1M1M2 a
lensemble de nos patrons.
Nous avons tendu certains patrons analogiquement. Par exemple, le patron M1M2M3M4
M2M1M3M4 (qui correspond une autocorrection par inversion) a t gnralis
lautocorrection avec rptition de trois mots et cinq mots.
Ainsi, nous avons augment le nombre de nos patrons denviron 22,9% et nous avons obtenu ainsi un
nombre total de 61 patrons (sans considrer les variations de la zone ddition).
Nous avons implant les patrons obtenus avec un mcanisme gnral de parcours descendants (que
nous allons prsenter de manire dtaille plus loin). Aprs avoir implant ces patrons, nous tions
devant le problme de choisir lequel des patrons activer selon les contextes afin dviter les
surgnrations.
1.2.2.1.4 Le contrle de lapplication des patrons
Certains de ces problmes sont automatiquement rsolus grce aux proprits internes des patrons
alors que certains dautres ont ncessit limplantation dalgorithmes spcifiques ou ladoption dune
stratgie danalyse particulire. Les principaux moyens de rduction de surgnration sont prsents
dans les points suivants :
1. Les contraintes internes des patrons : le principe de base qui contrle lintervention dun
patron quelconque dans le traitement dune extragrammaticalit est ses propres contraintes.
Pour mettre au clair ce principe, prenons lexemple dune rptition simple dun seul mot :
yeah yeah (99)
Pour traiter cette rptition, le systme cherche dabord le patron correspondant parmi tous les
patrons possibles. Cette recherche se fait selon les deux tapes suivantes :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

149
i. Elimination des patrons dont la taille nest pas correspondante : cette limination se
fait essentiellement sur la base de la taille de la fentre correspondant au patron. Par
exemple, les patrons M1EM1 ou M1M2M3 M1M2M3 sont automatiquement limins
puisquils ncessitent des extragrammaticalits dont ltendue en terme de mots est plus
grande que le segment en cours danalyse.
ii. Vrification du patron dont la taille est correspondante : la deuxime tape consiste
vrifier si les contraintes du patron dont la taille est correspondante sont satisfaites dans le
segment en cours danalyse : si oui, alors le patron en question est associ ce segment.
Sinon, ce segment est considr comme un segment grammatical.
2. Lordonnancement des patrons : lorsque les contraintes de plusieurs patrons peuvent tre
satisfaites par le mme segment alors on parle de conflit de patrons. Le conflit existe souvent
entre des patrons de rptition et des patrons dautocorrection. Prenons lexemple suivant :
I want I want (100)
Deux patrons sont applicables pour le traitement de ce phnomne :
M1 R1 M1 R1 (Autocorrection)
M1 M2 M1 M2 (Rptition)
Pour rsoudre lambigut, le systme procde de manire dterministe, cest--dire, il prend la
premire solution satisfaisante et se dsintresse du reste. Malgr ses avantages en terme de
rapidit et simplicit de traitement, cette approche peut conduire lerreur si les solutions ne
sont pas bien ordonnes. Ainsi, dans notre exemple, si le systme examine le patron de
lautocorrection dabord, il dcidera que le segment en cours danalyse est une autocorrection
puisque dune part, les deux premiers mots de chaque ct de lextragrammaticalit (les deux I)
sont identiques et dautre part, les deux mots Want ont la mme catgorie morphologique. Dans
ce cas, le patron de rptition ne sera pas examin et le systme dcidera incorrectement quil
sagit dune autocorrection. Pour viter ce problme, nous avons ordonn les patrons du plus
contraignant au moins contraignant (autrement dit du moins sur-gnratif au plus sur gnratif).
Ainsi, dans notre exemple, nous avons plac le patron de rptition avant le patron
dautocorrection ce qui permet dviter la surgnration dans les deux sens puisque les patrons
de rptition nacceptent pas lautocorrection et par consquent le systme est oblig de vrifier
le patron dautocorrection et donne lanalyse correcte.
3. Les patrons de contrle : comme nous avons vu dans notre tude thorique, dans certains cas,
des expressions linguistiques particulires comme to go to, as soon as ainsi que certains
phnomnes comme le comptage one two, three, ont la forme dune extragrammaticalit et
exigent un traitement particulier afin quils ne soient pas corrigs par erreur. Ainsi, nous avons
recens dans notre corpus dapprentissage 16 formes de surgnration qui ont t reprsente
avec des patrons et des rgles de contrle qui ont t privilgi dans lordonnance afin
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
150
dempcher le systme de reconnatre les segments qui satisfont leurs contraintes comme
extragrammaticaux.
4. La double passe : il sagit dune solution que nous avons propose pour le traitement des
extragrammaticalits imbriques. Les dtails de cette solution seront prsents plus loin dans le
paragraphe ddi au traitement des extragrammaticalits imbriques.
1.2.2.1.5 Prsentation formelle de lalgorithme de reconnaissance des patrons
Pour prsenter lalgorithme de reconnaissance de patrons, nous avons adopt le cadre de lanalyse
dductive (parsing as deduction) prsent par (Shieber et al., 1995). Ladoption de ce cadre est
justifie par plusieurs raisons :
1. Il sagit dun cadre gnral qui permet de reprsenter des algorithmes de types varis. En effet,
ce cadre a t choisi pour la prsentation de diffrents algorithmes de types divers (voir (Shabes
et Waters, 1995), (Lopez, 1999a), (Goodman, 1999) comme exemple de travaux qui ont adopt
ce cadre).
2. Laspect formel de ce cadre nous permet de prsenter et discuter les diffrentes proprits de
nos algorithmes.
3. Lutilisation de ce cadre pour prsenter les diffrents algorithmes danalyse grammaticale que
nous avons implant dans ce travail nous permet de les comparer et de montrer leur
complmentarit.
I. Dfinition de la grammaire utilise pour la reconnaissance des patrons : Soit G = (S, N, ,
R) o :
1. S est lensemble des non-terminaux distingus de la grammaire. Contrairement aux
grammaires classiques o il existe un seul symbole distingu dans la grammaire, notre
grammaire contient un ensemble de non-terminaux correspondant chacun un lot
autoris par la grammaire.
2. N est le vocabulaire non-terminal de la grammaire.
3. est lensemble des terminaux. Ainsi le vocabulaire V = N.
4. R est un ensemble de rgles de rcriture dont le schma est le suivant : A o A N
et V
*
.
II. La notation : soit la chane de mots analyser : W = w
1
. w
n
, lunit de base que nous allons
adopter pour la prsentation des oprations de notre algorithme a la forme suivante [, j], o
0 j n. Cette unit signifie que la phrase du langage peut tre obtenue par la sous-chane de w :
w
1
.. w
j
(w
1
et w
j
inclus) suivi par la chane de symboles . En dautres termes S
* 36
w
1
.. w
j
.

36
Le symbole
*
est utilis pour dsigner les drivations rflexives.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

151
Par ailleurs, notons que le point dans lunit de base est utilis pour sparer la partie qui a t
analyse de celle qui ne la pas t encore.
III. Lalgorithme : avant de prsenter notre algorithme, nous allons procder une formalisation
des patrons que nous avons utiliss. En effet, la dfinition formelle des patrons est base sur
lide de symtrie entre les deux segments rpts. Ainsi nous avons distingu entre trois
schma de partons :
1. Les rptitions simples : la dfinition des rptitions simples est base sur la symtrie
des lments impliqus dans une rptition ainsi que leur identit. Soit le prdicat
unifiy(Arg
1
, Arg
2
), qui est vrai si et seulement si Arg
1
sunifie avec Arg
2
et soit la chane
de mots W = w
1
w
n,
une sous-chane de W : W
R
= w
i
.. w
j
(o 1 i < n et 1 < j n) est
juge comme tant une rptition si et seulement si w
x
o i X < (j-i)-1 alors unif(w
x
, w
( j-i + 1) /2 +x
).
2. Les rptitions avec zone ddition : comme la symtrie totale entre les lments dune
rptition avec zone ddition nest plus existante ( cause de la zone ddition qui
apparat au milieu de la rptition), nous allons procder dune manire lgrement
diffrente pour dfinir ces phnomnes. Ainsi, si nous prenons une sous-chane de W,
W
RE
= w
i
.. w
j
e
1
e
n
w
i
.. w
j
cette sous-chane est considre comme une rptition avec
une zone ddition si et seulement si w
x
o i X < j, alors unif(w
x
, w
x
) Ed
37
e
1

e
n
.
3. Les auto-corrections : la diffrence principale entre les patrons des auto-corrections est
que tous les mots ne sont pas identiques : certains mots sont rpts alors que certains
dautres sont remplacs (en gnral il sagit dun seul mot). Voici les dfinitions des
prdicats et units ncessaires pour la prsentation des rgles dinfrence pour le
traitement des auto-corrections :
Soit le prdicat, replace(C
1
, C
2
) qui est vrai si la catgorie morphologique C
2
est accepte
comme une catgorie qui peut remplacer C
1
(les valeurs de C
1
et C
2
sont stockes dans le
systmes sur la base des observations des auto-corrections dans le corpus),
Soit une sous-chane de W, w
ac
= w
i
.. w
j
(o 1 i < n et 1 < j n) et
Soit le prdicat location(C
wx
, x) qui est vrai si et seulement si x (i x j) correspond la
position du mot w
x
dont la catgorie morphologique est C
wx
dans la sous-chane w
ac
. La
valeur de x est prdfinie sur la base des observations des auto-corrections dans le corpus.
Par exemple, dans le patron : M3R1 M3R1, le prdicat location(R1, 4) permet de
prciser la location de llment remplac partir du premier mot du patron.

37
ED est un non-terminal qui couvre une zone ddition acceptable par la grammaire.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
152
Ainsi, w
ac
est considre comme une auto-correction si et seulement si w
x
tel que location(C
wx
,
x) alors replace(w
x
, w
( j-i + 1) /2 +x
) et w
y
o y x et i X < (j-i)-1 alors unify(w
x
, w
( j-i + 1) /2 +x
).
Pour des raisons de concision, nous allons donner lalgorithme avec les schmas des patrons
seulement (nous nallons pas numrer tous les patrons que nous avons utiliss). Ainsi,
lalgorithme danalyse a la forme suivante :

Axiome : [ s
x
, 0]
Objectif : [, n]
Scan :













Prdiction :



Figure 65. Lalgorithme de reconnaissance de patrons
Comme tout algorithme descendant, notre reconnaisseur de patron commence en mettant
lhypothse que lentre en cours danalyse peut-tre analyse par lun des non-terminaux
distingus de la grammaire. Ainsi, il suppose llment [ s
x
, 0] (qui signifie que lnonc peut
tre analys avec s
x
S) et essaie de prouver [, n] (qui veut dire que tous les lments de
lentre ont t analyss avec s
x
). Ensuite, lalgorithme applique les patrons de manire
[ B,j]
[ ,j]
[ w
j+1
,j]
[ , j+1]
[ w
i+1
.. w
j
e
1
e
n
w
i
.. w
j
,i]
[ , j]
[ w
i+1
...w
j
,i]
[ , j]
w
x
o i+1 x < (j-(i+1))-1 alors
unify(w
x
, w
( j-i) /2 +x
)
w
x
o i+1 x < j, alors
unify(w
x
, w
x
) Ed e
1
e
n
[ w
i+1
.. w
j
,i]
[ , j+1]
( w
x
tel que location(C
wx
, x) alors
replace(w
x
, w
( j-i + 1) /2 +x
) )

( w
y
o (y x) (i+1 y < (j-i)-1) alors
unify(w
y
, w
( j-i ) /2 +y
) )
B
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

153
descendante en commenant par les patrons les plus restrictifs (les patrons correspondant des
rptitions) pour arriver aux patrons les moins restrictifs (les patrons des faux-dparts).
Finalement, aprs avoir tent les diffrents patrons qui peuvent sappliquer lentre, notons
que lalgorithme est capable de traiter les mots qui ne font pas partie dun patron en utilisant la
rgle suivante :



Aprs avoir utilis cette rgle, si la totalit des mots de lnonc nont pas t consomms,
lalgorithme commence un nouveau cycle jusqu' la fin de lentre. Notons, que si un s
x
est
compltement satisfait et si lentre nest pas compltement analyse, lalgorithme tente de
nouveaux s
x
(les s
x
sont classs selon leur priorit). Finalement, il nest probablement pas inutile
de mentionner que chaque sous-groupe de patron correspond un seul s
x.
Cela vite de parcourir
tous les patrons chaque mission dune hypothse.
4. Discussion de lalgorithme : la complexit de lalgorithme est quivalente au nombre des
variables libres dans la rgles la plus complexe, cest--dire que la complexit est quivalente au
patron le plus long O(n
8
). Cette complexit peut tre rduite O(n
(x/2)+1
) o x est le nombre des
mots du patron le plus long. Cette rduction peut tre faite en utilisant des techniques tabulaires
qui prennent une fentre de (x/2)+1 mots : compare le premier mot de cette sous-chane avec
son avant-dernier et puis avance dun mot et rpter la mme procdure jusqu la couverture de
la totalit des mots impliqus dans lextragrammaticalit.
Cette technique malgr son intrt thoriquement nest pas ncessaire pour amliorer la
performance pratique de lalgorithme. En effet, lalgorithme de reconnaissance de patrons a des
performances proches du temps rels et ne ncessite pas une amlioration majeure. Cette
performance est justifie par les raisons suivantes :
i. Le nombre des patrons utiliss dans lapplication est assez limit. En effet, comme nous
avons vu, le nombre total des patrons utiliss (avec les ajouts que nous avons effectus)
est 61 patrons. Cela rduit considrablement lespace de recherche de lalgorithme et
consquent augmente sa rapidit.
ii. Nous avons organis les patrons de manire viter de parcourir tous les patrons
chaque mission.
iii. Comme montr dans (Abney, 1995), lapplication de plusieurs passes dans lanalyse
contribue augmenter la rapidit du traitement tant donn que la complexit due
linteraction des niveaux danalyse (dans notre cas les patrons locaux et les patrons
globaux) est rduite.
[ w
j+1
, j]
[ , j+1]
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
154
2.1.1.66 Ltiquetage syntaxique par Rseaux de Transition Rcursifs RTRs
1.2.2.1.6 La tche du module dtiquetage syntaxique
Deux tapes spares sont ncessaires pour le traitement de ces phnomnes : la dtection et la
dlimitation. A son tour, la dtection est base sur deux facteurs :
a- Localisation du centre du faux-dpart ou de lincompltude.
b- Dlimitation de ltendue de lextragrammaticalit localise en dtectant ses frontires. Cette
dlimitation ncessite non seulement la dtection du segment extragrammatical mais aussi la
prcision de tous les segments qui dpendent de lui ou des quels il dpend. La fonction
principale de cette prcision tant la dlimitation de la zone corriger. Prenons lnonc
suivant :
We need a shorter route fromwe need to um manage to get the bananas to Dansville more quickly
<sil> um (Utt42, d93-14.3) (101)
Nous remarquons que dans lnonc prcdent, bien que le constituant prpositionnel from est
le seul tre incomplet (puisquil ncessite dtre suivi par un syntagme nominal ou un pronom
objet qui ne sont pas prsents), il nous faut dlimiter tous les segments qui sont directement lis
lui. En gnral, il faut marquer le prdicat syntaxique dont dpend le constituant incomplet
aussi bien que tous les autres constituants qui dpendent de ce prdicat. Ainsi, dans notre
exemple, il faut marquer le prdicat verbal need ainsi que les deux constituants qui dpendent
de lui we et a shorter route ainsi que le constituant incomplet from. Dans certains cas,
notamment lorsque le faux-dpart est situ au milieu de lnonc, la tche de dlimitation des
constituants qui dpendent du prdicat dominant le segment mal form savre plus difficile.
Cela ncessite la combinaison des sources dinformations syntaxiques et supra-syntaxiques pour
dlimiter ses frontires de dbut et de fin.
1.2.2.1.7 Les Rseaux de Transition Rcursifs RTRs
Les RTRs sont une version tendue des FSA (voir (Woods, 1970) pour une prsentation de ce
dispositif). Tout comme les FSAs (Finite State Machines), ils sont composs dune srie dtats et de
transitions. Il sagit dun graphe tiquet dont chaque tiquette correspond une catgorie (lexicale,
syntaxique ou conceptuelle) la transition dun tat un autre est subordonne par la russite de
lunification entre dune part ltiquette de larc et dautre part le mot ou (le sous rseau) courant.
Ainsi, un tat dans un RTR consiste en quatre lments :
1. Le nud/rseau : cet lment fournit de linformation sur la location du traitement.
2. Le reste de la phrase : indique la partie de la phrase qui nest pas encore analyse.
3. Les nuds en attente : les nuds dans le rseau en cours qui ne sont pas encore traverss.
4. Lanalyse : il sagit de lanalyse associe la partie traite de la phrase dentre.
Trois actions sont possibles lorsque lanalyseur est dans un tat particulier selon la nature de cet tat :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

155
1. Ltiquette est une catgorie syntagmatique (sous -rseau) : mettre le nud en cours dans la
pile dattente et crer un nouveau constituant pour une nouvelle catgorie.
2. Ltiquette est une catgorie lexicale : vrifie lidentit de ce mot et ajouter ce mot ainsi que
sa catgorie au constituant en cours.
3. Le constituent est complet : prendre le nud en attente de la pile et intgrer le constituent en
cours dans un constituent de niveau suprieur.
De manire plus formelle, une chane S compose dun ensemble de sous-chanes s
1
.. s
k
tel que S = s
1

.. s
k
cette chane est reconnue en tant que X par un rseau N si et seulement si :
4. X est ltiquette dun tat initial x et dun tat final y (o x et y correspondent
respectivement 1 et k) et
5. Il existe un chemin (une chane dtiquettes) l
1
l
k
accept par N (vu comme un rseau de
transition non-rcursif) et avec x comme tat initial et
6. Pour chaque s
i
(o k i 1) soit s
i
= l
i
(dans ce cas s
i
correspond un mot) ou s
i
est
reconnu comme un sous-rseau l
i
.
Ainsi, contrairement aux grammaires syntagmatiques qui consistent en sries linaires de symboles,
les RTRs constituent un treillis de symboles. Afin de rendre compte des composantes du treillis de
symboles cre par un RTR, nous avons adopt la notation suivante :
Notation Type darc
?
SR
Dbut de la Squence dune Rgle
?
1
SR
Fin de la Squence dune Rgle
?
RA
Dbut des alternatives une rgle
?
-1
RA
Fin des alternatives une rgle
?
TAV
Transition avant vide
?
TArV
Transition arrire vide
Tableau 10. Les tiquettes adoptes pour lannotation des RTRs
Voici un exemple dun rseau de transition prsent avec la notation que nous avons adopte :






t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
156




N :



Figure 66. Exemple dun rseau de transition rcursif
Ce rseau permet de reconnatre des chanes comme : a c (la transition avant vide permet de ne pas
considrer b), a b c, a b b c (la transition arrire vide permet daccepter un nombre infini de b), a b b b
c, etc.
Bien quils soient quivalents aux CFGs, les RTRs prsentent plusieurs avantages par rapport elles :
1. Les RTRs sont plus compacts et plus efficaces que les rgles syntagmatiques classiques. En
effet, un RTR peut couvrir plusieurs rgles. Pour mettre au clair cette ide examinons la petite
grammaire suivante au format DCG
38
(pour la clart de lexpos, nous avons omis les rgles
dont la partie droite est un terminal) :














38
Definite Clause Grammar.
? SR a
?
1
SR
? alt

?
TAV

?
1
alt
? SR b
c
?
1
SR
?
TArV

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

157

sv --> v, sn.
sv --> v, sn, sp.
sn --> det, n.
sp --> prep, sn.

Sv :


Sn :

Sp :

Figure 67. Une mini-grammaire CFG et les RTRs correspondants
La premire remarque que nous pouvons faire propos de cette mini-grammaire et les RTRs
quivalents est que les rgles correspondantes au Sv sont contractes au sein dun seul rseau.
Outre lavantage de cette concision de reprsentation, le traitement avec un RTR est plus
efficace quavec la grammaire syntagmatique. Supposons que nous voulons analyser lnonc :
the dog chased the cat near the elephant. Avec un algorithme descendant qui utilise la
grammaire syntagmatique, tout dabord le systme essaye la premire rgle dans la partie
gauche est (V Sn) et comme la totalit de lnonc nest pas encore analyse, il essaye la
deuxime alternative de Sv qui comprend un Sp aussi. Le problme est quavec la deuxime
tentative, le systme doit recommencer nouveau lanalyse du verbe et du sn qui ont t
correctement analyss la premire fois. Comme les deux alternatives du Sv sont codes avec un
seul rseau, les deux lments communs aux deux rgles de Sv sont gardes lorsque le systme
essaye de vrifier les lments non-partags entre ces deux formes. Cette proprit rend les
RTRs comparables aux algorithmes tabulaires (qui conservent un historique des analyses
partielles). Cependant, une diffrence notable entre les RTRs et les algorithmes tabulaires
mrite dtre cite. En effet, les tables danalyse dans les algorithmes tabulaires sont cre en-
ligne (au cours de lanalyse) alors que dans les RTRs, le graphe correspondant la grammaire
est cre hors-ligne lors de la compilation de la grammaire.
2. La possibilit dexprimer des rptitions infinies : il est assez facile dexprimer la rptition
infinie dun lment quelconque dans la grammaire. Cette proprit est particulirement utile
? SR V SN SP ?
1
SR
? SR Det N ?
1
SR
? SR Prep Sn ?
1
SR
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
158
pour limplantation de la stratgie slective aussi bien que la division de la grammaire en sous-
grammaires selon le domaine (nous allons voir ces deux aspects avec plus de dtails plus loin).
Les RTRs ont t un paradigme trs populaire dans les annes soixante-dix et quatre-vingt pour des
tches danalyse syntaxique. Ils ont t rcemment utiliss pour limplantation de grammaires
smantiques pour le traitement de dialogues oraux (voir entre autres (Ward, 1991), (Mayfield, et al.,
1995), (Gavald, 2000)).
Ainsi, nous avons utilis des rseaux qui reprsentent les principales zones observes dans notre tude
thorique. Pour augmenter lefficacit de traitement, les RTRs ont t quips dun filtre lexical qui
permet dtablir une premire vrification de la validit de lhypothse mise selon le mode
descendant avec le segment de lnonc en cours de lanalyse. Par ailleurs, les RTRs utiliss ont t
enrichis par une stratgie slective qui permet au systme de dtecter les zones quil peut analyser et
dignorer le reste. Cette stratgie est similaire celle utilise dans le systme OASIS que nous allons
prsenter dans le deuxime chapitre de cette partie o les diffrentes proprits de cette stratgie
slective seront prsentes en dtail.
1.2.2.1.8 Prsentation formelle de la version des RTRs que nous avons implante
1. Notation et prdicats de base : soit la chane de mots analyser : W = w
1
. w
n
, lunit de
base que nous allons adopter pour la prsentation des oprations de notre algorithme a la forme
suivante [N, C, j], o 0 j n. Cette unit signifie, que pour traverser le rseau N , il faut
traverser le nud tiquet par la catgorie C et qui commence ltat j. Notons que (qui est
une chane de symboles) reprsente la partie de lnonc qui na pas encore t consomme par
le rseau N. Cette partie est implante sous forme dune pile dont on consomme des mots
incrmentalement avec le progrs de lanalyse. Par ailleurs, notons que le point () dans lunit
de base est utilis pour sparer la partie qui a t analyse de celle qui ne la pas t encore.
Voici les prdicats que nous avons utiliss dans notre prsentation des RTRs :
Le prdicat coin_gauche(N, W) qui est vrai si et seulement si le premier mot de W (ou son
coin gauche) w
1
fait partie des mots avec lesquels N peut commencer. Notons, que cette
information est obtenue partir dune table cre automatiquement lors de la compilation
de la grammaire et qui contient la liste des mots partir desquels un rseau peut
commencer.
Le prdicat lex(C, M) est vrai si et seulement si C est dfinie dans le lexique du systme
comme tant la catgorie grammaticale du mot M.
Le prdicat arc(a, b, L, N) est vrai si et seulement sil existe dans le graphe du rseau N
un chemin qui commence par ltat a et qui se termine par ltat b.
Le prdicat initial(N, x) qui est vrai si et seulement si x est ltat initial du rseau N.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

159
Le prdicat final(N, y) est vrai si et seulement si y est ltat final du rseau N. Notons que
y x.
Finalement le prdicat traverse(C, w
j+1
,, j) est vrai si et seulemen si : ( lex(C, w
j+1
) )
( initial(C, x)
coin_gauche(C, W)
recognize(C, x, w
j+1
, ) )

2. Lalgorithme : voici une prsentation dune version simplifie des RTRs que nous avons
utiliss dans Corrector
39
:
Axiome : [N, W, 0] initial(N, 0)
Objectif : [N, , n] final(N, n)

recognize


Figure 68. Prsentation formelle des RTRs que nous avons utiliss
Laxiome de lalgorithme veut-dire que le rseau N dont les arcs commencent ltat 0 et se
termine ltat n 0 permet danalyser la chane de mots W.
La formule de lobjectif (ou la clause darrt) veut-dire que le rseau N est considr comme
satisfait si tous les mots de lentre sont consomms par ce rseau (la pile des mots analyser
est vide) et si le rseau arrive son tat final. Finalement, lopration recognize permet de passer
dun tat un autre, sil existe dans le graphe de N un arc qui lit ces deux tats et si llment en
cours danalyse peut satisfaire le prdicat traverse : il doit tre analys soit comme un item
lexical soit comme un sous-rseau.
3. Discussion de lalgorithme :
a. Laspect dterministe : laspect dterministe consiste encoder dans la grammaire un
ensemble de prfrences pour la rsolution des conflits entre les rgles de la grammaire
(qui sont causs gnralement par les ambiguts). Diffrents algorithmes dterministes
ont t implants pour des applications danalyse grammaticale (Hindle, 1983), (Sabah et
Rady, 1983), (Briscoe, 1987). Ainsi, dans nos grammaires deux principes gnraux ont
t respects afin de rsoudre les ambiguts :

39
Pour la claret de lexpos, nous avons omis lopration de traverse spciale pour les arcs faculatatifs dans le
rseau.
[N, w
j+1
, j]
[N, ,l]

arc(j, l, L, N)
traverse(L, w
j
,1)
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
160
i- Evitement du conflit entre les rgles : cela est fait en quipant les mtargles avec
le contexte droit ncessaire la rsolution des conflits dattachement des
syntagmes.
ii- Principe de maximisation de la couverture pour la rsolution des conflits : ce
principe consiste prfrer les analyses qui couvrent plus de mots. Limplantation
de ce principe a t faite en donnant plus de priorit aux rgles incluantes quaux
rgles incluses
40
.
b. Le temps de calcul avec un RTR est cubique au pire des cas. Cependant, selon la
grammaire utilise, ce pire des cas peut ne pas tre observ (En gnral si la grammaire
ne contient pas de rgles dauto-enchssement, le temps de calcul est linaire par rapport
la longueur de lnonc). Ainsi, nous allons effectuer une analyse des temps de calcul
de nos deux implantions avec les RTRs (dans le systme Corrector et dans le systme
Oasis) afin de savoir la performance relle de lalgorithme et la frquence avec laquelle
les pires des cas sont observs.
2.1.1.67 Rsolution de problmes particuliers
1.2.2.1.9 Modlisation de la zone ddition
Comme nous avons vu, la zone ddition joue un rle particulier dans le traitement. En ce qui
concerne les mots neutres (qui ne font pas partie de lextragrammaticalit) qui apparaissent dans la
phase ddition, nous avons remarqu que ces mots jouent un rle dans le traitement selon deux
considrations :
1. Le nombre : le problme ici est que plus le nombre des mots neutres est lev, plus on risque
davoir des problmes de surgnration. Pour viter ce problme, nous avons dcid de ne pas
accepter les patrons dont le nombre de mots neutres dpassent deux.
2. Le sens : selon notre observation du corpus, le sens des mots neutres joue, lui aussi, un rle
crucial dans la reconnaissance des patrons. Lexemple le plus reprsentatif est celui des cas
dnumration (Two engines and two boxcars) quon traite (incorrectement) avec des patrons
comme (M1R1 X M1R1). Pour rsoudre ce problme nous avons dcid dintgrer des
informations smantiques au sein de certains patrons, qui contiennent des mots neutres, sous
forme de segments conceptuels. Par exemple, le patron prcit sera contrl par le patron
(M1M2 Concept_numration M1M2). Cette modification permet au systme de reconnatre et
viter (de faon trs simple) les fausses extragrammaticalits et de la mme faon elle permet de
reconnatre et de corriger des patrons qui contiennent des tournures comme let me see (dont la

40
Une rgle X est dite incluse dans une rgle Y si et seulemnt si tous les symboles dans la partie droite de X sont
inclus dans la partie droite de Y. Par exemple la rgle A B est incluse dans la rgle C BD. Notons que
linclusion est la traduction que nous avons propose du terme subsumption.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

161
longueur dpasse 2 mots). Lintgration des grammaires smantiques est accessible puisquelles
nexigent que des informations de bas niveau qui portent essentiellement sur la topologie des
mots.
1.2.2.1.10 Traitement des extragrammaticalits imbriques
Comme nous avons vu dans notre tude thorique, limbrication est un phnomne qui implique deux
extragrammaticalit partageant au moins un lment en commun. Diffrentes combinaisons des
extragrammaticalits sont possibles. Bien que ces diffrentes combinaisons nont pas un intrt
particulier pour le modle thorique elles ont cependant un effet direct sur le choix de la mthode pour
les traiter. Ainsi, nous distinguons entre trois formes dimbrications qui ncessitent diffrentes
techniques de traitement :
1. Imbrication de faux-dparts avec des Els : Nous avons vu que limbrication dun amalgame
au sein dune extragrammaticalit supralexicale peut empcher le systme de la reconnatre
comme dans : Ill I will o lamalgame empche lapplication du patron M1M2 M1M2. Nous
avons vu que ce problme est rsolu par lapplication de rgles de traitement simples qui
convertissent la forme damalgame en ses composantes. Par ailleurs, lhsitation peut tre une
source de problme. En effet, il nest pas rare dobserver quune hsitation vient se glisser au
sein dune composante syntaxique et par consquent empchent les rgles de la lanalyser. Cela
conduit lchec du systme reconnatre certains faux-dparts dont la dtection ncessite
lanalyse syntaxique de leurs frontires.
Could you give mewait I need uh three boxcars (102)
Dans lexemple prcdent, le systme doit analyser correctement le segment I need uh three
boxcars afin de dtecter correctement la frontire droite du faux dpart (qui par dfinition doit
tre une construction bien forme) mais lexistence de lhsitation peut lempcher de le faire.
Pour rsoudre ce problme, la mthode la plus simple consiste filtrer a priori toutes les
hsitations. Malgr son adaptation aux systmes gnralistes danalyse comme celui dcrit par
(Zechner et Waibel, 1998), cette approche ne correspond pas nos besoins. En effet, les
hsitations constituent un indice important dans la dtection des faux-dparts et leur filtrage
conduit la perte de cette ressource. Une autre solution pour le traitement de ces phnomnes
consiste intgrer ce des modles dhsitations au sein mme des rgles syntaxiques de la
grammaire. Ainsi, nous avons adopt des mta-rgles pour traiter les hsitations. Les rgles
que nous avons utilises sont assez proches de celles de (McKelvie, 1998) que nous avons
prsent dans la troisime partie de cette thse. Les proprits principales des mta-rgles que
nous avons utilises peuvent tre rsumes dans les points suivants :
i- Les mta-rgles ont t utilises pour les constituants de base, cest--dire aux rgles dont
la partie gauche correspond une catgorie morpho-syntaxique : pronpers, vpres, etc.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
162
ii- Contrairement aux rgles de McKelvie qui portent sur plusieurs phnomnes comme les
hsitations, certains marqueurs discursifs, etc., nos rgles portent seulement sur les
hsitations tant donn que le reste est trait dans le cadre des rgles des faux-dpart (la
plupart sont reprsents par la rgle de la zone ddition).
iii- Afin de prendre en considration les hsitations qui prcdent un constituant ou le suivent
(au dbut et la fin de lnonc) les rgles sont dotes de deux variables correspondant
des hsitations.
Ainsi, les rgles utilises sont du schma suivant :
cat hs* cat hs*
Dans cette rgle, cat correspond nimporte catgorie morpho-syntaxique et hs nimporte
forme dhsitation. Ltoile signifie que le signe de lhsitation est facultatif.
2. Imbrication des rptitions et des autocorrections : dans ce cas, nous avons une rptition ou
une autocorrection qui est imbriques au sein dune autre rptition ou autocorrection. Le
traitement de ces phnomnes tant fait avec des patrons cela risque de crer un conflit entre les
patrons qui peuvent tre appliqus lnonc. Afin dviter ces conflits, nous avons adopt une
stratgie double niveau :
i- Le premier niveau consiste en lapplication de micro-patrons (comme M1EM1, M1M1,
M1-M1, M1M2 M1M2, M1M2 E M1M2) qui traitent les phnomnes simples.
ii- Le deuxime niveau consiste en lapplication de tous les patrons.
Pour bien clairer notre stratgie, nous allons examiner lapplication des patrons lexemple
dimbrication prsent dans le premier chapitre de la troisime partie de cette thse.
() <sil> do I <sil> I need two <sil> do I need two <sil> engines for the (...)
M1 M2 E M22 M3 M4 E M12 M23 M32 M42

Figure 69. Un exemple dextragrammaticalits imbriques
Dans le cas dune analyse traditionnelle, le patron M1 E M1 dtecte et corrige la rptition de I
et puis de la mme faon laide du patron M1 M2 E X X M1 M2 il dtecte et corrige la
rptition de need two uniquement (le parcours de lautomate tant de gauche droite) ce qui
donne comme rsultat final : (...) <sil> do do i need two <sil> engines for the...
Par contre, avec un parcours en double passe nous pouvons corriger lnonc correctement
selon les deux tapes suivantes :
Le micro-patron M1 E M1 fait tout dabord le traitement local de la rptition de I.
Le patron M1 M2 M3 M4 E M1 M2 M3 M4 traite la rptition de do I need two.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

163
3. Imbrication dun faux-dpart avec une rptition ou une autocorrection : dans ce genre de
cas, nous avons un faux-dpart qui partage une partie avec une rptition ou une autocorrection.
Prenons lexemple suivant :
() so it must <sil> so from<sil><brth> so frommidnight to nine a.m. ()
(utt79, d93-11.2) (103)
Nous remarquons que leffet de ce phnomne est similaire limbrication de rptitions ou
dautocorrections que nous avons vues dans le point prcdent. En effet, la reconnaissance de la
partie partage entre les deux cas (dans lexemple prcdent il sagit de : so from) comme tant
une partie du premier cas empche celle de lautre cas (en loccurrence la rptition de so from).
Ainsi, nous avons dcid de faire le traitement des faux-dparts partir de la deuxime passe
des patrons pour bnficier des dlimitations locales de la premire passe.
1.2.3 Discussion de larchitecture de Corrector
La conception de larchitecture de Corrector a t faite sur la base de diffrentes considrations dont
les principales sont :
1. Considrations thoriques : comme nous avons vu dans notre analyse du Trains Corpus les
extragrammaticalits bien quelles soient indpendantes des connaissances grammaticales (qui
modlisent la comptence linguistique) ont une relation troite avec ceux-ci. Ainsi, nous avons
adopt une architecture qui la fois distingue nettement les connaissances grammaticales des
modles des extragrammaticalits tout en permettant ces sources dinformation de collaborer
troitement pour traiter les extragrammaticalits. Par exemple, les informations lexicales font
lobjet dun block indpendant mais dont la sortie fait la base du traitement par patrons qui
utilisent linformation morphologique dans le traitement. De mme, le module danalyse par
mta-rgles est indpendant du module danalyse syntaxique partielle tout en ayant une relation
privilgie avec lui.
2. Considrations logicielles : comme nous vu, laspect principal de larchitecture dun point de
vue logiciel est lexistence dune unit centrale (le gestionnaire de systme ou le hub) autour de
laquelle communiquent les diffrents modules. Lutilisation dune telle architecture a plusieurs
avantages dun point de vue logiciel :
i- Htrognit des sources dinformations : comme nous avons vu, le systme
Corrector comprend sept modules rpartis sur trois blocks qui couvrent des sources
dinformations assez htrognes : lexique, patrons, mta-rgles et rgles syntaxiques.
Ainsi, lutilisation dun gestionnaire de systme qui est indpendant de ces sources
dinformations permet dintgrer ces diffrentes sources dinformations au sein du
gestionnaire du systme qui est indpendant de ces sources.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
164
ii- Portabilit : la modularit de lapproche rend possible la rutilisation de certains
modules (y compris le gestionnaire du systme) dans diffrentes applications.
iii- Souplesse : la souplesse est une proprit importante dans tout logiciel quel que soit son
domaine ou objectif. Dans le cas de Corrector cette proprit a influenc un bon nombre
de choix (comme la localisation du systme en prtraitement par rapport un module
danalyse grammaticale). Ainsi, ladoption dune architecture base de Hub rend
lintgration de Corrector au sein dun systme plus large une tche relativement facile.
En effet, tout ce dont nous avons besoin pour ce faire, est de lier le gestionnaire de
Corrector au nouveau systme.
1.3 Implantation du systme
La partie majeure de notre systme est crite en PROLOG. Le systme est compos de 7 fichiers qui
correspondent un ou plusieurs modules selon les besoins de limplantation.
Fichier Langage Auteur N.B. Lignes
Main cor double PROLOG M.Z.K 390
Script tagging Perl J. Rouillard 653
Prtraitement PROLOG M.Z.K. 283
Post-tag PROLOG M.Z.K. 314
Premire passe PROLOG M.Z.K. 1122
Deuxime passe PROLOG M.Z.K. 6330
Tree drawer PROLOG M.Z.K. 534
Code total 8953
Total cod par nous PROLOG M.Z.K. 8583
Figure 70. Prsentation gnrale du code
1.4 Exemples de traitement
Nous allons donner deux exemples de traitement de cas contenant diffrents types
dextragrammaticalits :
1.4.1 Premier exemple
Five a.m. okay is it faster for those for that engine to drop off those two those two boxcars travel back to
Dansville than um to have engine three. (104)
Le prtraitement : le module de prtraitement est destin la normalisation des amalgames
ainsi que les mots oraux. Comme dans cet nonc il nexiste pas des mots de ce genre, alors ce
module rend lnonc tel quil est, sans effectuer de normalisations.
Lanalyse morphologique : la sortie du tagger de Xerox est la suivante :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

165


five +CARD
a.m. +ADV
Ok +ADV
Is +VBPRES
it +PRONPERS
faster +ADVCMP
for +PREP
those +PRON
for +PREP
that +DET
engine +NOUN
to +INFTO
drop +VINF
off +PREP
those +DET
two +CARD
those +DET
two +CARD
boxcars +NOUN
travel +NOUN
back +ADV
to +PREP
Corning +PARTPRES
than +COTHAN
um +guessed+ADJ
to +INFTO
have +VHINF
engine +NOUN
three +CARD
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
166
Post-tagging : lnonc tagg constitue lentre du module suivant de post-tagging. Ce module
normalise le format de la sortie (par exemple en convertissant les majuscules en minuscules, ..).
De mme, il corrige lerreur de tagging du mot Corning (qui est dans notre contexte un nom
propre pas un participe) ainsi que la catgorie associe lhsitation um considre par le tagger
comme un mot inconnu.
Reconnaissance locale de patrons : la premire passe traite les deux extragrammaticalits
locales et fournit en sortie : Five a.m. okay is it faster for that engine to drop off those two
boxcars travel back to Dansville than um to have engine three. Lautocorrection for that for
those est trait avec le patron M1R1 M1R1 (avec R1 et R1 deux mots qui ont la mme
catgorie) et le rptition those two those two est corrig avec le patron M1M2 M1M2. La sortie
de ce module, ne contenant pas dextragrammaticalits de niveau suprieur, le systme produit
en sortie lnonc en signalant la rptition et lhsitation um.
1.4.2 Deuxime exemple
Because I have to mmmaybe maybeIll try taking um taking taking one boxcar that would be
sufficient (105)
Le prtraitement : ce module dtecte et normalise lamalgame Ill en la remplaant par sa
forme standard : I will.
Lanalyse morphologique : le tagger de Xerox fournit lanalyse suivante de lnonc prtrait :

because +COSUB
I +PRONPERS
have +VHPRES
to +INFTO
mm +MEAS
maybe +ADV
maybe +ADV
I +PRONPERS
will
+VAUX
try +VINF
taking +PARTPRES
um +guessed+ADJ
taking +PARTPRES
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

167
taking +NOUNING
one +CARDONE
boxcar +NOUN
that +PRON
would +VAUX
be +VBINF
sufficient +ADJ

Post-tagging : le seul traitement effectu par ce module est le remplacement de ltiquette
associe lhsitation mm et um par ltiquette hsitation.
Reconnaissance locale de patrons : ce module traite la rptition du mot maybe et taking
sparment. Ceci est fait respectivement laide des patrons M1M1et M1 Ed M1. Ainsi, ce
module fournit la sortie suivante : Because I have to mm maybe Ill try taking taking one boxcar
would be sufficient.
Mta-rgles : essaie dabord les diffrentes rgles de dtection des faux dparts et
dincompltude. Il dtecte et dlimite le faux dpart avec lune de ces rgles :
faux_dep_segment_vpres_infto frontire_dbut chunk_inc_segment_vpres_infto dition
phrase_dc_inter.
Cette rgle signifie que si un segment verbal qui se termine par to et prcd dune marque de
dbut (sil est au dbut de lnonc ou sil est prcd dun marquer comme lhsitation) et suivi
par une zone ddition (hsitation ou nimporte quel autre marquer) et puis suivi par une phrase
affirmative ou interrogative alors ce segment est incomplet et le cas est jug un faux dpart.
Aprs lexamen du reste des rgles et des patrons de la deuxime passe le systme fournit
comme sortie lnonc dont le faux dpart est marqu (avec une dlimitation des diffrentes
zones) ainsi que lhsitation uh.
1.5 Evaluation et rsultats
1.5.1 Evaluation du temps de calcul de lalgorithme utilis
Pour valuer le temps de calcul de notre algorithme, nous avons choisi un corpus de 601 noncs que
nous avons extraits de diffrents dialogues.
Le graphe suivant montre la frquence des noncs dans notre corpus compare leurs longueurs :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
168
0
20
40
60
80
100
120
140
160
180
13579
1
1
1
3
1
5
1
7
1
9
2
1
2
3
2
5
2
7
2
9
3
1
3
3
3
5
No mots
Frequence

Figure 71. Les frquences des noncs utiliss dans le test compares leurs longueurs
Comme nous pouvons le remarquer dans le graphe prcdent, les noncs avec un seul mot ont une
occurrence assez considrable compars aux autres. Il sagit globalement de connecteurs discursifs
comme oui, non, ok, etc. Nous remarquons aussi, qu partir de 20 mots, la frquence des noncs
commence baisser.
Les expriences ont t faites sur un PC Pentium III/500 Mega hertz et 196 KB de RAM. Les temps de
calculs considrs portent uniquement sur les modules de post-tagging parce que le tagger peut tre vu
comme un module externe ltiquetage proprement dite des extragrammaticalits dune part et
dautre part cela permet dviter les biais qui peuvent rsulter du lien entre le tagger et le site de Xerox
travers Internet.
Afin de donner une ide sur le comportement rel du systme nous avons dcid de montrer les
performances du systme selon deux critres diffrents :
La moyenne du temps de calcul.
Les pires des cas observs pour chaque longueur.
2.1.1.68 La moyenne des temps de calcul
Selon nos calculs, la moyenne gnrale du temps de calcul par nonc est de 7, 61 secondes. Cette
moyenne gnrale ne donnant quun indice gnral du comportement du systme, nous avons dcid
de calculer les moyennes de temps de calcul pour chaque longueur dnonc. Les rsultats de notre
tableau sont prsents dans le graphe suivant :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

169
0
5
10
15
20
25
30
35
40
45
13579
1
1
1
3
1
5
1
7
1
9
2
1
2
3
2
5
2
7
2
9
3
1
3
3
3
5
No mots
Moyenne du
temps de
calcul

Figure 72. Les moyennes des temps de calcul observs
Comme nous pouvons le remarquer dans la figure prcdente, les temps de calculs augmentent
graduellement jusqu atteindre leur sommet aux environ de 20 mots et puis ils baissent globalement
sauf dans deux cas. La raison pour laquelle laugmentation du temps de calcul nest pas systmatique
est une combinaison des facteurs longueurs et frquence. En effet, les noncs les plus courts sont trs
frquents mais vue leur longueurs ils ne permettent pas dobserver des augmentations significatives
dans les temps de calcul. Par contre, les noncs aux environs de 20 mots sont la fois assez frquents
et suffisamment longs pour que les pires des cas de la complexit de lalgorithme soient observs dans
leur cadre.
2.1.1.69 Les pires des temps de calcul observs
La considration des pires des temps observs permet de donner une ide sur le comportement de
lalgorithme dans conditions extrmes observes dans notre corpus. Le graphe correspondant au pire
des cas observs dans notre corpus dvaluation est prsent dans la figure suivante :

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
170
0
10
20
30
40
50
60
70
80
147
1
0
1
3
1
6
1
9
2
2
2
5
2
8
3
1
3
4
Longueur
Temps pires

Figure 73. Les temps de calcul obtenus sur les pires des cas observs
Le graphe des temps obtenus sur les pires des cas observs confirme notre constatation avec les
moyennes des temps. Nous remarquons que laugmentation du temps de calcul ne dpend pas de
manire systmatique de la longueur de lnonc analys. Par ailleurs, ce graphe montre que
laugmentation des moyennes dans le graphe prcdent dpend daugmentations ponctuelles dans des
cas particuliers plutt que dtre le rsultat dune tendance gnrale.
1.5.2 Evaluation du traitement des extragrammaticalits
La premire tape de notre valuation a consist en la construction du corpus de test. Il sagit de 305
noncs non utiliss pour lcriture de la grammaire. Parmi ces noncs, 255 contiennent 309
extragrammaticalits supralexicales. Les cinquante autres noncs ne contenant pas
dextragrammaticalits supralexicales ont t utiliss pour tester la surgnration du systme. Le
pourcentage des phnomnes dans les noncs correspond approximativement 30% du nombre total
des phnomnes observs dans le corpus. Ainsi, nous avons 76 cas dautocorrections, 91 cas de faux
dparts, 52 cas dincompltudes et 90 cas de rptitions. Outres les extragrammaticalits
supralexicales, notre corpus de teste contient 272 cas dextragrammaticalits lexicales.
Les rsultats de notre test sont prsents dans la figure suivante :






t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

171
Phnomne %

Dtection
Rappel 98,89
Prcision 98,17 Extragrammaticalits
lexicales
Dlimitation
Rappel 98,89
Prcision 98,17

Dtection
Rappel 96,20
Prcision 98,75
Rptitions
Dlimitation
Rappel 91,13
Prcision 90

Dtection
Rappel 77,55
Prcision 92,68
Autocorrections
Dlimitation
Rappel 71,42
Prcision 85,63

Dtection
Rappel 68,08
Prcision 78,04
Faux-dparts
Dlimitation
Rappel 53,19
Prcision 60,97

Dtection
Rappel 85,71
Prcision 80
Incompltude
Dlimitation
Rappel 71,42
Prcision 66,66

Dtection
Rappel
81,56
Prcision 88 Total extragrammaticalits
supra lexicales
41

Dlimitation
Rappel 71,79
Prcision 76,44

Dtection
Rappel 89,67
Prcision 92,76
Total

Dlimitation
Rappel 84,47
Prcision 86,61

Figure 74. Rsultats du systme Corrector sur le corpus test

41
Pour calculer les pourcentages des extragrammaticalits supralexicales ainsi que les pourcentages totaux, nous
avons additionn les pourcentages des phnomnes multiplis chacun par son nombre doccurrences dans notre
corpus de test et puis nous avons divis le tout sur le nombre total des occurrences.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
172
2.1.1.70 Analyse des rsultats
Voici une analyse des rsultats du systme Corrector organise selon les principaux phnomnes quil
couvre :
Les extragrammaticalits lexicales
Comme nous remarquons dans le tableau prcdent, les taux de reconnaissance des
extragrammaticalits lexicales sont assez levs. Cela montre que la couverture de notre grammaire
tait assez bonne dun part et dautre part, que notre approche tait bien adapte. Nous remarquons
aussi que les taux de reconnaissance et de dlimitation sont identiques puisquil nexiste pas un
problme li ltendue dune extragrammaticali lexicale.
Les rptitions
Les rptitions, comme nous le remarquons dans le tableau, ont t traites avec des taux assez levs
tant pour la dtection que pour la dlimitation. Nous pouvons remarquer aussi que la prcision est
bonne ce qui montre que notre approche pour la rduction des surgnrations a donn ses fruits.
Environ 70% des erreurs de notre systme sont causes par des zones ddition trs complexes qui
impliquent non seulement des diteurs mais aussi des mots normaux. Le reste est principalement d
des problmes de sous-gnration des patrons. Par ailleurs, quatre des cinq cas de rptitions
imbriques que nous avons observs dans notre corpus de test ont t traits correctement. Le cas non-
trait contient une erreur danalyse morphologique qui est la raison de lchec.
Les autocorrections
Comme nous pouvons le remarquer dans le tableau prcdent, le rappel des autocorrections est moins
lev que celui des rptitions alors que les taux de prcisions sont plus proches. Les principales
sources derreurs sont les suivantes :
Les erreurs danalyse morphologique (40% des erreurs).
Sous-gnration des patrons constituent 40% des erreurs. Le tiers de ces erreurs, cest--dire,
10% du total est d des cas trs compliqus. Parmi les cas difficiles nous pouvons citer les
autocorrections impliquant non pas le remplacement dun mot par un autre mais plutt le
remplacement dun mot par une unit syntaxique ou linverse comme dans lexemple suivant :
Im gonna take Im taking.
Problmes lis la zone ddition (20% des erreurs). Ces erreurs sont dues des formes de la
zone ddition non modlisables syntaxiquement ou smantiquement comme linsertion dun
verbe ou nom au sein de la zone ddition.
Nous remarquons que la prcision est assez leve. Cela montre, encore une fois, que nos tentatives de
rductions de surgnration ont donn leurs fruits. Parmi les dix cas dextragrammaticalits
imbriques deux cas seulement nont pas t correctement traits.

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

173

Les faux-dparts
Les taux de rappel et de prcision des faux-dparts sont moins levs que ceux dans les deux cas
prcdents. Ceci est d la fois la complexit de ces phnomnes et la richesse des informations
qui ont t utilises pour les traiter (par exemple on est plus dpendant de lanalyseur morphologique
que dans les autocorrections). Les raisons principales des erreurs de traitement de ces phnomnes
sont les suivantes :
i. La sous-gnration (55%).
ii. Cas trs compliqus (25%). Ces cas sont principalement dus des verbes qui peuvent tre tantt
transitifs et tantt intransitifs ainsi qu limbrication de plusieurs extragrammaticalits (plus de
deux cas).
iii. Des erreurs danalyse morphologique (20%).
Les incompltudes
Nous remarquons que les taux de dtection et dlimitation des incompltudes sont plus levs que
ceux des faux dparts. Cela est motiv par le fait que la frontire droite est par dfinition dlimite
dans les incompltudes, ce qui facilite la fois la dtection et la dlimitation de ces phnomnes.
62,5% des erreurs observes sont dues des problmes de sous-gnration de notre corpus alors que
dans 37,5% les erreurs danalyse morphologique tait la source de lerreur danalyse.
2.1.1.71 Comparaison avec le systme de Heeman
Dans ce qui suit, nous allons comparer nos rsultats ceux de Peter Heeman (Heeman, 1998). Ce
choix est motiv par les trois raisons suivantes :
Ce travail est bas aussi sur le Trains Corpus que nous avons utilis pour notre systme.
Nous couvrons pratiquement les mmes phnomnes lexception des incompltudes et des
extragrammaticalits lexicales.
A notre connaissance, les rsultats obtenus par Heeman sont les meilleurs dans la littrature
pour les tches de dtection et dlimitation combines.
Malgr tous ces facteurs rapprochants, il nest cependant pas inutile de rappeler que cette comparaison
est approximative dans la mesure o nos corpus de test ne sont pas identiques dune part et dautre
part, parce que les conditions de test en gnral et les dfinitions des phnomnes ne sont pas les
mmes.
Comme nous avons vu dans le deuxime chapitre de la deuxime partie, la typologie de Heeman
distingue trois types de phnomnes :
1. Les discontinuits (abridged repairs) : ce terme couvre les hsitations et les mots incomplets.
Les rsultats obtenus par Heeman ne sont pas comparables aux ntres parce que dune part,
nous ne considrons pas les mots incomplets dans nos tests tant donn quils ne peuvent pas
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
174
tre reproduits par les systmes de reconnaissance et dautre part, Heeman ne considre pas les
amalgames comme une forme dextragrammaticalit lexicale.
2. Les rparations (modification repairs) : le terme rparations couvre la fois les rptitions et
les autocorrections. Si nous calculons la moyenne de nos rsultats sur ces deux phnomnes
nous obtenons 86,87% de rappel pour la dtection et 95,71% de prcision pour la dtection.
Compars aux rsultats obtenus par Heeman (rappel 80,87% et 83,37% prcision) nous
remarquons que notre systme prsente un avantage denviron 6% au niveau du rappel et
environ 12% pour la prcision. Quant la dlimitation, la moyenne obtenue est 81,27% pour le
rappel et 87,81% pour la prcision. Si nous comparons ces rsultats ceux obtenus par Heeman
(77,95% pour le rappel et 80,36% pour la prcision), nous remarquons que nous avons une
amlioration denviron 3% pour le rappel et 7% pour la prcision. Ces amliorations peuvent
tre justifies par les deux points suivants :
Avantages Sur le plan du rappel (la couverture) : laugmentation de la couverture est, en
partie, due laugmentation des patrons denviron 40% que nous avons effectue en
gnrant et ajoutant analogiquement de nouveaux patrons.
Avantages en ce qui concerne la prcision : laugmentation de la prcision est due aux
diffrents aspects de notre approche visant rduire les surgnrations comme : les
patrons de contrle, lordonnance des patrons, modlisation de la zone ddition et la
double passe.
3. Les faux dparts : en ce qui concerne les faux dparts, nous avons obtenu pour la dtection un
rappel de 68,08% et une prcision de 78,04%. Cela veut-dire que nous avons ralis un
avancement denviron 20% pour le rappel et de 9% approximativement pour la prcision par
rapport aux rsultats obtenus par Heeman (48,58% de rappel et 69,21% de prcision). En ce qui
concerne la dlimitation, nous avons obtenu 53,19% de rappel et 60,97% de prcision. Ainsi,
nous avons obtenu une amlioration denviron 17% pour le rappel et 9% approximativement
pour la prcision (Heeman a obtenu 36,21% de rappel et 51,59% de prcision). Cette
amlioration est justifie la fois par la prise en considration des proprits syntaxiques des
faux dparts, en particulier la prise en considration du contexte droit qui est un facteur dcisif
pour la dtection dun bon nombre dextragrammaticalits. De plus, notre approche danalyse
partielle par segment (qui a servi de base aux mta-rgles des faux-dparts) sest montre assez
robuste mme dans les cas dextragrammaticalits.
En ce qui concerne lincompltude, nous ne pouvons pas comparer nos rsultats dautres travaux
parce que comme nous avons dit dans les chapitres prcdents, notre connaissance, ce phnomne
na pas fait explicitement lobjet dune tude ou dune implantation.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

175
1.6 Bilan du systme Corrector
Nous avons prsent dans ce chapitre notre systme Corrector qui est la ralisation pratique de notre
modle des extragrammaticalits. Comme nous avons vu, les points cls de ce systme sont les
suivants :
1. Niveau lexical : au niveau lexical, nous avons adopt une approche qui vise trois objectifs
principaux :
i. Rduction des erreurs de dtection et dlimitation dextragrammaticalits supralexicales
dues des extragrammaticalits lexicales comme dans : Ill uh I will.
ii. Minimisation des erreurs danalyse morphologique, dune part en choisissant un tagger
adapt et dautre part, en effectuant les prtraitements et les post-traitements qui
permettent de rduire les erreurs de ce tagger.
iii. Rduction des effets des erreurs danalyse morphologique : sur ce plan, nous avons utilis
des techniques qui ne ncessitent pas le recours systmatique linformation
morphologique comme la reconnaissance de patrons ou des techniques danalyse
superficielle qui tolrent certaines erreurs danalyse morphologique.
2. Le niveau des patrons : notre approche danalyse symbolique nous a permis daugmenter les
patrons observs en gnrant de nouveaux patrons de manire analogique. Comme nous avons
vu cela nous a permis davoir 40% de patrons de plus que nous avons observs. Nous avons
adopt une approche qui rduit considrablement les conflits potentiels entre les patrons.
3. Les rgles syntaxiques : nous avons adopt une approche fine qui prend en considration une
catgorisation particulire qui permet dexprimer la fois des contraintes trs fines (syntagme
nominal compos dun pronom personnel sn_pron_pers), ou des contraintes gnrales du type
SN, SV, etc. Pour rduire la sous-gnration, nous avons utilis plusieurs procdures comme les
rgles et patrons de contrle, lutilisation du contexte pour contraindre le systme dans la
considration de certains segments relativement extragrammaticaux comme tant des faux-
dparts.
4. Techniques diverses : nous avons utilis diffrentes techniques pour augmenter la couverture
au maximum tout en rduisant la sous-gnration. Parmi ces techniques nous pouvons citer :
lutilisation des grammaires smantiques pour la modlisation de certaines formes des zones
ddition et ladoption dune approche double passe pour ltiquetage des
extragrammaticalits imbriques.
Nous avons vu que notre valuation a confirm gnralement les avantages thoriques que nous avons
prsents. En effet, nous avons obtenu des rsultas meilleurs que ceux de Heeman tant pour le rappel
que pour la prcision. Lamlioration la plus importante tait dans le traitement des faux dparts. Cela
montre dune part, la pertinence de nos remarques sur les travaux de Heeman qui ont utilis des N-
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
176
grams ainsi que sur les travaux de Core qui ont eu recours des rgles syntaxiques qui ne prennent pas
en considration suffisamment de contexte pour contraindre les segments jugs extragrammaticaux.
Plus gnralement, nos rsultats ont montr que les informations syntaxiques constituent un indice
important non seulement pour la dlimitation des faux dparts mais aussi pour leurs dtections.
Le bilan des raisons derreurs de notre systme peut tre rsum dans les points suivants :
La sous-gnration est la raison principale des erreurs de notre systme.
Les erreurs danalyse morphologique constituent une source importante derreurs. Cependant,
compar au niveau gnral des rsultats, nous remarquons que notre approche a permis de
limiter leffet de ces erreurs niveau acceptable.


t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

177
2 Chapitre III.2 : Les systmes Safir et Oasis pour
lanalyse du langage oral dans le contexte de dialogues
orients par la tche
Nous allons prsenter dans ce chapitre les implantations des formalismes S-TSG et Sm-TAG. Il sagit
respectivement des systmes Safir et Oasis.
2.1 Les premiers pas : le systme SAFIR
Le systme SAFIR a t le premier pas dans notre travail sur lanalyse robuste du langage oral (il a t
ralis avant les systmes Corrector et Oasis). Bien quil sagit plus dun prototype que dun travail
compltement finalis, nous avons jug bon de le prsenter dans ce document afin de donner au
lecteur une ide sur la base et les motivations des choix que nous avons fait plus tard dans la nouvelle
version du systme baptise Oasis laquelle nous allons consacrer les chapitres suivants de cette
partie.
2.1.1 Le corpus de rservation htelire
Le systme SAFIR est construit sur le corpus de Rservation htelire qui a t collect au sein de
lquipe GEOD du laboratoire CLIPS-IMAG. La collecte de ce corpus a t faite en suivant la
mthode de la simulation dialogique (Hollard, 1997). Les dialogues obtenus portent sur des questions
sur la disponibilit, le prix, les proprits des chambres de mme que les dates darrive ou de dpart
des clients, des expressions de politesse, etc. Le corpus contient 184 dialogues qui font 166 Kb de
donnes (31376 mots). Parmi ces dialogues, 148 dialogues ont abouti une rservation russie. Les
autres reprsentaient soit une demande de rservation non satisfaite soit dautres demandes :
renseignements (sur le prix, le trajet), complment dune rservation prcdente (modification ou
annulation).
En moyenne, chaque dialogue contient 7,28 nonc de client, ce qui fait un total denviron 1339
noncs de client dans ce corpus.
Lavantage principal de ce corpus est son adaptation smantique et pragmatique puisque les noncs
produits par les sujets refltent fidlement la tche du dialogue : acte de dialogue de demande de
rservation, informations, prix, etc. Sur le plan syntaxique, la syntaxe des noncs produits est trs
proche de celle que nous avons observe dans dautres corpus de tches diffrentes. Linconvnient
principal de ce corpus est labsence presque totale des extragrammaticalits, lexception de quelques
hsitations et autres extragrammaticalits lexicales nous avons rarement observ des cas de rptition,
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
178
dautocorrection de faux-dpart ou dincompltude dans ce corpus. Un exemple dun dialogue extrait
de ce corpus est prsent dans lannexe 1.
2.1.2 Les requis du systme
Ayant affaire des dialogues oraux finaliss, les points que nous devons prendre en considration lors
du choix tant de larchitecture du systme que de la nature des composantes peuvent se rsumer
comme suit :
La limitation de la tche du dialogue : le nombre du lexique ncessaire pour le traitement de la
tche du dialogue est assez limit. Ainsi, les ambiguts lexicales que nous pouvons avoir sont
aussi trs limites.
On a de bonnes possibilits de prdictibilit dvnements tant linguistiques que pragmatiques,
tant donn que la tche du dialogue (la rservation touristique) est relativement limite.
On aura affaire un bon nombre de phnomnes dextragrammaticalit (hsitation, incompltude,
etc.) dus la spontanit de la parole.
Mme si, ce stade, nous allons travailler sur des noncs transcrits, nous devons prendre en
considration les erreurs de reconnaissance de la parole lors du choix de la stratgie.
2.1.3 Architecture du systme
Nous avons choisi dintgrer les diffrentes composantes du systme au sein dune architecture
srielle. La motivation principale du choix de cette architecture est sa modularit et sa simplicit. En
effet, une approche modulaire permet la cration de modules spcialiss pour chacune des sous-tches
de traitement et donne, par consquent, plus de souplesse pour la substitution des diffrentes
composantes du systme si lune delles savre moins adapte que les autres.
Les proprits cls de SAFIR sont les suivantes :
Lentre du systme est les transcriptions des noncs.
Un module danalyse bas sur le formalisme S-TSG.
La sortie du systme est une reprsentation smantique superficielle sous forme de schma.
Comme le montre la figure 75, larchitecture de SAFIR est compose de trois modules principaux :
2.1.1.72 Justification des choix
1. Sur le plan morphologique, nous pouvons bnficier de la limitation du lexique en stockant
toutes les formes utiles des mots pertinents pour la tche. Cela nous vite la cration dun
analyseur morphologique.
2. Pour bnficier de la limitation de la tche et viter les extragrammaticalits de loral, nous
allons procder une analyse partielle de lentre. En dautres termes, on ne va chercher dans le
message que les ralisations (des concepts) pertinentes pour la tche. Cette phase sera assure
par un ensemble darbres locaux.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

179
3. Le niveau des arbres globaux nous permet de lier les structures obtenues avec les arbres locaux.
4. Comme reprsentation smantique finale, nous avons choisi le formalisme des schmas
(Minsky, 1975). Le choix de ce formalisme est justifi par sa simplicit ainsi que la profondeur
acceptable quil permet pour lapplication gnrale vise par Safir.
Ainsi, nous avons propos une architecture en trois modules :
Le prtraitement.
Lanalyse linguistique.
Lanalyse smantique (les schmas).
Larchitecture gnrale de Safir est prsente dans la figure suivante :











Figure 75. Architecture du systme SAFIR
2.1.1.73 Le prtraitement
La fonction principale du prtraitement est de faire une srie dadaptation du format de lentre
(comme la conversion des chiffres en mots) au format de la grammaire.
2.1.1.74 Lanalyse linguistique
Ce module est bas sur une grammaire S-TSG convertie en un RTR enrichi par une stratgie slective.
Les dmarches de lcriture de la grammaire ainsi que les diffrentes proprits de la mthode
danalyse seront prsentes dans les paragraphes suivants.
2.1.3.1.1 Lcriture de la grammaire
Dans cette phase, notre dmarche tait essentiellement onomasiologique, cest--dire notre objectif
tait de chercher toutes les ralisations possibles dun concept ce qui nous permet de faire un filtrage
Enoncs
transcrits
Prtraitement
Analyse linguistique
Schmas

S-TSG
RTR
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
180
prliminaire des ralisations pertinentes pour la tche. Lanalyse du corpus a t faite selon deux
tapes :
1. Cration dune ontologie prliminaire de la tche : lobjectif de cette tape est de crer une
base des concepts cls dans la tche et de reprsenter leur relations (pour une prsentation
pratique du processus de construction des ontologies voir (Noy et Mcguiness, 2001)). Sur la
base dun sous-corpus de vingt dialogues, nous avons cre une version prliminaire de
lontologie de la tche. Au dbut de lanalyse, nous avons segment conceptuellement un
ensemble de phrases pertinentes pour la tche et appartenant 20 dialogues.
2. Etiquetage des donnes selon lontologie prliminaire : nous avons appliqu lontologie cre
au reste des dialogues. Ceci a t fait en classifiant les segments de chaque nonc selon
lontologie prliminaire et en lenrichissement de cette-dernire par de nouveaux concepts jugs
utiles pour la tche et non couverts par lontologie prliminaire. La liste finale compte 36
concepts. La transcription des noncs a t faite selon les symboles prsents dans le tableau
suivant.
Symboles utiliss Informations notes
Contexte immdiat droite
Contexte immdiat gauche
/ Contexte lointain droite
/ Contexte lointain gauche
C Contexte voisin mis par le client
H Contexte voisin mis par lhtelier
[] Segment correspondant un arbre local
Tableau 11. Symboles utiliss pour lannotation du corpus
Au cours de lannotation nous avons observ que certains concepts sont trs frquents (existent
presque toujours dans les dialogues) par exemple : formule_de_demande, salutation_ouverture, etc.
alors que certains autres sont relativement rares comme : annulation de la rservation. Par ailleurs, sur
le plan de la richesse on avait des concepts dont les ralisations sont trs nombreuses alors que les
ralisations de certains autres sont moins varies.
Finalement, sur le plan de la pertinence nous pouvons diviser nos concepts en deux parties :
1. Des concepts prototypiques, cest--dire lensemble des concepts qui sont la fois ncessaires
et valables pour le traitement de tous les dialogues comme par exemple le concept formule de
demande.
2. Des concepts qui sont pertinents pour la tche et dont la ralisation dpend du client et de lide
quil a, a priori, de lhtel comme par exemple le concept emplacement de la chambre : les
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

181
clients qui ont une ide sur lhtel, demandent parfois des chambres qui donnent sur une rue
quelconque, sur un lac, etc.
Par ailleurs, nous avons observ plusieurs cas difficiles au cours de lannotation. Par exemple, dans
certains noncs, nous avons eu des cas que nous pouvons qualifier damalgame conceptuel comme
dans : Vous reste-t-il des chambres, o nous sommes pratiquement incapables de distinguer la partie
qui concerne linterrogation de celle de la disponibilit. Pour rsoudre ce problme, nous avons cre
une classe supplmentaire qui correspond celles des deux arbres locaux non-amalgams.
2.1.3.1.2 Limplantation de la grammaire
La S-TSG a t convertie en un RTR. Les principales motivations de ce choix sont prsentes dans les
points suivants :
La S-TSG tant fortement quivalente une CFG, il est formellement possible de convertir
toute S-TSG en un RTR (qui est son tour fortement quivalent une CFG).
Facilit dimplantation du RTR et avantages en termes de visualisation des arbres sous forme de
rseaux.
Approche descendante qui permet dimplanter les prdictions bases sur la tche.
La S-TSG tant fortement quivalente une CFG, la procdure de conversion revient convertir une
CFG normale en un RTR (pour plus de dtails voir plus loin la conversion des arbres substitution en
RTRs dans le paragraphe du systme Oasis).
Les RTRs que nous avons utiliss ont deux spcificits qui les rendent plus adapts au traitement de
loral. Il sagit de lanalyse partielle et de la stratgie slective.
1. Analyse partielle : lapproche danalyse partielle consiste permettre des structures partielles
dtre considres comme des analyses correctes. Ainsi, selon cette approche, le systme essaie
tout dabord de trouver une analyse de lentre avec un rseau qui correspond un arbre global
si cela savre impossible il accepte danalyser lentre avec une srie darbres locaux spars.
Parfois le systme combine les rseaux globaux et locaux dans lanalyse du mme nonc.
2. La stratgie slective : la fonction principale de cette stratgie est de localiser les zones
pertinentes dans lentre et afin de permettre au systme de les traiter. Une telle approche a
plusieurs avantages comme nous avons vu dans la deuxime partie. En effet, elle permet de
rduire la sous-gnration de la grammaire, rduit le traitement aux seules zones pertinentes.
Nous avons test deux approches pour la localisation des zones pertinentes : la grammaire de
nettoyage et lalgorithme de dtection des frontires des arbres.
A. Grammaire de nettoyage : il sagit dun ensemble dheuristiques que nous avons
proposes pour modliser les segments que le systme est incapable danalyser. Ces
heuristiques sont classes selon l'emplacement dans le traitement des segments non
analysables et se compltent entre elles par une stratgie cooprative.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
182
i- Les heuristiques : nous avons utilis quatre heuristiques diffrentes. Voici leur
description dtaille :
a- Heuristique initiale : elle a la forme suivante :
[nimporte quel mot : d
42
] [mot_bruit : f]
Cette heuristique permet dignorer nimporte quel mot (quil soit du lexique ou
pas) condition quil figure au dbut de la chane et quil soit immdiatement
suivi dau moins un mot bruit.
b- Heuristique intermdiaire : cette heuristique a la forme suivante :
[mot_bruit : +d] [nimporte quel mot] [mot_bruit : f]
Sont considrs comme tant du bruit, tous les mots qui figurent entre, au
moins, deux mots bruits. Cette rgle permet de consommer la fois le mot non
pertinent et tous les mots bruits qui viennent avant lui et un seul mot bruit de
ceux qui peuvent venir aprs.
c- Heuristique finale : cette heuristique a la forme suivante :
[mot_bruit : +d] [nimporte quel mot] [mot_bruit : +f]
Etant donn que cette rgle est destine reconnatre les ralisations du bruit
qui figurent la fin de la chane, elle autorise en plus de la rgle prcdente la
consommation de tous les mots bruits qui figurent la fin de la chane.
d- Heuristique finale bis : le schma gnral de cette heuristique est le suivant :
[mot_bruit : +d] [nimporte quel mot]
Cette heuristique permet dignorer tous les mots bruit qui peuvent figurer avant
le mot lexique et le mot lui-mme. Elle est particulirement efficace pour
nettoyer les mots non pertinents qui figurent la fin de la chane.
ii- La stratgie cooprative : il sagit dun ensemble de rgles qui contrlent
linteraction des diffrentes heuristiques afin daugmenter leur efficacit pour le
nettoyage et rduire les conflits entre elles. Pour mettre au clair cette stratgie, nous
allons prsenter la position des diffrentes heuristiques au sein dune rgle globale
compose de deux tats (dun RTR) :

42
Les symboles ajouts la fin des segments indiquent la localisation de ces segments dans la chane dentre.
Ils ont la signification suivante : d pour dbut et f pour final. Par ailleurs, nous avons utilis une toile (*) pour
marquer un lment facultatif et le symbole (+) pour marquer les lments qui peuvent se rpter.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

183
[heuristique initial *+ : d] [heuristique intermdiaire * : +d] [rseau1 : d]
[heuristique intermdiaire* : +] [rseau 2 : f] [heuristique intermdiaire * +]
[heuristique finale 1* f] [heuristique finale2* : f].
La premire remarque quon peut faire propos de cette rgle est que tous les rseaux
de bruit sont facultatifs. Cela qui veut dire que ces rseaux nimposent pas de
contraintes qui peuvent alourdir les rgles ou les empcher de reconnatre un lment
quelles pourraient reconnatre si elles ntaient pas quipes dune stratgie slective.
Pour reprsenter laspect fonctionnel de notre stratgie cooprative, nous allons la
diviser en trois blocs :
a- Partie initiale : comme nous lavons dit, cette partie est conue pour traiter les
dbuts de chanes. Ainsi, les heuristiques de ce bloc peuvent traiter, ct de la
chane de bruit pur (qui peut tre traite soit par les rgles locales soit par les
rgles globales), des cas assez varis. En voici une prsentation gnrale
43
:
Des chanes du type : BL BL []
Ces chanes peuvent tre traites par la premire heuristique qui, grce sa
capacit de rptition, consomme tout dabord les deux premiers mots et ensuite
les deux qui restent.
BL [..] L()BL
Une telle chane peut tre traite tout dabord par la rgle initiale et ensuite par
la rgle intermdiaire.
Des chanes comme BL [] L()BL [] L
Cette chane peut tre traite par trois rgles : la rgle initiale consomme les
chanes du type BL, la rgle intermdiaire consomme les chanes du type LBL,
et finalement la chane de bruit pur sera traite par la stratgie de saut place
la tte des grammaires locales. Ici, on remarque la raison pour laquelle le
deuxime tat bruit du rseau intermdiaire ne peut pas se rpter. En fait, cela
a lavantage de donner plus de chance un autre rseau intermdiaire de
sactiver (puisque ce deuxime a besoin dau moins un mot bruit au dbut pour
pouvoir sactiver).
BL [] L(...)BL BL
h. ini h. int h. ini

43
Les mots bruits seront symboliss par B et les mots du lexique seront symboliss par L. La rptition de la
mme chane est reprsente par [..] ou mme caractre par (). Les espaces entre les sous chanes sparent les
segments qui sont traits par la mme rgle en une seule itration.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
184
A la diffrence de la chane prcdente, la chane BL, la fin, ne peut pas tre
traite par la rgle intermdiaire, ce qui implique, un retour arrire vers la rgle
initiale.
b- Partie intermdiaire : en gnral, cette partie est moins expose au bruit que
les deux autres puisquelle figure entre la ralisation de deux arbres locaux (qui
sont censes tre lies troitement) et elle est, en outre, plus limite par le fait
quon ne peut pas consommer les mots bruit qui figurent la fin ou au dbut de
la chane.
c- Partie finale : cette partie a t conue pour traiter, ct des chanes (LBL)
quon vient de voir, des chanes de deux types :
Des chanes qui se terminent avec plusieurs mots bruits. Ces chanes posent des
problmes la rgle intermdiaire dont le dernier tat (bruit) ne peut pas se
rpter pour la raison quon vient dexpliquer. Pour rsoudre ce problme, nous
avons propos lheuristique finale1 qui consomme le lexme bruit et tous les
mots bruit qui viennent avant et aprs.
Des chanes qui se terminent par un mot du lexique. Ces chanes, qui ne
peuvent pas tre traites par la rgle intermdiaire, sont traites par la rgle
finale bis.
Enfin, pour traiter les cas o deux mots du lexique se succdent dans une position non-
pertinente, nous proposons le recours des modles des ralisations les plus
frquentes des bi-mots non-pertinents, et leur intgration au sein de notre stratgie de
nettoyage.
B. Lalgorithme de dtection des frontires des arbres : cet algorithme est bas sur deux
sources dinformations :
i- Laspect descendant de lanalyseur.
ii- La frontire lexicale FL des rseaux locaux. Par FL nous entendons, le premier
lment lexical dans le rseau aprs la satisfaction des transitions. Par exemple,
lorsque le systme prdit un rseau qui correspond un arbre local, il prend la liste de
tous les FL possibles de cet arbre comme rfrence et compare tous les mots de
lentre aux lments de cette liste. Si le mot ne fait pas partie des FLs du rseau
prdit, il est immdiatement ignor et le processus est renouvel avec le reste des mots
jusqu ce quon trouve un item lexical dans lentre qui fait partie des FLs et ce
moment l on commence lanalyse. Sinon, on continue jusqu ce quon puise tous
les lments lexicaux de lentre. Trois heuristiques lgrement diffrentes sont
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

185
utilises pour la slection des zones pertinentes dun message. Voici un exemple dune
heuristique simplifie :

Pour chaque squence dentre S et un rseau prdit R
1
;
Soit FL
R1
la liste des mots;
Comparer le premier mot dans lentre w
1
aux units lexicales de FL
R1 ;

Si w
1
fait partie de de FL
R1
;
Alors commencer lanalyse ;
Sinon, ignore-le;
Rpter le processus jusqu trouver un mot w
x
qui fait partie de FL
R1
;
Si tous les mots de S ne font pas partie de FL
R1

Alors, recommencer le processus avec le deuxime arbre R
2
prdit par le systme.

Figure 76. Une version simplifie de lheuristique slective
Selon nos tests informels, cette approche sest avre trop inefficace dun point de vue calcul et donc a
t abandonn.
2.1.4 Implantation du systme
Safir a t implant en PROLOG. Le choix de PROLOG est motiv par ladaptation de ce langage au
traitement symbolique ainsi que la rapidit du dveloppement quil permet. La longueur totale du code
est de 1939 lignes.
2.1.5 Evaluation et rsultats
Pour valuer le systme, nous avons utilis des noncs 327 noncs extraits de 52 dialogues. Les
noncs retenus pour le test sont ceux qui contiennent au moins un segment qui correspond un arbre
local ou global dans notre grammaire.
Pour tester le systme nous avons choisi une mthode relativement simple qui est base sur la
distinction entre trois types derreurs : insrer, suppression ou substituer un arbre lmentaire. Le
test a t fait sur les transcriptions.
Les rsultats de notre valuation sont prsents dans le tableau suivant :


Tableau 12. Rsultat du test du systme Safir
Le taux bas des segments insrs ou substitus est d principalement au nombre relativement rduit
dambiguts dans notre corpus ainsi qu la bonne dsambigusation de la grammaire notamment
grce aux arbres globaux. Quant aux arbres supprims, nous pouvons classer les raisons principales de
ces erreurs dans deux groupes diffrents :
Insertion Substitution Suppression Total
1,7 % 1,8 % 11,4 % 14,9 %
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
186
1. Raisons en rapport avec les donnes : une bonne partie des problmes de suppression des
arbres est due la non-reprsentation de ces arbres dans notre corpus dentranement. Ces
problmes sont considrs comme secondaires dans la mesure o il faut avoir un corpus plus
large pour les viter.
2. Raisons en rapport avec lapproche adopte et ltat du systme : la majorit des cas
dchec de dpassement du bruit tait essentiellement due lincompltude de la stratgie de
nettoyage. En gnral, les grammaires de nettoyage se sont montres assez efficace au niveau
des arbres globaux alors quelles ont manifest certaines limitation au niveau des arbres
lexicaux et locaux. En effet, lune des principales limitations des grammaires de nettoyage est
lincapacit de ces grammaires nettoyer un mot non pertinent localis au sein dun arbre local.
Dans certains cas, ces rgles ont mme caus lchec de lanalyse en faisant des fausses
dlimitations.
Ce test a t complt par une srie de petits tests informels dnoncs qui contiennent des cas
difficiles non observs dans notre corpus de test formel pour avoir une ide sur le comportement
du systme dans ce genre de situations. Ces tests nous ont permis de constater, par exemple, la
non-suffisance de la stratgie slective pour le traitement de certaines formes
dextragrammaticalits comme les autocorrections qui ncessitent une considration plus fine. De
mme, le systme a manifest des incompltudes importantes dans le traitement de certains
phnomnes syntaxiques complexes comme la ngation. Par contre, les rsultats avec des noncs
qui contiennent des ellipses se sont rvles assez positives.
2.1.6 Bilan gnral du systme Safir
Voici un bilan gnral des aspects cls du systme Safir :
1. Le prtraitement : le prtraitement a une fonction trs limite au sein du systme SAFIR qui
ne dpasse pas ladaptation du format de lentre aux contraintes de lanalyseur. Une extension
possible de ce module consiste en lajout dun filtre qui supprime tous les mots qui ne font pas
partie du lexique du systme. Cela permet de rsoudre lun des principaux problmes du
systme qui est linsertion de mots inconnus au sein dun lot pertinent causant ainsi lchec du
systme analyser cet lot. Ce problme ncessite plus dinvestigations dans le futur notamment
en ce qui concerne lemplacement de ce filtre au sein de larchitecture (si nous avons besoin de
linformation : existence de mots inconnus pour un traitement quelconque) ou sil existe des
mots externes au lexique que le systme doit traiter comme des noms propres, etc.
2. Le formalisme : le formalisme utilis sest rvl bien adapt pour le traitement des noncs
avec des phnomnes frquents loral comme les ellipses et il prsente aussi lavantage
dintgrer des informations fournies par la tche, source dinformations assez fiable dans le
contexte dun systme de dialogue. Cela renforce gnralement la robustesse de lanalyse.
Cependant ce formalisme semble assez limit pour le traitement de certains phnomnes qui
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

187
ncessitent lintgration de la syntaxe de manire dclarative comme la ngation, les modifieurs
en gnral et la coordination.
3. Lalgorithme danalyse : les RTRs ainsi que la stratgie slective et lapproche danalyse
partielle semble bien adaptes la tche de lanalyse dnoncs spontans. Cependant, malgr
son adaptation globale pour le traitement, la stratgie slective sest montre parfois incapable
dignorer les zones non pertinentes dans certains cas et elle a pos des problmes de
surgnration dans dautres. Cela ncessite non le rejet de la stratgie slective comme ide
(puisque dans cet tat-l nous estimons que son apport est suprieur aux erreurs quelle cause)
mais plutt son amlioration afin de maximiser ses avantages et rduire ses inconvnients.
4. Besoin dun dispositif spcifique pour le traitement des extragrammaticalits : nos tests
informels ont confirm nos ides selon lesquelles lapproche slective toute seule nest pas
suffisante pour le traitement propre des extragrammaticalits et en particulier celles qui ont un
effet sur linterprtation smantique comme lautocorrection. Cela ncessite lintgration dun
module spcifique dans notre systme qui joue un rle similaire celui de Corrector
44
.
2.2 La solution des problmes de Safir : le systme Oasis
Aprs notre exprience encourageante avec le systme SAFIR, nous avons dcid de construire un
systme qui intgre les points positifs de Safir avec lamlioration de ses points de faiblesse. Ainsi,
nous avons dvelopp le systme Oasis. Ce nouveau systme est bas sur le formalisme Sm-TAG et il
intgre, entre autres, un module de traitement des extragrammaticalits bas sur notre travail dans le
systme Corrector.
2.2.1 Les requis du systme Oasis
Les requis du systme Oasis sont similaires ceux du systme Safir mais sen distinguent par les
points suivants :
1. Lentre du systme Oasis est la sortie dun systme de reconnaissance de la parole.
2. Etant ralis dans le cadre dun systme de traduction automatique de la parole, Oasis doit
fournir une analyse fine.
3. Le domaine de lapplication est plus large que celui de Safir.
2.2.2 Architecture du systme Oasis
Le traitement dans Oasis se fait selon trois tapes principales :
Ltiquetage.
Lanalyse syntactico-smantique et le post-traitement.

44
Nous aimerons attirer lattention du lecteur que la ralisation du systme SAFIR est antrieure celle de
CORRECTOR chronologiquement et donc ce constat tait aussi lun des principaux motifs derrire notre
investigation des extragrammaticalits et leur normalisation.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
188
Le schma gnral de larchitecture dOasis est prsent dans la figure suivante :





















Figure 77. Architecture gnrale du systme Oasis
Comme nous pouvons le constater dans la figure prcdente, le systme Oasis est bas sur la
rpartition du traitement un ensemble de modules htrognes qui communiquent travers un
module central similaire celui que nous avons utilis avec le systme Corrector.
2.1.1.75 Le gestionnaire de systme
Ce module est similaire au gestionnaire de systme que nous avons utilis dans le systme Corrector.
En effet, il sagit dune unit dont la fonction est la transmission de linformation entre les diffrents
modules. Le flux de linformation rsultant de linteraction des diffrents modules via le gestionnaire
du systme est prsent dans le tableau suivant :
Meilleure sortie
du systme de
RAP
RAP
(RAPHAEL)
Parole en
franais

Gestionnaire du systme
Traitement des
ELs
Analyse
morphologique
Reconnaissance
globale de
patrons

Reconnaissance
locale de
patrons
Module danalyse grammaticale

Sm-TAG
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

189

Tableau 13. Le flux de linformation dans le systme Oasis
Tout comme dans Corrector, le gestionnaire de systme est aussi charg de ladaptation du format de
linformation pour lentre de chaque module.


Entre Source Destination Traitement Destination
Meilleure hypothse
de reconnaissance
Raphael GS
Meilleure hypothse
de reconnaissance
GS Ttraitement lexical Traitement des
extragrammaticalits
lexicales,
normalisation de
certains mots oraux et
analyse
morphologique
GS
Enonc oral analys
morphologiquement
et dont les
phnomnes
lexicaux sont
normaliss
GS Reconnaissance
locale de patrons
Traitement des
rptitions et des
autocorrections dont
ltendue est limite
GS
Enonc dont les
rptitions et les
auto-corrections
locales sont traites
GS Reconnaissance
globale de patrons
Traitement des
rptitions et des
autocorrections dont
ltendue est large
GS
Enonc dont les
rptitions et les
autocorrections sont
traites
GS Analyse grammaticale
avec le formalisme
Sm-TAG
GS
Analyse
grammaticale de la
meilleure hypothse
de reconnaissance
GS Interface
utilisateur

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
190
2.1.1.76 Le module de reconnaissance
Lentre d'Oasis est la sortie du systme de reconnaissance RAPHAEL prpar au sein de lquipe
GEOD du laboratoire CLIPS-IMAG. RAPHAEL a t construit sur la plate-forme du systme Janus
de lISL-CMU tout dabord par Mohamed AKBAR (Akbar et Caelen, 1998) et ensuite par Dominique
Vaufreydaz (Vaufreydaz et al., 1999), (Vaufreydaz et al., 2000). Il sagit dun systme indpendant du
locuteur de vocabulaire moyen. Il est compos de deux modules principaux :
1. Un modle acoustique : il sagit dun modle markovien entran sur le corpus BREF-80. Ce
corpus contient 12 heures de parole continue de 72 locuteurs et un vocabulaire denviron 5500
variantes phontiques de 2900 mots (Lamel et al., 1991).
2. Le modle de langage: RAPHAEL utilise un modle base de classe qui permet dajouter des
noms propres facilement au vocabulaire. Ce modle a t entran sur un corpus denviron 10
gigabytes de documents texte et HTML. Ces donnes ont t collectes de lespace franais de
lInternet et ont t adaptes laide dune srie de prtraitements spcifiques aux contraintes
de modles de langages (comme la suppression des tags de HTML) (Vaufreydaz et al., 2000).
Ce modle gnral a ensuite t optimis pour la tche de rservation touristique.
Comme premire intgration, nous avons jug bon de commencer par le traitement de la meilleure
hypothse de reconnaissance de la parole. Ce choix est motiv par la simplicit de ce mode
dintgration ainsi que la bonne qualit de reconnaissance possible avec le systme RAPHAEL (cela
rduit lintrt d'utilisation de connaissances linguistiques pour lamlioration des rsultats de
reconnaissance).
2.1.1.77 Le prtraitement
Les modules de prtraitement sont destins prparer lentre de manire rendre son traitement plus
facile par les analyseurs syntaxiques et smantiques.
Deux phases principales se distinguent au sein du prtraitement : le traitement lexical et le traitement
supralexicale.
2.2.2.1.1 Le traitement lexical
Le traitement lexical se fait selon deux tapes principales :
1. Filtrage des mots inconnus
45
: lune des principales limitations de la stratgie slective que
nous avons observe dans le systme Safir est que cette stratgie est uniquement oprationnelle
entre les segments en cours danalyse mais pas au sein de chaque segment. Pour limiter leffet
de ce problme, nous avons dcid dajouter un module de filtrage qui supprime les mots
externes au lexique a priori. Cela permet de rduire les cas dchec danalyse dus des mots

45
Dans le contexte dun systme danalyse linguistique intgr avec un module de reconnaissance de la parole,
les mots inconnus sont rduits ceux qui font partie du lexique du module de reconnaissance mais pas de celui
du systme danalyse linguistique.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

191
inconnus qui sinsrent au sein dun segment pertinent et qui cause par consquent lchec de
lanalyse de ce segment.
2. Traitement des extragrammaticalits lexicales et des phnomnes lexicaux oraux : le
traitement des extragrammaticalits lexicales consiste convertir les formes orales des mots en
leur versions crites standards. Ces extragrammaticalits sont (daprs notre observation
informelle) moins frquentes en franais quen anglais amricain. En effet, les amalgames
couramment utiliss en anglais oral aux Etats-Unis ne sont pas aussi systmatiques en franais
oral. Ce que nous observons principalement ce sont des simplifications phontiques comme:
chui pour je suis ou ouais pour oui. Ces phnomnes ont t pris en considration dans la
version du systme qui est destine traiter les transcriptions en enrichissant le lexique des
formes de loral. Dans la version actuelle, qui a pour entre la sortie de RAPHAEL, nous avons
uniquement les formes standards en entre du systme et nous navons pas de problmes
particuliers cause de ces phnomnes.
2.2.2.1.2 Analyse morphologique
Nous utilisons le dictionnaire de notre systme avec un nombre restreint de rgles morphologiques
pour dsambiguser les items lexicaux. En effet, les ambiguts lexicales observes dans notre corpus
sont trs limites puisque le nombre du lexique de notre tche nest pas trs lev. Ainsi, les
confusions entre les mots ne sont pas trs frquentes. Par exemple, le mot rserve peut tre associ
deux catgories morphologiques en mme temps : verbe et nom. Le nom rserve ntant pas observ
dans notre corpus, il nest pas ajout au lexique et lambigut morphologique nest pas perue par le
systme.
Par ailleurs, les conditions de traitement peuvent crer des ambiguts artificielles qui ne sont pas
observes dans les contextes de systmes de traitement de lcrit. Par exemple, le systme de
reconnaissance peut sortir a ou correspondant la prposition ou au verbe. Pour viter ce genre de
cas, nous avons quip la grammaire dentres lexicales correspondants ces deux formes (cest--
dire, chacune de ces deux formes est associe aux deux catgories morphologiques).
2.1.1.78 Traitement des extragrammaticalits supralexicales
La partie principale du module de prtraitement que nous utilisons ici est une adaptation au franais du
module danalyse par patrons que nous avons dvelopp pour langlais. Les motivations de cette
adaptation sont les suivantes :
1. Les structures de rptitions et dautocorrections sont pratiquement les mmes dans toutes les
langues.
2. Cela nous vite de refaire le mme travail que nous avons effectu sur langlais surtout que les
corpus de dialogues oraux spontans correspondants notre tche ne sont pas trs disponibles
en franais.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
192
Ladaptation na pas t faite sur des critres purement personnels. En effet, cela a t fait en analysant
un mini corpus de 80 cas dextragrammaticalits supralexicales extraits du corpus de dialogues
spontans collects rcemment dans lquipe GEOD-CLIPS dans le cadre du projet Nespole. Les
principales modifications apportes aprs son adaptation sont rsumes dans les points suivants :
Adaptation des parties des patrons qui correspondent aux zones ddition en implantant des
rgles smantiques pour analyser des expressions comme: attendez une minute sil vous plat, ne
quittez pas, enfin, etc. Les expressions ajoutes tant la fois celles observes dans le mini
corpus franais ou des traductions que nous avons effectues des expressions anglaises
observes.
Adaptation des patrons la sortie de lanalyseur morphologique dont les tiquettes sont
diffrentes de celle du tagger de Xerox ainsi que la modification des quivalences des catgories
pour les autocorrections.
2.1.1.79 La grammaire
Deux sources dinformations ont t utilises pour crire la grammaire Sm-TAG du systme Oasis :
1. La grammaire S-TSG : vu les similarits entre le formalisme Sm-TAG et le formalisme
S-TSG que nous avons utilis dans SAFIR, la premire tape de notre travail a consist
convertir les arbres de la S-TSG en arbres Sm-TAG. Cette conversion a t faite selon
deux procdures :
i. Ladoption des arbres qui remplissent les conditions de bonne formation de la Sm-
TAG. En effet, nous avons trouv que certains arbres de la S-TSG (en particulier les
arbres globaux qui sont les moins contraints dans la Sm-TAG) correspondent tel quils
sont des arbres de la Sm-TAG.
ii. Modification des arbres S-TSG qui ne remplissent pas les conditions des arbres de la
Sm-TAG. Cela a t fait essentiellement pour convertir les arbres lexicaux en y
ajoutant un nud supplmentaire ou en changeant lun de ses non-terminaux. Par
ailleurs, nous avons effectu certaines modifications sur les arbres locaux en divisant
certains arbres de la S-TSG en deux ou au contraire en unissant deux arbres locaux
diffrents.
2. Lanalyse directe de corpus : cette analyse de corpus est faite pour complter
linformation que nous avons obtenue des rgles de la S-TSG dune part et dautre part
pour largir la couverture de notre grammaire (la grammaire S-TSG a t conue pour un
prototype lmentaire et ne couvre que les concepts simples). Le droulement de
lanalyse du corpus est similaire celui que nous avons dcrit pour la S-TSG.
Ainsi, la grammaire Sm-TAG crite contient au total 1480 arbres dont 211 arbres locaux et
globaux et 1269 arbres lexicaux.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

193
2.1.1.80 Lalgorithme danalyse
Lalgorithme que nous avons adopt pour lanalyse avec la Sm-TAG est un algorithme deux passes :
une passe pour lanalyse syntaxique et une passe pour lanalyse smantique. La raison principale de ce
choix est daugmenter la rapidit du traitement. En effet, lutilisation de plusieurs passes qui
sappliquent en cascade est une approche qui a t adopt dans diffrents travaux (Abney, 1995), (At-
Mokhtar et Chanod, 1997) pour rduire la combinatoire due linteraction des diffrents nivaux
danalyse. Par ailleurs, sur le plan linguistique, les oprations dassociation peuvent tre vues comme
un moyen pour construire un noyau syntaxique local sur la base duquel se construit une reprsentation
smantique globale avec lopration de substitution.
2.2.2.1.3 La premire passe
La premire passe consiste construire les noyaux syntaxiques locaux sur la base desquels le niveau
smantique sera construit.
1. Description gnrale de lalgorithme : lobjectif de lalgorithme de la premire passe est de
construire un premier noyau syntaxique sur la base duquel se construit le niveau smantique. Ce
noyau consiste en un ensemble darbres intermdiaires (des arbres danalyse dont la racine nest
pas le non-terminal distingu) qui ne sont pas connects aussi bien que des mots non-analyss.
Ainsi, la fonction de cette premire passe est de dtecter les arbres lexicaux auxiliaires et de les
associer aux arbres lexicaux initiaux appropris et puis deffectuer lopration de propagation
sur larbre intermdiaire obtenu. Lapproche gnrale de lalgorithme danalyse que nous avons
adopt est inspire par lalgorithme du type Early.
2. Notation : voici les lments de base que nous avons adopts dans notre prsentaiton de
lalgorithme :
La grammaire Sm-TAG : G = (, NT, I, A) (voir la deuxime partie de cette thse pour la
dfinition formelle dune grammaire Sm-TAG).
Les lettres grecques , et sont utilises pour dsigner les nuds des arbres
lmentaires. Chacun de ces nuds est associ la catgorie syntaxique qui le dcore.
Par exemple les deux lments suivants :
A
,
B
montrent que le nud est dcor par le
non-terminal A et que le nud

est dcor par le non-terminal B.
Les arbres sont reprsents avec un format inspir des rgles de rcriture des CFGs.
Ainsi, le non-terminal le plus gauche dans la rgle correspond la racine de larbre et
les terminaux correspondent aux nuds feuilles de larbre. Les parenthses sont utiliss
pour reprsenter les niveaux hirarchiques dans les arbres. Par exemple, dans la rgle
suivante
A
(
B

c
) (
D

e
) les nuds
B
et

d
sont les nuds fils la racine de
larbre :
A
. Ainsi, larbre correspondant cette rgle a la forme suivante :

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
194

A

B D

A
(
B

c
) (
D

e
)
c e
Figure 78. Un arbre danalyse et son quivalence selon le format que nous avons propos
Finalement, nous utilisons une lettre grecque dans la partie droite dune rgle (comme :

A
) pour dsigner les squences de k nuds fils o k 0.
Le prdicat LeftAux(
A
) est vrai si et seulement
A
est la racine dun arbre auxilliaire
gauche.
Le prdicat RightAux(
A
) est vrai si et seulement
A
est la racine dun arbre auxiliaire
droit.
Le prdicat Init(
A
) est vrai si et seulement si
A
est la racine dun arbre initial.
Soit la chane dentre W : w
1
w
n
, lunit de base de lalgorithme a la forme suivante :
[
A
, i] o 1 i n. Cette unit veut dire que la racine de larbre couvre un item
lexical situ dans le point i du chart : notons que nous avons utilis un seul indice spatial
plutt que deux (comme cest le cas dans la plupart des autres approches danalyse
tabulaire (voir par exemple (Shabes et Waters, 1944)) tant donn que la couverture des
arbres lexicaux dans la Sm-TAG est limite un seul item. Finalement, il nest
probablement pas inutile de rappeler que le point permet de sparer les nuds fils qui
ont t parcourus par lalgorithme (ces nuds sont situs gauche du point) des nuds
fils qui ne lont pas t encore (ils sont situs droite du point).









t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

195
3. Lalgorithme :


Initialisation :


Objectif :


Association gauche :





Scan :


Association droite :





Propagation inductive :





Figure 79. La premire passe de lalgorithme danalyse de la Sm-TAG
[
A

a
, i]
[
A

a
,, i+1]
LeftAux(
A
)
[
A
, i] [
A
, i+1]
[
A
, i+1]
LeftAux(
A
)
[
A
(
B

c
) (
D

e
), i]
[
D
(
A

c
) (
D

e
), i]
[
A
, i]
[
A
, i]
RightAux(
A
)
[
A
, i] [
A
, i+1]
[
A
, i+1]
RightAux(
A
)
LeftAux(
B
)
[
A
(
B

c
) (
D

e
), i]
[
B
(
A

c
) (
D

e
), i]
RightAux(
D
)
Init(
s
)
[
s
, 0]
Init(
s
)
[
s
, n]
[
A
, i]
[
A
, i]
a = a
i+1

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
196



i. Le premier item de lalgorithme permet dinitialiser le chart en y ajoutant toutes les rgles du
type [
s
, 0] o
s
est la racine dun arbre lmentaire quelconque.
ii. La clause darrt veut dire que lanalyse est satisfaite si tous les lments de lentre sont
parcourus et si la racine de larbre obtenu correspond celle dun arbre lmentaire.
iii. Le scan : la rgle de scan permet de dtecter et de consommer les terminaux dans la chane
dentre.
iv. Lassociation gauche et droite : cette tape consiste associer les arbres lexicaux auxiliaires
aux arbres lexicaux initiaux correspondants. Voici, titre dexemple, le schma de lopration
dassociation simple gauche :

A A A


B C B C


x
1
x
2
x
1
x
2


Figure 80. Schma de lopration dassociation simple gauche ainsi que la rgle dinfrence utilise pour
son implantation
Comme nous pouvons le remarquer, la sortie de cette opration est un arbre intermdiaire dont
la racine et les ancres sont respectivement la racine commune des deux arbres lexicaux qui le
forment et leurs ancres. Cet arbre se combine avec le reste des arbres de la grammaire avec
lopration de substitution.
v. La propagation gauche et la propagation droite : lobjectif principal de cette tape est dadapter
les arbres intermdiaires obtenus dans ltape prcdente. A titre dexemple, voici le schma
gnral de la propagation inductive gauche :





t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

197


A C


B C B A


x
1
x
2
x
1
x
2


Figure 81. Le schma gnral de lopration de propagation inductive gauche
Comme nous pouvons le remarquer, les rgles dinfrence permettent de propager la racine de
larbre initial et en faire la racine de larbre intermdiaire.
4. Complexit de lalgorithme : comme nous pouvons le remarquer dans notre algorithme, la
rgle dinfrence la plus complexe que nous avons utilise contient deux variables spatiales
seulement. Ainsi, nous pouvons dire que la complexit temporelle de lalgorithme est linaire au
pire des cas : O(n
2
) o n est la longueur de lentre. Notons que cette rduction du nombre de
variables est d la limitation de couverture des arbres lexicaux un seul item lexical ce qui
nous a permis de pouvoir utiliser une seule variable spatiale pour indiquer la couverture de ces
arbres.
2.2.2.1.4 La deuxime passe
Nous utilisons lopration de substitution afin de lier les arbres intermdiaires obtenus dans la
premire passe danalyse ainsi que les mots non-analyss dans cette passe. Pour effectuer lopration
de substitution, nous utilisons les RTRs. Outre que les avantages des RTRs que nous avons prsents
dans le chapitre prcdent, le choix des RTRs a plusieurs motivations dont les principales sont
rsumes dans les deux points suivants :
Bien que la Sm-TAG est faiblement quivalente une CFG, nous avons vu que tous les
arbres lmentaires qui se combinent avec lopration de substitution peuvent tre
remplacs par des rgles de rcriture quivalente (voir le deuxime chapitre de la
troisime partie de cette thse ainsi que (Schabes et Waters, 1995) pour plus de dtails sur
ce point). Ainsi, nous pouvons reprsenter tous les arbres du formalisme Sm-TAG qui se
combinent avec lopration de substitution comme des RTRs sans perdre de
linformation.
La conversion des grammaires darbres en automates est une approche qui a t adopte
par dautres chercheurs comme (Lopez, 1999a). Les motivations dun tel choix sont : la
meilleure connaissance des proprits computationnelles des automates que celles des
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
198
arbres ainsi que la bonne visualisation des donnes avec les automates notamment grce
leur aspect squentiel.
Les RTRs que nous avons utiliss sont enrichis avec deux proprits qui les rendent plus
adapts au traitement du langage oral : lanalyse partielle et la stratgie slective.
1. Lanalyse partielle : lapproche danalyse partielle que nous avons adopte dans le
systme Oasis est similaire celle que nous avons utilise dans le systme Safir : le
systme essaie dabord de trouver une analyse qui maximise la couverture et lorsque cela
est impossible il passe des analyses partielles qui couvrent des segments de lentre
plutt que sa totalit.
2. La stratgie slective : la stratgie slective consiste ignorer tous les mots considrs
non pertinents pour la tche. Nous avons vu que la premire tape de cette slection
commence au prtraitement avec le filtrage des mots inconnus. Malgr son utilit, ce
filtrage nest pas suffisant pour le traitement. En effet, une bonne partie des problmes
dchec danalyse peut tre due des mots qui font partie du lexique mais qui ne sont pas
dans un endroit qui permet au systme de les traiter. Ainsi, nous avons dcid denrichir
lalgorithme danalyse avec une stratgie slective. La solution que nous avons adopte
finalement consiste en la combinaison de deux techniques :
vi. Les grammaires de nettoyage : au niveau des arbres globaux, nous avons utilis des
grammaires de nettoyages similaires celles utilises dans le systme Safir. Lutilisation de ces
grammaires donne au systme plus de souplesse en permettant des segments non pertinents de
sparer deux arbres (locaux ou globaux).
vii. La fonction sle ctive : au niveau des arbres locaux nous avons dcid dutiliser une nouvelle
version de la stratgie slective tant donn que les grammaires de nettoyage ne se sont pas
montres compltement satisfaisantes sur ce niveau. Ainsi, nous avons propos une solution
simple base sur la combinaison dun arbre ngatif laspect descendant de notre approche.
Larbre ngatif consiste en un arbre qui accepte toutes les units qui ne sont pas acceptes
comme un arbre bien form dans la grammaire. La priorit de larbre ngatif est la moins
importante dans lanalyse. Ainsi, le systme avant dignorer un mot de lentre il vrifie toutes
les possibilits danalyse de ce mot. Cela attribue notre approche tous les avantages dune
approche danalyse complte avec la souplesse des approches slectives. Outre la localisation
des zones pertinentes dans lentre, la stratgie slective a pour fonction de traiter certaines
formes dextragrammaticalits jouant ainsi le rle de la deuxime muraille de dfense contre les
extragrammaticalits. En effet, les cas qui peuvent tre traits par la stratgie slective sont :
Extragrammaticalits qui apparaissent dans les zones non pertinentes : rptitions
ou autocorrection de mots ou de sries de mots non pertinents.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

199
Toutes les extragrammaticalits qui impliquent un segment pertinent infrieur un
arbre local. Ainsi, un mot pertinent qui ne forme pas tout seul un arbre local est
considr comme non pertinent sil est rpt deux fois et par consquent ce mot
est ignor par la stratgie slective. Pour mettre au clair ce point prenons
lexemple suivant :
Je je voudrais une chambre (106)
Comme nous pouvons le constater dans lnonc prcdent, le premier je est
parfaitement pertinent par rapport la tche et il fait partie du lexique du systme
mais il est ignor tant donn quil ne constitue pas un arbre local entier. La
deuxime occurrence est traite comme une occurrence normale dun mot
pertinent.
2.1.1.81 Le post-traitement
La fonction principale du module de post-traitement est de normaliser les faux-dparts et les
incompltudes dans les noncs de lentre. La spcificit principale de ce module par rapport au
module implant pour langlais est que ce module est bas sur les informations smantiques fournies
par lanalyseur bas sur la Sm-TAG et pas sur les informations purement syntaxiques comme dans le
cas de lanalyseur de langlais. En effet, le principe de base de ce module est de dtecter les faux-
dparts sur la base des anomalies smantiques. Cela est fait par un ensemble de mta-rgles
smantiques dont les principales contraintes sont les suivantes :
1- Lordre des arbres smantiques dans un nonc.
2- La racine de larbre ainsi que la catgorie fonctionnelle associe cette racine qui peut tre: acte
de parole, concept, argument.
3- Informations sur la zone ddition qui peut sparer les arbres impliqus dans
lextragrammaticalit.
Faux_dpart

C
1
diteur C
2



Transition_ impossible (C
1
, C
2
).
Figure 82. Le schma gnral des mta-rgles utilises dans le traitement des incompltudes et des faux-
dparts
Si la transition entre les arbres C
1
et C
2
est impossible, alors le systme dcide que lnonc en cours
danalyse contient un faux-dpart. Dans ce cas, le systme supprime larbre C
1
avec la zone ddition
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
200
si celle-ci est considre

comme tant non ncessaire au traitement de C
2
. Pour mettre au clair ces
rgles, examinons lexemple suivant :
Cest pour euh Je voudrais une rservation pour deux personnes. (107)
Dans lnonc prcdent, nous remarquons que nous avons un faux dpart qui consiste en deux
segments qui correspondent une formule de demande: cest pour et je voudrais. Ces deux segments
ne sont pas normaliss par le module de prtraitement tant compltement diffrents sur le plan de leur
forme. De mme, ces deux segments tant parfaitement bien forms, ils sont analyss par le systme
comme deux segments indpendants auxquels le systme associe la catgorie smantique
formule_de_demande. Pour rsoudre ce faux dpart, le systme examine les deux catgories
smantiques associes aux deux segments et dcide quil sagit dun faux dpart tant donn que la
succession de deux catgories formules de demande est impossible.
A ce stade du dveloppement, comme nous ne disposons pas dun nombre suffisant dincompltudes
et de faux dparts en franais, notre objectif principal est de montrer que nous pouvons faire des
traitements spcifiques pour les faux-dparts et les incompltudes. Sur le plan pratique, cela nous
permet davoir une premire valuation de cette approche travers les diffrentes valuations que
nous avons lintention de faire. Ainsi, un noyau de cinq mta-rgles est implant dans cette version du
systme.
2.1.1.82 Discussion de larchitecture dOasis
La conception de larchitecture dOasis a t faite selon un nombre de considrations dont les
principales sont :
1. Considrations gnrales : comme nous avons vu avec le systme Corrector, le gestionnaire de
systme base de Hub a pour fonction de transmettre linformation :
i. Indpendance des sources de connaissance : les trois principaux blocks pour le traitement
des extragrammaticalits (lanalyse morphologique, le traitement des
extragrammaticalits et lanalyse grammaticale) sont assez indpendants les uns des
autres et ne ncessitent pas une interaction avance entre les modules. Ceci est d
principalement lintgration de diffrentes sources de connaissances qui ncessitent des
interactions complexes dans le cadre de la Sm-TAG.
ii. La neutralit applicative et la limitation du systme au niveau de lanalyse linguistique
rduisent elles aussi les possibilits et les besoins dinteractions entre les modules. Par
exemple, nous ne disposons pas dun module de niveau suprieur comme un gestionnaire
de dialogue qui met des attentes qui guident le module danalyse.
2. Considrations logicielles : dun point de vue logiciel, notre architecture consiste en un
ensemble de moldules qui joue le rle de serveur une unit centrale qui, son tour, joue le rle
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

201
de client. Le raisons pour lesquelles nous avons utilis un gestionnaire de systme sont assez
similaires celles que nous avons donn pour le systme Corrector :
i. Htrognit des soruces de connaissances intgrer : comme nous avons vu, notre
architecture intgre des modules dont les domaines sont assez varis : analyse
morphologique, traitement des extragrammaticalits et analyse grammatical. Lutilisation
dun module indpendant de la tche comme un espace commun o les diffrents
modules peuvent communiquer facilite linteraction de ces modules puisque nous navons
pas considrer la nature des modules pour les faire communiquer.
ii. Souplesse : comme les modules ne communiquent pas directement, il est relativement
facile dajouter un nouveau module ou de remplacer un module existant par un autre (En
cas de besoin de comparaison entre diffrentes techniques par exemple). Pour ce faire, il
suffit de remplacer lappel lancien module par celui du nouveau module et, en cas de
besoin, de mettre jour le dispositif de formatage des donnes (qui adapte le format de
lentre aux contraintes du module suivant et qui adapte le format de sa sortie aux
contraintes du module daprs) lentre et la sortie de ce module.
iii. Portabilit : la modularit de lapproche rend possible la rutilisation de certains
modules dans diffrentes applications y compris le gestionnaire de systme.
2.2.3 Implantation du systme Oasis
Tout comme les systmes Corrector et Safir, le systme Oasis a t implant en utilisant PROLOG.
Le systme est compos de 6 fichiers dont les noms et les tailles sont prsents dans le tableau
suivant :

Fichier Nombre des lignes
Main_Oasis 448
Main_parsing_module 4566
Pattern_preprocessing 2211
Association_module 160
Tree_drawer 534
Induction_rules 460
Total 8379
Tableau 14. Prsentation de lorganisation gnrale du code du systme Oasis en fichiers
Comme nous pouvons le constater dans le tableau prcdent, le programme a t divis en fichiers
selon des fonctionnalits spcifiques : cela peut tre un module particulier comme le module de
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
202
traitement par patrons : pattern_preprocessing ou une opration indpendante comme lopration
dassociation : association_module.
2.2.4 Evaluation du systme Oasis
Lobjectif de notre valuation est de montrer les avantages et les limites de notre approche afin de
situer lefficacit de notre systme dans le contexte des travaux existants. Pour ce faire, nous avons
dcid deffectuer trois valuations qui sont la fois diffrentes et complmentaires. La premire de
ces valuations porte sur le calcul de la complexit effective de lalgorithme danalyse alors que les
deux autres portent sur lefficacit du systme en terme de traitement. En effet, il sagit dune
valuation quantitative et dune valuation qualitative. Lobjectif de lvaluation quantitative est de
montrer ltat dachvement de limplantation en terme de couverture lexicale et grammaticale alors
que lvaluation qualitative tente daller plus loin en diagnostiquant les raisons dchec et de russite
danalyse et en les liant lapproche utilise.
2.1.1.83 Evaluation du temps de calcul de notre algorithme danalyse
Afin dvaluer le temps de calcul de notre algorithme, nous avons choisi un corpus de 588 noncs.
Les noncs choisis sont extraits du corpus de rservation htelire de mme que du corpus collect
dans la campagne dvaluation par dfi que nous allons prsenter plus loin. Les frquences des
noncs utiliss par rapport leurs longueurs sont prsentes dans le graphe suivant :
0
10
20
30
40
50
60
147
1
0
1
3
1
6
1
9
2
2
2
5
2
8
3
1
3
4
3
7
4
0
4
3
4
6
4
9
5
2
5
5
Frequence
Longueur nonc
Figure 83. Les longueurs des noncs utiliss pour le test compares leurs frquences
Comme nous pouvons le remarquer dans le graphe prcdent, les frquences les plus importantes sont
situes dans la zone entre 7 et 23 mots avec un sommet au milieu (53 occurrences des noncs de 13
mots).
Le rsultat de lanalyse des temps de calcul sur tout le corpus est prsent dans le graphe suivant :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

203
Temps de calcul
0
5
10
15
20
25
30
35
40
1
2
5
4
9
7
3
9
7
1
2
1
1
4
5
1
6
9
1
9
3
2
1
7
2
4
1
2
6
5
2
8
9
3
1
3
3
3
7
3
6
1
3
8
5
4
0
9
4
3
3
4
5
7
4
8
1
5
0
5
5
2
9
5
5
3
5
7
7
Figure 84. Les temps de calcul obtenus sur la totalit du corpus de test
Comme nous pouvons le remarquer dans le graphe prcdent, laugmentation tend tre linaire entre
les diffrents ensembles dnoncs de mme longueur. Pour avoir une ide plus claire de la courbe du
temps de calcul, nous avons jug bon de gnrer un graphe qui contient uniquement les pires des
temps de calculs observs. Le graphe obtenu est prsent dans la figure suivante :
Temps de calcul
0
5
10
15
20
25
30
35
40
13579
1
1
1
3
1
5
1
7
1
9
2
1
2
3
2
5
2
7
2
9
3
1
3
3
3
5
3
7
3
9
4
1
4
3

Figure 85. les temps de calculs sur les pires des cas observs par longueur
Notre observation sur la totalit des noncs sest confirme avec lanalyse des pires des cas qui
montre globalement un comportement linaire comme nous pouvons le voir dans la figure prcdente.
Les exceptions laugmentation des temps de calculs progressivement avec laugmentation des
longueurs des noncs sont dues la diffrence en terme de frquence entre les diffrentes longueurs.
La raison principale pour laquelle la complexit observe est linaire est que la grammaire crite ne
contient pas des rgles pour reprsenter des phnomnes qui causent un temps cubique pour les CFG
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
204
comme lauto-enchssement center-self-embedding qui se manifeste dans des noncs du type : la
souris qui craint le chat qui craint le chien qui est possd par le voisin qui cherche un boulot. Ce
genre dnoncs peut tre parfaitement trait dans le cadre du formalisme Sm-TAG mais la raison
pour laquelle nous navons pas de rgles pour le traiter dans notre grammaire est que nous ne lavons
pas observ dans notre corpus. En dautres termes, les rgles dinfrence et RTRs utilises dans notre
implantation (correspondantes aux arbres locaux et globaux) sont soit linaires gauches soit linaires
droites et la grammaire rellement implante est quivalente une grammaire rgulire.
2.1.1.84 Evaluation quantitative
Diffrents tests quantitatifs ont t raliss sur Oasis dans les diffrentes tapes de son dveloppement.
Dans ce qui suit, nous allons nous limiter la prsentation du dernier test ralis sur la dernire
version du systme afin dviter les confusions. Les lecteurs qui dsirent en savoir plus sur ces tests
intermdiaires peuvent consulter notre papier (Kurdi, 2000b).
2.2.4.1.1 Le corpus de test
Le corpus de test utilis contient 210 noncs transcrits extraits du corpus de rservation htelire. Les
noncs choisis font partie des dialogues non utiliss pour lcriture de la grammaire. Afin de pouvoir
tester le systme sur la sortie de reconnaissance de la parole, nous avons procd une lecture de ces
noncs. Lors de la lecture des noncs, nous avons simul une prosodie spontane afin dobtenir des
rsultats proches des noncs de dialogues rels. Aprs lenregistrement, nous avons pass les fichiers
son obtenus au systme de reconnaissance RAPHAEL qui a donn comme sortie la meilleure
hypothse de reconnaissance correspondant chacun des noncs. La liste des sorties du systpme de
reconnaissance est donne dans lannexe de cette thse.
2.2.4.1.2 Les rsultats de lvaluation
Deux units ont t retenues pour le calcul des rsultats :
1. Le mot : nous avons calcul le pourcentage des mots analyss sans prendre en considration le
fait que lanalyse soit correcte ou pas. En dautres termes, nous avons calcul le rapport du
nombre des mots analyss vs. nombre des mots non analyss. La raison principale dutiliser
cette approche purement quantitative ici est de donner une ide sur la couverture lexicale du
systme et donc la porte de la stratgie slective.
2. Larbre : dans les statistiques nous avons considr les arbres globaux et les arbres locaux.
Contrairement au pourcentage des mots, ce critre est bas sur une distinction qualitative de
lanalyse des units. Ainsi, nous avons distingu entre trois types derreurs danalyse des
arbres :
i. Insertion : lorsque le systme ne supprime pas un lment qui doit tre supprim
(lment rpt, un relatif dont la compltive est supprime, etc.) alors cet lment est
considr comme insr.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

205
ii. Non-analyse : seuls les arbres pertinents pour la tche qui ne sont pas analyss (quils
soient couverts par notre corpus de base ou pas) sont considrs comme des cas de non-
analyse. Ainsi, lorsque le systme ignore laide la stratgie slective un arbre non
pertinent nous ne considrons pas cela comme un cas de non-analyse.
iii. Analyse incorrecte : il sagit des cas o le systme associe une mauvaise analyse un
arbre pertinent pour la tche.
Les rsultats obtenus sur lanalyse de la meilleure hypothse de reconnaissance de RAPHAEL sont
prsents dans le tableau suivant :
Pourcentage des
mots analyss
Rappel % Prcision %
66,24 83,72 96,77
Tableau 15. Rsultats de lvaluation sur la sortie de reconnaissance
Comme nous pouvons le remarquer dans le tableau prcdent, le rappel de notre systme est
acceptable : environ 84% des arbres de notre corpus de test sont correctement analyss. Par ailleurs
nous pouvons noter le taux de prcision qui est assez lev : 96,77%. Les raisons des erreurs que nous
avons observes sont rparties sur les trois points suivant :
Erreurs de reconnaissance : 53,58% des erreurs danalyse sont causes par des erreurs de
reconnaissance de diffrents types. Cependant, les erreurs de reconnaissance ntaient pas une
cause systmatique derreurs danalyse. En effet, nous avons remarqu que dans 34,78% des cas
le systme russissait donner une analyse correcte malgr lexistence dune erreur de
reconnaissance.
Sous-gnration de la grammaire : la sous-gnration de la grammaire a t la cause de lerreur
danalyse dans 42,85% des cas.
Cas complexes linguistiquement : les cas linguistiquement complexes comme des ellipses
spciales, des incises, des anaphores, etc. ont caus des erreurs dans 3,57% des cas.
2.2.4.1.3 Comparaisons avec dautres travaux
Les rsultats du systme de transport public (bas sur le formalisme de HPSG) prpar dans le cadre
du projet hollandais OVIS (Nederhof et al., 1997) prsente un rappel de 87,4% et une prcision de
85,5%. Par ailleurs, le systme LATIS du LIMSI (Minker et Bennacef, 1996), (bas sur une
grammaire smantique de cas), donne un taux de 81,8% de rponses correctes (les auteurs nont pas
donn la prcision). Compars celles de notre systme
46
, ces rsultats nous permettent de constater la

46
Il faut noter que la comparaison avec les rsultats des autres systmes est approximative. Dune part, leurs
corpus, leurs tches de dialogue et la sortie de leur systme (reprsentation smantique ou arbre danalyse
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
206
bonne performance de notre systme en terme de prcision et une performance acceptable en terme de
rappel (mme si la comparaison ne favorise pas notre systme puisque les sorties du module
smantique utilises pour tester les systmes OVIS et LATIS tendent avoir un rappel plus lev que
les systmes qui ont pour sortie un arbre danalyse syntaxique comme le ntre).
2.1.1.85 Evaluation qualitative : la campagne dvaluation par dfi
Etant donn que lobjectif principal de notre ralisation du systme Oasis est danalyser la porte et la
limite du formalisme Sm-TAG ainsi que celles du cadre de traitement des extragrammaticalits que
nous avons propos, il nous semble utile deffectuer une valuation qualitative de ce systme en terme
de couverture des phnomnes linguistiques. Pour ce faire, il nous faut des corpus de test appropris.
En effet, lun des principaux obstacles devant ce genre dvaluations est la difficult trouver des
ressources linguistiques dans lesquels les phnomnes sont suffisamment reprsents. Ainsi, nous
avons dcid dadopter une approche qui permet dobtenir ce genre de donnes et de les utiliser pour
valuer Oasis. Il sagit de lapproche dvaluation par dfi qui est une version simplifie de la mthode
DCR (Antoine et al., 2000). Le principe gnral de cette mthode consiste gnrer (par un ensemble
de sujets humains) un corpus de test avec le maximum possible de phnomnes linguistiques partir
dun petit corpus reprsentatif de la tche dit corpus initial. Ainsi, dune part, grce au corpus initial la
gnration dnoncs non pertinents pour la tche du systme test devient trs limite et dautre part,
cela permet davoir une reprsentativit significative des phnomnes linguistiques qui sont lobjectif
de lvaluation. Les principales proprits et dmarches de cette valuation sont dcrites dans les
points suivants :
2.2.4.1.4 Cadre de lvaluation
Cette valuation a t mene dans le cadre dune campagne du GT "Comprhension robuste de la
langue" du GDR-I3. Cinq systmes reprsentant quatre laboratoires franais sont impliqus dans cette
campagne (Antoine et al., 2002) :










syntaxique) ne sont pas identiques aux ntres et dautre part, les trois systmes ont t tests dans des conditions
diffrentes et avec des mthodes diffrentes.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

207
Laboratoire Systme Domaine Responsable(s)
CLIPS-IMAG Oasis Rservation htelire M. Z. Kurdi
IRIT Cacao Informations ferroviaires C. Bousquet-Vernhettes
et N. Vigouroux
LIMSI Arise Informations ferroviaires S. Rosset
VALORIA Logus
47
Informations touristiques J. Villaneau
VALORIA Romus
48
Informations touristiques J. Goulian
Tableau 16. Les laboratoires et les systmes impliqus dans la campagne dvaluation par dfi
Comme nous pouvons le remarquer dans le tableau prcdent, les diffrents systmes impliqus ont
des domaines dapplications assez diffrents. Par ailleurs, les approches et les types de sortie de ces
systmes sont assez htrognes eux aussi (pour plus de dtails sur ces systmes voir (Antoine et al.,
2002)). Ainsi, vue ces diffrentes htrognits, lobjectif de cette valuation, dans ltape actuelle,
nest pas de comparer directement les systmes la manire des campagnes de test DARPA-ATIS
(Minker et Bennacef, 1996). En effet, lvaluation par dfi vise essentiellement donner une ide fine
sur le comportement de chacun des systmes impliqus dans la campagne en rapport avec lapproche
dans le cadre de laquelle il sinscrit.
2.2.4.1.5 Droulement de la campagne dvaluation par dfi
Le droulement de cette campagne a t fait selon les dmarches suivantes :
2. Cration du corpus initial : le corpus initial est compos de vingt noncs que chacun des
participants a proposs comme corpus de base. Il sagit gnralement dnoncs extraits du
corpus sur lequel le systme est entran et que le systme en question est capable de traiter
correctement. La liste des noncs initiaux que nous avons propose comme corpus initial pour
lvaluation du systme Oasis est prsente dans lannexe 5.
3. Cration du corpus driv : il sagit de la modification structurale de chacun des corpus en
reformulant les diffrents noncs avec des constructions linguistiques diffrentes. Autrement
dit, il sagit de gnrer un ensemble dnoncs similaires globalement lnonc initial mais en
y ajoutant un phnomne linguistique spcifique chaque fois. Ces phnomnes ne sont pas
dfinis a priori et ont t laisss au choix de chaque concepteur de test selon son exprience
avec son systme (le nom par dfi vient du fait que chaque participant essaie de gnrer des
phnomnes qui peuvent poser un problme aux autres systmes). Les phnomnes gnrs
peuvent tre des phnomnes grammaticaux (comme les extractions, les incises, les ellipses,

47
(Villaneau et al., 2002).
48
(Goulian et al., 2002).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
208
etc.), des phnomnes extragrammaticaux (rptitions, hsitations, etc.) ou des simulations de
phnomnes artificiels comme les erreurs de reconnaissance (les sujets suppriment, remplacent
ou ajoutent des mots de manire similaire ce quun systme de reconnaissance peut faire en
cas derreur). Ainsi, pour chaque nonc initial chaque participant a cre quinze noncs
drivs. Autrement dit, pour chaque nonc initial nous avons obtenu soixante noncs drivs
et un total de mille deux-cent noncs dans le corpus driv. Voici, titre dexemple, un nonc
initial ainsi quun ensemble dnoncs drivs qui y correspondent :
i. Lnonc initial :
<1> bon dans ces conditions alors rservez moi une chambre sympa et calme surtout pour
le 26 fvrier prochain </1>
ii. Cinq noncs drivs gnrs par notre collgue C. Bousquet de lIRIT :
<1.1> bon dans ces conditions alors rservez moi ben une chambre sympa et euh calme
surtout pour le 26 fvrier prochain </1.1>
<1.2> bon dans ces conditions alors rservez moi une chambre sympa et calme surtout
pour le 26 fvrier pro euh prochain </1.2>
<1.3> bon dans ces conditions alors rservez moi une chambre euh une chambre sympa
et calme surtout pour le 26 fvrier prochain </1.3>
<1.4> bon dans ces conditions alors rservez moi une chambre sympa et calme surtout
pour le 25 euh non c'est pas a 26 fvrier prochain </1.4>
<1.5> bon dans ces conditions alors rservez moi une chambre sympa et calme surtout
pour le 25 euh 26 fvrier prochain</1.5>
Pour donner une ide plus prcise sur lopration de drivation, un segment plus large du corpus
driv sur lequel nous avons test notre systme est prsent dans lannexe 5.
4. Validation du corpus driv : la validation consiste en le jugement par le crateur du systme
de ladaptation des noncs drivs proposs. Les noncs jugs non-adapts font lobjet dune
modification par le crateur de test. Les principales demandes qui ont t faites par les
participants portent sur les erreurs dorthographe ainsi que sur les cas dnoncs jugs non-
pertinents ou non-ralistes par rapport la tche du systme.
5. Evaluation du systme : chacun des systmes est valu par son concepteur selon des critres
quil juge appropris. Le processus dvaluation consiste en lanalyse et la classification des
erreurs de chacun des systmes lors de lanalyse des rsultats. Les critres dvaluation nont
pas t dfinis a priori. Ainsi, chacun des participants a choisi la mthode de test qui lui semble
la plus approprie par rapport son approche.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

209
2.2.4.1.6 Les rsultats du systme Oasis
Avant de prsenter les rsultats de notre systme dans le cadre de la campagne dvaluation par dfi,
voici les deux points qui distinguent notre valuation de celle des autres systmes impliqus dans cette
campagne :
Corpus considr : tant donn que la taille du corpus de test a augment au cours de la
campagne (le LIMSI sest joint la campagne aprs son dmarrage) et tant donn que nous ne
savons pas a priori la frquence des phnomnes linguistiques dans les corpus de test, nous
avons dcid de faire le test uniquement sur un sous-ensemble des noncs obtenus. Cela nous
permettra danalyser finement cette partie et en cas de constatation du besoin de plus de donnes
afin davoir plus de reprsentativit pour les phnomnes nous pouvons ajouter une autre partie
du corpus. Ainsi, nous avons pris les huit premiers groupes dnoncs de chaque participant (qui
correspondent chacun lensemble des noncs drivs dun nonc initial). Cela fait cent-vingt
noncs par concepteur de test et un total de quatre-cent quatre-vingt noncs drivs.
Mthode de calcul des rsultats : les rsultats ont t calculs selon la mme mthode utilise
pour le systme Safir. En effet, nous avons distingu entre le mot et les arbres locaux et globaux
dans nos calculs. De mme, nous avons considr trois types derreurs : insertion, non analyse
et analyse incorrecte.
I. Rsultats gnraux : afin de donner une ide sur la diffrence de complexit des sous-corpus
utiliss (chacun des sous-corpus correspond lensemble des noncs gnrs par un partenaire
de la campagne), nous avons dcid de donner les rsultats classs selon les sous-corpus. Les
rsultats de notre systme la fin de cette campagne sont donns dans le tableau suivant :

Concepteur de sous-
corpus
Pourcentage des mots
analyss
Rappel des arbres
analyss
Prcision des arbres
analyss
C. Bousquet
(IRIT) 73,98 96,99 99,8
G. Goulian
(VALORIA) 60,49 91,3 92,6
S. Rosset
(LIMSI) 70,35 90,63 97,51
J. Villeaneau
(VALORIA) 75,13 92,31 99,4

Total 69,98 92,80 97,32
Tableau 17. Rsultats gnraux du systme Oasis dans la campagne dvaluation par dfi classs par type
derreur et par concepteur de test
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
210
Pour montrer plus clairement le rapport entre la couverture des mots, dune part, et le rappel et
la prcision des arbres dautre part, nous avons jug bon de prsenter les rsultats sous forme
de graphe. Le graphe obtenu est prsent dans la figure suivante :
0
20
40
60
80
100
120
B
o
u
s
q
u
e
t
G
o
u
lia
n
R
o
s
s
e
t
V
ille
a
n
e
a
u
T
o
t
a
l
Pourcentage des mots
analyss
Rappel des arbres
analyss
Prcision des arbres
analyss

Figure 86. Les relations entre la couverture des mots, le rappel et la prcision des arbres analyss par le
systme Oasis
Comme nous pouvons le remarquer dans le tableau 12, ainsi que dans la figure 89 la couverture
lexicale na pas un rapport direct avec le rappel des arbres analyss. Cela montre la fois
lefficacit de la stratgie slective localiser les lots pertinents et labsence deffets ngatifs
de cette stratgie qui peuvent rsulter de lignorance de segments couverts par la grammaire.
Pour ailleurs, il nest probablement pas inutile de signaler que les erreurs danalyse prsentes
dans les tableaux ci-dessus ne correspondent pas forcment des erreurs dinterprtation. En
effet, aprs lanalyse des rsultats, nous avons trouv que 39,58% des erreurs danalyse ne
conduit pas une erreur dinterprtation. Les deux principaux cas o une erreur danalyse ne
cause pas une erreur dinterprtation sont prsents dans les deux points suivants :
i. Des cas dinsertion dun arbre fonctionnel : il sagit gnralement dun pronom relatif
ou une formule de demande qui ne peut pas tre li au reste de lnonc. Dans ce cas,
nimporte quel module danalyse smantique raisonnablement robuste (IF, schma,
graphes conceptuels, etc.) devra exclure ces lments non interprtables en dehors de leur
contexte. Afin dclairer ce point, examinons lexemple suivant :
Je voudrais une simple plutt calme et dites-moi si c'est avec douche ou bain
49
.
Aprs le traitement de lnonc prcdent, le systme produit lanalyse suivante :
[formule_demande

49
Pour la facilit de lexpos, cet exemple est une adaptation de lnonc (5.14 Goulian).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

211
[je, pronom]
[voudrais, verbe]
]
[objet_demand
[une, cardinal]
[simple, adjectif]
]
[coord
[conj, [plutt, adverbe]]
]
[carc1
[calme, adjectif]
]
]
[coord
[et, conjonction]
]
[conj_cond
[si, pre]
]
[prsentatif
[c, dmonstratif]
[est, verbe]
]
[caractristique_chambre
[avec, adverbe]
[une, cardinal]
[douche, nom]
]
[coord
[ou, conjonction]
]
[caractristique_chambre
[bain, nom]
]
Dans cette analyse, nous remarquons que le systme na pas associ une reprsentation
quelconque au segment dites-moi cause dun problme de sous-gnration de la
grammaire. Cependant, cause de la stratgie danalyse partielle, le systme a produit la
conjonction de coordination et qui dpend du segment non analys. Lanalyse du mot et
est considre comme une erreur dinsertion mais dun point de vue smantique cela
naffecte pas linterprtation.
ii. Des cas dnoncs avec des lments redondants : la redondance est lune des sources
principales de robustesse dans les langues naturelles en gnral (cela est valable la fois
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
212
pour les systmes naturels ou artificiels). Dans notre corpus de test, le cas que nous avons
observ le plus frquemment est la redondance de la formule de demande. Ainsi, dans un
bon nombre dnoncs il y a une formule de demande principale: je voudrais, pouvez
vous, etc. couple avec une formule auxiliaire souvent utilise pour la politesse sil vous
plat, si cest possible, etc. ou pour la prcision de la premire formule je prfre, de
prfrence, etc. Dans ce genre dnoncs, si pour une raison ou une autre le systme
narrive pas analyser lun des deux segments redondants cela est considr comme une
erreur danalyse mme si le systme est capable laide dun des deux segments
seulement de juger quil sagit dune requte.
II. Analyse de leffet de la complexit des noncs sur la qualit danalyse : afin dvaluer
leffet de la complexit des phnomnes linguistiques et artificiels sur la compltude, nous
avons jug bon de prsenter les rsultats du test selon les critres de compltude danalyse. Cela
donne, par ailleurs, une ide sur limportance de la stratgie slective dans le traitement (les
noncs qui ne sont pas entirement traits dans les systmes classiques sont rejets).

Concepteur de sous-
corpus
Pourcentage des noncs
dont tous les mots ont t
analyss
Pourcentage des noncs
dont le rappel est de
100%
Pourcentage des noncs
dont la prcision est de
100%
C. Bousquet
(IRIT) 5,83 81,66 98,33
G. Goulian
(VALORIA) 5 41,90 79,16
S. Rosset
(LIMSI) 9 50,47 90
J. Villaneau
(VALORIA) 4,16 50,83 95,84
Total 5,99 56,21 90,83
Tableau 18. Les rsultats du systme Oasis dun point de vue compltude danalyse
Comme nous pouvons le remarquer dans tableau prcdent, le pourcentage des noncs dont les
mots sont entirement analyss est trs faible : 5,99. Cela veut dire, quen cas dadoption dune
stratgie danalyse classique, seule une partie mineure des noncs du corpus aurait pu tre
analyse correctement. Par ailleurs, nous remarquons que les arbres pertinents dans un peu plus
de la moiti des noncs ont t analyss et que 90,83% des noncs ont une prcision de 100%.
Cela montre que les erreurs de couverture (reprsentes par le rappel) sont plus rparties dans le
corpus danalyse que celles de prcision.
III. Analyse qualitative des rsultats du systme Oasis : pour donner une ide des performances
de notre systme pour le traitement des principaux phnomnes linguistiques observs dans
notre corpus de test, nous avons jug bon de faire une analyse dtaille du traitement de ces
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

213
phnomnes. Afin de tenir en compte laspect slectif de notre approche, nous avons considr
dans notre test toutes les occurrences dun phnomne avec la distinction des phnomnes selon
leur pertinence par rapport la tche. Ainsi, nous avons distingu entre deux types de cas :
Des cas valides : il sagit des cas qui se trouvent dans une zone pertinente par rapport la
tche du systme. Ces cas peuvent tre positifs (correctement traits) ou ngatifs (non
traits ou incorrectement traits).
Des cas neutres : ce sont des cas localiss dans la zone non pertinente de lnonc. Ces
cas nont pas t considrs dans le calcul des pourcentages des phnomnes traits parce
que notre objectif dans cette tape est danalyser la performance du systme en terme de
couverture des phnomnes linguistiques pas la couverture lexicale.
Pour la facilit de la prsentation, nous avons distingu entre deux groupes de
phnomnes : les phnomnes extragrammaticaux (les extragrammaticalits) et les
phnomnes grammaticaux.
1. Rsultats du systme Oasis pour le traitement des extragrammaticalits : dans ce
groupe nous avons distingu cinq phnomnes. Il sagit des hsitations, mots incomplets,
rptitions, autocorrections et faux-dparts. Les rsultats du systme Oasis classs par
sous-corpus sont prsents dans le tableau suivant :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
214

Concepteur
de sous-
corpus Nature des cas Hsitation
Mot
incomplet Faux-dpart Autocorrection Rptition


Total
Nombre total des
cas 33 9 2 30 24

98
Nombre des cas
neutres 0 0 0 3 0

3
Nombres des cas
positifs 33 9 2 27 24

95
C. Bousquet
(IRIT)



Pourcentages des
cas corrects 100 100 100 90 100

96,93
Total des cas 35 0 15 32 15 97
Total des cas
neutres 0 0 6 12 1

19
Total des cas
positifs 35 0 9 20 14

78
G. Goulian
(VALORIA)



Pourcentages des
cas corrects 100 - 60 74,07 93,33

84,78
Nombre total des
cas 21 2 7 17 13

60
Nombre des cas
neutres 0 0 3 4 3

10
Nombres des cas
positifs 21 2 4 13 10

50
S. Rosset
(LIMSI)



Pourcentages des
cas corrects 100 100 57,14 76,47 76,92

83,33
Total des cas 2 0 1 10 0 13
Nombre des cas
neutres 0 0 1 2 0

3
Total des cas
positifs 2 0 0 8 0

10
J. Villaneau
(VALORIA)



Pourcentages des
cas corrects 100 - - 80 -

83.33
Total des cas 91 11 25 89 52

268
Nombre des cas
neutres 0 0 12 21 4

37
Total des cas
positifs 91 11 13 68 48

231


Total


Pourcentages des
cas corrects 100 100 62, 5 80, 95 92, 30

89,53
Tableau 19. Les rsultats du systme Oasis pour le traitement des extragrammaticalits classs par
phnomne et par concepteur de sous-corpus
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4

215
Comme nous pouvons le remarquer dans le tableau prcdent, les rsultats globaux
obtenus sur les extragrammaticalits montrent que la performance du systme Oasis pour
le traitement des extragrammaticalits est proche de 90%. Cela peut tre considr comme
une confirmation globale de nos rsultats obtenus avec le systme Corrector. Voici une
discussion dtaille des rsultats par phnomne :
i. Les rsultats sur les hsitations et les mots incomplets : ces rsultats montrent
une efficacit pratiquement parfaite de notre approche pour le traitement de ces
phnomnes. La raison principale de ce succs est la fonction de filtrage qui permet
au systme de filtrer tous les mots quil ne peut pas traiter.
ii. Les rsultats sur les rptitions et les autocorrections : sur ce plan, les rsultats
sont globalement satisfaisants, en particulier vu ltat de compltude du module de
traitement par patrons. Les cas dchec observs sont principalement dus la sous-
gnration et des cas particulirement difficiles (notamment cause de zones
ddition compliques). Compar aux rsultats obtenus avec le systme Corrector,
nous trouvons que les rsultats obtenus avec Oasis sont lgrement suprieurs pour
les rptitions alors quelles sont infrieures denviron 5% pour lautocorrection.
Lexplication de ces rsultats est difficile faire. En effet, un nombre assez
important de variables distingue les deux valuations comme la langue (la
morphologie de langlais est moins riche que celle du franais), la complexit des
noncs de test (les noncs du TRAINS corpus nous semble plus complexes en
termes dextragrammaticalits que ceux du corpus collect pour lvaluation par
dfi).
iii. Les rsultats sur les faux dparts et les incompltudes : nous remarquons que
les rsultats baissent compars aux phnomnes prcdents mais restent assez
proches de ceux obtenus avec le systme Oasis pour ces phnomnes respectifs. Il
reste dire que les erreurs de traitement des extragrammaticalits, comme les
autres phnomnes que nous avons vus, ne mnent pas automatiquement une
erreur dinterprtation. Par ailleurs, il nest cependant pas inutile de noter que la
stratgie slective a jou un rle cl dans le traitement de ces phnomnes tant
donn que le module de post-traitement est loin dtre complet. Cela montre que
lapproche collaborative que nous avons adopt (collaboration de la stratgie
slective et des rgles de post-traitement pour la dtection et la dlimitation) des
faux-dparts et des incompltudes est prometteuse.
2. Rsultats du systme Oasis pour le traitement des phnomnes grammaticaux : nous
avons distingu dans ce group cinq phnomnes. Il sagit des ellipses, incises, extractions,
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
216
anaphores, ngations, coordinations, ambiguts, erreurs de reconnaissance et ambiguts.
Les rsultats du systme sur ces phnomnes sont prsents dans les tableaux suivants :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


217
Tableau 20. Rsultats du systme Oasis pour le traitement des phnomnes grammaticaux classs par phnomne et par concepteur de sous-corpus
Concepteur de
sous-corpus
Classification des cas
selon leur nature Ellipse Incise Extraction Anaphore Ngation Coordination Ambigut
Erreurs
de RAP Relative Total
Nombre total des cas 12 9 15 3 7 17 0 33 192 288
Nombre des cas neutres 0 0 0 0 0 0 0 0 0
Nombres des cas positifs 12 9 15 3 7 17 0 15 171 249
C. Bousquet
(IRIT)


Pourcentages des cas
corrects 100 100 100 100 100 100 - 45,45 94,13 86,45
Total des cas 35 54 71 32 33 21 2 0 26 274
Total des cas neutres 3 8 2 15 18 6 0 0 24 76
Total des cas positifs 30 39 68 15 12 12 1 0 2 179 G. Goulian
(VALORIA)

Pourcentages des cas
corrects 93,75 84,78 98,55 88,23 80 80 50 - 100 90,40
Nombre total des cas 31 20 41 6 2 46 0 0 9 155
Nombre des cas neutres 5 0 0 4 2 4 0 0 4 17
Nombres des cas positifs 26 20 41 2 42 0 0 5 136
S. Rosset
(LIMSI)


Pourcentages des cas
corrects 100 100 100 100 - 91,30 - - 100 98,55
Total des cas 20 14 72 37 11 48 0 0 10 212
Nombre des cas neutres 1 0 5 15 1 4 0 0 4 30
Total des cas positifs 18 12 63 18 10 40 0 0 2 163
J. Villaneau
(VALORIA)


Pourcentages des cas
corrects 100 85,71 94,02 81,81 100 100 - - 100 89,56
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
218
Classification des cas selon
leur nature Ellipse Incise Extraction Anaphore Ngation Coordination Ambiguts
Erreurs de
RAP Relative Total
Nombre total de tous les cas 98 97 199 78 53 132 2 33 237 929
Nombre total de tous les cas
neutres 9 8 7 34 21 14 0 0 32 123
Nombre total de tous les cas
positifs 86 80 187 38 29 111 1 15 205 717
Pourcentages totaux des cas
corrects 96,62 89,88 97,39 86,36 90,62 94,06 50 45,45 87,8 88,95
Tableau 21. Rsultats globaux du systme Oasis pour le traitement des phnomnes grammaticaux



t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


219
Les tableaux prcdents montrent que la performance globale de notre systme est assez bonne pour le
traitement des phnomnes linguistiques observs dans notre corpus de test : 88,95% des cas ont t
correctement analyss. Dans ce qui suit, nous allons faire une analyse dtaille des rsultats de chaque
phnomne part.
i. Le traitement des ellipses : la plupart des ellipses observes dans notre corpus de test sont des
ellipses verbales (omission du verbe ou dune construction verbale). Des ellipses dautres
lments sont aussi observes comme celles du dterminant dun nom. Nous avons eu, au total,
quatre-vingt-neuf cas valides dellipses dont quatre-vingt-six ont t correctement traits
(96,62%). Globalement, les cas qui nont pas t traits ne correspondent pas des formes
courantes dellipse (nous navons pas observ des cas similaires dans le corpus de rservation
htelire). Par exemple, nous avons eu des cas difficiles dellipse du dterminant dun nom qui
ont caus une erreur de traitement comme dans :
Train arrive 10 12 19 heures 37 <2.11, Goulian> (108)
Ces phnomnes peu frquents ne causaient pas une erreur systmatique, cest--dire, le systme
a t capable de traiter des suppressions de dterminants de noms comme dans lexemple :
8 octobre une baignoire si c'est possible (109)
Par ailleurs, le systme a trs bien russi traiter les ellipses verbales qui sont assez courantes
dans le dialogue comme lellipse de la construction verbale je voudrais de lnonc prcdent.
ii. Le traitement des incises : lincise consiste insrer un mot, un segment ou un nonc entier
entre deux units qui sont gnralement connectes lune lautre et dont la connexion est
ncessaire pour juger la grammaticalit de ces deux units. Qutre-vingt-neuf cas valides ont t
observs dans notre corpus de test dont quatre-vingt ont t correctement traits (environ 90%).
Les erreurs de traitement sont dues linsertion de segments non pertinents : comme lexpression
couramment utilise dans les incises je veux dire qui nest pas modlise dans notre grammaire.
Le systme, dans ce cas, considre dire comme un mot non pertinent et insre je veux comme une
formule de demande. Ces erreurs comme la plupart des erreurs dinsertion ne posent pas un
problme pour linterprtation de lnonc tant donn que le segment insr est non pertinent
par rapport au contexte.
iii. Le traitement des anaphores : dans notre corpus de test, trente-huit cas valides danaphores ont
t observs. Trente-quatre cas ont t correctement traits, cest--dire, 86,36% ont t
correctement traits. Le pourcentage assez lev des cas neutres est d aux reprises anaphoriques
frquentes de segments non pertinents ou dinsertion de verbes de lextrieur du lexique. La
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
220
partie principale des erreurs est due la sous-gnration de la grammaire. En effet, un bon
nombre des constructions non traites na pas t observ lors de lcriture de la grammaire. Dans
ces cas, le systme considre le pronom anaphorique comme un mot insr et choue traiter
tout le segment.
iv. Le traitement des extractions : les extractions consistent dplacer un segment dun endroit
un autre dans lnonc. Les segments dplacs sont gnralement des syntagmes prpositionnels
dont la position a t change pour mettre laccent sur leur contenu. Nous avons observ cent
quatre-vingt-deux cas valides dans notre corpus de test. Un bon pourcentage de ces cas a t
correctement trait: 97,39%. Cela est d notamment grce la stratgie danalyse partielle qui
permet des units non connectes avec le reste de lnonc (comme cest le cas des units
dplaces dans lextraction) dtre considres comme des units bien formes. Les erreurs de
traitement sont dues des extractions dunits infrieures un arbre local.
v. Le traitement des ngations : la ngation est un phnomne syntaxique assez important dans la
mesure o il est directement impliqu dans linterprtation de lnonc. Dans notre corpus de test,
nous avons observ trente-deux cas valides de ngation dont vingt neuf ont t correctement
traits, cest--dire 90,62% des cas. Les trois erreurs observes sont dues la sous-gnration de
la grammaire.
vi. Le traitement des coordinations : nous avons observ cent dix-huit cas valides de coordination
dans le corpus de test. Cent onze ont t correctement traits par le systme cest--dire 94,06%.
Au cours de notre analyse nous avons remarqu un bon traitement de toutes les formes
dextraction qui ont impliqu des arbres locaux notamment grce lapproche danalyse partielle.
La raison principale de lchec est les coordinations dlments au sein mme dun arbre local.
vii. Traitement des ambiguts : par ambiguts, nous entendons tous les cas dambiguts
syntaxiques qui ne sont pas couverts par les autres phnomnes considrs dans notre
classification comme les problmes de porte de la ngation ou de la coordination qui sont traits
avec leurs phnomnes respectifs. Un des deux cas dambigut na pas t correctement trait. Il
sagit dun cas difficile de rattachement de syntagme prpositionnel post-pos sans reprise
anaphorique.
viii. Traitement des erreurs de RAP: seule C. Bousquet de lIRIT a produit des noncs qui
contiennent des simulations derreurs de reconnaissance. Elle a produit trente-trois erreurs de
diffrents types (insertion, suppression, remplacement). Dans quinze cas (cest--dire 45,45% des
cas), le systme a russi rattraper ces erreurs. Le rattrapage a t ralis dans les cas ou les
erreurs de reconnaissances ont endommag une partie non centrale dans le traitement.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


221
ix. Traitement des relatives : les constructions relatives sont le phnomne le plus frquent que
nous avons observ dans notre corpus de test avec un nombre total de deux cent-cinq cas valides.
Environ 88% des cas dnonc avec une construction relative ont t correctement traits. La
raison principale des erreurs danalyse est la sous gnration de la grammaire. En effet, la
majorit des checs est due des expressions composes dun relatif et un verbe inconnu (non
couvert dans le dictionnaire du systme) comme qui vient, dire que, etc.
Comme nous pouvons le constater travers notre discussion des rsultats des phnomnes
grammaticaux et extragrammaticaux, le taux de bon traitement du systme Oasis est gnralement
assez lev. Nous avons vu aussi que les raisons principales dchec de lanalyse sont lies
essentiellement ltat actuel du systme en terme de dveloppement ou la disponibilit des donnes
qui est la source majeure des problmes de sous-gnration. Ainsi, nous pouvons conclure que notre
approche (base sur la Sm-TAG, traite par un algorithme danalyse partielle et slective, couple
avec lapproche de traitement des extragrammaticalits) combine raisonnablement bien la robustesse
et la profondeur danalyse.
2.2.4.1.7 Les premiers rsultats globaux des systmes impliqus dans la campagne
Les premiers rsultats obtenus par les diffrents partenaires ont t prsents selon une typologie gnrale
moins riche que celle que nous avons adopte pour prsenter les rsultats de notre systme dans les
paragraphes prcdents. Les motivations principales de cette simplification de la typologie sont la facilit de
synthse des rsultats obtenus avec les quatre systmes impliqus dans la campagne ainsi que des contraintes
lies certains partenaires. Les six phnomnes distingus dans cette typologie sont prsents dans les points
suivants :
Erreurs de reconnaissance de la parole : qui portent sur des cas dinsertion, suppression et
remplacement de mots.
Complexit structurale du langage oral : il sagit des phnomnes syntaxiques et smantiques
complexes comme les coordinations, les ngations, les subordonnes, etc.
Les extragrammaticalit du langage oral : cela couvre les diffrents types
dextragrammaticalits lexicales et supralexicales.
Les variations de lordre des mots : cela couvre les diffrentes formes de changement de lordre des
mots dans lnonc comme : les extractions, les clives, les interrogations par inversement de lordre
des mots, etc.
Couverture lexicale et smantique : cela porte tant sur les mots pertinents non couverts par le lexique du
systme que sur les expressions non considres dans le modle smantique (pour les systmes qui
comportent un module danalyse smantique).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
222
Phnomnes divers : il sagit de phnomnes qui ne sont pas couverts par la typologie et qui sont
dintrt particulier pour lun des systmes.
La mthode danalyse des rsultats qui a t retenue par les partenaires de la campagne consiste calculer le
pourcentage des cas o un phnomne na pas t trait correctement par rapport la totalit des erreurs
danalyse. Par exemple, si nous avons 100 cas derreurs danalyse au total et si 10 de ces cas sont causs par
des ellipses, alors le pourcentage des erreurs causes par lellipse est de 10%.
Les rsultats globaux des diffrents systmes impliqus dans la campagne sont prsents dans le tableau
suivant (Antoine et al., 2002) :
Systme
Type derreur
Oasis (CLIPS) Cacao (IRIT)

Arise (LIMSI) Romus
(VALORIA)
Logus
(VALORIA)
Erreurs de
reconnaissance de la
parole
7,0 % 0% 0% 20% 2%
Complexit structurale 12,5 % 2,8% 0% 6% 8%
Extragrammaticalits 9,0 % 6% 18,2 % 17% 32%
Variations de lordre
des mots
2,3 % 14,9% 9,0 % 6% 3%
Couverture lexicale et
smantique
69,2 % 72,6%

36,0 % 32% 35%
Autres - 3,7% 36,8 % 19% 20%
Tableau 22. Les rsultats gnraux des systmes impliqus dans la campagne dvaluation par dfi
A premire vue, nous pouvons remarquer que les rsultats des diffrents systmes sont htrognes (chacun
des systmes a un type derreur particulier). Malheureusement, il nous est impossible daller loin dans
linterprtation de ces rsultats en les liant aux approches des systmes. En effet, vu les diffrences entre les
tches des diffrents systmes, les pourcentages des phnomnes linguistiques ainsi que leurs complexits ne
sont pas identiques dans les diffrents corpus de test. Ainsi, nous ne pouvons pas distinguer si un pourcentage
derreur peu lev pour un phnomne quelconque peut tre interprt comme une bonne performance du
systme ou comme une consquence dune frquence peu leve de ce phnomne dans le corpus de test.
Pour clarifier les rsultats collectifs et rendre les comparaisons plus faciles, une valuation plus avance est en
cours. Dans cette valuation, une mthode de calcul similaire celle que nous avons adopte pour lobtention
des rsultats de notre systme sera adopte : calcul du pourcentage des occurrences correctement traites dun
phnomne sur la totalit des occurrences de ce phnomne. Par ailleurs, nous avons propos une nouvelle
mthode dvaluation DCR tendue qui permet de gnrer objectivement les noncs drivs sur la base dune
grammaire gnrale (Kurdi et Ahafhaf, 2002). Cette gnration objective rend la comparaison des rsultats de
diffrents systmes plus faciles faire tant donn que les noncs produits ont le mme degr de complexit.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


223
Les premires expriences effectues sur cette mthode avec le systme Oasis ont montr quelle est
prometteuse pour des applications larges similaires celle de la campagne dvaluation par dfi. Une
description de ces premires expriences ainsi que des rsultats du systme Oasis sont prsents dans lannexe
6.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
224

3 Chapitre III.3 : Le systme Navigator pour la comprhension
des dialogues mutli-domaines orients par la tche
Avec les dveloppements dans le domaine de linformatique et des tlcommunications on assiste une
extension des domaines de dialogue. Ainsi, nous passons des dialogues mono-domaines orients par la tche
aux dialogues orients par la tche et dont la tche couvre plusieurs domaines. Llargissement des domaines
de dialogue implique llargissement du nombre des items lexicaux considrer, laugmentation des
connaissances smantiques et pragmatiques ainsi que les connaissances sur le domaine que le systme doit
prendre en considration lors du traitement. Comme la Sm-TAG intgre directement des connaissances sur le
domaine, on pourrait penser que llargissement du domaine de dialogue peut avoir un effet sur les systmes
base de Sm-TAG plus que les systmes base de formalismes syntaxiques classiques.
Dans ce chapitre nous allons prsenter le systme Navigator qui est une implantation de la Sm-TAG dans le
contexte dun dialogue multi-domaine. La proprit principale de Navigator est ladoption dune architecture
hautement modulaire qui permet de rduire au maximum les inconvnients de la prise en considration des
connaissances sur le monde au sein de la Sm-TAG. Ainsi, dans notre discussion et valuation nous allons nous
concentrer principalement sur les problmes lis llargissement du domaine de dialogue et leur effet
potentiel sur la Sm-TAG tout en abordant les autres aspects du systme pour donner une ide gnrale sur ses
diffrentes composantes.
3.1 Le Projet Vico
Navigator a t ralis dans le cadre du projet europen Vico qui a commenc au mois de Mars 2001 et dont la
dure est de trois ans. Ce projet vise la construction dun systme de dialogue qui sert contrler un ensemble
dutilitaires dans la voiture comme le systme de Guidage Par Satellite GPS ou laccs des informations
gnrales via un rseau spcialis appel CWW (Car Wide Web). Les langues retenues pour ce projet sont
langlais, lallemand et litalien. Cinq partenaires acadmiques et industriels sont impliqus dans ce projet.
Lidentit des partenaires ainsi que leurs contributions au projet sont prsents dans le tableau suivant :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


225

LABORATOIRE
TYPE LOCATION
GEOGRAPHIQUE
PARTICIPATION AU PROJET
Bosch Laboratoire
industriel
Stuttgart, Allemagne Coordination du projet et intgration des
modules
Daimler Chrysler Laboratoire
industriel
Stuttgart, Allemagne Reconnaissance de la parole pour langlais et
lallemand
IRST Centre de
recherche
Trento, Italie Reconnaissance de la parole pour litalien et
Car Wide Web (CWW)
NISlab. Laboratoire
universitaire
Odense, Danemark Modules de comprhension pour les
trois langues du projet.
Le gestionnaire de dialogue et les
modules associs comme le profile
dutilisateur et le gestionnaire de la
tche.
Trois modules de gnration pour les
trois langues du projet.
Tele -Atlas Laboratoire
industriel
Belgique Base de donnes gographiques
Tableau 23. Les partenaires du projet Vico et leur participation
Les principaux challenges de ce projet sont les suivants :
1. Pour le module de comprhension : comme nous avons dit, la largeur du domaine constitue le challenge
principal pour le module de comprhension dans Vico.
2. Pour la reconnaissance: le nombre considrable des noms propres correspondants aux rues, villes, pays,
points dintrts est denviron 80.000 mots (dans la premire tape du projet, prs de 16000 mots sont
utiliss). Par ailleurs, le bruit dans la voiture ( la fois le bruit du moteur et le bruit caus par les autres
personnes et animaux dans la voiture) constituent aussi un challenge important rsoudre au niveau du
traitement du signal de la parole.
3. Le gestionnaire du dialogue : vu le nombre potentiel derreurs de reconnaissance et dambiguts, on
sattend ce que le droulement du dialogue soit particulirement difficile. Cela implique la mise en
uvre dune approche de dialogue particulirement souple et adaptative et qui permet de rsoudre les
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
226
ambiguts en guidant le systme de reconnaissance (en indiquant la rgion dans laquelle seffectue la
recherche et les thmes possibles qui peuvent tre abords par lutilisateur sachant le contexte
dialogique) et aussi en dclenchant en cas de besoin des sous-dialogues de clarification.
3.2 Architecture du systme Vico
Larchitecture de Vico est base sur un hub (gestionnaire de systme) autour duquel sont organiss les
diffrents modules. Deux proprits cls de cette architecture mritent dtre cits :
1. Vico est un systme hautement interactif : nous pouvons noter en particulier le rle du gestionnaire de
dialogue qui interagit avec la majorit des modules du systme en fournissant des attentes et des
instructions aux quatre modules de traitement linguistique : la reconnaissance, la comprhension, la
gnration et la synthse et en effectuant des requtes au CWW qui est la source principale des
informations sur le monde dans le systme.
2. Linteraction des modules se fait via CORBA (Common Object Request Broker Architecture) qui a t
choisi en particulier cause de lhtrognit des modules et la ncessit daccder des informations
via le rseau avec le CWW.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


227


















NLU = Natural Language Understanding
(Navigator)
DM = Dialogue Manager
SR = Speech recognition
SM = System Manager
CWW = Car Wide Web
NLU
SR
CWW
DvM
DM
RG
SS
SM
predictions
confidence score
WHG
conf. score
frame
predictions
status event
delay event
initialisation
conf. score
WHG
SR predictions
conf. score
frame
NLU predictions
initialisation
user SS interrupt
system SS interrupt
delay event
status event
query
query
query response
query
response
resume SS
semantic data
semantic data
status event
delay event
initialisation
text string for display
text string for synthesis
text string
for display
text string
for synthesis
user push
buttom
push button
start recognition
speech started
send initial predictions
user
synthesis output
user
user
input
display output
u
s
e
r
u
s
e
r
Vico module communication requirements (draft)
RG = Response Generation
SS = Speech Synthesis
DvM = Device Manager
Figure 87. Architecture gnrale du systme Vico (Bernsen, 2002)
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
228

3.2.1 Les modules de reconnaissance
Les modules de reconnaissance ont t dvelopps Daimler Chrysler (pour langlais et lallemand) et par les
partenaires de lIRST (pour litalien). La spcificit principale des modules de reconnaissances utiliss dans
Vico est leur modularit. En effet, afin de rduire les problmes lis la reconnaissance des mots
gographiques (dont le nombre est assez lev et qui ne peuvent pas tre distingus facilement avec les
modles de langage puisque tous ces mots peuvent apparatre dans des contextes linguistiques similaires), les
partenaires ont divis le systme de reconnaissance en units de reconnaissance qui couvrent chacune un
aspect particulier de la tche. Ainsi, lorsquun signal de parole est dtect par le systme de reconnaissance
seul un sous-ensemble de ces units est activ (le choix des units activer est bas sur les attentes du
gestionnaire de dialogue). Les sept units de reconnaissance utilises ainsi que les techniques sous-jacentes
ces units (grammaire ou Modle Statistique de Langage) sont prsents dans le tableau suivant :
Unit Technique utilise Domaine
SRU0 MSL Navigation Trentino
SRU1 MSL Navigation Bolzano
SRU2 MSL Rservation htelire
SRU3 Grammaire Mta-communications
SRU4 Grammaire Les noms des villes et
places dans la rgion du
Trentino
SRU5 Grammaire La liste des rues dans la
rgion du Trentino
SRU6 Grammaire Epellations
Tableau 24. Les units de reconnaissance utilises dans Vico
La sortie des systmes de reconnaissance est une liste de N graphes o N est le nombre des units de
reconnaissance actives. Chaque graphe correspond la meilleure hypothse de lunit active et contient la liste
des mots reconnus coupls avec les scores individuels de reconnaissance pour chaque mot. Par ailleurs,
chaque graphe est tiquet par une catgorie qui reprsente lunit de reconnaissance qui la fourni. Cela
permettra au module de comprhension (qui prend ce graphe comme entre) dinfrer lattente du gestionnaire
de dialogue associe ce graphe. Ainsi, la sortie des systmes de reconnaissance a le format suivant :
SRU
1
M
1
Srm
1
M
2
Srm
2
M
a
Srm
a
SRU
n
M
1
Srm
1
M
2
Srm
2
M
c
Srm
b
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


229
O :
1. SRU
x
(Speech Recognition Unit) est lindicateur de lunit qui a produit lhypothse.
2. M
x
est le mot reconnu (ou un modle de bruit).
3. Srm
x
est le score de reconnaissance associ chaque mot.
4. N est le nombre des units actives (et par consquent celui des graphes fournis).
5. a et c correspondent respectivement aux longueurs des graphes 1et N.
Par exemple, pour un lnonc I want to go to Trento nous pouvons avoir la sorite suivante :
SRU
0
I 0.55 want 0.64 to 0.39 go 0.5 Trento 0.36 SRU
3
yes 0.31 #noise# 0.26 #noise# 0.28 SRU
4
#noise#
0.21 #noise# 0.18 Trentino 0.23
Comme nous pouvons le voir dans lexemple prcdent, trois units de reconnaissance ont t actives. Il
sagit de lunit de navigation routire dans la rgion du Trentino, lunit des mta-communications et lunit
des noms de ville.
3.2.2 Le Gestionnaire de Dialogue (GD)
Ce module a t conu et dvelopp au NISLab principalement par nos collgues N. O. Bernsen, Laila
Dybkjr et M. Charfuelan (Bernsen, 2002). Le GD est quip de diffrentes fonctionnalits comme un
gestionnaire de domaine (pour effectuer des raisonnements sur la cohrence des reprsentations smantiques
reues), un modle dutilisateur (qui sert de mmoire long terme du systme), etc. En ce qui concerne le
module de comprhension, deux proprits nous semblent intressantes prsenter avec plus de dtails :
1. Stratgie dadaptation dynamique : tant destin un dialogue dans des conditions assez varies (le
niveau de bruit peut varier dune voiture une autre et dans la mme voiture dun moment un autre
selon les conditions naturelles comme la pluie ou autre), le gestionnaire de dialogue est quip dun
mcanisme qui lui permet dadopter la stratgie de dialogue la plus appropries. Le choix de la stratgie
est bas sur un score de confiance qui doit exprimer le degr de satisfaction de lanalyse smantique
reue aux normes du module de reconnaissance de la parole et du module de comprhension.
2. Production dattentes : le GD grce sa connaissance globale du contexte dialogique ainsi que du
domaine de dialogue fournit des attentes qui guident les systmes de reconnaissance et de
comprhension. Ainsi, nous pouvons distinguer entre trois types dattentes :
i. Des attentes spcifiques la reconnaissance : il sagit des attentes relatives aux localisations
gographiques des noms propres qui peuvent tre abords dans les noncs de lutilisateur.
Comme le lexique du systme de reconnaissance est organis selon les zones gographiques, les
attentes du GD permettent dactiver uniquement le lexique de la zone pertinente.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
230
ii. Information fournie au module de comprhension sur la tche courante : il sagit de linformation
sur le domaine du dialogue courant comme la navigation routire, le point dintrt, la rservation
htelire, linformation sur Vico ou lpellation. Lorsque le GD est incapable de fournir cette
information (cela arrive au dbut du dialogue en gnral), il fournit ltiquette vide.
iii. Des attentes communes : il sagit de linformation fournie par le GD sur les domaines possibles
qui peuvent tre abords par lutilisateur sachant lhistorique du dialogue. Les valeurs que
peuvent prendre ces attentes sont identiques celles des attentes du module de comprhension
sauf que dans ce cas le GD fournit gnralement plus dun domaine.
3.3 Le module de comprhension
50
de Vico : Navigator
Ce systme est conu pour traiter des noncs oraux en trois langues : langlais, lallemand et litalien. Le
dialogue englobe : navigation routire, points dintrts, rservation htelire et information sur le systme
(aide). Les proprits principales de Navigator peuvent tre rsumes dans les points suivants :
1. Lentre du systme est une liste de graphes de mots.
2. Adoption de la Sm-TAG comme formalisme danalyse grammaticale.
3. Adoption dune architecture modulaire base de Hub. Le principe de base de cette architecture est la
maximisation du partage des ressources linguistiques et logicielles dune part travers les trois langues
et dautre part travers les diffrents domaines de dialogue.
4. Prise en considration des attentes du gestionnaire de dialogue dans la dsambigusation des noncs.
Larchitecture gnrale de Navigator et ses interactions avec les autres modules de Vico sont prsentes dans
les deux figures suivantes :


50
Navigator est un module de comprhension dans la mesure o il prend en considration le contexte dialgique dans ses
analyes.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


231




















Figure 89. Architecture gnrale du module de comprhension Navigator



Gestionnaire
Global de
Navigator
(GGN)
Lexique
gographique
Ressources
logicielles
Ressources
communes
Anglais


G
L
P
Italien
Allemand
GSVico


G
L
P


G
L
P
GLP = Gestionnaire dune Langue Particulire
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
232
























Figure 90. Architecture de Navigator et ses interactions avec les autres modules de Vico

GS Vico


GD
Module
darbitrage
Attentes RP
Attentes RP
N hypotheses de RP
AL = Analyse linguistique GS = Gestionnaire du systme
URP = Unit de reconnaissance de la parole GD = Gestionnaire de dialogue
UAG = Unit danalyse grammaticale UAS = Unit danalyse smantique
= activation obligatoire = activation conditionnelle
Corrector
Attentes AL
Attentes AL
URP
1
URP
3
URP
2
URP
7
URP
4
URP
5
URP
6

N
hypotheses
de RP




GLP
Meilleure
analyse
grammaticale
Pile danalyses grammaticales
Analyse smantique de la
meilleure hypothse
Analyse smantique de
la meilleure hypothse
Analyse smantique de
la meilleure hypothse
GGN
N hypotheses de
RP
UAS
3

UAS
4

UAS
1

UAS
2

R
E
S
O
U
R
C
E
S

C
O
M
M
U
N
E
S

UAG
2

UAG
4

UAG
3

UAG
1

UAG
5

R
E
S
O
U
R
C
E
S

C
O
M
M
U
N
E
S

Pile danalyses
grammaticales
Parole
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


233
Le flux de linformation au sein du systme Navigator est prsent dans le tableau suivant :



























Tableau 25. Le flux de linformation au sein du systme Navigator
Entre Source Destination Traitement Destination
N Meilleures
hypothse de
reconnaissance
Lun des trois
modules de
reconnaissance
(via le GS de
Vico)
GGN Activation de la
langue approprie
selon lattente du
Gestionnaire de
dialogue
GLP
N Meilleures
hypothse de
reconnaissance
GLP Corrector Traitement des
extragrammaticalits
dans chacune des
hypothses reues
GLP
N Meilleures
hypothse de
reconnaissance dont
les
extragrammaticalits
sont tiquetes
GLP Analyse
grammaticale :
activation des
units danalyse
pertinentes
Association chacune
des hypothses dun
arbre danalyse Sm-
TAG
GLP
N arbres danalyse GLP Module
darbitrage
Slection la meilleure
analyse grammaticale
GLP
Meilleure analyse
grammaticale
GLP Module danalyse
smantique :
activation dune
seule unit
danalyse
smantique
Schma smantique GLP
Schma smantique GLP GGN - Le
gestionnaire
de dialogue
(via le GS
de Vico)
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
234
Ainsi, nous pouvons dire que larchitecture de Navigator est la fois une extension et une gnralisation de
celles de Corrector et dOasis.
3.3.1 Description des composantes de Navigator
3.3.1.1 Le Gestionnaire Global de Navigator (GGN)
Ce module sert dinterface entre dune part le gestionnaire de Vico (et par consquent le reste des modules du
systme de dialogue) et dautre part les trois modules de comprhension correspondant aux trois langues du
projet. Ainsi, selon linformation fournie par le gestionnaire de dialogue sur la langue courante, il active le
module de comprhension appropri et lui envoie lnonc reu. Ladoption dune interface commune pour
les trois langues est motive par les deux raisons suivantes :
1. Elle facilite lintgration du systme : leffort dintgration pour les trois modules (pour les trois
langues) est quivalent celui dun seul module.
2. Elle permet tout moment du dialogue de passer dune langue une autre sans avoir rinitialiser le
module danalyse. En effet, vu la longueur potentielle des dialogues (un dialogue peut durer plusieurs
heures), il nest pas impossible que le conducteur/chauffeur change en cours de dialogue, ou cause
dune raison ou dune autre, change sa langue de dialogue.
3.3.1.2 Le gestionnaire dune Langue Particulire (GLP)
Ce module peut tre vu comme une extension des gestionnaires de systmes que nous avons utiliss dans les
systmes Corrector et Oasis. En effet, outre sa fonction de corridor dinformation entre les diffrentes
composantes du systme, ce module est quip dun ensemble de rgles qui lui permettent dactiver un sous-
ensemble des units danalyse grammaticale et une seule unit danalyse smantique. Ces fonctions sont
bases sur les attentes fournies par le GD aussi bien que les traitements de lentre effectus au sein de
Navigator lui-mme. Deux groupes de fonctions ont t implants : un pour lactivation des units danalyse
grammaticale et un pour lactivation dune unit smantique.
3.3.1.2.1 Les rgles dactivation des units syntaxiques
Comme la correspondance entre les units de reconnaissances et les units danalyse syntaxique nest pas
directe, (parfois plusieurs units de reconnaissance correspondent une seule unit danalyse syntaxique),
nous avons utilis des rgles dinfrence spcifiques pour le routage des hypothses de reconnaissance aux
units danalyse grammaticales appropries. Les rgles utilises prennent en considrations la fois lattente
du GD associ lhypothse et la tche courante du dialogue. Voici un exemple dune simplification dune
rgle (en Prolog) utilise pour la distribution des units syntaxiques :
parse_unit_distribution(Input,city,route,Parse):-
parse_route(Input,Parse).
La rgle prcdente veut dire que si lattente fournie par le GD correspond un nom de ville et si la tche
courante est route alors lentre doit tre envoye lunit danalyse grammaticale route.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


235
3.3.1.2.2 Les rgles dactivation des units smantiques
Lactivation dune unit smantique se fait sur la base de trois critres : la nature des non-terminaux
smantiques de larbre Sm-TAG, la tche courante et les attentes du GD. Ces trois critres sont combins au
sein de rgles dinfrence dont la structure gnrale est similaire celle utilis pour le routage vers les units
grammaticales. En voici un exemple (en Prolog) :
frame_poi_route(Input,_Expectation,route,Frame):-
all_information_concepts(Input),
main_frame_information(Input,Frame).
La rgle prcdente, signifie que si la tche courante est route et si tous les non-terminaux smantiques de
larbre danalyse Sm-TAG sont tous propres au domaine informations sur Vico (cela se fait laide dune
fonction spciale qui scan larbre danalyse) alors quelle que soit lattente du GD cet arbre doit tre envoy
lunit danalyse smantique du domaine informations sur Vico.
3.3.1.3 Lanalyse grammaticale
Le module danalyse de Navigator est bas sur le formalisme Sm-TAG. Lalgorithme danalyse utilis est
assez proche de celui utilis dans Oasis. En effet, nous avons vu que la Sm-TAG est convertie en une
combinaison de rgles dinfrences et de RTRs. Cependant deux points distinguent lanalyse grammaticale de
Navigator :
1. Implantation dun compilateur Sm-TAG RTRs pour faciliter lcriture de la grammaire.
2. Division de la grammaire en diffrentes units qui correspondent chacune un domaine particulier de
dialogue et qui partagent un ensemble de ressources grammaticales communes.
3.3.1.3.1 Linterface entre la grammaire et le module danalyse
Pour automatiser la conversion des arbres Sm-TAG en RTRs nous avons implant un module de compilation
qui a pour entre la grammaire au format Sm-TAG et dont la sortie est lquivalent de cette grammaire au
format interne du systme danalyse. Le schma gnral de lemplacement de ce module dans le systme est le
suivant :







t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
236













Figure 91. Le schma gnral de lemplacement du module de compilation de la grammaire au sein du systme
Oasis
Comme nous pouvons le voir dans le schma prcdent, la grammaire au format Sm-TAG est tout dabord
saisie par le linguiste et puis cette grammaire est compile en un format interne qui, combin au noyau
indpendant de la grammaire, donne comme rsultat le module danalyse. Le noyau indpendant de la
grammaire couvre un ensemble de principes gnraux du formalisme qui ne dpendent pas dune grammaire
ou dune application particulire (les rgles dinfrence syntaxiques).
Ainsi, la compilation revient convertir la grammaire Sm-TAG en un RTR tant donn que ce dernier intgre
la fois les arbres lmentaires et lopration de substitution.
Avant de prsenter les diffrentes tapes de traitement dans notre algorithme, nous allons commencer par une
prsentation des RTRs du point de vue implantation.
Un rseau de transition rcursif est un graphe qui ncessite les informations suivantes :
1. Un dictionnaire qui contient tous les mots du lexique avec leurs catgories morpho-syntaxiques et/ou
smantiques.
2. Le nom du rseau ou sa catgorie principale.
3. Ltat du commencement.
4. Une srie dtats intermdiaires lis par des arcs tiquets par des catgories dont la vrification
constitue la condition ncessaire et suffisante pour le passage dun tat ltat suivant.

Grammaire
au format
Sm-TAG
Grammaire au
format interne de
Navigator



Module
danalyse

Noyau
indpendant de la
grammaire
Compilation

Linguiste
Interface
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


237
5. Ltat de la fin qui marque le succs du passage du rseau.
Ainsi, pour convertir les arbres du formalisme Sm-TAG en RTRs la procdure gnrale est la suivante :
1. Conversion des arbres lexicaux : convertir tous les arbres lexicaux t
l,
en entres lexicales dans le
dictionnaire de la manire suivante :
i- Soit A ltiquette de la racine de larbre t
l
. Crer une nouvelle entre lexicale et instancier la
variable correspondant la racine de larbre dans cette entre par A.
ii- Si t
l
est de profondeur deux et si ltiquette du nud interne de cet arbre est Y
i
alors instancier la
variable correspondant cette information dans lentre lexicale par la catgorie Y
i.
Sinon, si la
profondeur de larbre est de un, alors remplacer cette variable par un lment vide.
iii- Soit Z
i
lancre de larbre t
l
(litem lexical). Instancier le champ correspondant litem lexical
dans lentre dans le dictionnaire par Z
i.

Ainsi, lentre dans le dictionnaire correspondant un arbre lexical a la forme suivante :
mot(racine_arbre, catgorie_morpho-syntaxique, ancre_lexical).
Pour rendre cette ide encore plus explicite, prenons les exemples suivants :
Arbres lexicaux initiaux

N Det. N

Adj.

bonne la chambre
mot(n, adj, bonne).
mot(det, _, la).
mot(n, _, chambre).
Figure 92. Quelques arbres lexicaux et leur conversion en entres lexicales du rseau de transition
Vue la simplicit du format des arbres lexicaux, ces arbres ont t saisis directement au format interne.
2. Conversion des arbres locaux et globaux : la conversion des arbres locaux et globaux t en rseaux de
transition se fait de la manire suivante :
i- Soit A

la racine de larbre t dfinir A comme le nom du rseau R.
ii- Soit K
i
, L
i+1
, , Z
n
les nuds fils de A.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
238
iii- Crer les deux prdicats suivants : initial(i, A), final(n, A) (dfinition des tats initial et final du
rseau R).
iv- Crer les arcs du rseau de la manire suivante :
arc(i, i+1, k, A).
arc(i+1, i+2, l, A).
(.)
arc(n-1, n, z, A).
Pour concrtiser ces dmarches, prenons titre dexemple les trois arbres lmentaires suivants et leurs
quivalents en rseaux de transition :
Les arbres locaux et globaux Les RTRs quivalents


Demande_rservation


Formule_demande Objet_demande
initial(0, demande_rservation).
final(2, demande_rservation).
arc(0,1, formule_demande, demande_rservation).
arc(1, 2, objet_demande, demande_rservation).

Objet_demand



Chambre Caractre_chambre
initial(0, objet_demand).
final(2, objet_demand).
arc(0,1, chambre, Objet_demand).
arc(1, 2, Caractre_chambre, Objet_demand).


Formule_de_demande



NP V
initial(0, formule_de_demande).
final(2, formule_de_demande).
arc(0,1, np, formule_de_demande).
arc(1, 2, v, formule_de_demande).
Figure 93. Exemple darbres lmentaires locaux et globaux et les RTRs quivalents
Comme nous pouvons le constater dans la figure prcdente, les rseaux produits correspondent parfaitement
aux arbres locaux et globaux donns.
Pour lcriture des arbres locaux et globaux nous avons dfini un format spcial dont le schma gnral est le
suivant :
(Racine_arbre,
[nud_fils
1
,
nud_fils
2
, ,
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


239
nud_fils
n
],
Commentaires).
Par ailleurs, le compilateur est quip dune fonction qui permet de compiler diffrentes grammaires (pour les
dialogues multi-domaines) qui doivent tre mises dans des fichiers spars.
3.3.1.3.2 La modularit de la grammaire
La spcificit principale de Navigator par rapport Oasis est sa modularit. En effet, nous avons organis la
grammaire de manire reflter lorganisation des domaines du dialogue. Voici les principaux traits lis la
modularit de la grammaire :
I. Les units utilises : la grammaire est divise en un ensemble de parties qui correspondent chacune
un domaine de dialogue et qui partagent un ensemble darbres indpendants du domaine. Ainsi, nous
avons obtenu cinq units danalyse grammaticale plus lunit des ressources communes :
1. Grammaire pour la tche dinformations routires : cette grammaire couvre principalement
des noncs de demande de dplacement vers une adresse particulire : rgion, ville, rue, etc.
2. Grammaire de point dintrt : cette grammaire est complmentaire de la prcdente dans la
mesure o elle est destine traiter des noncs de demande vers des points dintrts. La liste
des points dintrt qui ont t retenus par le consortium englobe vingt-cinq types dont : htels,
hpitaux, gares, botes de nuits, etc.
3. Rservation htelire : cette grammaire est destine couvrir diffrents types dnoncs lis la
rservatoin dune chambre dhtel comme les demandes de rservation, les caractristiques
principales des chambres et des htels, les dates darrive et de dpart, etc.
4. Informations sur Vico (aide) : cette grammaire est destine couvrir des noncs de demande
dinformation sur le systme Vico, sa technologie, ses fonctionnalits, etc. Nous avons implant
une grammaire pour langlais seulement puisque cette tche ne fait pas partie officiellement des
tches du projet. Limplantation de cette grammaire pour langlais avait pour but de tester lutilit
de lajout dune telle tche au systme.
5. Module de traitement des pellations : ce module nest pas quip dune grammaire spcifique
mais il est quip dune interface qui assemble les lettres et les envoie lunit danalyse
grammaticale choisie par le GLP.
6. Les ressources communes : il sagit dun ensemble darbres qui ne dpendent pas dune
application particulire et qui par consquent peuvent tre utiliss par les diffrentes units. Les
formules de demande I want to, les formules de confirmation yes et les demandes de rptition
repeat again sont des exemples de segments correspondants des arbres partags entre les
diffrents domaines.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
240
II. Motivations du partage en units spares : diffrentes raisons ont motiv notre choix dune
approche modulaire pour lanalyse grammaticale :
Simplification des procdures dcriture et maintien des grammaires : la division de la grammaire en
diffrentes parties qui correspondent chacune un domaine applicatif diffrent rend possible le partage de
leffort dcriture des grammaires plusieurs linguistes qui peuvent travailler en parallle sur la grammaire.
Par ailleurs, cela facilite le maintien de la grammaire dans la mesure o il est plus facile dintgrer de
nouvelles rgles dans une grammaire dont la taille est relativement petite que dans une grande grammaire.
1. Augmentation de la rapidit de traitement : la rapidit de traitement est une proprit dsire
de tous les systmes de comprhension du langage oral tant donn que ces systmes sont
destins fonctionner en ligne. La rapidit dun algorithme est mesure par deux formules : O(n
x
)
o n est la longueur de lentre et O(G
x
) o G est la taille de la grammaire. Comme le note
(Joshi,1996), la complexit relle dun algorithme est souvent infrieure sa complexit
thorique et ce selon la taille de G. Etant donn que la division de la grammaire affecte seulement
les arbres qui se combinent avec lopration de substitution (comme nous avons dit, les arbres
lexicaux initiaux et secondaires ne sont pas partags puisquils ne sont dpendants du domaine),
la valeur de X est 2. Ainsi, si nous divisons une grammaire en quatre parties de tailles gales la
complexit spaciale sera quatre fois moins grande : O((G/4)
2
).
2. Rduction des ambiguts : en rduisant lespace de recherche lespace jug pertinent par
rapport lnonc dentre, nous rduisons aussi les ambiguts lies au traitement. Par exemple,
dans le contexte dinformation routire, les numros utiliss correspondent seulement des
numros de rues comme dans : five Cikorievej please ou it is five, the number is five, etc. Par
contre, si nous considrons la totalit de la grammaire, les numros peuvent rfrer diffrents
objets comme le nombre de personnes, le prix, le nombre des chambres demandes, etc. Ainsi, la
modularit de la grammaire permet dans certains cas dviter les ambiguts plutt que davoir
les rsoudre.
3.3.1.4 Le module darbitrage
Le module darbitrage est un classifieur multicritres qui a pour fonction de slectionner la meilleure analyse
parmi les N analyses reues du module danalyse grammaticale. Les critres retenus pour la classification
couvrent pratiquement tous les niveaux des connaissances manipuls par Vico : connaissances acoustiques,
connaissances syntaxiques et smantiques, connaissances pragmatiques et connaissances sur le domaine.
Ainsi, si nous utilisons la terminologie de la thorie de loptimalit (voir (Gilbers et De Hoop, 1998) pour une
introduction cette thorie), lnonc retenir est celui qui satisfait au maximum les contraintes prcites. Le
problme, est que vue la complexit et lhtrognit de ces contraintes, il existe diffrents conflits de
priorit entre ces contraintes qui sont rsoudre. Ainsi, dans notre module darbitrage nous combinons des
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


241
principes gnriques drivs des diffrentes sources de connaissances prcites des paramtres empiriques
qui refltent le poids de chacune de ces sources dans le traitement. Dun point de vu formel, le score global
devrait se calculer selon la formule suivante :

S
Ti
(H) . P
Ti

O :
1. S
T
est une fonction de score partiel de T qui est un type de connaissance quelconque (connaissances
acoustiques, connaissances pragmatiques, etc.).
2. H est une hypothse de reconnaissance.
3. n est le nombre des types de connaissance.
4. P
T
est le poids du type T dans le traitement.
En pratique, la situation est plus complexe vu les interdpendances entre les diffrentes sources de
connaissances qui doivent tre prises en condiration lors du calcul. Ainsi, nous allons procder en deux
tapes :
i. Cration de deux scores initiaux : un pour les connaissances perceptives que nous avons appel score
global de reconnaissance (le score de reconnaissance pondr smantiquement et pragmatiquement) et
un pour lanalyse grammaticale.
ii. Combinaison de ces scores en un score global de lnonc qui sera utilis pour slectionner la meilleure
analyse.
Dans notre dmarche de calcul nous avons utilis un bon nombre de poids de natures diverses. Notons que les
valeurs de ces poids ont t trouves empiriquement laide dun corpus de quarante hypothses de
reconnaissance.
3.3.1.4.1 Le score global de reconnaissance
Comme nous avons vu, les systmes de reconnaissance produisent N graphes de mots contenant chacun une
liste de mots associs leurs scores de reconnaissance. Pour calculer un score global de reconnaissance de
chaque hypothse partir des scores individuels, nous procdons selon les tapes suivantes :
1. Pondration smantique : il sagit de distinguer entre les degrs dimportance de linformation
transmise par les mots des points de vues linguistiques et pragmatiques en leur associant un score qui
reflte cette importance. Ainsi, nous avons distingu entre trois classes de mots :
i. Les mots qui ont un contenu directement important : cette liste englobe tous les mots qui
permettent de remplir un slot dans le schma smantique comme les noms gographiques (nom
de ville, de rue, etc.), les nombres (nombre de personnes, nombre de chambres, etc.).


t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
242
ii. Les mots qui jouent un rle important linguistiquement : il sagit des mots qui peuvent tre la tte
de syntagme comme les verbes, noms, adverbes, etc.
iii. Le reste.
A chacune de ces catgories, nous avons associ un poids P
x
(o 0< P 1 et x est lune des trois
catgories prcites).
2. Combinaison des scores individuels : la combinaison des scores individuels pondrs smantiquement
se fait selon la formule suivante :
S
X
(H)
P
X
(H)

O Sx est le score de reconnaissance dun mot X de lhypothse H et P
X
est le poids associ au score de
X.
Cette formule permet, en cas de diffrence significative des scores de reconnaissance des mots, de
produire un score combin qui reflte les scores des mots les plus importants smantiquement dans
lhypothse. Par ailleurs, en cas dgalit des scores de reconnaissance le score combin obtenu est la
moyenne des scores individuels avant la pondration smantique (dans ce cas les poids smantiques ne
sont pas trs utiles).
3. Pondration pragmatique du score combin : il sagit dassocier un poids chaque hypothse qui
correspond au degr dattente de cette hypothse par le gestionnaire de dialogue. Sur ce plan, nous
avons distingu entre deux types dnonc associs deux poids diffrents :
i. Les noncs informatifs : il sagit dnoncs dont le contenu smantique est directement li
lexcution de la tche (questions, rponses, assertions, etc.). Un poids normal ces noncs.
ii. Les noncs qui correspondent des mta-communications (demande de rptition par exemple).
Le poids associ aux noncs de ce type est moins important que celui associ aux noncs
prcdents.
Le rsultat de la pondration pragmatique est le Score Global de Reconnaissance (SGR).
3.3.1.5 Le score danalyse grammaticale
Etant donn que nous avons adopt une approche danalyse combinant une analyse superficielle une
stratgie slective, il est ncessaire davoir des critres qui permettent de juger la qualit de lanalyse produite
par le module grammaticale. Ainsi, le score danalyse grammaticale peut-tre vu comme un moyen pour
pnaliser les arbres dont lobtention a ncessit le recours lune de nos approches de relaxation : lanalyse
partielle ou la stratgie slective. Le score de lanalyse grammaticale (qui a gnralement la forme dun
ensemble de segments ou dlots) est calcul de la manire suivante :
Score combin =
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


243
1. Classification des segments : nous avons distingu entre deux types de segments : les segments non-
analyss et les segments analyss. Chacun des segments dune analyse est associ un score qui reflte
sa taille. Ce score est appel : Score de Couvertur de Segment (SCS). Le SCS dun segment non-
analys est le nombre des mots (non-analyss) que couvre ce segment alors que celui dun segment
analys correspond au nombre des arbres locaux et globaux domins par la racine de ce segment.
2. Calcul des Scores Locaux de lAnalyse Grammaticale (SLAG) : le SLAG dun segment est calcul de
la manire suivante : SLAG
X
= CCS
X
. P
X
o X est un segment quelconque et P
X
est le poids de X dans
le traitement. Il faut noter que le poids varie selon la nature du segment. Ainsi, nous associons un poids
positif aux segments analyss alors que nous associons un poids ngatif aux segments non-analyss.
Ainsi, plus le nombre des arbres locaux et globaux compris dans un segment analys est lev plus le
score de ce segment est lev. Par contre, plus le nombre des mots non-analyss est lev plus le score
de ce segment est bas.
3. Calcul du Score Global de lAnalyse Grammaticale (SGAG) : le SGA reflte le score global de
lanalyse associe lnonc. Afin de reflter la qualit de lanalyse dune entre donne, ce score doit
prendre en considration non seulement les scores locaux de ses segments mais aussi la longueur de
lhypothse. Cela permet de favoriser les analyses dont les segments couvrent plus de mots. Voici la
formule que nous avons adopte pour le calcul du SGAG :
SLAG
X

P . L
O P est un poids dont la valeur est trouve empiriquement et L est la longueur de lhypothse.
3.3.1.5.1 Calcul du Score Global de lEnonc (SGE)
Le SGE est obtenu en calculant la moyenne du SGR et du SGAG. Il faut noter que la valeur de P (le poids
empirique) dans la formule utilise pour le calcul du SGAG peut tre considre comme un poids qui
dtermine son importance dans le SGE.
3.3.1.5.2 Calcul du score normalis
Le GD dispose de trois stratgies dont le choix dpend du SGE fournit par le module darbitrage. Afin de
rendre ce score utilisable par le GD, nous avons implant une fonction de normalisation qui concrtise ses
valeurs. Ainsi, les scores SGE dont la valeur est infrieure 0.25 sont remplacs par la valeur 1 (mauvais).
Les SGE dont la valeur se situe entre 0.25 et 0.5 sont remplacs par la valeur 2 (moyen). Finalement les scores
dont la valeur est situe entre 0.5 et 1 sont remplacs par la valeur 3 (bon).
SGA =
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
244
3.3.1.6 Lanalyse smantique
Le module danalyse smantique a pour fonction de convertir les arbres danalyse grammaticale (qui
combinent la syntaxe et la smantique) en une reprsentation smantique pure utilisable directement par le
gestionnaire de dialogue.
Dun point de vue formel, un schma est dfini par un nom et un ensemble dattributs (Slots). Chaque schma
est implant comme une unit indpendante dont lactivation se fait selon diffrents critres (comme nous
avons vu avec le GLP). Dans Navigator, nous avons utilis quatre units danalyse smantique qui partagent
un ensemble de ressources communes. Il sagit de lunit de navigation routire, lunit de points dintrts,
lunit de rservation htelire et lunit dinformation (aide), les ressources partages : il sagit dun
ensemble de slots communs tous les schmas comme la confirmation, la ngation, la demande de rptition,
etc.
Lanalyse smantique se fait par un ensemble de rgles dinfrence dont la fonction est dextraire les
informations pertinentes pour le schma partir des arbres danalyse.
En voici un exemple simplifi :
analyse_pois_location([gtr_location_street1,_,[No,_],[Name,_]],[[street_name,Name],[street_number,NO]]).
La rgle prcdente permet dextraire le numro et le nom de la rue de larbre danalyse Sm-TAG et dutiliser
les valeurs de ces deux variables pour instancier les slots appropris.
Le module danalyse smantique que nous avons implant produit uniquement les slots dont les valeurs sont
instancies. Un module de post-traitement (le module denveloppe) que nous allons prsenter plus loin
effectue un formatage de la sortie du module danalyse smantique et lenrichit avec les slots non-instancis.
3.3.1.7 Le module de traitement des extragrammaticalits
Nous avons intgr notre module Corrector pour le traitement des extragrammaticalits au sein de Navigator.
Le dveloppement de modules similaires Corrector pour lallemand et litalien est prvu pour la deuxime
phase du projet.
3.3.2 Exemple de traitement
Pour donner une ide sur les diffrentes tapes de traitement dans le cadre du systme Navigator prenons
lexemple suivant
51
: I want to go to Trento.
1. Entre : lnonc prcdent est trait par le module de reconnaissance qui produit une liste de deux
hypothses qui correspondent deux units de reconnaissance actives. La sortie du systme de
reconnaissance est enrichie par le GS qui y ajoute linformation sur la langue courante ainsi que la tche
courante de dialogue (reue du GD). Ainsi, lentre de Navigator (reue par le GGN) a la forme

51
Dans cet exemple, nous avons procd certaines simplifications et changements de format afin de clarifier le propos.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


245
suivante : current_language(english) current_task(route) SRU
0
I 0.55 want 0.64 to 0.39 go 0.5 to 0.6
Trento 0.66 SRU
3
yes 0.21 #noise# 0.18 #noise# 0.23
2. Le GGN active le module de langlais et envoie la chane current_task(route) SRU
0
I 0.55 want 0.64 to
0.39 go 0.5 to 0.6 Trento 0.66 SRU
3
yes 0.21 #noise# 0.18 #noise# 0.23 son GLP.
3. Analyse grammaticale : le GLP de langlais extrait les mots des deux hypothses. La premire
hypothse (I want to go to Trento) est envoye lunti danalyse grammaticale numro 1 (spcialis
dans la navigation routire). Cette unit est choisie parce que la tche courante de dialogue est route et
en mme temps lattente du GD associe cette hypothse est route (lattente du GD est dduite du tag
de lunit de reconnaissance : SRU
0
). Puis, la mme chose est rpte avec la deuxime hypothse.
Ainsi, la sortie du module danalyse grammaticale est une pile qui contient les analyses correspondantes
aux deux hypothses :
[
[[route_global, [request_formulation1, [pron_subj, I], [verb, want], [preposition, to]],
[requested_object_route, [verb, go]], [destination_city, [preposition, to], [proper_name, Trento]]]]],
[[non-analyse, [#noise#, noise]], [non-analyse, [#noise#, noise]], [confirmation_simple, [adverb, yes]]]]
]
4. Arbitrage : la slection de la meilleure des deux analyses reues par le module darbitrage se fait de la
manire suivante :
iv. Calcul du score global de reconnaissance : le score global de reconnaissance est calcul de la
manire suivante :
a. Pondration smantique : les scores individuels des mots de chacune des deux hypothses
sont pondrs par un poids qui reflte limportance de linformation quils transmettent :
SRU
0
I (0.55 0.25 = 0.13) want (0.64 0.5 = 0.32) to (0.39 0.25 = 0.09) go (0.5 0.5 =
0.25) to (0.6 0.5 = 0.3) Trento (0.66 0.75 = 0.495) SRU
3
yes (0.21 0.75 = 0.15) #noise#
(0.18 0.25 = 0.04) #noise# (0.23 0.25 = 0.05).
b. Calcul du Score de Reconnaissance Combin (SRC) des deux hypothses : cela se fait de la
manire suivante : SRC
0
= 0.13 + 0.32 + 0.09 + 0.25 + 0.3 + 0.495 (somme des scores
pondrs = 1.58) / 0.25 + 0.5 + 0.25 + 0.5 + 0.5 + 0.75 (Somme des poids smantiques =
2.75) = 0.57 ; SRC
3
= 0.15 + 0.04 + 0.05 / 0.75 + 0.25 + 0.25 = 0.19.
c. Calcul du Score Global de Reconnaissance (SGR) : le SGR est obtenu en pondrant le SRC
de chaque hypothse smantiquement. Ainsi, les SGRs des deux hypothses sont obtenus de
la manire suivante : SGR
0
= 0.57 1 = 0.57 ; SGR
3
= 0.19 0.7 = 0.11.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
246
ii. Calcul du SGAG : le Score Global danalyse Grammatical est obtenu selon les tapes suivantes :
a. Classification des segments : dans cette tape, les deux arbres danalyse grammaticale sont
convertis en un format standard. Ainsi, nous obtenons : [SRU
0
, (parsed, 3)] et [SRU
3
,
(unparsed, 2), (parsed, 1)].
b. Calcul des Scores Locaux de lAnalyse Grammaticale (SLAG) : [SRU
0
, (parsed, 31 = 3)],
[SRU
3
, (unparsed, 2 -1 = -2), (parsed, 1 1 = 1)].
c. Calcul du Score Global de lAnalyse Grammaticale (SGAG) : SGAG
0
= 3 / (1.5 (poids
empirique) 6) = 0.3 ; SGAG
0
= -1 / (1.5 3) = -0.22 .
iii. Calcul du SGE et slection de la meilleure hypothse : les scoer glaobaux des deux hypothses
sont calculs de la manire suivante : SGE
0
= 0.57 + 0.3 / 2 = 0.43 ; SGE
3
= 0.11 + (-0.22 ) / 2 = -
0.05. Lhypothse fournie par lunit SRU
0
est celle qui est retenue comme son score global est
suprieur celui de lhypothse fournie par SRU
3
.
iv. Normalisation du SGE : le score de lhypothse retenue est normalis. Comme sa valeur se situe
entre 0.25 et 0.5 il est remplac par le score 2.
5. Activation de lunit smantique approprie : comme la tche courante est route et lattente du GD
associe lhypothse retenue par le module darbitrage est aussi route, lanalyse grammaticale de
lhypothse retenue est envoye au module danalyse smantique spcialis dans la tche
dinformations routires.
6. Analyse smantique : tout dabord, le systme ouvre une entte dun schma pour linformation
routire auquel il associe le score normalis comme un slot. Puis larbre danalyse grammaticale est
parcouru de droite gauche par lalgorithme danalyse smantique. Le module localise un sous-arbre
marqu pour la propagation (destination_city), une rgle dinfrence est utilise pour extraire le slot
city_name de cet arbre. La sortie finale du module danalyse smantique est la suivante :
[route_frame,[city_name,Trento],[confidence_score, 2]].
3.3.3 Discussion de larchitecture de Navigator
3.3.3.1 Aspects logiciels
Le choix de larchitecture en gnral est motiv par les mmes raisons que celles dOasis et Corrector.
Cependant deux spcificits de larchitecture de Navigator mritent dtre cites :
1. Modularit : comme nous avons vu, Navigator a t construit sur le principe de maximiser le partage
des ressources logicielles et linguistiques entre les langues et entre les applications. Cela facilite
considrablement le dveloppement et le maintien du systme puisquon maximise lutilisation des
ressources dj existantes. Par ailleurs, nous avons vu que la modularisation de la grammaire a des
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


247
avantages en terme de rapidit de traitement qui est un trait important pour un systme de
comprhension.
2. Souplesse : lutilisation dune interface unique pour les modules des trois langues a facilit lintgration
de Navigator avec le reste des modules de Vico. En effet, leffort dintgration t rduit
lintgration dun seul module plutt que trois.
3.3.3.2 Aspects cognitifs
Dun point de vue cognitif, deux points cls de larchitecture peuvent tre nots :
1. Guidage du module danalyse grammaticale par les attentes du GD : sur le plan cognitif,
larchitecture de Navigator peut tre vue comme une extension du principe de linteraction entre les
diffrents niveaux de connaissance sur lequel est fond la Sm-TAG. Ainsi, grce la prise en
considration des attentes dialogiques (qui ne peuvent pas tre prise en considration directement par la
Sm-TAG), larchitecture de Navigator permet de guider le module danalyse grammaticale selon les
attentes de haut niveau. Comme nous lavons vu prcdemment, ce mode de guidage a t relev dans
diffrents travaux de psycholinguistique exprimentale comme ceux de (Spivey-Knowlton, 1994) et
(Boland et al., 1995).
2. Perception et comprhension au sein de Navigator : il est couramment admis dans la communaut de
psycholinguistique exprimentale (voir (Schwartz, 1996), (Kurdi, 1996) pour une revue de diffrents
travaux dans ce domaine) que la perception nest pas entirement indpendante de la comprhension.
En effet, lidentification des phonmes et la combinaison de ces phonmes en mots dpend non
seulement des facteurs acoustiques mais aussi de diffrents facteurs tant linguistiques (comme la
phonologie, la morphologie, la syntaxe et la smantique) que pragmatiques. La dcision de lhypothse
retenir (dcision perceptive) est faite aprs lanalyse grammaticale de toutes les hypothses
perceptives et le choix de la meilleure hypothse est fait selon pratiquement toutes les sources
dinformations impliques dans la perception et la comprhension de la parole.
3.3.4 Ralisation du systme Navigator
Dun point de vue pratique, nous pouvons distinguer entre deux tapes dans la ralisation du systme
Navigator : lcriture des grammaires et limplantation du systme.
3.3.4.1 Les grammaires utilises
3.3.4.1.1 Le corpus utilis pour lcriture de la grammaire
Les grammaires crites ont t bases sur trois corpus qui ont t collects dans trois sites : (Nislab-Odense
pour langlais, Bosch-Stuttgart pour lallemand, IRST-Trento pour litalien). Un protocole commun a t
adopt pour la collecte dans les trois sites. Les proprits principales de la collecte des donnes sont dcrites
dans les points suivants :
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
248
1. Adoption de la mthode de magicien dOz : les sujets devaient dialoguer avec un humain via une
interface logicielle qui leur est prsente comme le systme de dialogue. Cela permet davoir un
comportement dialogique proche de celui que les sujets auraient adopt en cas de dialogue avec un
systme de dialogue rel.
2. Simulation dune situation de conduite : les sujets devaient rpondre aux questions du magicien tout en
conduisant un simulateur de voiture. Les simulateurs utiliss consistent en un jeu vido de conduite de
voiture dont la commande se fait de manire proche de celle des voitures relles (avec un volant et deux
pdales). Lobjectif de cette utilsation est de simuler la charge cognitive de la conduite et son effet
potentiel sur le drouelement de dialogue.
3. Sept scnarios qui couvrent les diffrents domaines de dialogue ont t utiliss pour la collecte des
donnes. Les scnarios portent sur des demandes dans la rgion du Trentino en Italie.
4. Des locuteurs natifs ont t utiliss pour la collecte de litalien et lallemand alors que les locuteurs
utiliss pour la collecte de langlais taient des danois qui matrisent langlais.
Le rsultat de cette collecte de donnes en termes dnoncs dutilisateur (qui sont utiliss pour lcriture de la
grammaire) est le suivant : 1220 noncs pour lallemand (1004 ont t utiliss pour lcriture et lvaluation
de la grammaire), 1067 (886 noncs ont t utiliss pour lcriture de la grammaire) et 942 noncs pour
litalien (dont 855 ont t utiliss pour lcriture de la grammaire.
Outre les donnes obtenues avec la simulation de magicien dOz, un corpus de 180 noncs qui portent sur
des expressions temporelles (dates, expression darrive ou de dpart) a t obtenu pour langlais en simulant
des noncs. Le corpus a t obtenu en utilisant une interface dveloppe avec Power Point. Les principales
informations affiches dans les transparents sont les suivantes :
1. Le rsum de lhistorique dun dialogue virtuel (par exemple, vous avez demand de rserver une
chambre simple).
2. Lnonc du systme qui demande lexpression temporelle (vous arrivez quand ? Vous partez quel
jour?, etc.).
3. Des instructions sur le contenu de la rponse donner (indiquer le jour et le mois de votre arrive,
indiquer le mois et lanne de votre dpart, etc.).
Ce corpus a t ensuite traduit et augment par des locuteurs natifs en allemand et en italien afin denrichir les
grammaires des expressions temporelles dans ces deux langues.
3.3.4.1.2 Ecriture de la grammaire
Notre contribution lcriture des grammaires de Navigator est prsente dans les points suivants :
1. La grammaire de langlais : la tche dcriture de la grammaire pour langlais a t effectue par
nous.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


249
2. La grammaire de litalien : nous avons form la linguiste qui a crit la partie principale de la
grammaire, supervis son travail et crit environ 20% des arbres locaux et globaux.
3. La grammaire de lallemand : en ce qui concerne lallemand notre rle sest limit former et
superviser les deux linguistes qui ont travaill successivement sur cette grammaire.
Par ailleurs, nous avons crit toutes les rgles dinfrences smantiques pour les grammaires des trois langues.
Les grammaires obtenues sont dcrites dans le tableau suivant :

Langue No. des arbres locaux
et globaux
No. des arbres
lexicaux gnraux
No. des arbres
lexicaux des noms de
lieux
Anglais 456 989
Allemand 671 1342
Italien 308 953

16315
Tableau 26. Les tailles des grammaires crites dans le cadre du systme Navigator
Comme nous pouvons le remarquer dans le tableau prcdent, les trois grammaires ont des tailles diffrentes
que a soit en terme darbres locaux et globaux dune part quen terme darbres lexicaux dautre part. Cette
diffrence est due principalement aux diffrences linguistiques entre les trois langues du projet ainsi qu la
diffrence des trois corpus utiliss pour lcriture des trois grammaires.
3.3.4.2 Description des modules implants
Tout comme avec nos systmes prcdents (Corrector, Safir et Oasis), nous avons utilis le langage Prolog
pour implanter le systme Navigator
52
.
Les modules et programmes ralises dans le cadre du systme Navigator peuvent tre diviss en deux
parties : les modules dpendants de la langue et les modules indpendants de la langue.
3.3.4.2.1 Implantation des modules dpendants de la langue
Il sagit des trois modules danalyse grammaticale, des trois GLPs, des trois modules danalyse smantique et
des trois modules de calcul de score danalyse syntaxique. En ce qui concerne lanalyse grammaticale nous
avons distingu entre la grammaire Sm-TAG code en Prolog selon le format que nous avons prsent plus
haut et la grammaire compile sem-automatiquement.

52
La totalit des modules de Navigator que nous aovons prsent ont t dvelopp par nous. Seul le module developpe
que nous allons prsenter plus loin a t dvelopp par lun de nos collgues du NISLab.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
250
Les dtails de limplantation des modules spcifiques langlais sont prsents dans le tableau suivant :
Module Sous-modules No. fichiers No. lignes
GLP
anglais
- 1 432
Grammaire Sm-TAG 4 6355
Analyseur RTRs Gnrs automatiquement par le
compilateur partir de la grammaire Sm-
TAG
3 8450
Schma Units de schmas 4 2169
Ressources communes 1 342
Arbitrage Calcul du score danalyse syntaxique 1 648
Tableau 27. Les dtails sur limplantation de la version anglaise dus systme Navigator
Sont prsents dans le tableau suivant les dtails de limplantation des modules spcifiques la langue
allemande :

Module Sous-modules No. fichiers No. lignes
GLP
allemand
- 1 327
Grammaire Sm-TAG 3 6838
Analyseur RTRs Gnrs automatiquement par le
compilateur partir de la grammaire Sm-
TAG
3 11599
Schma Units de schmas 3 2128
Ressources communes 1 295
Arbitrage Calcul du score danalyse syntaxique 1 850
Tableau 28. Les dtails sur limplantation de la version allemande du systme Navigator
Une description de limplantation des modules spcifiques la langue italienne est faite dans le tableau
suivant :

t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


251
Module Sous-modules No. fichiers No. lignes
GLP
italian
- 1 293
Grammaire Sm-TAG 3 4133
Analyseur RTRs Gnrs automatiquement par le
compilateur partir de la grammaire Sm-
TAG
3 5712
Schma Units de schmas 3 1873
Ressources communes 1 284
Arbitrage Calcul du score danalyse syntaxique 1 452
Tableau 29. Les dtails sur limplantation de la version italienne dus systme Navigator
3.3.4.2.2 Implantation des modules indpendants de la langue
A leur tour les modules indpendants de la langue peuvent tre diviss en deux parties : les modules utiliss
dans le traitement et les modules utiliss directement dans le traitement et les modules fonctionnels.
1. Les modules utiliss dans le traitement : il sagit de deux composantes du module darbitrage, dun
programme spcifique pour le traitement des graphes de mots reus des systmes de reconnaissance
ainsi que le lexique gographique. Les dtails de ces modules sont prsents dans le tableau suivant :
Module Sous-modules No. fichiers No. lignes
Traitement des scores de reconnaissance 1 311
Arbitrage Combiaison des scores et slection de la
meilleure hypothse
1 73
- Segmentatoin des graphes de mots et
extraction des scores de reconnaissance
1 204
Lexique gographique (gnr
automatiquement partir de la base de
donnes)
1 16445
Tableau 30. Les ressources communes entre les trois langues
2. Les modules fonctionnels : il sagit des modules utiliss hors-ligne pour la compilation de la Sm-TAG
et la gnration des arbres et patrons lexicaux correspondants au lexique gographique. Une description
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
252
gnrale de ces deux modules ainsi que la taille de limplantation en terme de lignes de code sont
prsents dans le tableau suivant :
Module Fonction No. lignes
Compilateur Compile les arbres Sm-TAG en RTRs, gnre des
prdicats et produit un excutable qui permet de
tester directement la grammaire compile.
780
Gnration lexicale Gnre des entres lexicales correspondants aux
items de la base de donnes gographique. Les
entres lexicales gnres sont ou bien des arbres
lexicaux simples ou des patrons lexicaux
correspondants aux noms de lieu qui comptent
plus dun mot.
328
Tableau 31. Les outils secondaires dvelopps dans le cadre du projet Vico
3.3.4.3 Le module denveloppe
Comme nous avons vu dans les paragraphes prcdents, le systme Navigator a t implant en Prolog que
nous avons choisi pour diffrentes raisons dont les principales sont son adaptation au traitement automatique
du langage Naturel et la rapidit du dveloppement possible avec ce langage. Pour permettre Navigator de
communiquer avec le reste des modules de Vico un modules denveloppe a t dvelopp.
Linteraction entre dune part Navigator et le module denveloppe et dautre part le module denveloppe et le
GS de Vico sont prsents dans la figure suivante :











t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


253













Figure 94. Schma gnral du module denveloppe
Comme nous pouvons le voir dans la figure prcdente, toutes les communications de Navigator avec le reste
des modules se font travers le module denveloppe.
Deux raisons principales ont motiv notre implantation de ce module :
1. Interaction avec lenvironnement CORBA : comme il nexiste pas un compilateur oprationnel de
lIDL (Interface Description Language) de CORBA (qui est le protocole adopt par le consortium du
projet Vico pour linteraction des diffrents moduoles) pour la version de Prolog que nous avons adopt
pour notre implantation (Swi-Prolog), nous utilisons le module denveloppe crit en C++ comme un
intermdiaire logiciel entre lenvironnement CORBA et Navigator.
2. Formatage des schmas produits par Navigator : les schmas produits par Navigator sont des listes
de mots selon la syntaxe de Prolog. Cette liste est considre comme une chane de caractres selon le
langage C++ (utilis pour limplantation du GD). Ainsi, le module denveloppe (le post-traitement)
converti le schma du format Prolog au format C++ (Objet schma). Outre les aspects purement
logiciels (comme le changement de la dfinition des entiers du type caractre en entier), le module
denveloppe enrichit le schma obtenu avec les slots non-instancis qui sont utiliss par le GD comme
base de raisonnement. Par exemple, lorsque ce module reoit le schma suivant fournit par Navigator :
[route_frame,[city_name,Trento],[confidence_score, 2]], il fournit un schma final qui a la forme
suivante :
Navigator
GS Vico
Pr-traitement
Post-traitement
Schma
Entre
CORBA
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
254
Type route
PartOfCountry
City Trento
PartOfCity
Street
Number
ConfScore 2
TypeMismatch 0
LexAmbiguity 0
POI Item[0]
POI Item[1]
POI Item[2]
POI Item[3]
POI Item[4]
Unique -1
Complete -1
NonUniqueMax3 0
NonUniqueMore3 0
Inconsistent -1
StreetNumbersDB -1
Figure 95. Exemple de schma fourni par le module denveloppe
Finalement, il nest probablement pas inutile de mentionner que Navigator a t intgr avec succs au reste
du systme Vico et ce pour la premire dmonstration du projet qui a eu lieu le 28 novembre 2002.

3.3.5 Premire evaluation de lanalyse linguistique dans Navigator
3.3.5.1 Objectif de lvaluation
Aprs avoir valu ladaptation de la Sm-TAG au traitement des principaux phnomnes grammaticaux avec
le systme Oasis, nous avons lintention dans cette valuation de tester les traits propres Navigator. Ainsi,
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


255
nous allons nous concentrer principalement sur ladaptation de la Sm-TAG au traitement dans le contexte de
systmes de dialogue multi-domaine.
3.3.5.2 Matriel utilis pour lvaluation
Afin de concentrer notre valuation sur ladaptation de la Sm-TAG au traitement des dialogues multi-
domaines, nous avons jug bon de neutraliser les diffrentes variables non-pertinentes pour notre objectif en
utilisant un matriel de test qui a les proprits suivantes :
1. Nous avons utilis un ensemble de paires dnoncs o chaque paire est compos dun nonc transcrit
et de la meilleure sortie du systme de reconnaissance qui correspond cet nonc.
2. Chaque nonc utilis est associ une attente qui correspond son domaine.
3. Les noncs utiliss dans les valuations nont pas t considrs pour lcriture de la grammaire.
Les nombres des noncs utiliss pour lvaluation des trois modules danalyse grammaticale de Navigator
sont prsents dans le tableau suivant :

Tableau 32. Les tailles des corpus utiliss pour lvaluation de Navigator
Ainsi, au total 762 noncs ont t utiliss pour lvaluation du systme Navigator.
3.3.5.3 Rsultats et discussion
Lunit de lvaluation que nous avons adopte est le slot. Ainsi, nous avons distingu entre trois types
derreurs : insertion dun slot, suppression dun slot et remplacement dun slot. Voici les rsultats que nous
avons obtenus
53
:





53
Les valuations des modules de lallemand et de litalien ont t faites par Marnie Lail et Valeria Lacorte
respectivement.
Langue
Nombre de paires
dnoncs
Anglais 199
Allemand 96
Italien 87
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
256
Enoncs transcrits Sorite de reconnaissance
Langue
Rappel Prcision Rappel Prcision
Anglais 97,95 96,96 72,44 58,19
Allemand 95,86 94,74 80,32 71,69
Italien 94,43 96,74 78,27 66,23
Tableau 33. Rsultats des trois versions du systme Navigator
Comme nous pouvons remarquer dans le tableau prcdent, les rsultats sur les noncs transcrits sont
gnralement assez satisfaisants tant pour le rappel que pour la prcision. Nous remarquons aussi une baisse
assez significative des performances avec les sorties des systmes de reconnaissances. En effet, plus de 90%
des erreurs avec la sortie du systme de reconnaissance taient dues des remplacements/suppressions de
noms propres qui ne peuvent pas tre corrigs par le module de comprhension : les noncs qui nont pas t
traits correctement cause dune erreur de reconnaissance de ce genre ont une forme parfaitement
grammaticale. Par exemple, lorsque le systme de reconnaissance produit I would like to go to Fondo plutt
que I would like to go to Trento
54
le module danalyse grammaticale ne peut pas corriger lerreur de
reconnaissance tant donn que lnonc produit est parfait tant syntaxiquement que smantiquement.
En ce qui concerne les ambiguts lies au domaine de dialogue (observes avec les noncs qui sont
pertinents pour plusieurs domaines en mme temps) comme : in Trento qui peut tre un nonc du domaine
information routire, information sur les points dintrt et rservation htelire. Dans nos corpus de test pour
langlais, lallemand et litalien nous avons observ respectivement : 9, 5 et 6 cas. Tous ces cas ont t
correctement traits avec les noncs transcrits grce aux attentes du GD. Par contre, trois cas nont pas t
traits correctement avec les sorties des modules de reconnaissance (deux cas en anglais et un cas en italien).
La raison de lchec tant lomission des mots propres qui sont la cl principale pour la dtection du thme de
lnonc.
La diffrence entre les rsultats des trois langues est principalement due des raisons lies la diffrence des
tailles des corpus utiliss pour lcriture des grammaires, les systmes de reconnaissance utiliss ainsi que les
diffrences inhrentes aux langues elles-mmes.
Malgr la difficult de comparer les rsultats du systme Oasis ceux de Navigator ( cause des diffrences
des langues utilises, des units linguistiques utilises pour le test (arbres lmentaires vs. slots smantiques)
ainsi que les systmes de reconnaissances utiliss), nous pouvons estimer que les rsultats confirment

54
Trento et Fondo sont deux villes italienne.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


257
globalement ce que nous avons observ avec Oasis. Par ailleurs, cette valuation nous a permis de montrer
ladaptation de la Sm-TAG au traitement des noncs oraux dans le contexte de dialogues multi-domaine.
3.3.6 Discussion de la portabilit de la Sm-TAG la lumire du systme Navigator
Comme nous avons vu, la Sm-TAG est un formalisme qui combine des connaissances lies au domaine des
connaissances linguistiques indpendantes de lapplication. Bien quelle soit lavantage principal de la Sm-
TAG, cette interaction de ces deux niveaux de connaissances peut tre aussi la principale source de limitation
de ce formalisme en particulier en ce qui concerne la rutilisation des ressources construites pour une
application donne dautres applications. Etant donn que Navigator intgre diffrents domaines de dialogue
(dont les natures sont parfois compltement diffrentes), nous avons jug bon de discuter la portabilit de la
Sm-TAG la lumire de notre exprience avec ce systme. Pour ce faire, nous allons distinguer entre les trois
principaux niveaux de reprsentation dans la Sm-TAG (les arbres lexicaux, les arbres locaux et globaux et les
rgles dinfrence) ainsi que deux types dindpendance de la tche : indpendance syntaxique et
indpendance smantique.
1. Les arbres lexicaux : comme nous avons vu les arbres lexicaux sont les arbres les plus nombreux dans
la Sm-TAG (par exemple, dans notre grammaire de langlais les arbres lexicaux constituent plus de
97% du nombre total des arbres de la grammaire). Par ailleurs, la couverture lexicale est un problme
central dans la construction dun module danalyse grammaticale quelle que soit lapproche utilise
pour ce module.
i. Raisons grammaticales : il sagit des arbres ancrs par des items lexicaux qui correspondent des
mots grammaticaux (prpositions, pronoms, adverbes, dterminants. Ces mots peuvent tre
utiliss dans tout type dapplications possible tant donn quils sont ncessaires la construction
des constituants de base qui peuvent tre analyss par nimporte quelle grammaire.
ii. Raisons smantiques : il sagit darbres lexicaux qui cause de leur nature smantique gnrique
peuvent tre utiliss dans diffrentes applications (pas ncessairement toutes les applications
possibles. Les nombres et les jours de la semaine sont des exemples que nous pouvons donner
pour ce genre darbres.
Par ailleurs, le seul cas dindpendance de la langue tait les noms des locations gographiques que
nous avons utiliss pour les grammaires des trois langues.
Ainsi, nous pouvons dire que sur le plan lexical, la Sm-TAG nest pas fondamentalement diffrente des
autres formalismes grammaticaux puisque la dpendance du lexique par rapport la tche et la langue
est soumise des contraintes inhrentes au lexique pas celles de la grammaire utilise.
2. Les arbres locaux et globaux : les arbres locaux et globaux constituent le lieu de rencontre entre les
connaissances grammaticales et les connaissances sur le domaine. A cause de cette interaction directe il
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
258
nexiste pas darbres qui sont indpendants du domaine cause de raisons syntaxiques (comme cest le
cas dans les formalismes syntaxiques classiques o toutes les units supralexicales sont indpendantes
de lapplication). Ainsi, lindpendance de lapplication est limite aux raisons smantiques. Ces arbres
correspondent des segments dont le contenu smantique peut tre utilis dans diffrentes applications.
Dans le cadre de Navigator nous avons eu des arbres qui correspondent des confirmations, ngations,
demande de rptition. Outre ces arbres, des fragments plus significatifs des grammaires peuvent tre
partags entre diffrents domaines. Par exemple, les arbres utiliss pour couvrir les diffrentes formes
des dates (qui constituent entre 30% et 40% des arbres supra-lexicaux de nos grammaires de rservation
htelire) peuvent tre utiliss dans diffrents domaines applicatifs qui ncessitent le traitement des
dates ou des expressions temporelles.
3. Les rgles dinfrence : par dfinition les rgles dinfrences utilises pour limplantent des oprations
syntaxiques dassociation sont indpendantes de lapplication (pour des raisons grammaticales). Par
contre, les rgles dinfrences utilises pour limplantation des oprations de propagation (inductive et
prdicative) sont dpendantes de la tche. Seules les rgles dinfrences qui sont associes des arbres
locaux et globaux indpendants de la tche peuvent tre portes directement.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


259
4 Conclusion de la troisime partie
Dans cette partie, nous avons prsent deux cadres applicatifs : le premier porte sur une implantation de notre
modle des extragrammaticalits et le deuxime porte sur la ralisation de trois systmes danalyse
linguistique du langage oral. Les objectifs de ces deux cadres tant la fois la validation de nos tudes
thoriques et la proposition de solutions ingnieriques permettant damliorer la qualit du traitement du
langage oral.
4.1 Le systme Corrector
Nous avons vu que limplantation de notre modle thorique sur les extragrammaticalits a confirm
globalement nos remarques propos des approches prcdentes. Les rsultats de notre valuation ont montr
que notre approche donne des rsultats lgrement suprieurs aux travaux prcdents pour le traitement des
rptitions et des auto-corrections et elle prsente des avantages significatifs pour le traitement des faux-
dparts.
4.2 Analyse linguistique
4.2.1 Le systme Safir
Le systme Safir est un prototype que nous avons dvelopp afin deffectuer une premire valuation de nos
ides sur lanalyse robuste du langage oral. Les rsultats de lvaluation de ce prototype nous ont permis de
clarifier la porte et les limites de cette approche et ont constitu la base de nos choix pour la conception et la
ralisation du systme Oasis.
4.2.2 Le systme Oasis
Le systme Oasis combine les principales proprits des deux systmes prcdents (Safir et Corrector) en y
ajoutant de nouveaux traits que nous avons jugs ncessaires sur la base de nos expriences avec ces systmes
ou selon les requis applicatifs propres au systme Oasis. Ainsi les principales proprits de ce systme
peuvent tre rsumes dans les trois points suivants :
Le noyau principal du systme Oasis est le module danalyse bas sur le formalisme Sm-TAG.
Lutilisation dune stratgie danalyse partielle et slective pour viter les problmes de sous-gnration
ainsi que certaines formes dextragrammaticalits.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
260
Lintgration dune stratgie de traitement des extragrammaticalits base sur la combinaison dun
module de prtraitement et dun module de post-traitement qui sont inspirs de notre travail sur le
systme Corrector.
Afin dvaluer sa porte et ses limites, nous avons valu le systme Oasis selon deux mthodes : une
mthode quantitative et une mthode qualitative.
4.2.2.1 Evaluation quantitative
Les rsultats de cette valuation ont montr que la performance de notre systme est comparable celle des
autres systmes dans la littrature. Les erreurs de reconnaissance ont t la source principale des erreurs
danalyse syntaxique. Bien que notre systme tait capable de donner une analyse correcte dans environ 35%
des cas dnoncs avec des erreurs de reconnaissance, nous estimons que lamlioration de linteraction avec
le module de reconnaissance permet daugmenter la robustesse du module danalyse linguistique vis vis des
erreurs de reconnaissance.
4.2.2.2 Evaluation qualitative
Cette valuation a t ralise dans le cadre dune campagne nationale qui a regroup les principaux
laboratoires franais qui travaillent sur lanalyse linguistique du langage oral. Lanalyse dtaille des rsultats
de cette campagne nous a permis de constater la bonne performance de notre systme traiter la majorit des
phnomnes grammaticaux et extragrammaticaux observs dans notre corpus. A cause de raisons inhrentes
la mthode dvaluation par dfi ainsi quau fait que la campagne dvaluation est toujours en cours, il ne
nous a pas t possible de comparer finement les rsultats qualitatifs obtenus avec les autres systmes
impliqus dans la campagne.
4.2.3 Le systme Navigator
Le systme Navigator est un systme de comprhension destin au traitement des dialogues multi-domaines
orients par la tche. Les spcificits principales de ce systme sont :
Architecture modulaire o nous avons diffrentes units danalyse qui correspondent chacune un
domaine particulier du dialogue.
Utilisation des attentes de haut niveau pour le guidage des modules danalyse grammaticale, darbitrage
et danalyse smantique.
Traitement des N meilleurs hypothses de reconnaissance.
Lvaluation de Navigator a confirm globalement les rsultats obtenus avec Oasis (bien que Navigator soit
conu pour traiter des dialogues multi-domaines).
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


261




Conclusion et perspectives
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
262
1 Bilan gnral
Dans cette thse, notre travail a t motiv par un objectif principal qui est la formalisation et la ralisation
dun systme danalyse linguistique automatique du langage oral capable de combiner la robustesse et la
profondeur. En ce qui concerne notre contribution dans cette thse, elle peut tre rsume dans les points
suivants :
1.1 Traitement des extragrammaticalits
Notre travail sur ce plan sarticule autour de deux axes complmentaires :
1.1.1 Analyse de corpus
Sur cet axe, nous avons men une tude des extragrammaticalits sur la base du Trains Corpus de luniversit
de Rochester qui contient 93 dialogues dont nous avons extrait environ 7000 cas dextragrammaticalits dont
928 cas dextragrammaticalits supralexicales
55
. Les points cls de notre tude des extragrammaticalits sont
rsums dans ce qui suit :
Dans notre typologie nous avons distingu entre les extragrammaticalits lexicales et les
extragrammaticalits supralexicales dune part et dautre part nous avons propos la prise en
considration de lincompltude comme une forme dextragrammaticalit.
Contrairement aux tudes prcdentes qui ont propos un schma unique pour les extragrammaticalits
(Shriberg, 1994), nous avons propos quatre schmas correspondant chacun un type particulier de
phnomnes. Cela nous permet de reflter plus fidlement les diffrentes proprits de ces phnomnes
et par consquent adopter une approche plus adapte pour les traiter.
Afin davoir une analyse plus prcise du corpus, nous avons tiquet non seulement les
extragrammaticalits mais aussi les fausses extragrammaticalits, cest--dire, les cas normaux qui
peuvent tre pris pour une extragrammaticalit pour une raison ou une autre.
Cette typologie nous a permis dune part de constater que les extragrammaticalits sont des phnomnes qui
prsentent une rgularit assez importante et dautre part, cela nous a permis de mettre la lumire sur les
raisons de lchec des approches syntaxiques des travaux antrieurs. Par ailleurs, nous avons pu constater
travers lanalyse des principaux cas observs que la production des extragrammaticalits est intimement lie
la grammaire de la langue dans laquelle ils sont produits.

55
Les extragrammaticalits supralexicales couvrent les rptitions, les autocorrections, les faux-dparts et les
incompltudes.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


263
1.1.2 Ralisation du systme Corrector pour le traitement des extragrammaticalits
Ce systme est bas sur la combinaison de la reconnaissance de patrons et de l'analyse partielle. Il augmente la
robustesse du systme vis vis des extragrammaticalits et il permet d'affiner l'analyse en vitant les erreurs
d'interprtation qui peuvent tre causes par les autocorrections, les faux-dparts, etc. Les avantages de notre
approche se rsument dans les points suivants :
Le systme a t conu pour oprer comme une phase de pr-traitement au sein de systmes danalyse
linguistique et de dialogues plus larges. Ainsi, le systme a t conu pour tre facilement portable dune
application une autre (voire dune langue une autre) puisquil est compltement indpendant des
composantes du systme au sein duquel il sintgre.
Notre approche qui combine les techniques de reconnaissance de patrons et danalyse superficielle nous a
permis doptimiser le rapport simplicit/efficacit pour le traitement des diffrents phnomnes. En
particulier, cela nous a permis de prendre en considration un contexte plus large (que celui utilis dans
les approches base de N-grams). Par ailleurs, notre connaissance, notre tude est la premire qui utilise
la syntaxe seulement pour la dtection des faux-dparts.
Intgration d'informations de haut niveau dans la dtection des extragrammaticalits notamment l'aide
de grammaires smantique.
Implantation de rgles et de patrons de contrle (bass sur les modles des fausses extragrammaticalits)
afin de rduire les surgnrations du systme.
Lvaluation de notre systme sur 581 cas dextragrammaticalits dont 309 cas dextragrammaticalits
supralexicales a montr une amlioration dans les taux de dtection et de dlimitation des diffrents
phnomnes considrs par rapport aux travaux prcdents.
Nous avons port les patrons obtenus pour langlais pour le traitement des extragrammaticalits en
franais. Lvaluation du module franais a montr son efficacit pour le traitement des rptitions et des
autocorrections.
1.2 Analyse grammaticale
1.2.1 La Grammaire Smantique de Substitution dArbres (S-TSG)
56

La Grammaire Smantique de Substitution dArbres est une formalisation que nous proposons pour une
grammaire smantique, approche couramment utilise dans le domaine de lanalyse linguistique du langage
oral. Deux avantages distinguent la S-TSG dune grammaire smantique classique :

56
Semantic Tree Substitution Grammar.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
264
Avantages thoriques : la S-TSG est un formalisme bien dfini mathmatiquement et dont les
proprits linguistiques sont assez claires (notamment en ce qui concerne le lien entre le lexique et la
grammaire dune part et la syntaxe et la smantique dautre part). Cela permet dtablir des
comparaisons rigoureuses entre ce formalisme et les autres formalismes existants dune part et dautre
part, cela permet de clarifier la porte et les limites de ce formalisme par rapport au traitement du
langage oral.
Avantages pratiques : compare la grammaire smantique classique, la S-TSG se distingue par une
structure hirarchise des sources dinformation selon trois niveaux : arbres lexicaux, arbres locaux et
arbres globaux. Cela rend lcriture et la modification de la grammaire une tche plus facile.
1.2.2 La Grammaire Smantique dAssociation dArbres (Sm-TAG)
57

A notre connaissance, la Sm-TAG est le premier formalisme grammatical conu spcifiquement pour le
langage oral. Sa particularit principale est lintgration de connaissances extralinguistiques (modle
smantique de la tche) dans la reprsentation des connaissances linguistiques.
Dun point de vue de traitement, la Sm-TAG est un compromis entre les grammaires smantiques (approches
robustes mais trop superficielles) et les grammaires syntaxiques classiques (approches fines mais peu
robustes). Dans le contexte de la problmatique de la thse, ce formalisme contribue deux niveaux :
Il augmente la robustesse puisque, dune part, il est conu sur la base de la syntaxe de loral et dautre
part, il prend en considration les informations sur la tche qui sont une source assez fiable dans le
contexte de dialogues orients par la tche.
Sur le plan de la profondeur, nous avons montr que nous pouvons analyser avec la Sm-TAG les
principaux les phnomnes syntaxiques que nous pouvons analyser avec les formalismes classiques.
1.2.3 Systmes danalyse grammaticale
Deux systmes ont t construits pour valider les formalismes S-TSG et Sm-TAG :
4.2.3.1 Le systme Safir
Le systme Safir est un prototype que nous avons ralis afin de faire une premire valuation de notre
approche. Ce prototype a t ralis avec une grammaire de type S-TSG convertie en un rseau de transition
rcursif enrichi par les traits suivants :
Une stratgie slective par grammaire de nettoyage qui permet dignorer les parties du message que le
systme ne peut pas traiter.

57
Semantic Tree Association Grammar.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


265
Une approche danalyse partielle : cette approche consiste relaxer les contraintes danalyse dans les
cas o lon ne peut pas obtenir un arbre danalyse dont la racine est laxiome de la grammaire. Cela
permet des units de rang infrieur dtre considres comme des units bien formes mme si elles
sont compltement indpendantes du reste des units.
4.2.3.2 Le systme OASIS
Les composantes principales du systme OASIS sont les suivantes :
1. Un module de pr-traitement bas sur un ensemble de patrons ports de langlais. Ce module a pour
fonction de normaliser les rptitions et les autocorrections.
2. Un module danalyse robuste bas sur le formalisme Sm-TAG.
Le systme Oasis a t valu selon deux mthodes :
2. Une valuation classique : cette valuation a t faite avec 210 noncs (non utiliss pour lcriture de
la grammaire). Afin de tester ladaptation de notre approche au traitement des erreurs de
reconnaissance, nous avons lu et enregistr ces noncs. Nous avons ensuite analys les fichiers obtenus
avec le systme de reconnaissance Raphal. Les rsultats ont montr ladaptation de notre approche au
traitement des noncs avec des erreurs de reconnaissance ainsi quun niveau de couverture lexical et
smantique acceptable.
3. Evaluation quantitative : cette valuation est base sur la mthode dvaluation par dfi qui est une
version modifie de la mthode DCR (Antoine et al., 2001). Cette valuation sest droule en
collaboration avec sept collgues de quatre laboratoires franais dans le cadre dune campagne mene
par le GT "Comprhension robuste de la langue" du GDR-I3. Les rsultats de notre systme taient
satisfaisants pour les quinze principaux phnomnes observs dans notre corpus de test.
4.2.3.3 Le systme Navigator
Le systme Navigator est un systme de comprhension destin traiter des dialogues multi-domaine en
anglais, allemand et italien. La diffrence principale entre Navigator et Oasis est ladoption dune approche
modulaire pour le traitement des noncs dans le contexte de dialogues multi-domaine. Ainsi, au lieu davoir
une grammaire pour tous les domaines de dialogue, nous avons diffrentes parties de la grammaire rparties
sur des units indpendantes et qui partagent un ensemble darbres (lexicaux, locaux et globaux) qui sont
indpendant du domaine. Lactivation de chacune des units se fait sur la base des attentes fournies par le
gestionnaire de dialogue. Lvaluation de ce systme a confirm globalement les rsultats que nous avons
obtenus avec Oasis. Par ailleurs, ces rsultats ont montr ladaptation de la Sm-TAG au traitement des
dialogues multi-domaine.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4
266
2 Perspectives court-terme
Notre travail en cours se focalise sur trois axes :
1. Ralisation du module de comprhension dans le cadre du projet europen NICE
58
: les deux principaux
dfis pour la comprhension dans le cadre de ce projet sont :
i. Le dialogue est orient par le domaine et non par la tche. Cela ncessite la cration dun module
de comprhension qui est capable de traiter des thmes assez varis qui peuvent tre abords par
les utilisateurs du systme de dialogue tout en respectant un degr minimal de profondeur.
ii. Lintgration des gestes aux noncs parls pour la comprhension de lentre multi-modale.
Ce projet tant encore dans sa premire anne, notre ralisation se limite actuellement la proposition
de larchitecture du module de comprhension qui est une extension de celle de Navigator. En effet,
nous avons conu une architecture parallle qui combine un module base de Sm-TAG similaire
Oasis un module de dtection de thme.
2. La campagne dvaluation par dfi : nos rsultats ont montr que la mthode dvaluation par dfi est
bien adapte au diagnostic des diffrentes proprits dun systme danalyse linguistique automatique
du langage oral. Cette mthode nest cependant pas parfaite notamment en ce qui concerne les
possibilits de comparaison des rsultats obtenus par les diffrents systmes impliqus dans la
campagne. Ainsi, nous sommes en train dexplorer avec les collgues impliqus dans cette campagne,
lhomognisation des critres de test afin de pouvoir comparer objectivement les diffrents systmes
dune part et dautre part pour pouvoir aller plus loin dans le diagnostique des raisons dchec et de
russite de chaque systme.
3. La mthode DCR tendue : aprs nos tests prometteurs sur trois phnomnes syntaxiques de la mthode
DCR tendue que nous avons propose, nous sommes en train de travailler sur la gnralisation de cette
mthode lvaluation du reste des phnomnes syntaxiques ainsi quaux phnomnes smantiques et
pragmatiques. Cela permettra dutiliser cette mthode pour valuer non seulement lanalyse linguistique
(comme cest le cas avec la version actuelle de la mthode) mais aussi la comprhension. Autrement
dit, cela permettra la prise en considration de lhistorique de linteraction pour valuer la qualit de
lanalyse smantique produite par le systme.

58
Le projet NICE est aussi un projet de trois ans. Les principaux partenaires impliqus dans ce projet sont Telia (Sude),
LiquidMedia (Sude), Philips (Allemagne), LIMSI (France) et NisLab (Danemark). Lobjectif principal de ce projet est
la construction dun systme de dialogue multi-modal avec des agents virtuels qui reprsentent des personnages issus des
contes de Hans-Christian Anderson.
t
e
l
-
0
0
0
0
5
0
7
1
,

v
e
r
s
i
o
n

1

-

2
4

F
e
b

2
0
0
4


267
3 Perspectives plus long terme
3.1 Modlisation des extragrammaticalits
Malgr la confirmation de notre modle thorique par son application dans le cadre du systme Corrector, il
nous semble que ce modle peut tre enrichi sur deux plans :
Intgration de la prosodie : comme nous avons vu dans ltat de lart, les travaux prcdents ont mis
en vidence lintrt de la prosodie pour le traitement des extragrammaticalits notamment en ce qui
concerne la dtection de ces phnomnes. Ainsi, nous estimons que lintgration des informations
prosodiques notre modle, essentiellement bas sur la syntaxe, permettra daugmenter sa couverture.
Typologie syntaxique plus fine des extragrammaticalits : la place des extragrammaticalits au sein
dune thorie syntaxique gnrale de loral reste un objet discussion. Pour donner une base une
rponse scientifique cette question, une typologie linguistique fine qui comprend la fois le niveau
grammatical et les niveaux discursif et pragmatique nous semble une dmarche indispensable. Cela
permettra par ailleurs de crer un cadre gnral qui englobe la fois les extragrammaticalit et la Sm-
TAG.
3.2 La Sm-TAG