Ftrouilleux Taln2009

Manuscrit auteur, publi dans "Traitement automatique des langues naturelles (TALN), Senlis : France (2009)"
TALN 2009, Senlis, 2426 juin 2009
Un analyseur de surface non dterministe pour le franais

Franois Trouilleux LRL, Universit Blaise-Pascal
http://www.univ-bpclermont.fr/LABOS/lrl/
Cet article a t publi dans les actes de la 16me Confrence sur le Traitement Automatique des Langues Naturelles 2009. La publication originale est disponible sur le site http:// www-lipn.univ-paris13.fr/taln09/
hal-00403924, version 1 - 14 Jul 2009
Les analyseurs syntaxiques de surface base de rgles se caractrisent par un processus en deux temps : dsambigusation lexicale, puis reconnaissance de patrons. Considrant que ces deux tapes introduisent une certaine redondance dans la description linguistique et une dilution des heuristiques dans les diffrents processus, nous proposons de dnir un analyseur de surface qui fonctionne sur une entre non dsambiguse et produise lensemble des analyses possibles en termes de syntagmes noyau (chunks). Lanalyseur, implant avec NooJ, repose sur la dnition de patrons tendus qui annotent des squences de syntagmes noyau. Les rsultats obtenus sur un corpus de dveloppement denviron 22 500 mots, avec un rappel proche de 100 %, montrent la faisabilit de lapproche et signalent quelques points dambigut tudier plus particulirement pour amliorer la prcision.
Rsum.
Abstract.
Rule-based chunkers are characterized by a two-tier process : part-of-speech disambiguation, and pattern matching. Considering that these two stages introduce some redundancy in the linguistic description and a dilution of heuristics over the different processes, we propose to dene a chunker which parses a non-disambiguated input, and produces all possible analysis in terms of chunks. The parser, implemented with NooJ, relies on the denition of extended patterns, which annotate sequences of chunks. The results obtained on an approx. 22500 word corpus, with almost 100 % recall, demonstrate the feasability of the approach, and signal which ambiguities should be further studied in order to improve precision.
Mots-cls :
mbigusation.
Analyse syntaxique de surface, automates tats nis, dterminisme, dsa-
Keywords:
Chunking, nite-state automata, determinism, disambiguation.
Franois Trouilleux
Introduction
Dans un rcent article, M. Cori (2008) distingue deux grands types de mthodes en TAL. Le TAL thorique y est caractris par rfrence aux diffrents modles de grammaires syntagmatiques, tandis quun logiciel de TAL robuste y est caractris par une srie de critres: il traite du texte tout venant , il produit toujours une analyse, il slectionne lanalyse suppose la meilleure, et il se prte des procdures dvaluation quantitative de ses performances. Larticle oppose par ailleurs TAL thorique et TAL robuste sur leurs objectifs danalyse, en soulignant que le TAL robuste vise souvent une analyse syntaxique partielle, typiquement en syntagmes noyau (chunks). En jouant sur lun ou lautre des critres identis par Cori pour le TAL robuste, on peut chercher de nouvelles frontires entre les deux pratiques. Le travail prsent dans cet article trouve son origine dans la volont de faire varier le paramtre qui consiste ne produire quune analyse en slectionnant la meilleure. On a ainsi tent de dvelopper un analyseur de surface (chunker) pour le franais, capable de traiter du texte tout venant, qui produise toujours une analyse, mais qui, pour chaque phrase du texte analys, produise un ensemble danalyses possibles en termes de syntagmes noyau, tant donn une description de chaque modle de syntagme noyau. Notre analyseur scarte de deux pratiques omniprsentes dans les analyseurs de surface: le dterminisme et lincrmentalit. Nous justierons ce choix en le mettant en perspective avec ces pratiques canoniques (alina 2.1), puis nous exposerons les problmes poss par lapplication directe de la reconnaissance de patrons sur une entre ambige (alina 2.2). Notre analyseur, implant avec NooJ, propose une solution ces problmes grce lutilisation de patrons tendus annotant des squences de syntagmes noyau (alina 3). Les rsultats obtenus sur un corpus de dveloppement de 22 500 mots sont prsents dans lalina 4.
hal-00403924, version 1 - 14 Jul 2009
Problmatique
Les analyseurs syntaxiques de surface robustes base de rgles 1 se caractrisent par le fait quils sont dterministes, dans le sens o ils ne produisent quune seule analyse, et mettent en uvre un processus danalyse incrmental. Par ailleurs, dans ces systmes, les rgles sont en gnral appliques selon le mode de la reconnaissance de patrons.
2.1
Dterminisme et incrmentalit
De manire gnrale, largument en faveur du dterminisme de lanalyseur est utilitaire. Ainsi, Hindle (1994, p. 107) considre qu une sortie unique facilite grandement lutilisation dun analyseur. Si un analyseur devait produire plusieurs analyses, pour la plupart des tches danalyse textuelle il serait ncessaire de choisir parmi les alternatives avant dutiliser les rsultats . Hindle prcise que le dterminisme nest pas une ncessit ; notre projet est de lviter. La consquence de ce choix est que lintrt de notre analyseur ne rsidera pas dans ses apports une chaine de traitements globale, mais dans le fait quil fournira une sortie propre mettre en lumire les difcults de lanalyse linguistique. Notre analyseur se veut un outil dtude linguistique, plutt quun composant dune application.
1
On laisse de ct dans cet article les approches base de modles statistiques.
Les systmes de TAL robustes sont valus de faon uniquement quantitative, ce qui conduit les linguistes qui les dnissent faire des choix motivs par des considrations statistiques. Ainsi la plupart de ces systmes choueront analyser correctement la phrase suivante, parce que statistiquement un des en dbut de phrase est le plus souvent un dterminant: (1) Des ptunias en bordure de lalle montait par bouffe une odeur de cassis. Une de nos motivations est de pouvoir reprer dans des corpus des congurations telles que celle quon observe dans cet exemple. Les analyseurs syntaxiques de surface base de rgles se caractrisent par un processus en deux temps: dsambigusation lexicale, puis applications de rgles. On pourrait multiplier les exemples de tels analyseurs: (Hindle, 1994), (Kinyon, 2001), (At-Mokhtar et al., 2002), (Bourigault et al., 2005), etc. On notera galement que le Natural Language Toolkit, dont on peut penser que, en tant que boite outils , il met en uvre des approches paradigmatiques, dnit un analyseur syntaxique de surface en ces termes:
hal-00403924, version 1 - 14 Jul 2009
A chunker nds contiguous, non-overlapping spans of related tokens and groups them together into chunks. Chunkers often operate on tagged texts, and use the tags to make chunking decisions. (Bird et al., 2009, alina 7.2) De fait, le systme de segmentation en syntagmes noyau du NLTK fonctionne par application dexpressions rgulires sur du texte tiquet de faon non ambige. Lutilisation dun tagger pour dsambiguser les units lexicales est avant tout, comme le dterminisme, utilitaire: les taggers, quils soient base de rgles ou statistiques, sont en gnral extrmement rapides et permettent de rduire sensiblement la complexit du processus danalyse global. Ainsi, (Roussanaly et al., 2005) justient linclusion dun tagger dans la chaine de traitement mise en uvre pour leur participation la campagne EASY par les temps danalyse rdhibitoires provoqus par des ambiguts multiples . Une alternative la dsambigusation lexicale est propose par (Vergne, 1999), dont lanalyseur fonctionne sur des units lexicales ayant explicitement une catgorie par dfaut. Lobjectif est galement de rduire les possibilits combinatoires pour la suite de lanalyse. Le principal inconvnient dun processus danalyse en deux temps est bien connu: les erreurs danalyse au premier niveau vont affecter le second. Or il est gnralement admis que linformation utilise par les taggers est trop limite pour permettre une analyse toujours correcte. On abandonne ainsi le traitement de certaines ambiguts, celle du des de (1), par exemple. Cela tant, nous voyons dans lutilisation dun tagger deux autres inconvnients. Le premier est que dans lapproche deux tapes, on a une description linguistique redondante, dans le sens o on dira souvent deux fois la mme chose 2 . Par exemple, au premier niveau on aura une rgle ou une statistique qui dira quun clitique est plus probable quun article ou un nom aprs la forme ne, et au deuxime niveau on aura un automate ou une expression rgulire spciant des syntagmes NV qui intgrera la mme information. Le second inconvnient est quen rpartissant le processus danalyse sur deux niveaux, on aboutit une dilution des heuristiques. Des choix statistiques (plus ou moins explicites) sont faits aux deux niveaux et on ne sait plus forcment dans lvaluation globale du systme do viennent
Et non dans le sens o deux informations diffrentes permettraient daboutir une mme conclusion, ce qui serait positif.
2
Franois Trouilleux
les erreurs. Nous pensons quun analyseur produisant une segmentation en syntagmes noyau ambige permettra de spcier par la suite et dvaluer clairement les heuristiques mettre en uvre pour dsambiguser cette sortie. Lanalyseur que nous proposons dsambigusera certaines formes, mais seulement sur la base de la structure interne des syntagmes noyau.
2.2
Limites de la reconnaissance de patrons
hal-00403924, version 1 - 14 Jul 2009
Bon nombre danalyseurs robustes tirent leur robustesse du fait que les rgles quils implantent sont appliques selon le mode de la reconnaissance de patrons . Lalgorithme qui parcourt la chaine dentre ne cherche pas associer une analyse axiomatique lensemble de la chaine, mais se contente de reconnaitre que des fragments de cette chaine satisfont aux rgles spcies. Cet aspect de lalgorithme est essentiel parce que cest lui qui permet de passer outre des mots inconnus, toujours prsents dans les corpus. NooJ (Silberztein, 2004), logiciel que nous utilisons, permet de dclarer des automates servant la reconnaissance de patrons. Trois modes de reconnaissance des patrons dnis par une grammaire sont disponibles: la plus courte, la plus longue ou toutes les correspondances. Considrons en premier lieu un modle simple quon notera ainsi: Main = :GN + :GP + :NV + :PV + :GR + :GA ; o les suites :GN, :GP, etc. identient chacune un automate tats nis dnissant respectivement lensemble des GN, GP, etc. possibles 3 . Avec une telle grammaire, les deux premiers modes sont clairement inadapts notre projet. Ils sont dterministes, et il est facile de trouver des exemples o ils choueront. En voici deux, pour la slection de la plus longue et de la plus courte correspondance, respectivement:
(2) a. <GN>La petite ferme</GN> <GN>les yeux</GN>. b. <GN>La petite</GN> <GN>fille</GN> le <NV>regarde</NV>.
Notons que ces deux exemples dmontrent quon ne peut appliquer une reconnaissance de patrons simples de faon dterministe sur une entre ambige. Cette observation jette une nouvelle lumire sur le processus mis en uvre dans les analyseurs robustes base dexpressions rgulires ou dautomates nis: dsambiguser le texte avant dappliquer la reconnaissance de patrons nest pas uniquement motiv par une question defcacit, cest une ncessit. Reste le mode toutes les correspondances . Il prsente linconvnient de surgnrer exagrment. Deux cas de gure mritent en particulier lattention. Le premier est illustr par lexemple suivant, o une phrase compose dun seul syntagme NV, donne lieu quatre analyses. (3) <NV>Il <NV>le <NV>lui <NV>donne</NV></NV></NV></NV>. Le propre de la reconnaissance de patrons est de pouvoir ignorer des mots ; ici on voudrait pouvoir dire au systme de ne pas laisser hors dun syntagme les mots quil peut intgrer. Le second peut tre illustr par la squence suivante: (4) <GP>Pour cent francs</GP> <GP>par an</GP> Pour les cinq units lexicales de cette squence, notre dictionnaire a les catgories suivantes:
Pour,PREP|N
3
cent,NUM
francs,ADJ|N
par,PREP|N
an,N
On utilise les catgories de la campagne dvaluation EASY (cf. (Gendner & Vilnat, 2004)).
Demander la reconnaissance de toutes les correspondances possibles avec cette entre ambige aboutira de multiples analyses, parmi lesquelles on trouvera par exemple: (5) <GN>Pour</GN> <GN>cent</GN> <GN>francs</GN>
<GN>par</GN> <GN>an</GN>
Ici, il semble raisonnable de privilgier les lectures de pour et par comme prpositions, et leur association avec le nom qui les suit. Lanalyseur que nous prsentons par la suite permettra dexprimer cela.
Un analyseur de surface non dterministe avec NooJ
hal-00403924, version 1 - 14 Jul 2009
Nous avons montr que la reconnaissance de patrons dnissant des syntagmes noyau ne pouvait sappliquer directement sur une entre ambige. Nanmoins, nous avons pu implanter avec NooJ un analyseur qui satisfasse notre objectif de non-dterminisme et qui fonctionne en mode reconnaissance de patrons, donc avec une certaine robustesse. La modlisation sappuie dune part sur les caractristiques fondamentales des syntagmes noyau en franais, dautre part sur la possibilit de dnir dans NooJ des patrons qui identient des squences de syntagmes noyau.
3.1
Caractristiques des syntagmes noyau
On sappuie dans ce travail sur la dnition des syntagmes noyau de (Abney, 1991). Si lon prend cette dnition 4 au pied de la lettre, il faut reconnaitre deux modles de syntagmes noyau possibles: 1. un mot lexical seul, 2. et une suite de un ou plusieurs mots lexicaux, prcde et/ou suivie de un ou plusieurs mots fonctionnels. Dans la pratique, on scarte un peu de cette dnition en considrant aussi comme un syntagme nominal noyau une suite comme belle marquise ou pauvre petit garon, parce quon y reconnait des squences qui intgreraient un mme syntagme nominal noyau si elles taient prcdes dun dterminant. Muni de cette dnition stricte, on peut faire sur le franais deux observations intressantes: 1. un mot fonctionnel droite du syntagme doit en principe tre li au mot lexical qui le prcde par un tiret (donne-le-moi, ce garon-l) 5 , 2. il y a seulement deux cas o un syntagme noyau contient plusieurs mots lexicaux: (a) un adverbe dans un syntagme verbal linnitif (ex. pour mieux labourer), (b) un GN ou GP avec adjectif antpos au noyau (ex. avec la petite lle) Une consquence quon peut tirer de la premire observation est que, sil nest pas rattach par un tiret sa gauche, un mot fonctionnel ouvre un syntagme noyau ou sintgre dans un syntagme noyau ouvert par un autre mot fonctionnel. Si on veut privilgier la lecture des mots
I dene chunks in terms of major heads. Major heads are all content words except those that appear between a function word f and the content word that f selects. For example, proud is a major head in a man proud of his son, but proud is not a major head in the proud man, because it appears between the function word the and the content word man selected by the. 5 Cela vaut si on analyse des mots comme durant ou except comme des participes, ce que nous faisons.
4
Franois Trouilleux
fonctionnels comme tels (cf. lexemple 5), une stratgie de type reconnaissance de la plus longue chaine sera adapte: par exemple, tant donn avec la lle, on vitera de fermer un syntagme aprs avec ou la. Notons que cette proprit des mots fonctionnels est la base de lalgorithme de (Kinyon, 2001). En ce qui concerne la deuxime observation, nous manquons de donnes pour commenter le premier cas, et nous nous concentrerons donc par la suite sur le second, beaucoup plus frquent. Pour lheure, le point important est que la prsence de plusieurs mots lexicaux est susceptible de conduire une ambigut de segmentation au niveau de la limite droite du syntagme, avant ou aprs un mot lexical, comme brise dans lexemple classique La petite brise la glace.
3.2
Des patrons pour des squences de syntagmes noyau
hal-00403924, version 1 - 14 Jul 2009
NooJ permet de dclarer des automates servant la reconnaissance de patrons. Un apport essentiel de NooJ dans le systme danalyse que nous prsentons ici est quil distingue les patrons spcis par un automate et le ou les patrons annots par cet automate. Les patrons spcis sont ceux qui tiquettent un chemin complet de lautomate (de ltat initial ltat nal), un patron annot est un sous-chemin commenant par un tat tiquet <X et se terminant par un tat tiquet >, avec X la catgorie quon souhaite donner au syntagme 6 . Le petit automate ci-contre illustre cette possibilit: il spcie le patron <qui> <V>, mais annote seulement le patron <V> comme un syntagme de catgorie NV. Notre grammaire dnit ainsi un automate qui spcie des patrons annotant plusieurs syntagmes noyau conscutifs, en intgrant les ambiguts de segmentation possibles. La gure 1 illustre le principe de construction de cette grammaire. On y voit lun des graphes principaux de la grammaire, qui non seulement annote comme PV ou NV des syntagmes, mais annote galement dautres syntagmes droite de ces syntagmes par les graphes PP, GNb, GR, NVb, et GA-PP. Ces cinq graphes annotent eux-mmes selon les cas un trois autres syntagmes: PP annote un ou deux syntagmes: un participe pass, optionnellement prcd dun adverbe (GR), ou dune forme du pronom tout (GN), GNb annote un seul syntagme: un nom qui nest pas ambigu avec un mot fonctionnel, optionnellement prcd dun adjectif prfrentiellement antpos, lui-mme optionnellement prcd dun adverbe, NVb annote un syntagme NV compos dun verbe, suivi optionnellement de clitiques, plus, optionnellement et si le verbe est un auxiliaire, des syntagmes du graphe PP, GR annote un syntagme compos dun seul adverbe, GA-PP annote un syntagme compos dun seul adjectif ou participe pass. Le graphe PP a pour fonction de dnir la relation spcique entre auxiliaire et participe pass. Les quatre autres graphes ont pour fonction de dnir les syntagmes ne commenant pas par un mot fonctionnel, quon appellera syntagmes B . Cest avant ou aprs les mots composants ces syntagmes quon peut observer une ambigut de segmentation du type voqu dans notre deuxime observation ci-dessus (n de lalina 3.1).
En fait, on note <E>/<X et <E>/> pour indiquer quon a dune part la chaine vide (<E>) dans la chaine dentre, dautre part le parenthsage dun syntagme en sortie.
6
F IG . 1 Graphe annotant les PV et NV innitif + des syntagmes unaires optionnels droite Si on fait abstraction du graphe PP, la grammaire spcie des patrons qui annotent un syntagme noyau commenant par un mot fonctionnel ou non (un syntagme A ), suivi optionnellement dun syntagme B. Ce modle est appliqu en mode reconnaissance de la plus longue chaine ; la grammaire dnit les transitions possibles entre syntagmes A et syntagmes B, en faisant en sorte que les analyses quon veut privilgier correspondent un chemin complet plus long, tandis que celles pour lesquelles on veut des annotations ambiges soient de mme longueur. Aprs un groupe verbal (NV ou PV) ou adverbial (GR), la grammaire autorise une transition vers tout type de syntagme 7 . Pour les autres types de syntagmes (GA, GN et GP), les conditions qui rgissent les transitions sont les suivantes: 1. Un syntagme A ayant pour noyau un mot ambigu avec un mot fonctionnel 8 nadmet pas de transition vers un syntagme B ; on privilgie ainsi linterprtation de ces mots comme fonctionnels si on peut construire un syntagme A avec eux. Par exemple, la, nom potentiel (la note de musique), ne peut tre noyau dun GP dans de la porte. 2. Pour les syntagmes noyau nominal ou adjectival, qui sont ceux o lambigut de segmentation droite est possible, les transitions sont rsumes dans le tableau 1: (a) pas de transition vers un GNb aprs un GA ou aprs un GN ou GP ayant pour noyau un adjectif (<ADJ>) ou une forme du pronom tout, (p.ex. on exclut <GN>la petite</GN> <GN>brise</GN> ou <GN>tout</GN> <GN>homme</GN>) (b) si un GN ou GP na pas dpithte antpose 9 et a pour noyau un nom non ambigu avec un mot fonctionnel, toutes les transitions sont permises, (c) si un GN ou GP contient une pithte antpose un noyau nominal, lautomate nenregistre pas de transition vers un GNb ; on fait ainsi en sorte quun tel syntagme ait la mme longueur quune squence syntagme A + syntagme B. Par exemple,
Les catgories utilises ici sont celles de (Gendner & Vilnat, 2004), modulo les adaptations suivantes: on traite les NV avec participe pass (PP) comme les adjectifs ; les deux catgories ont des distributions proches et les NV avec participe pass sont toujours unaires ; NVb = groupe verbal sans mot fonctionnel gauche ; GNb = groupe nominal sans mot fonctionnel ni numral ; GN = groupe nominal avec au moins un mot fonctionnel ou numral. GP0 et GPA: voir la suite du texte. 8 Information code dans le lexique par lajout dun trait +fble pour ces mots. La contrainte na pas t implante pour les verbes mais sapplique aux adverbes (GR). 9 Par pithte antpose, on veut dire tout type de groupe adjectival antpos au noyau du syntagme nominal, par exemple trs bonne dans une trs bonne ide.
7
hal-00403924, version 1 - 14 Jul 2009
Franois Trouilleux
GA-PP GN GP
<tout,PRO> <ADJ> <N-fble> pithte <N>
GP0 GPA
NVb + + + +
GNb +
GA-PP + + + +
GR + + + +
TAB . 1 Transitions entre syntagmes A noyau nominal ou adjectival (lignes) et syntagmes B (colonnes).
<GN>la petite brise</GN> (sans transition vers un syntagme B) a la mme longueur que <GN>la petite</GN> <NV>brise</NV> (synt. A + synt. B).
3. On distingue par ailleurs deux catgories de syntagmes spciques:
hal-00403924, version 1 - 14 Jul 2009
(a) GP0 = groupes prpositionnels composs dune seule prposition, ventuellement prcde de de, par exemple il tait <GP0>derrire</GP0> ; ceux-ci seraient analyss comme GR dans EASY ; (b) GPA = construction du type <GN>un fils</GN> <GPA>de malade</GPA>, analyse dans EASY comme <GN>un fils</GN> de <GA>malade</GA>. On nenregistre aucune transition aprs ces syntagmes, cest--dire quon ne les admet que si on ne peut pas interprter la squence comme le dbut dun GP plus long. A cela sajoute un cas particulier: aprs une forme du pronom tout, on admet une transition supplmentaire vers un syntagme NV compos dun clitique le et dun verbe. Par ailleurs, pour tout GN ou GP ayant un noyau autre que adjectif ou nom commun (adverbe, nom propre, pronom, numral ou participe pass), lautomate nenregistre pas de transition vers un syntagme B. Les transitions ont t tablies exprimentalement sur un corpus dcrit ci-aprs. Pour rsumer, on peut dire quelles ont essentiellement deux fonctions: privilgier la construction des syntagmes associant les mots fonctionnels un mot lexical (cf. les exemples 3, 4 et 5 ci-dessus) et grer les ambiguts de segmentation droite (cf. lexemple 2).
Analyse de corpus
Pour dnir cet analyseur, nous nous sommes appuys sur un corpus de 22 557 mots (word forms de NooJ), en quatre parties: Un cur simple de Flaubert (11 581 mots, 51 %), 157 exemples extraits de lentre de du TLF (5 309 mots, 23,5 %), la transcription de la cassette de Jean-Claude Mery (3 449 mots, 15,5 %), et neuf articles du journal La Tribune (2 218 mots, 10 %). Le tableau 2 donne les mesures de rappel et prcision obtenues sur ce corpus. Il ne sagit en aucun cas dune valuation globale du systme sur texte inconnu telle quon la pratique habituellement, mais simplement dobservations faites dans une situation contrle sur le corpus de dveloppement. En particulier, on sest donn un dictionnaire idal en ajoutant les noms propres et mots inconnus du corpus, et, comme on le voit sur le tableau, on sest attach obtenir un rappel le plus proche possible de 100 %. Lide, on le rappelle, est dvelopper un outil qui permettra dobserver les ambiguts au niveau des syntagmes noyau.
possible effectif correct rappel prcision
total 11144 14744 11140 99,96 75,56
GA-PP 1205 1334 1205 100 90,33
GN 2716 4053 2713 99,89 66,94
GNb 175 1196 174 99,43 14,55
GP 3064 3568 3064 100 85,87
GP0 16 17 16 100 94,12
GPA 9 66 9 100 13,64
GR 877 1140 877 100 76,93
NV 2754 3037 2754 100 90,68
PV 328 333 328 100 98,50
TAB . 2 Mesures observes sur le corpus de dveloppement. On relve quatre erreurs de rappel, toutes au niveau des GN-GNb. Une est anecdotique (un titre en anglais), les trois autres se manifestent dans les deux exemples suivants: (6) En voil <GN>une Mme Lehoussais</GN>, qui au lieu de prendre un jeune homme. . . (7) <GP>De tels arguments</GP> paraissent tonnants
hal-00403924, version 1 - 14 Jul 2009
En (6) le systme identie un GN l o il en faudrait deux. Nous navons pas travaill sur cette erreur parce quun syntagme compos dun indni suivi dun nom propre est possible (p.ex. un Picasso), et surtout, on a l une phrase qui loral serait dite avec une intonation propre sparer une et Mme Lehoussais, si bien quon serait en droit dattendre une virgule cet endroit. On atteint l, nous semble-t-il, le point de conit entre exemple attest et jugement de bonne formation. Cela tant ce cas est le seul o lassociation dun mot fonctionnel (une) un mot lexicale est une erreur. La stratgie consistant privilgier la construction des syntagmes associant les mots fonctionnels est donc globalement bonne 10 . En (7), le systme identie un GP alors quon aurait voulu une analyse ambige GN-GP. La source de cette erreur est lambigut de tels, DET ou ADJ. Lanalyse de la squence comme GN est bien prvue, mais comme il y a un adjectif antpos, il ny a pas sa droite de transition vers un syntagme B, alors que lanalyse GP peut se faire avec une squence PREP + DET + N, qui admet une transition vers un syntagme B (ici le NV paraissent), et est donc privilgie. La construction de <ADJ+pl> <N+pl>, en ce quelle exige la combinaison de de et lpithte pour former un GN, pourrait peut-tre donner lieu une exception. Le chiffre de la prcision donne une ide du rsultat quon peut obtenir avec une information limite la seule constitution interne des syntagmes, savoir un bruit assez important. La place manque ici pour analyser les erreurs en dtail, mais on peut dj noter deux causes principales: lambigut des syntagmes commenant par des, de ou du (GN, ou GP, ou GPA), responsable denviron 38,5% du bruit, lambigut adjectif/nom, assez systmatique dans le dictionnaire utilis: on trouve 547 GA analys comme GNb, et 238 analyses scindant un syntagme nominal avec pithte en deux, de type <GN>un jeune</GN> <GNb>homme</GNb>, avec jeune comme nom. Ces dernires erreurs produisant deux erreurs de prcision, lambigut adjectif/nom est responsable de plus de 28% du bruit. Signalons galement que la faible prcision obtenue pour les GR est due principalement lambigut de comme et des interrogatifs, la grammaire ne traitant pas les conjonctions et autres introducteurs de propositions.
Les 100% de rappel obtenus pour GP0 en tmoignent galement. On notera que la seule erreur observe pour les GP0 lest dans un cas limite, o le dcoupage en syntagmes noyau sans enchssement nest plus possible: avec, quand mme, un problme (cf. (Gendner & Vilnat, 2004, alina B.3)).
10
Franois Trouilleux
Conclusion
Le travail que nous avons prsent ici a mis en lumire la difcult de la reconnaissance de patrons sur une entre ambige, tout en proposant une voie dtude alternative lapproche paradigmatique dterministe et incrmentale de lanalyse de surface. On obtient un outil pour lanalyse linguistique dont on espre quil permettra de poser un regard neuf sur lambigut catgorielle en plaant lanalyse au niveau des syntagmes noyau plutt quau niveau des units lexicales. Au-del, ce travail suggre aussi une piste damlioration des logiciels. Nous avons vu que la reconnaissance de la plus longue chaine tait adapte pour les mots fonctionnels (cf. les exemples 3 et 4), tandis que la reconnaissance de toutes les correspondances serait souhaitable au niveau des mots lexicaux (cf. la petite brise la glace). On pourrait alors imaginer un nouveau mode de reconnaissance de patrons, hybride, caractrisable comme la reconnaissance de toutes les correspondances en privilgiant le rattachement des mots fonctionnels. Ces derniers pouvant tre spcis dclarativement comme une liste de catgories particulires, on aurait alors un algorithme qui prendrait mieux en compte les proprits de lobjet quil vise analyser.
hal-00403924, version 1 - 14 Jul 2009
Rfrences
A BNEY S. (1991). Parsing by chunks. In R. B ERWICK , S. A BNEY & C. T ENNY, Eds., Principle-Based Parsing. Dordrecht: Kluwer Academic Publishers. A T-M OKHTAR S., C HANOD J.-P. & ROUX C. (2002). Robustness beyond shallowness: incremental dependency parsing. Natural Language Engineering, 8, 121144. B IRD S., K LEIN E. & L OPER E. (2009). Analyzing Text with Python and the Natural Language Toolkit. http://www.nltk.org/book. B OURIGAULT D., FABRE C., F RROT C., JACQUES M.-P. & O ZDOWSKA S. (2005). Syntex, analyseur syntaxique de corpus. In (Jardino, 2005). C ORI M. (2008). Des mthodes de traitement automatique aux linguistiques fondes sur les corpus. Langages, 171. G ENDNER V. & V ILNAT A. (2004). Les annotations syntaxiques de rfrence PEAS. http: //www.limsi.fr/Recherche/CORVAL/easy/. H INDLE D. (1994). A parser for text corpora. In B. ATKINS & A. Z AMPOLLI, Eds., Computational Approaches to the Lexicon, p. 103151. Oxford: Clarendon Press. M. JARDINO, Ed. (2005). Actes de TALN 2005 (Traitement automatique des langues naturelles), Dourdan. ATALA, LIMSI. K INYON A. (2001). A language-independent shallow-parser compiler. In ACL, p. 322329. ROUSSANALY A., C RABB B. & P ERRIN J. (2005). Premier bilan de la participation du LORIA la campagne dvaluation EASY. In (Jardino, 2005), p. 4952. S ILBERZTEIN M. (2004). Nooj : an oriented object approach. In J. ROYAUT & M. S ILBERZ TEIN , Eds., INTEX pour la Linguistique et le Traitement Automatique des Langues. Presses Universitaires de Franche-Comt. V ERGNE J. (1999). Etude et modlisation de la syntaxe des langues laide de lordinateur. Analyse syntaxique automatique non combinatoire. Dossier dhabilitation diriger des recherches. Universit de Caen.

Ftrouilleux Taln2009

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ftrouilleux Taln2009

Transféré par

Droits d'auteur :

Formats disponibles

Manuscrit auteur, publi dans "Traitement automatique des langues naturelles (TALN), Senlis : France (2009)"

TALN 2009, Senlis, 2426 juin 2009

Un analyseur de surface non dterministe pour le franais

hal-00403924, version 1 - 14 Jul 2009

Analyse syntaxique de surface, automates tats nis, dterminisme, dsa-

Chunking, nite-state automata, determinism, disambiguation.

hal-00403924, version 1 - 14 Jul 2009

On laisse de ct dans cet article les approches base de modles statistiques.

Un analyseur de surface non dterministe pour le franais

hal-00403924, version 1 - 14 Jul 2009

Limites de la reconnaissance de patrons

hal-00403924, version 1 - 14 Jul 2009

Un analyseur de surface non dterministe pour le franais

Un analyseur de surface non dterministe avec NooJ

hal-00403924, version 1 - 14 Jul 2009

Caractristiques des syntagmes noyau

Des patrons pour des squences de syntagmes noyau

hal-00403924, version 1 - 14 Jul 2009

Un analyseur de surface non dterministe pour le franais

hal-00403924, version 1 - 14 Jul 2009

<tout,PRO> <ADJ> <N-fble> pithte <N>

3. On distingue par ailleurs deux catgories de syntagmes spciques:

hal-00403924, version 1 - 14 Jul 2009

Un analyseur de surface non dterministe pour le franais

possible effectif correct rappel prcision

total 11144 14744 11140 99,96 75,56

GA-PP 1205 1334 1205 100 90,33

GN 2716 4053 2713 99,89 66,94

GNb 175 1196 174 99,43 14,55

GP 3064 3568 3064 100 85,87

GP0 16 17 16 100 94,12

GPA 9 66 9 100 13,64

GR 877 1140 877 100 76,93

NV 2754 3037 2754 100 90,68

PV 328 333 328 100 98,50

hal-00403924, version 1 - 14 Jul 2009

hal-00403924, version 1 - 14 Jul 2009

Vous aimerez peut-être aussi