Vous êtes sur la page 1sur 184

NOTES et DOCUMENTS LIMSI No : 2009 - 05 Juillet 2008

A PPROCHES ET MTHODOLOGIES POUR LA RPONSE AUTOMATIQUE DES QUESTIONS ADAPTES UN CADRE INTERACTIF EN DOMAINE OUVERT
Olivier G ALIBERT
Thse soutenue le 4 juin 2009 devant le jury compos de : Rapporteurs Patrice B ELLOT Guy L APALME Directrice Martine A DDA D ECKER Prsident du Jury Pierre Z WEIGENBAUM Examinateurs Jean-Luc G AUVAIN douard G EOFFROIS Brigitte G RAU

Notes et Documents LIMSI No : 2009 - 05 Auteurs (Authors) : Olivier Galibert

Juin 2009

Titre : Approches et mthodologies pour la rponse automatique des questions adaptes un cadre interactif en domaine ouvert. Title : Approaches and methodologies for automatic Question-Answering in an open-domain, interactive setup. Nombre de pages (Number of pages) : 184

Rsum : Lobjectif de cette thse a t de proposer de nouvelles approches robustes pour le problme de la rponse des questions dans un cadre ouvert interactif. Notre premire contribution a t la conception et mise en oeuvre dun moteur gnrique danalyse de la langue. Cest un moteur sans a-priori sur les types danalyses qui peuvent tre effectus, dans la limite de ce quil peut reprsenter et qui met en avant la structuration de lanalyse. Notre seconde contribution a consist en la conception et la mise en oeuvre dun Systme Question-Rponse dont les principales forces sont exibilit de lentre, la robustesse et le contrle des performances. Cela se fait via une intgration de bout en bout du rsultat de lanalyse, qui permet de ne manipuler que les structures rsultantes de lanalyse sans devoir redescendre aux mots. Il propose aussi, et cest une des grandes originalits de ce travail, une abstraction de la requte, source de sa exibilit, et facilitant sa comprhension et sa maintenance. Nous avons particip des campagnes dvaluation internationales, o nos systmes ont obtenu dexcellents rsultats. En particulier, ils ont montr une bonne rsistance aux erreurs induites par un systme de transcription automatique de la parole. Il est cependant important de noter que notre but a t atteint. Le systme global de Question-Rponse a les capacits ncessaires pour sintgrer dans un systme interactif. Il est utilis dans le cadre du projet Ritel et a permis des premires expriences dont le but tait dtudier le comportement des humains face un tel systme et linteraction homme-machine en domaine ouvert en gnral. Mots cls : Question-Rponse, Analyse de la langue, Interaction, Domaine ouvert

Abstract : The objective of this work is to introduce new robust approaches to handle the problem of Question Answering in an open-domain, interactive setup. Our rst contribution is the design and implementation of a generic rules-based engine for language analysis. That engine is open to any kind of analysis, within the limits of its internal representation, and leverages an heavy structuring of the analysis. Our second contribution is the design and implementation of a Question-Answering system which main strengths are the exibility of the input, the robustness and the explicit performance control. These characteristics have been reached through an end-to-end integration of the language analysis results, allowing to manipulate structures build by that analysis only, without having to go back to the individual words. Another advance, and it is one of its main originalities, is an abstraction of the request, enabling its exibility and making diagnostic and maintenance easier. We participated to a number of international evaluation campaigns where our system achieved excellent results. In particular they have shown a good robustness to automatic speech recognition induced errors. It is important to note that our aim has been reached. The Question-Answering system has the necessary capabilities to be integrated in an interactive system. It is used in the Ritel project and allowed some preliminary experiences aiming at studying the human behavior in front of such a system, and human-machine interaction in general. Keywords : Question-Answering, Language analysis, Interactivity, Open domain

Table des matires


Introduction I Un moteur danalyse de la langue
Introduction 1 tat de lart 1.1 Le systme Cass . . . . . . . . . 1.2 Les frameworks GATE et UIMA 1.3 La librairie NLTK . . . . . . . . 1.4 CQP - Corpus Query Processor . 1.5 Discussion . . . . . . . . . . . .

9 15
17 25 26 27 30 32 34 37 38 39 39 42 43 44 46 47 48 51 51 51 52 53 53 54 54

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

2 Un moteur base de transformations 2.1 Reprsentation commune de ltat de lanalyse . . . . . . . . . . . . 2.2 Transformations base de rgles . . . . . . . . . . . . . . . . . . . . 2.2.1 Pattern matching par expressions rgulires . . . . . . . . . . 2.2.2 Transformation de la reprsentation . . . . . . . . . . . . . . 2.2.3 Stratgies de rsolution de conits et dapplication des rgles . 2.3 Transformation statistique : le TreeTagger . . . . . . . . . . . . . . . 2.4 Transformations algorithmiques . . . . . . . . . . . . . . . . . . . . 2.5 Gestion des entres/sorties . . . . . . . . . . . . . . . . . . . . . . . 2.6 Construction dun analyseur complet . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

3 Aspects algorithmiques 3.1 Encodage de la reprsentation . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Attribution didentiants numriques aux mots . . . . . . . . . . . . 3.1.2 Gestion des catgories . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Difcults lies au moteur de rgles . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Matching dexpression rgulires par interprtation de patterns . . . . 3.2.2 Limitation de la quantit de travail par nud et gestion de la mmoire 3.2.3 Limitation du nombre de tests inutiles . . . . . . . . . . . . . . . . . 3

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

TABLE DES MATIRES


57 58 58 58 59 59 60 60 60 61 62 67 69

4 valuation 4.1 Ritel : un systme interactif de recherche dinformations en franais 4.1.1 Une analyse multiniveaux unie . . . . . . . . . . . . . . 4.1.2 Les entits nommes, tendues et spciques . . . . . . . . 4.1.3 Les mots de question . . . . . . . . . . . . . . . . . . . . . 4.1.4 Les marqueurs thmatiques . . . . . . . . . . . . . . . . . . 4.1.5 Les marqueurs dialogiques . . . . . . . . . . . . . . . . . . 4.1.6 Les chunks linguistiques . . . . . . . . . . . . . . . . . . . 4.1.7 Quelques rsultats prliminaires . . . . . . . . . . . . . . . 4.2 Adaptation de lanalyseur lespagnol et langlais . . . . . . . . . 4.3 Exploration de corpus . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Mesures de performance sur lanalyseur de Ritel . . . . . . . . . . . Discussion

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

II Question-Rponse pour linteraction


Introduction 5 tat de lart 5.1 Prsentation gnrale des systmes Question-Rponse . . . . . . . . . . . . . . 5.2 Un systme trs linguistique : le systme du LCC . . . . . . . . . . . . . . . . 5.3 Un systme purement statistique : le systme du Tokyo Institute of Technology 5.4 Un systme intermdiaire : le systme du LIMSI-LIR . . . . . . . . . . . . . . 5.5 Le problme du temps de rponse . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Description de lanalyse 7 Une approche prliminaire pour Question-Rponse 8 Un systme plus avanc 8.1 Organisation gnrale . . . . . . . . . 8.2 Reprsentation de la recherche . . . . 8.3 Les transformations . . . . . . . . . . 8.4 Slection et classement des documents 8.5 Indexation des documents . . . . . . . 8.6 Slection et classement des passages . 8.7 Extraction et classement des rponses 8.8 Optimisation des paramtres de tuning 9 Autres types de question Discussion

71
73 77 77 79 80 83 84 85 87 89 93 93 95 99 101 104 107 111 113 115 117

. . . . . .

. . . . . .

. . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

TABLE DES MATIRES

III valuation du systme Question-Rponse


Introduction 10 Les campagnes dvaluation Question-Rponse 10.1 Prsentation gnrale des campagnes dvaluation en Question-Rponse 10.2 Les types de questions . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Types de documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Autres caractristiques des campagnes dvaluation . . . . . . . . . . . 10.5 Les mtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

119
121 123 123 125 127 129 131

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

11 Rsultats aux campagnes dvaluation ofcielles 137 11.1 La campagne dvaluation QAst . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 11.2 La campagne dvaluation Quaero . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 12 Impact de la taille des corpus de questions 147

13 Rsultats individuels par modules 151 13.1 Impact de lanalyse et de la Recherche dInformations . . . . . . . . . . . . . . . . . 151 13.2 Impact des erreurs de transcription sur les diffrents modules . . . . . . . . . . . . . 154 14 Equilibre vitesse - performance Discussion 157 163

IV Conclusions et perspectives
15 Conclusions 16 Perspectives

165
167 173

Bibliographie

175

TABLE DES MATIRES

Introduction

INTRODUCTION

Interaction orale homme-machine

Linteraction en langue entre un humain et une machine est un trs vieux sujet. Il faut se souvenir que le grand classique du domaine, le programme Eliza de Joseph Weizenbaum [Weizenbaum 1966], date de 1966. Il faut noter toutefois que Eliza ntait pas vraiment un systme de dialogue, ne mmorisant rien de linteraction, ni un systme de recherche dinformations. Il sagissait dun pur jeu dinteraction. Le premier systme de dialogue homme-machine pour de la recherche dinformations est LUNAR [Woods 1973], qui rpondait des questions concernant des chantillons du sol lunaire. Linteraction orale homme-machine toutefois est beaucoup plus rcente car elle dpend des progrs de la reconnaissance automatique de la parole. Celle-ci a connu un essor dterminant au dbut des annes 90 grce notamment des programmes dvaluation massifs [Pallett, et al. 1994]. Le dialogue oral a suivi le mouvement et une sous partie du domaine en particulier a connu un trs fort dveloppement : les systmes permettant un humain deffectuer une tche dans un domaine prcis, comme trouver des renseignements touristiques ou rserver une place de train. Des projets amricains comme Communicator [Walker, et al. 2002] (horaires davions) ou europens comme Arise [Lamel, et al. 2000] ont contribu atteindre un niveau de performances tout fait acceptables. La gure 1 donne un extrait dun tel dialogue, et on peut constater quil est raisonnablement naturel et efcace.

S : Quels renseignements dsirez-vous ? U : euh je pars de Paris pour aller Caen euh je pars lundi S : Il y a plus de 10 trains de Paris Caen le lundi 28/04. Le premier train part 00h25 et le dernier 23h14. quel moment de la journe voulez-vous partir ? U : vers midi S : Vous avez un train direct de Paris Caen 12h25 arrivant 14h09 le lundi 28/04. Quelle autre information dsirez-vous ? U : je voudrais connatre le prix du train prcdent F IG . 1 Extrait de dialogue du systme Arise, tir de [Rosset 2000]

La recherche continue bien entendu sur ce sujet, en particulier pour essayer de diminuer les cots toujours levs de conception de tels systmes. Cependant de nombreux chercheurs veulent essayer daller plus loin. Une option est de changer la tche. Par exemple des tudes trs intressantes ont lieu dans le domaine de lducation [Cole, et al. 1998]. Mais il existe aussi loption de rester dans le domaine de la recherche dinformations, mais douvrir le domaine. Le but devient alors dinteragir et de rpondre de faon pertinente sur un peu nimporte quel sujet non dcid lavance. Un tel systme doit donc trouver des rponses prcises des questions aussi prcises que possible. Ce domaine de recherche existe dj : il sagit de ltude des Systme de Rponse des Questions ou, pour faire court Systme Question-Rponse par analogie leur nom anglais, Question-Answering System ou QA system.

10

Recherche dInformations et Question-Rponse


Au dbut des annes 50, la recherche dinformations tait dj un domaine de recherche actif. Lorigine du terme Information Retrieval peut tre retrac Calvin Mooers en 1950, un pionnier du domaine, qui travaillait sur la slection de cartes perfores daprs des mots-cls [Mooers 1948] par des mthodes hybrides informatiques et mcaniques. Les premiers travaux concernaient ainsi essentiellement lindexation, et spciquement la slection de documents dans des bases trop grandes pour tre traites la main (donnes du recensement amricain, livres de bibliothque, bases darticles). Laspect applicatif et exprimental a toujours t central dans la discipline. On peut donner pour exemple le projet Craneld [Cleverdon 1967] qui cherchait valuer les systmes de lpoque. Un corpus de 18 000 documents et 1 200 requtes taient fournis et la performance tait mesure sous forme de prcision et rappel. Plus rcemment la srie de campagnes dvaluation TREC (Text REtrieval Conference) organise par le NIST tous les ans depuis 1992 [Press 2005] a permis de rafner travers les ans aussi bien les systmes que les mthodes, approches et lvaluation elle-mme. Dautres campagnes ont suivi le pas comme CLEF [Magnini, et al. 2003], un pendant europen qui met en avant les aspects multi- et trans-lingues. Un tel systme de slection de documents est trs utile, comme le dmontre tous les jours un moteur de recherche sur le Web comme Google ou dans des transcriptions dmissions dinformations comme Audiosurf (gure 2, www.audiosurf.org). Seulement, comme on peut le voir dans cet exemple, trouver la rponse une question prcise telle que Qui a remport le caucus en Iowa chez les dmocrates en 2008 ? nest pas immdiat malgr laide de lordinateur. Lutilisateur a besoin de parcourir les diffrents extraits et mme souvent les documents eux-mmes pour trouver la rponse sa question. Ainsi une extension naturelle des systmes de recherche dinformations est de tenter de retourner des rponses prcises aux questions de lutilisateur. Aprs des exprimentations avec des encyclopdies comme base de connaissances (MURAX [Kupiec 1993]) sont apparues ds 1999 des valuations dites Question-Rponse (Question Answering). Cette tche, introduite dans TREC-8 [Voorhees & Tice 1999] demandait un systme confront la mme question de rpondre Barak Obama. Cette tche a t reprise, tendue et ses formes modernes seront dcrites dans la partie III. Cette notion de rponse courte des questions factuelles est particulirement intressante dans un cadre interactif oral. Elle permet en effet au systme de dialogue de produire des rponses efcaces aux questions de lutilisateur et, dans le cas de documents audio, de rejouer les bouts de documents associs.

Cadre de la thse
Le projet Ritel [Ritel 2007 ; Rosset, et al. 2006] a vu le jour au LIMSI en 2004. Son objectif est de construire une plateforme de dialogue permettant dassister un utilisateur dans diverses tches dont, en premier lieu, la recherche dinformations en domaine ouvert. Le probleme de la recherche dinfor-

INTRODUCTION

11

Preferences

Logout rosset

caucus Iowa rsultats dmocrates


Help

Search
Show transcriptions

Request (fr): Sort: 1-

caucus iowa resultat democrate score | date [View all text] 2008-01-05

1-10 of 32236 Lang: auto | fr | us | ge | es | ma | ar next franceinter-8h009h00 part:001

90.97%

...de dvelopper puis depuis quelques mois--pas du du rsultat sportif le rsultat sportive que les joueurs feront s'ont faire et on... ...avait un renseignement Monsieur Kahn qui attendent c'est le rsultat diverses rgulariser ou [archive] pas ...rgime autoritaire--mais d'un systme de communication hyper-dmocrate 290.79% [View all text] 2008-01-05 france3-national-soir3 part:001

...aux tats-Unis une victoire qui ne prsage en rien du rsultat final--mais qui le galvaniser lui et ses troupes... ...toujours vous n'osant au Caire des lections amricaines le dmocrate baraques bat Mara a remport la premire manche ou la... ...assez largement--le coup d'envoi dans l'investiture dmocrate--il veut incarner le changement--devenir le premier... ...chances maintient Bgue est chez elle--ct rpublicain la Iowa est l'tat l'ultra-religieux [source] conservateurs--ces militants... ...pays--et ce soir--a commence dans la Iowa et un cela ne s'arrtera pas l ...l'avortement contre les homosexuels--sa victoire dans la Iowa risquent de rester son quart [archive] d'heure de clbrit--... ...ouvrir le marathon l'investiture continue--les candidats dmocrates et rpublicains ne devrait tre dfinitivement dsign ...qu'un candidat si atypique qu'il soit le candidat dmocrate ou pas au final--nous on dit trs trs... 387.19% [View all text] 2008-01-05 france2-jt13h part:001

rappelant que les rsultats des deuxime test ADN seront connus dans une semaine--... ...ds hier soir ou ce matin avant huit heures--rsultat on attendait pas--neuf mille vhicules dans le sens... [source] ...bascul chez les concurrents d'EDF et bien--le rsultat est en dessous de ce que les fournisseurs prvoyait difficile... ...toujours possible--plus le patient un jeune plus les rsultats seront satisfaisant mais l'ge [archive] adulte il est parfois... 4100% [View all text] 2008-01-04 france2-jt8h part:001

...Maison Blanche a y est c'est vraiment parti premier caucus en maillot premire primaire entre militants pour dsigner leur candidat--les premires demi-surprise chez les dmocrates--la saga embarquent Bala devance Hillary Clinton assez largement... ...avec trente-huit pour-cent des suffrages Barak Obam a remport le caucus dmocrates de la [source] lillois--on est un amricain a vot... ...devanc par John Edwards le plus gauche des candidats dmocrates--ben je suis fier de ce que nous avons... [archive] ...Chlon vous tes en direct de des Moines dans la Iowa--alors est-ce qu'on peut dire qu'est-ce que peut-on dire de ces rsultats la route tant pour lancer mais est-ce que...

F IG . 2 Systme de recherche dinformations

mations interactive en domaine contraint est tudi depuis longtemps. Passer en domaine ouvert pose de nombreuses difcults, et une des questions que nous avons eu nous poser est quels types dinformation est-on capable de rechercher en dehors dune tche prcise. Cette rexion nous a men dans le domaine des Systmes Question-Rponse. Intgrer un tel systme dans un environnement de dialogue oral impose des contraintes inhabituelles pour ces systmes. La premire est un besoin de exibilit sur lentre du systme, cest dire les questions. En effet lentre orale implique plusieurs difcults : non seulement la parole a une syntaxe trs diffrente de lcrit, mais la reconnaissance automatique de la parole ajoute des erreurs. Plus important encore, laspect interactif implique une

12 gestion dhistorique du dialogue et donc de pouvoir ajouter des lments potentiellement pertinents la question. La deuxime contrainte est la gestion des temps de rponse. En effet dans le cadre dune interaction, orale ou non, il nest pas concevable de laisser lutilisateur attendre longtemps pour sa rponse. Il faut donc pouvoir contrler la quantit de travail maximale que le systme est autoris effectuer. Ces contraintes nouvelles ncessitent des approches spciques adaptes. En dehors dune structure gnrale similaire il ny a pas vraiment dapproche standard pour la conception de systmes de Question-Rponse. Ils peuvent aller du tout statistique sans connaissance explicite de la langue au trs linguistique avec analyse profonde base sur de grandes bases de connaissances et incluant du raisonnement logique sur les concepts extraits. Notre exprience dans le domaine du dialogue nous a pouss vers une organisation un peu intermdiaire : une analyse de la langue, que lon pourrait qualier de comprhension, est applique aux documents et aux questions et leur impose une structure. Lensemble des algorithmes de recherche travaille alors uniquement sur le rsultat de cette structuration. Notre travail se divise donc en deux parties, une analyse de la langue et un systme de recherche de rponses. Construire une analyse de la langue, qui unie les besoins du dialogue et de QuestionRponse, reste un problme ouvert en pleine volution. De plus il ne relve pas vraiment de notre comptence mais plutt de celle de linguistes. Notre but est donc devenu de fournir des linguistes le meilleur outil possible pour leur permettre de construire au mieux une analyse performante aussi bien pour le dialogue que pour la rponse aux questions. Nous avons donc d tudier le problme des moteurs danalyse. Un tel moteur doit permettre dexprimenter tant sur les mthodes danalyse que sur les reprsentations et annotations obtenues, tout en offrant de bonnes performances et une ergonomie de qualit. Ces besoins nous ont conduit nous intresser en particulier aux moteurs permettant dcrire des systmes base de rgles. En effet les systmes statistiques reposent sur de grands corpus annots en fonction des besoins de lanalyse. Devoir rannoter ces corpus pour tester des variations rend lexprimentation beaucoup plus difcile. Avec un systme bas sur des rgles rien nest g. Il est toujours possible de modier localement le schma dannotation choisi en modiant un petit nombre de rgles concernes. Il est de mme souvent plus facile dagir sur des points prcis, des tournures de phrases par exemple, o le systme fait des erreurs, en travaillant l encore sur les rgles spciquement concernes. Dans un cadre statistique une action quivalente ncessite de construire un corpus supplmentaire o la tournure pertinente est souvent reprsente et lannoter correctement.

Problmatique
Lobjectif de notre travail est de proposer de nouvelles approches robustes pour le problme de la rponse des questions dans un cadre ouvert interactif. Nous dcomposons ce problme gnral en deux sous parties. La premire traite de la dnition dun moteur danalyse de la langue permettant un expert dexprimenter librement et efcacement autour du problme de la comprhension pour la

INTRODUCTION

13

recherche dinformations. La seconde sattaque au problme spcique de la rponse aux questions en sappuyant sur un type danalyse donn tout en respectant deux contraintes fortes lies au cadre interactif : les questions peuvent tre dstructures car construites partir dlments provenant de plusieurs changes entre lutilisateur et la machine, et les temps de rponse doivent tre contrlables a priori.

Principales contributions
Notre premire contribution est la conception et la mise en uvre dun moteur gnrique danalyse de la langue permettant un linguiste de construire un systme pour extraire toutes sortes dinformations quil peut juger utiles de documents ou de questions. Cest un moteur sans a priori sur les types danalyses qui peuvent tre effectues, dans la limite de ce quil peut reprsenter. Il tente dobtenir un bon quilibre entre lexpressivit et lergonomie. Pour cela il met en avant la structuration de lanalyse, tant au niveau de lorganisation gnrale avec un support fort de lanalyse incrmentale, mais aussi lintrieur des rgles elles-mmes, et offre de trs bonnes performances en terme de vitesse, permettant un travail exprimental plus efcace. Notre seconde contribution consiste en la conception et la mise en uvre dun Systme QuestionRponse utilisant un systme danalyse performant produit avec notre moteur an de chercher des rponses prcises des questions prcises et qui essaie de mettre en valeur la exibilit de lentre, la robustesse et le contrle des performances. Cela se fait via une intgration de bout en bout du rsultat de lanalyse, qui permet de ne manipuler que les structures rsultantes de lanalyse sans devoir redescendre aux mots. Il propose aussi, et cest une des grandes originalits de ce travail, une abstraction de la requte, source de sa exibilit, et facilitant sa comprhension et sa maintenance.

Organisation du document
La premire partie de ce document traite du moteur danalyse. Nous prsentons dans lintroduction la problmatique gnrale de lanalyse de la langue en domaine ouvert. Lanalyse ncessaire pour de la recherche dinformations dans un cadre ouvert et interactif est un champ de recherche en pleine volution. Cela entrane un besoin dexprimentation tous les niveaux et en particulier dans la dnition mme des annotations utiles. En consquence un support fort des approches base de rgles est indispensable. Le chapitre 1 dcrit plusieurs moteurs existants proposant un support pour lcriture de rgles et analyse leurs points forts et limitations par rapport nos objectifs. Le chapitre 2 est alors consacr au moteur que nous proposons. Aprs une prsentation de son architecture gnrale, nous dtaillons les points saillants de sa conception tels que vus par un expert construisant son systme danalyse. Cela inclut en particulier sa structuration pour lanalyse incrmentale, sa reprsentation interne des informations et les points importants de son langage dcriture de rgles. Tout cela est suivi,

14 chapitre 3, par la prsentation des algorithmes importants utiliss par ce moteur qui contribuent fortement sa rapidit. Enn cette premire partie se termine par une valuation du moteur, chapitre 4, travers une prsentation de cas dutilisations et des mesures quantitatives de performance sur lanalyseur le plus complexe dont nous disposons. La seconde partie se tourne alors vers le systme Question-Rponse. Aprs une introduction posant le problme, le chapitre 5 prsente la structure gnrale commune lessentiel des systmes QR existants et dcrit plus en dtail trois systmes reprsentatifs des diffrentes approches dcrites dans la littrature : un sans connaissances explicites sur la langue et se fondant en consquence sur des approches purement statistiques, un trs linguistique sappuyant sur des taxonomies dtailles et du raisonnement logique, et enn un que nous considrons intermdiaire. Nous appuyant sur une analyse de la langue construite utilisant le moteur prsent dans la premire partie (chapitre 6), nous introduisons au chapitre 7 une premire approche pour Question-Rponse construite sur des listes de requtes crites la main. La gnralisation de cette approche constitue la base dune approche globale plus avance que nous prsentons ensuite en dtail chapitre 8. Cela inclut la reprsentation abstraite de la recherche, la gestion de la variabilit de la langue via des transformations, la slection de documents et de passages et enn lextraction et lvaluation des rponses. Si nous nous sommes particulirement intress aux questions dites factuelles nous prsentons chapitre 9 des mthodes prliminaires pour traiter dautres types de questions telles que les demandes de dnitions ou dexplications, ces mthodes rutilisant tout ou partie des approches proposes. La troisime partie est ddie lvaluation du systme Question-Rponse propos. Lintroduction prsente le problme gnral de lvaluation dun systme rpondant des questions en langue naturelle. Elle est suivie du chapitre 10 qui dtaille les caractristiques principales des campagnes dvaluation majeures de ces dix dernires annes. Cest dans le cadre de telles campagnes que nous avons valu notre travail. Le chapitre 11 prsente les rsultats obtenus aux campagnes auxquelles nous avons particip. Ces rsultats donnent une information globale sur la qualit du systme de bout en bout, mais une telle valuation nest pas tout, et nous nous sommes donc attach donner dautres points de vue. Le chapitre 12 tout dabord tudie limpact de la taille des donnes de dveloppement sur la qualit nale du systme. Le chapitre 13 dtaille les rsultats chaque tape du systme global et essaie de mettre en avant leurs interactions. Enn il ne faut pas oublier que le contrle des temps de rponse est un de nos besoins de base, et deux paramtres numriques sont prvus pour cela. Le chapitre 14 sattache tudier le systme du point de vue vitesse et qualit du rsultat en fonction des valeurs donnes ces paramtres. Enn un tel document ne saurait tre complet sans une discussion nale de lensemble et une prsentation de quelques perspectives envisages, qui font lobjet de la dernire partie.

Premire partie

Un moteur danalyse de la langue

15

Introduction
Dans la conception dun systme de dialogue oral homme-machine, un des problmes se posant est celui de la comprhension. Il faut pouvoir analyser la requte de lutilisateur, qui a t pralablement automatiquement transcrite par le systme de reconnaissance, et produire une reprsentation en lien avec le sens de la demande. Lanalyse doit tre robuste face aux erreurs de reconnaissance et face aux particularits de loral (hsitation, rptition, auto-correction, reprise, etc.). Un tel systme doit tre en mesure de dtecter, dextraire et de typer linformation pertinente dans les noncs. Il sagit donc dtre capable de reprsenter le sens dun nonc, dune phrase. Cette reprsentation peut utiliser les lments qui semblent importants pour lapplication vise. Dans le cadre des systmes de dialogue pour de la recherche dinformations, lessentiel des travaux [Bonneau-Maynard, et al. 2005 ; Lamel et al. 2000 ; Walker et al. 2002 ; Boye, et al. 2006] a port sur des domaines limits, bien cibls. Le type dinformation que lon peut capturer, reprsenter et reprer est li la tche et la prsence dlments dans une base de donnes. Souvent une reprsentation est propose qui sappuie sur trois types dinformations : le domaine tout dabord, la base de donnes dans laquelles les informations seront recherches ensuite, et enn un ensemble dactes communicatifs correspondant la tche. Avec une telle dnition prcise des lments qui sont utiles reconnatre, la dmarche classique consiste laborer des conventions dannotation, annoter des corpus, et ensuite construire des systmes capables dextraire automatiquement ces annotations. Nous pouvons donner en exemple le cas de MEDIA [Bonneau-Maynard et al. 2005 ; Devillers, et al. 2004], un projet franais consacr lvaluation de systmes de comprhension dans un cadre de dialogue oral en domaine ferm. Les participants ce projet ont d dnir une reprsentation couvrant le type dinformations quils voulaient pouvoir extraire et donc valuer. Le domaine couvre en loccurence les informations touristiques et plus prcisment la rservation de chambres dhtel. La base de donnes associe contient les noms dhtels, de villes, les services, les tarifs, etc. Enn les actes communicatifs couvrent requte, acceptation, rejet, ouverture et fermeture. La reprsentation construite en partant de ces informations dnit les segments smantiques comme des 5-uplets contenant : un identiant numrique la ralisation linguistique du segment (squence de mots) le mode (afrmatif +, ngatif -, interrogatif ? ou optionnel )

17

18 identiant 0 1 2 3 4 5 6 7 8 squence de mots euh oui l htel dont le prix ne depasse pas cent dix euros mode + + + + + + + + + nom de lattribut null reponse lienRef-coRef ObjetBD null object comparatif-paiement paiement-montant-entier-chambre paiement-monnaie valeur oui singulier hotel paiement-montant-chambre inferieur 110 euro

F IG . 3 Reprsentation smantique dans le cadre de MEDIA sous forme de 5-uplets de la phrase euh oui lhtel dont le prix ne dpasse pas cent dix euros. tir de [Bonneau-Maynard et al. 2008]

le nom de lattribut reprsentant le sens de la squence de mots la valeur de lattribut Un exemple dannotation de phrase suivant ce protocole dannotation est donn gure 3.

F IG . 4 Reprsentation arborescente de linformation contenue dans la phrase je voudrais aller de Paris Lille le 23 juillet

Les 5-uplets de MEDIA sont loin dtre la seule reprsentation possible pour ce genre dinformations. Par exemple, la gure 4 montre comment une structure arborescente peut tre utilise pour analyser je voudrais aller de Paris Lille le 23 juillet. Le mme exemple peut plus simplement tre trait par une analyse par mots-cls pour obtenir une reprsentation sous forme de schma :

19 { ville-from : Paris ville-to : Lille date : 23 juillet } Mais ds que nous entrons dans un cadre plus ouvert, le problme devient beaucoup plus difcile. En effet, en labsence dun domaine prcis, quel sera le vocabulaire traiter ? Quels seront les concepts utiles, produits par le locuteur ou prsents dans les documents, chercher par lanalyseur et le systme de recherche dinformations ? Nous dpassons l le cadre habituel de la comprhension pour linteraction et devons retourner aux sources, lanalyse de la langue en tant quobjet. Nous cherchons donc en premier lieu extraire les informations utiles des textes ou de la parole transcrite que nous voulons traiter. Cest une notion volontairement oue, car elle met souvent en jeu des concepts difciles dnir formellement (sens, intention, besoin, importance...). Bien souvent il sagit dun compromis entre ce que lon sait extraire et ce que lon sait exploiter dans la suite de lapplication et volue rgulirement en fonction des rsultats obtenus dans le systme global. Cette information prend en gnral la forme de structures (regroupements, liens), le plus souvent incluant un nommage (on parle de typage). Cette structuration est nomme une annotation. Contrairement aux mots ou un signal de parole, une annotation nest pas directement observable mais est une construction de lesprit en vue de mettre en valeur les points qui nous intressent. Il nexiste donc pas de vrit absolue dans le domaine de lannotation, et chaque schma dannotation est dni en fonction de ce que lon comprend de la langue un moment donn et des besoins, applicatifs ou non, de lutilisateur du rsultat. Analyser de la langue revient donc poser, automatiquement ou non, des annotations en fonction dun schma dannotation dni par des humains. Un certain nombre de ces schmas dannotation venant de la linguistique sont standardiss dans leurs grandes lignes et ont des utilits reconnues, mme si les dtails spciques (listes exactes des types ou structures employes par exemple) varient. Plusieurs types danalyse peuvent tre utiles. Lanalyse en Parties du Discours (Part-Of-Speech, POS) [Adda, et al. 1999] indique pour chaque mot sa catgorie grammaticale (verbe, substantif, dterminant...). La dtection dEntits Nommes [Nadeau & Sekine 2007] repre les mots et expressions dsignant des entits concrtes (personnes, organisations, lieux...) du monde rel et les type. Le chunking [Abney 1991] dcoupe les phrases en groupes syntaxiques lmentaires (groupes nominaux, groupes verbaux...). Lanalyse syntaxique [Bourigault 2007] dtecte et type les relations entre ces groupes dun point de vue grammatical. La dtection des rles smantiques (Semantic Role Labeling, SRL) [Carreras & Mrquez 2005] rinterprte ces groupes et relations en termes plus smantiques, en particulier ceux tournant autour du verbe. Chacune de ces analyses apporte une partie des informations utiles pour lapplication. La gure 5 montre un exemple regroupant plusieurs de ces types dannotations. Les approches danalyse de la langue sont traditionnellement divises de par leur fonctionnement

20

F IG . 5 Exemple dannotation sur la phrase The customer accepts the contract incluant Parties du Discours (Det=Dterminant, N=Nom, V=Verbe), Arbre syntaxique (NP=Groupe nominal, VP=Groupe verbal, S=Phrase) et Rles smantiques (Agent, Action et Thme). Tir de [De Mori et al. 2008].

sous-jacent. Plus prcisment, la sparation est faite entre les approches statistiques dun ct et les approches dites symboliques, essentiellement par rgles, de lautre. Chacunes ont leurs forces et leurs faiblesses. Les approches statistiques suivent en gnral la mme structure. Un modle statistique est dni permettant de calculer, pour chaque annotation possible, un score qui a souvent la forme dune probabilit. Un algorithme dit de recherche essaie ensuite de trouver, dans lensemble de toutes les annotations possibles, celle qui obtient le meilleur score. Les systmes sappuyant sur des approches statistiques ont tendance ne produire, dun point de vue linguistique, quun seul niveau la fois. Chacun sappuie dailleurs souvent sur les rsultats dun ou plusieurs des niveaux prcdents. Cela a deux consquences : la premire est que les erreurs ont tendance saccumuler et une mauvaise dcision tt, par exemple une dsambigisation rate pour la entre substantif et dterminant, peut avoir des consquences importantes sur tous les niveaux suivants. La seconde est que les dcisions peuvent avoir lieu trop tt. Certaines parties du discours ne peuvent tre choisies correctement sans des informations de niveaux suprieurs, syntaxiques ou mme smantiques. La situation peut tre partiellement corrige en annotant plusieurs niveaux simultanment avec des modles interdpendants ou en transmettant plusieurs hypothses plutt quune seule entre chaque tape. Cependant ces mthodes posent des difcults au niveau combinatoire et peuvent donner lieu des temps de calcul excessifs. Les approches statistiques peuvent elles-mmes tre subdivises en trois sous-catgories. Les traditionnelles, dites supervises, sappuient sur un corpus dentranement contenant une quantit importante de textes annots par des humains. Le modle contient alors un certain nombre, souvent grand, de variables numriques libres dont les valeurs sont choisies pour maximiser un score, souvent une probabilit, calcul sur ce corpus. Le modle ainsi optimis sert alors produire les nouvelles an-

21 notations. Le cot de la cration de ce corpus est vident et est souvent un obstacle lusage de ces mthodes. Plus subtil est la difcult inhrente la cration du schma dannotation. En effet, mme sur les niveaux les plus bas, il ny a pas toujours consensus sur les choix dannotation (les tiquettes de Parties du Discours doivent-elles tre Verbe, Nom ou alors Verbe la 3me personne du singulier du prsent de lindicatif et Nom fminin pluriel), et plus les niveaux sont levs plus les possibilits sont nombreuses et deviennent un problme de recherche part entire. Par exemple une grande partie du travail dans les projets M EDIA (comprhension de la parole) [Bonneau-Maynard et al. 2005] ou E ASY (analyse syntaxique) [Paroubek, et al. 2006] a t la dnition des annotations. De plus le cot dune rannotation manuelle du corpus dentranement rend difcile lexprimentation avec les annotations, en particulier dans le cadre de lapplication complte. Il est dsagrable et coteux de sapercevoir quavoir le genre et nombre dans les parties du discours aurait t utile aprs que quelques centaines de milliers de mots aient dj t annots. Et la portabilit inter-lingue ou inter-domaine est inexistante. Il faut chaque changement de langue, domaine ou modalit (crit vers oral par exemple) crer un nouveau corpus dentranement adapt. Cependant quand le besoin est bien dni, ou mieux encore des corpus appropris sont disponibles (en anglais le Treebank [Marcus, et al. 1993] est trs populaire pour les parties du discours et la syntaxe), les approches statistiques supervises sont des plus utiles et efcaces. Une seconde sous-catgorie des mthodes statistiques, en plein essor, est lensemble des mthodes semi-supervises qui combinent une taxonomie linguistique telle que VerbNet pour les rles smantiques en anglais avec une grande quantit de textes non annots pour tenter dobtenir via des statistiques tires des textes bruts puis diriges par, ou corrles avec, la taxonomie des modles dannotation intressants. Il est ainsi possible dobtenir avec VerbNet un systme dannotation en rles smantiques avec des performances intressantes sans corpus annot explicitement avec ces rles [Swier & Stevenson 2004]. Ces approches nouvelles sont trs prometteuses mais les taxonomies ncessaires reprsentent une quantit de travail phnomnale : VerbNet [Schuler 2005] reprsente plus de 5 ans de travail par des linguistes et volue encore, et sappuie sur dautres taxonomies (WordNet [Press 1998], XTag [Prolo 2002], FrameNet [Baker, et al. 1998]) qui reprsentent des dizaines dannes de travail. Rien voir avec un corpus dapprentissage pour systme supervis dont le temps de cration, une fois le schma dannotation dni, se compte en mois. Ce sont l encore des mthodes trs intressantes si les taxonomies existent et sont disponibles. Des efforts existent pour constituer de telles ressources pour de nombreuses langues incluant le franais, mais la langue la mieux couverte ce jour reste langlais. La dernire sous-catgorie couvre les mthodes non-supervises. partir de rien dautre quun ensemble de textes non annots ces approches fournissent des pseudo-parties du discours [Schtze 1995] ou encore un bracketing, rcriture de la phrase sous une forme darbre qui est une des formes possibles de lanalyse syntaxique [Seginer 2007]. Elles sappuient pour cela essentiellement sur des statistiques de co-occurrence oriente de telle ou telle faon (co-occurrences simples de mots, cooccurrences de contextes entre des mots diffrents, ...) suivant le type dinformation recherche. Ce sont des approches montantes des plus intressantes, ne demandant que des textes faciles obtenir en grande quantit et du temps CPU. Malheureusement une limitation intrinsque de ces mthodes qui les rendent difcilement utilisables dans un cadre applicatif est celui du nommage. En effet un

22 systme dannotation en parties du discours non-supervis ne va pas dcider entre verbe et nom mais entre les classes numro 1 et 6 quil aura cres lui-mme. Difcile ensuite pour lhumain dinterprter cela en des termes adapts sa comprhension. Dautant plus que les classes cres par le systme auront des points communs avec celles quutiliserait un humain, mais elle ne seront pas strictement identiques. moins de pouvoir faire tourner la totalit de lapplication avec de telles classes abstraites gnres automatiquement (et il nexiste notre connaissance pas encore de telles mthodes pour les entits nommes, le chunking ou les rles smantiques) lintgration avec des mthodes plus traditionnelles qui demandent et produisent des classes nommes conventionnelles est extrmement difcile. Les approches dites symboliques couvrent en pratique des mthodes trs varies : rgles, grammaires, logique... Les caractriser par le terme symbolique est un peu un abus de langage. Les systmes statistiques, aprs tout, travaillent sur les mmes symboles. Ces approches symboliques ont cependant des points communs : un expert (ou plusieurs) programme le systme dannotation dans un langage qui lui parat adapt ses besoins, et qui, comme les grammaires non-contextuelles, peut ne pas ressembler du tout un langage de programmation. Les oprations de ce programme sont discrtes et transforment la reprsentation interne du langage. En comparaison, les mthodes statistiques, via la recherche de lannotation donnant le meilleur score, dplacent toute dcision le plus tard possible. Les approches symboliques ncessitent un gros travail initial dcriture et de dbogage des rgles (ou autres). Ce travail est rendu dautant plus compliqu quil est souvent difcile de repousser une dcision, les rgles suivantes ayant besoin des rsultats des prcdentes, et tout aussi difcile de revenir dessus. Difcile ne veut pas dire impossible, cest essentiellement un problme dexpressivit du moteur dapplication des rgles et de facilit ergonomique pour lexpert daccder ces possibilits. De plus la maintenance dun ensemble de rgles peut tre difcile. Ces ensembles sont bien souvent quivalents un programme traditionnel important au niveau de la complexit, mais ils bncient rarement des avantages internes (structuration, approche objet, abstraction...) et externes (outils de dbogage, de trace, de proling, de design) de la programmation moderne. Cependant ces approches nont pas que des inconvnients, loin de l. Dj, et cest fondamental, elles permettent dexprimenter avec lannotation. Aucun choix nest dnitif, et ajouter des niveaux de dtails ou largir la couverture peut ne reprsenter quun changement mineur par rapport la difcult, au cot et au temps de rannotation dun corpus dentranement. De plus diffrentes langues et les diffrents domaines ont souvent bien des choses en commun et cela rend les approches symboliques bien plus portables quil peut ny paratre au premier abord. Il suft souvent de traduire les mots importants prsents dans les rgles et den rorganiser quelques unes pour transformer un systme danalyse pour le franais en un capable de traiter dcemment lespagnol par exemple. Enn, dans certains cas, la division en niveaux danalyse linguistique diffrents peut tre plus une convention quune contrainte forte. Si lexpert dispose dun moyen den reprsenter plusieurs de faon unie il peut considrer pertinent de les traiter en mme temps en travaillant par lots de conance, commenant par les annotations les plus sres et sy appuyant pour la suite, quels que soient les niveaux de ces annotations. Pour le franais peu de ressources sont disponibles publiquement. Des corpus ou des annotateurs statistiques existent pour les parties du discours. Nous disposons de corpus annots en entits nommes en franais mais avec une couverture de types relativement limite (ESTER [Gravier, et al. 2004]).

23 Des corpus existent pour lanalyse syntaxique (EASY [Paroubek et al. 2006], PASSAGE [de la Clergerie, et al. 2008]) mais de taille insufsante lheure actuelle pour construire des analyseurs statistiques. De mme des taxonomies linguistiques sont dveloppes (EuroWordNet, FrameNet, LexiqueGrammaire) mais leur couverture ou leur disponibilit semblent pour linstant insufsantes pour les exploiter directement. De plus il nexiste pas de consensus sur le choix des informations les plus utiles pour le dialogue en domaine ouvert ou mme pour Question-Rponse, et encore moins sur comment les reprsenter. Le besoin dexprimenter sur lannotation est donc trs prsent. En consquence nous avons dcid de nous baser essentiellement sur une approche symbolique et plus spciquement base de rgles. De plus, nous avons voulu garder la possibilit dintgrer des analyses statistiques quand elles sont disponibles et performantes, en particulier pour les parties du discours. Ces besoins de exibilit et dintgration ont motiv nos travaux visant la cration dun nouveau moteur gnrique danalyse de la langue.

24

Chapitre 1

tat de lart
Les moteurs disponibles publiquement permettant des experts dcrire leurs propres rgles danalyse sont peu nombreux. Bien souvent ce moteur nit par tre PERL. Il en existe cependant quelques uns qui mritent dtre regards de prs pour inspirer notre rexion. Cass, de Steven Abney, est un peu le grand anctre. Cr au milieu des annes 90, il propose un pur systme de rgles et a t moteur dans le dveloppement du concept danalyse incrmentale. GATE et UIMA, plus rcents, sont des frameworks, des systmes faits pour intgrer plusieurs modules danalyse de la langue autour dune reprsentation commune de ltat de lanalyse. NLTK est une librairie interface avec le langage python intgrant un large ventail dalgorithmes et de mthodes danalyse de la langue. Enn Corpus Query Processor (CQP) nest pas un moteur danalyse mais un systme pour faire des recherches dans des corpus. Son langage de requtes est cependant trs intressant et similaire avec la partie matching dun langage de rgles. Sous quel angle examiner ces systmes ? Le plus souvent un langage de rgles est tudi dun point de vue gnratif, en dterminant lensemble des textes quil est capable, ou non, de reconnatre. La hirarchie de Chomsky [Chomsky 1956], par exemple, est un travail fondamental du domaine, classiant les grammaires formelles en quatre catgories suivant leur niveau dexpressivit. Cependant nous sommes dans un cadre danalyse robuste o les contraintes sont un peu diffrentes. En effet le but est dannoter autant dinformations que possible sans aucune assurance que la totalit dun nonc pourra tre reconnu par les rgles. Il faut donc prendre les dcisions dannotation tt et de manire non ambigu, car il nest pas possible de compter sur une validation globale pour slectionner les possibilits les plus pertinentes. Il est noter quil est, par contre, possible de modier des annotations dans des tapes ultrieures, pour les afner ou mme les corriger. La dmarche est plus transformative que gnrative. Les points importants sont donc diffrents. Le premier point concerne la capacit de reprsentation. Quels types dinformations peuvent tre annotes de faon naturelle dans les reprsentations proposes. Cest un peu le pendant analytique de lexpressivit du point de vue gnratif, en examinant 25

26

CHAPITRE 1. TAT DE LART

non pas quels types de textes peuvent etre gnrs, et donc reconnus, mais quels types dinformations peuvent tre annotes, et donc dtectes et ensuite exploites. Le second point important est lergonomie globale du langage de rgles. Cest une notion un peu oue mais qui regroupe les facteurs agissant sur la facilit dcriture, de lecture et de maintenance en gnral des rgles crites. Cest donc ces points que nous mettons en priorit dans notre tat de lart.

1.1 Le systme Cass


Le systme Cass, par Steven Abney [Abney 1996], plus connu sous le nom de son packaging Scol, est un des prcurseurs en la matire. :chunk NP -> D ? N+ ; VP -> V-tns | Aux V-ing ; :pp PP -> P NP ; :clause S -> PP* NP PP* VP PP* ; F IG . 1.1 Exemple de rgles Cass, tir de [Abney 1997]

Cest un pur moteur de rgles qui ne propose pas dintgration avec dautres approches. Il sattend en entre des mots, si possible annots en parties du discours. Un exemple danalyse utilisant ce moteur est donn en gure 1.1. Les rgles sont des expressions rgulires traditionnelles qui sappuient sur les tags ou les mots et substituent la zone reconnue par son label. Elles sont organises en passes nommes, ici chunk, pp et clause, qui sont appliques successivement. Il est aussi possible dinsrer des actions similaires dans lesprit celles de Lex [Lesk 1978] qui permettent de donner des valeurs des attributs associs aux labels. Il nest cependant pas possible dutiliser ces valeurs dans les rgles des passes suivantes. Le moteur sous-jacent fonctionne sur le principe dune succession de transducteurs dterministes nis. Les expressions rgulires sont transformes en automates nis dterministes, avec un traitement spcique pour les -transitions dues aux actions. Cass est une bonne mise en uvre du principe de lanalyse incrmentale : chaque passe de lanalyse sappuie sur les passes prcdentes et permet lexpert de procder par expansion dlots de conance. Ce type dapproche permet plus facilement dassurer une certaine robustesse car, mme si les structures les plus longues et complexes ne sont pas reconnues, les sous-structures les composant, plus simples, lauront probablement t dans des passes prcdentes. Lapplication a donc ainsi toujours de linformation utile, mme si elle est partielle. Ce systme de rgles a plusieurs limitations. Les expressions rgulires traditionnelles, trs intressantes dun point de vue de limplmentation en permettant leur transformation en automate ni dterministe, sont limites au niveau de ce quelles permettent dexprimer. En particulier il leur manque toute notion de contexte, ou en dautres termes

1.2. LES FRAMEWORKS GATE ET UIMA

27

on ne peut regarder autour dun bloc substituer pour prendre une dcision. Il est de plus impossible avec ce moteur de revenir sur des annotations faites dans des passes prcdentes ou mme de regarder en dessous dune substitution dj effectue. Cass a t utilis dans plusieurs domaines. On peut citer par exemple une analyse syntaxique lgre (relations sujet-verbe, verbe-objet, nom-nom et adjectif-nom) pour lextraction de concordances [Smadja 1993], lanalyse de questions pour des systmes de Question-Rponse [Grau, et al. 2005b] ou de gnration en langue de rponse [Schilder, et al. 2005] ou encore lextraction automatique dontologies [Cimiano, et al. 2006].

1.2 Les frameworks GATE et UIMA


Plus quun systme de rgles comme Cass, GATE [Cunningham, et al. 2002] est avant tout un systme dintgration de divers modules danalyse. Texte savo10 red t15 he so20 up.23 Annotations Dbut Fin Attributs 0 5 pos=NP 6 13 pos=VBD 14 17 pos=DT 18 22 pos=NN 22 23 0 5 name_type=person 0 23 constituents=[1],[2],[3].[4],[5]

0 Cyndi5

Id 1 2 3 4 5 6 7

Type token token token token token name sentence

F IG . 1.2 Exemple dannotation sous GATE, tir de [Gaizauskas, et al. 1996]

GATE sappuie sur une bibliothque Java commune qui implmente une structure de donnes reprsentant un document et ses annotations ainsi que le support ncessaire pour la gestion et la coordination de modules Java danalyse de la langue. Un exemple dannotation est donn gure 1.2. Chaque annotation est un quadruplet form dun type, dune position de dbut et de n en caractres, et dun ensemble dattributs. Ces attributs peuvent eux-mmes rfrer dautres annotations. Cette structure assez peu contrainte permet dencoder pratiquement nimporte quelle annotation, hirarchique ou non. De nombreux modules sont disponibles traitant les problmes dentre et de sortie dans des formats divers (texte, SGML, HTML, XML, RTF, email...), de tokenisation ainsi que diverses mthodes danalyse. Une interface graphique est disponible pour aider lorganisation des modules ainsi que pour visualiser les rsultats.

28 Macro : MILLION_BILLION ({Token.string == "m"}| {Token.string == "million"}| {Token.string == "b"}| {Token.string == "billion"} ) Macro : AMOUNT_NUMBER ({Token.kind == number} (({Token.string == ","}| {Token.string == "."}) {Token.kind == number})* (({SpaceToken.kind == space}) ? (MILLION_BILLION) ?) )

CHAPITRE 1. TAT DE LART

Rule : Money1 ( (AMOUNT_NUMBER) ({SpaceToken.kind == space}) ? ({Lookup.majorType == currency_unit}) ) :money > :money.Number = {kind = "money", rule = "Money1"} F IG . 1.3 Exemple de rgles JAPE/GATE, tir de [Gaizauskas et al. 1996]

Un des modules fournis permet dutiliser le langage JAPE (Java Annotation Patterns Engine), cr pour loccasion, pour crire des rgles dannotation. Ces rgles travaillent sur les annotations existantes et les modient ou en produisent de nouvelles. Les annotations initiales sont produites par les modules de tokenisation, qui produisent des mots sous le nom dannotation Token et de gazetteer qui cherchent des expressions daprs des listes et produisent des annotations Lookup. Un exemple de ces rgles est donn gure 1.3. Les groupes entre accolades reprsentent des matchings lmentaires sur les annotations. Ils peuvent se faire sur nimporte quel champ des annotations et prennent la forme dune conjonction de tests dgalit ou dingalit, ou mme dune fonction Java. Ces matchings sont structurs avec les oprateurs dexpressions rgulires classiques (parenthses, rptitions, alternatives). Des sous-expressions peuvent tre mises sous la forme de macros et utilises ensuite. Les groupes reconnus peuvent ensuite donner lieu a une nouvelle annotation, money dans lexemple, ou l encore excuter une fonction Java qui peut faire les manipulations quelle veut sur les annotations. Les annotations ntant pas naturellement squentielles, elles sont pour les besoins des rgles classes de par leur position initiale. Si plusieurs annotations commencent au mme endroit et quun matching se fait sur elles il suft quau moins une respecte la condition pour que le matching soit accept. Quand

1.2. LES FRAMEWORKS GATE ET UIMA

29

plusieurs la respectent le choix parmi elles est alatoire. Le cas est dans la pratique rare daprs les auteurs. Ce format de rgles, avec la possibilit de tester nimporte quel attribut ainsi que de revenir tout moment des fonctions Java, offre une grande exibilit, peut-tre au dtriment de la lisibilit. De mme la structure dannotation permet de reprsenter pratiquement nimporte quelle structure. Cependant cette structure a le dfaut de ses qualits. Sans structuration explicite en arbres, relations, frames ou autre organisation sous-jacente des classes danalyse linguistiques JAPE doit sappuyer sur un ordre semi-arbitraire des annotations pour lapplication des matchings des rgles. Cela complique les structurations en passes incrmentales dun ensemble danalyses car il est difcile de donner une priorit aux rsultats des dernires passes, ce quune structure en arbres permet naturellement. De mme, ne rien dnir au niveau des attributs (noms, signications) revient dplacer le problme vers les modules qui doivent de toute faon se mettre daccord entre eux. Mais ceci fait que JAPE ne peut facilement supprimer les parties rptitives de sa syntaxe comme les { Token.string == "..." } car le choix du type dannotation Token et du nom dattribut string nest pas dni par GATE mais seulement une convention implicite des tokeniseurs actuellements implments. GATE a des utilisations trs varies. Nous pouvons citer par exemple KIM [Popov, et al. 2003], une plateforme dannotation smantique, comme utilisation de son aspect plateforme dintgration et de gestion de documents. Ses capacits danalyse ne sont pas en reste, soit en les utilisant telles quelles, par exemple la dtection dentits nommes dans le cadre dun systme de Question-Rponse [Moll, et al. 2006], soit en dveloppant des annotations adaptes en utilisant JAPE comme dans [Agatonovic, et al. 2008] pour lannotation de brevets ou encore [Plamondon, et al. 2004] pour lanonymisation de documents. Le framework UIMA [Ferrucci & Lally 2004], en plein essor, est trs similaire GATE. Son principe est le mme : intgrer un ensemble de composants travaillant sur la langue. Sa principale diffrence, en dehors de details dimplmentation comme le support de plus de langages de programmation pour les composants, est le support de plus de types de donnes. En effet UIMA permet dannoter nimporte quel type de donne organisable en squence comme le texte, videmment, mais galement le son ou la vido. Ceci est tout simplement fait en gnralisant le concept de position en caractres dans le texte en position dans le ux, quel que soit son type. Cela permet par exemple davoir un moteur de reconnaissance vocale comme composant UIMA, permettant daller plus loin dans lintgration de systmes. Cependant les difcults de cration dun systme danalyse par rgles dues labsence de structure explicite sont toujours prsentes, ce qui doit expliquer pourquoi aucun ne semble disponible lheure actuelle. Il existe bien un composant, le Regular Expression Annotator, qui est capable de produire des annotations partir dexpressions rgulires appliques sur le texte original. Cependant cela ne permet pas danalyse incrmentale et sort donc du cadre de cet tat de lart.

30

CHAPITRE 1. TAT DE LART


grammar = r""" # chunk determiner/possessive, adjectives and nouns NP : {<DT|PP$> ?<JJ>*<NN>} # chunk sequences of proper nouns {<NNP>+} """ cp = nltk.RegexpParser(grammar) sentence = [("Rapunzel", "NNP"), ("let", "VBD"), ("down", "RP"), ("her", "PP$"), ("long", "JJ"), ("golden", "JJ"), ("hair", "NN")] print cp.parse(sentence) (S (NP Rapunzel/NNP) let/VBD down/RP (NP her/PP$ long/JJ golden/JJ hair/NN))

F IG . 1.4 Exemple de chunking par expressions rgulires dans NLTK sur la phrase annote en partie du discours Rapunzel/NNP let/VBD down/RP her/PP long/JJ golden/JJ hair/NN (tir de [Bird et al. 2009]).

1.3 La librairie NLTK


Le Natural Language Toolkit (NLTK) [Bird, et al. 2009] est une bibliothque sinterfaant avec le langage de programmation python et offrant une large gamme dapproches pour lanalyse de la langue. Il propose ainsi diffrentes mthodes de toknisation, annotation en parties du discours, chunking, dtection dentits nommes, analyse syntaxique, etc, allant mme jusquau calcul de prdicats pour aider au raisonnement au niveau smantique. De plus ces mthodes proposes couvrent aussi bien les approches statistiques que symboliques. Nous nous intressons plus spciquement deux de ces mthodes : le chunking par expressions rgulires et lanalyse, souvent syntaxique, par grammaires non-contextuelles. Cette librairie, sappuyant sur un langage de programmation existant, exploite les structures de donnes quil propose. Un texte est une simple chaine de caractres. Le rsultat dune toknisation est une liste de chaines contenant les mots. Lanalyse dune telle liste en parties du discours (POS) a pour rsultat une liste de paires (mot, POS). Cette liste de paire peut ensuite tre utlise pour une analyse syntaxique qui donne comme rsultat un arbre, et ainsi de suite. Il ny a pas une reprsentation commune toutes les tapes de lanalyse mais un ensemble de reprsentations adaptes chacune. Deux mthodes spciques nous ont paru pertinentes pour notre tat de lart. La premire est un

1.3. LA LIBRAIRIE NLTK


grammar2 = nltk.parse_cfg(""" S -> NP VP NP -> Det Nom | PropN Nom -> Adj Nom | N VP -> V Adj | V NP | V S | V NP PP PP -> P NP PropN -> Buster | Chatterer | Joe Det -> the | a N -> bear | squirrel | tree | sh | log Adj -> angry | frightened | little | tall V -> chased | saw | said | thought | was | put P -> on """)

31

F IG . 1.5 Exemple de grammaire non-contextuelle pour lanalyse syntaxique et darbre rsultant dans le cadre de NLTK (tir de [Bird et al. 2009]).

chunker par expressions rgulires dont nous pouvons voir un exemple dutilisation gure 1.4. Le moteur propose de dnir des zones regrouper via des expressions rgulires sur les annotations en parties du discours. Ces expressions sont deux niveaux : un premier niveau, que lon pourrait nommer caractres, reconnait les annotations elles-mmes. Ce sont les sous-expressions prsentes dans les <...>. Ces sous-expressions sont ensuite combines dans un deuxime niveau dexpressions rgulires qui cherchent elles reconnaitre des successions spciques de parties du discours. Une succession reconnue permet de dlimiter un chunk, construisant une structure en arbre. Les ambiguits sont rsolues de manire prdtermine, les chunks les plus proches du dbut de la phrase sont prioritaires et en second lieu les rgles les plus proches du dbut de la liste. Ces expressions peuvent aussi sappliquer aux arbres, permettant une analyse incrmentale. Il est noter quaucune syntaxe nest propose pour accder aux mots ni, dans un cas incrmental, au contenu des chunks dj annots. Les possibilits de cette mthode semblent similaires ce que propose Cass. La deuxime mthode est lanalyse, habituellement syntaxique, par grammaires non-contextuelles. Un exemple dune telle grammaire et dun rsultat quelle permet dobtenir est donn gure 1.5.

32

CHAPITRE 1. TAT DE LART

Plusieurs mthodes de parsing sont proposes, en particulier le chart parsing, qui est la rfrence en la matire. Cependant les grammaires non-contextuelles simples ont des limites. En particulier plusieurs arbres syntaxiques sont bien souvent possibles, et les non-terminaux (NP, VP, ...) peuvent manquer dinformations, comme par exemple le type de verbe (transitif ou non, ...) ou de nom (humain, anim, objet...). Pour aider ces problmes NLTK propose de rajouter un poids chaque rgle, permettant dassocier un score chacun des arbres syntaxiques possibles. Il permet aussi de rajouter des traits, paires attribut/valeur, aux non-terminaux, permettant de remonter de linformation des feuilles vers la racine et dutiliser cette information comme contrainte quand cela est utile. NLTK connait des utilisations varies. Offrant un accs facile de nombreux algorithmes et mthodes fondamentaux en analyse de la langue, il est souvent utilis dans lenseignement. Nous le rencontrons aussi dans des systmes varis o des parties spciques sont utilises. Par exemple [Barrn-Cedeo, et al. 2009] utilisent son module de chunking par expression rgulires pour extraire des termes en espagnol. Ou encore [Blunsom 2004] qui utilise la bibliothque pour la toknisation, lanalyse en partie du discours et le chunking dans le cadre de son prprocessing pour la dtection automatique de rles smantiques.

1.4 CQP - Corpus Query Processor


CQP [Christ 1994b], qui fait partie de lIMS Corpus Workbench [Christ 1994a] nest pas proprement parler un moteur danalyse de la langue. Cest un langage cr pour permettre des recherches dans des corpus pr-annots pour en tirer en particulier des informations de collocations. Ce problme de dnition de langage est toutefois similaire celui de la dnition de la partie matching dun moteur de rgles, do lintrt de lobserver. Mot A form of asbestos once used to POS DT NN IN NN RB VBN TO Lemme a form in asbestos once use to

F IG . 1.6 Extrait de Penn Treebank vu en tant que corpus CQP. La reprsentation est similaire une table de bases de donnes, avec les colonnes typant les informations et les lignes contenant le corpus.

Les corpus pr-annots traits par CQP sont reprsents sous une forme relativement simple, qui peut tre assimile une table de base de donnes, comme visible sur la gure 1.6. Un certain nombre dattributs tels que mot, partie du discours, lemme sont dnis, formant les colonnes. Les lignes forment le corpus lui-mme. La notion de squence est ici naturelle, facilitant grandement la dnition

1.4. CQP - CORPUS QUERY PROCESSOR


du langage.

33

"Clinton" ; [word = "Clinton"] ; "alumini ?um" ; [word = "rain" & pos = "NN"] ; "Bill" "Clinton" ; [pos = "NP"] "of" ? [pos = "NP"] ; [lemma = "give"] [pos != "SENT"]{0, 5} "up" ; F IG . 1.7 Exemples du langage CQP, essentiellement tirs de [Christ, et al. 1999]

Le langage se dcompose en 3 niveaux de ltrage successifs : Les expressions rgulires de caractres sur le contenu des cases de la table Les expressions boolennes sur ces rsultats slectionnant des lignes Les expressions rgulires sur ces lignes slectionnant les passages naux Nous en donnons des exemples gure 1.7. Les deux premiers sont quivalents et cherchent le mot Clinton. En labsence de choix explicite du nom dattributs word est pris par dfaut. Ce dfaut est changeable globalement si, par exemple, les recherches sur les parties du discours sont les plus frquentes. Le troisime montre que les recherches individuelles de valeurs sont bien des expressions rgulires de caractres, cet exemple cherchant les instances de aluminium (orthographe anglaise) et aluminum (orthographe amricaine). Le suivant montre un exemple de construction dexpressions boolennes au-dessus de ces expressions rgulires de base en cherchant toutes les instances de rain en tant que nom commun (et non verbe). Nous avons ensuite des exemples de recherche de squence, qui sont l aussi des expressions rgulires, en commenant par une simple paire de mots, Bill Clinton, suivie dune recherche de paires de noms propres optionnellement spares par of, et enn une recherche des instances dutilisation du verbe particule to give up, en autorisant jusqu 5 mots qui ne soient pas une ponctuation de n de phrase (SENT) entre le verbe et la particule. La syntaxe de ce langage de requte est trs intressante par son quilibre entre expressivit et lisibilit. La dcomposition entre recherche intra-mot et recherche inter-mots permet une bien plus grande lisibilit que ce que des simples expressions de caractres avec marqueurs de limites de mots, comme propose PERL, permettent. La prsence des expressions boolennes permet dutiliser des conditions ngatives, mais la porte reste limite au niveau du mot. Or il existe des cas o lon veut pouvoir exprimer de telles contraintes ngatives sur des expressions composes de plusieurs mots. CQP est bien videmment populaire en linguistique de corpus. On peut citer par exemple [Heiden & Lafon 2002] qui extraient de nombreuses informations statistiques sur les coquilles dans lEncyclopdie de Diderot et dAlembert [Diderot & dAlembert 17511772]. Mais on peut aussi trouver des exemples dans le domaine de Question-Rponse avec en particulier [Eckle-Kohler 1998] o il est utilis pour extraire automatiquement des lexiques cibls.

34

CHAPITRE 1. TAT DE LART

1.5 Discussion

Nous avons prsent quatre systmes proposant un langage de rgles. Chacun a ses qualits et ses limitations et nous donne des pistes pour notre propre moteur. Cass, le grand anctre, est un pur moteur danalyse par rgles. Son point fort a t dintroduire la notion danalyse incrmentale. Lanalyse se fait en une srie de passes conscutives, chacune rajoutant des annotations compltant celles construites prcdemment. Une telle approche permet de travailler par lots de conance, annotant dabord les informations les moins ambigus et sappuyant sur ces annotations pour rsoudre les cas moins tranchs. Limplmentation propose de cette approche a cependant deux limitations. Il nest tout dabord pas possible de regarder "sous" une annotation mise par une passe. Ces annotations sont des substitutions, et les mots ou sous-annotations remplacs ne sont plus accessibles par les rgles. Il est pourtant utile de pouvoir les consulter au besoin, et notre langage de rgles ne devra donc pas avoir une telle limitation. La seconde limitation est limpossibilit de revenir sur une annotation. Des informations de plus haut niveau peuvent tres utiles pour prciser des informations plus locales. Par exemple il est possible de conclure grce la structure globale de la phrase quun lment qui avait initialement t dtect comme une date simple est en pratique une date de naissance. Pour permettre de tels rafnements le langage de rgles doit donc permettre de modier des annotations et non uniquement den ajouter. GATE et UIMA sont des rponses au problme de lintgration de multiples modules danalyse fonctionnant sur des niveaux ou des approches diffrentes. Cette intgration se fait travers une reprsentation commune de ltat de lanalyse. Cette approche nous parait trs pertinente mais se pose le problme de la dnition de cette reprsentation. Celle propose est extrmement gnrique et peut reprsenter tous les types danalyse auxquels nous avons fait allusion. La contrepartie est que les informations contenues dans cette reprsentation sont trs faiblement structures. Ce manque de structure pose des difcults pour la dnition dun systme de rgles capable de les exploiter. La reprsentation que nous allons dnir devra ainsi tre sufsamment structure pour reprsenter naturellement les types danalyse qui nous intressent. NLTK est une librarie utilisable partir du langage python, proposant des implmentations de nombreux algorithmes et mthodes utiles pour lanalyse de la langue. Les structures de donnes intrinsques de python sont utilises pour dnir un ensemble de reprsentations spciques aux diffrentes annotations. Cest une approche intressante, permettant davoir chaque fois une reprsentation collant au mieux la structure intrinsque des annotations. Elle a cependant linconvnient de rendre plus difcile lintgration de diffrents niveau danalyse. Il parait par exemple relativement complexe dintgrer en une seule reprsentation les rsultats dune extraction dentits nommes et dune analyse syntaxique. Cette librairie propose deux moteurs dannotation par rgles qui nous paraissent pertinents pour nos besoins. Le premier est un chunker par expressions rgulires sufsamment similaire dans ses capacits Cass pour que les mmes remarques sappliquent. Le second permet danalyser un texte partir de grammaires non-contextuelles. Pour augmenter lexpressivit du moteur il permet lajout de poids sur les rgles et de traits sur les non-terminaux. Ce type de grammaire est

1.5. DISCUSSION

35

classique en analyse syntaxique mais rien nempche de den utiliser pour dautres besoins. A priori elles paraissent cependant difciles utiliser dans un cadre danalyse robuste. En effet, labsence de contextes explicites pose plusieurs problmes. Avec des grammaires contextuelles, une partie des ambiguts entre rgles peut tre rsolue par un simple test sur les annotations ou mots voisins. Cest le cas par exemple dune grande partie des ambiguts qui apparaissent au moment dune annotation en entits nommes partir de listes. Par exemple dans le conseil gnral de la Loire et la Loire prend sa source en Ardche, le nom propre Loire nest pas ambigu dans son contexte entre dpartement et euve, mais lest hors contexte. Dans un cadre non-contextuel ces ambiguts doivent tre leves via lapplication, ou lchec dapplication, des rgles suivantes, et ce jusqu avoir russi construire un arbre danalyse complet. Ce dplacement de la rsolution des ambiguts rend toute analyse partielle, o la rsolution na pas encore t effectue, de qualit inconnue et complique dautant lcriture des grammaires. Enn les traits, attributs des non-terminaux prenant la forme de paires type/valeur, sont utiliss pour remonter des informations plus dtailles que ce quun simple label tel que V peut reprsenter en soi. Ces informations peuvent porter par exemple sur la transitivit du verbe. Mais cette approche a ses limites. Dcider quelles informations seront utiles doit tre effectu ds les plus bas niveaux des annotations. Ces informations doivent en plus tre regroupes correctement pendant la construction de larbre danalyse. Il parait plus intuitif, et meilleur dun point de vue structuration, de pouvoir observer le contenu des sous-arbres au moment prcis o linformation est utile plutt que devoir la constituer lavance. Enn CQP nest pas un moteur danalyse mais un systme de recherche dans des corpus. La syntaxe de ses commandes dextraction est cependant intressante : elle montre lexpressivit et la relative simplicit de lecture des expressions rgulires de mots. Les mots, dans le cadre des langues auxquelles nous nous intressons et en particulier le franais, sont une unit de recherche, de dplacement, de rptition souvent plus pertinente que les caractres. De plus la libert de formatage des expressions que lon obtient favorise la lecture. Cependant la syntaxe propose nest performante que pour les mots du texte initial. Atteindre les annotations, parties du discours ou lemmes dans les exemples que nous avons montrs, ncessite une criture bien plus lourde mettant en jeu un test explicite dgalit. Nous devrons donc proposer une mthode alternative pour atteindre ces annotations tout en conservant une syntaxe simple. Nous prsentons dans la suite de cette partie le moteur que nous avons conu. Le prochain chapitre est consacr cette prsentation du point de vue dun utilisateur : organisation gnrale, reprsentation propose, les diffrentes transformations, le langage de rgles et les entres-sorties. Le chapitre suivant regarde ce mme systme de lintrieur en abordant les aspects algorithmiques mis en jeu. Ce sont en effet les dcisions prises ce niveau l qui vont dcider de la viabilit nale du moteur. Enn nous terminons par une valuation de ce systme. valuer un tel moteur est un problme difcile en soi car la qualit des analyses produites dpend en premier lieu de la qualit des rgles que lutilisateur crit. Il en dcoule que la qualit du moteur peut tre illustre par ce quil a permis de construire. Nous prsentons donc plusieurs cas dutilisation, incluant des systmes complets construits avec le moteur. Des mesures quantitatives sont cependant possibles et nous prsentons pour le plus important de ces systmes quelques mesures de performance.

36

CHAPITRE 1. TAT DE LART

Chapitre 2

Un moteur base de transformations


Notre moteur danalyse a pour objectif de permettre de construire des analyseurs robustes incrmentaux. En plus des besoins habituels de vitesse et de exibilit nous voulions viter dtre li un modle linguistique ou danalyse spcique, ou mme de choisir un camp dans lternel dbat rgles contre statistiques. Il est dailleurs intressant de noter que les meilleurs analyseurs en parties du discours sont statistiques alors que pour certaines langues incluant le franais les meilleurs analyseurs syntaxiques sont base de rgles [Branco, et al. 2003 ; Paroubek et al. 2006]. Nous avons dcid de construire ce moteur sur la base dune reprsentation commune de ltat de lanalyse, capable de contenir toute linformation que lanalyse peut extraire. Lanalyse peut alors tre structure en un ensemble de passes incrmentales, chacune ajoutant ses propres rsultats mais conservant la possibilit de modier les rsultats des passes prcdentes. De plus dnir une version texte simple de cette reprsentation permet dutiliser des outils externes qui iront faire leurs propres modications, permettant de tester des approches alternatives sans avoir besoin dintgrer immdiatement toutes les possibilits dans loutil global. Nous arrivons donc une dnition de lanalyse comme une srie de transformations lmentaires sur une reprsentation commune. Ces transformations peuvent se regrouper en 3 catgories principales : Tranformations base de rgles Tranformations base statistique Tranformations algorithmiques Les sections suivantes prsentent la reprsentation commune puis les diffrentes transformations que nous utilisons.

37

38

CHAPITRE 2. UN MOTEUR BASE DE TRANSFORMATIONS

2.1 Reprsentation commune de ltat de lanalyse


La reprsentation interne de ltat du texte analys est primordiale dans tout systme danalyse de la langue, cela dautant plus quand ce systme est structur en moteur de transformations. Elle doit satisfaire un certain nombre de besoins en partie contradictoires : elle doit pouvoir contenir tous les types dinformations qui nous intressent, elle doit tre lisible par un humain une fois transforme dans un format texte, elle doit tre complte : il ne doit pas y avoir de rfrences des entits externes non prsentes dans son contenu, telles que la phrase initiale ou les rsultats de transformations prcdentes. Au-del de ces besoins de base se pose le problme du niveau de structuration de la langue que lon veut avoir explicitement dans la reprsentation. Un extrme tel que la reprsentation de GATE nimpose aucune structure sur les annotations. La contrepartie est quaucune structure nest utilisable implicitement par les transformations, compliquant comme nous lavons vu lcriture dun moteur de rgles performant. En pratique, les annotations de la langue tendent tourner autour de 3 axes. Par ordre de complexit de reprsentation, nous avons : tags o des symboles sont associs aux mots, tels des parties du discours blocs arborescents o des blocs typs regroupent des ensembles connexes de mots ou de types, et ce rcursivement. Les entits nommes ou encore les analyses en composants suivent une telle structure. relations entre entits o des liens typs, binaires ou n-aires, relient mots ou blocs ensemble. Lanalyse syntaxique ou les rles smantiques suivent ce genre de formalisation. Idalement, ces trois types dannotation devraient tre reprsentables. Cependant la complexit augmentant il devient difcile de dnir des syntaxes de rgles lisibles. Nous avons donc dcid de nous limiter aux deux premiers types pour obtenir une fort dalternatives. Un exemple est donn gure 2.1 dans le cas dune analyse simple en parties du discours et constituants.

F IG . 2.1 Exemple dutilisation de la reprsentation commune pour encoder une analyse syntaxique simple en composants. Les nuds du bas tirent parti des alternatives pour combiner mot et partie du discours. Les arbres servent reprsenter les composants.

2.2. TRANSFORMATIONS BASE DE RGLES

39

Dans notre cas, la fort est un vecteur ordonn darbres. Chaque arbre et sous-arbre correspond pour cette analyse un constituant, le nud racine donnant son type. La notion dalternative est utilise dans les feuilles o chaque mot de la phrase initiale a en alternative possible sa partie de discours associe. Du point de vue de la reprsentation ces deux valeurs sont quivalentes pour reprsenter le nud. Nous avons en particulier dcid de pas les typer explicitement. En effet les critures du type pos=NP, comme nous avons vu dans CQP, sont rapidement assez lourdes. Nous avons prfr utiliser une distinction de types implicite via lutilisation de vocabulaires disjoints. En particulier les parties du discours sont conventionellement prxes par _ et les autres tags, syntaxiques dans notre exemple, par _. Ces conventions sont sufsantes pour viter les collisions avec les mots normaux. Cette structure nous permet de reprsenter efcacement toutes les analyses bases sur des arbres ou des labels. Il est noter quelle peut tre interprte de deux manires : soit une fort de nuds, soit un vecteur de nuds contenant chacun optionnellement un vecteur de nuds en drivation, et ainsi de suite rcursivement. Cette vision plus linaire en vecteur de vecteurs est trs utile pour le moteur de transformation par rgles. Enn construire une reprsentation textuelle raisonnablement lisible depuis une telle reprsentation est simple. Il suft dutiliser une syntaxe inspire dXML pour larborescence et une barre verticale (pipe) pour sparer les alternatives. Lexemple devient ainsi : <_GN> le|_Det garon|_Nom </_GN> <_GV> mange|_Verbe <_GN> les|_Det bonbons|_Nom </_GN> </_GV> La reprsentation ainsi dnie, nous pouvons nous intresser aux transformations qui vont agir dessus.

2.2 Transformations base de rgles


Dun point de vue gnral, un systme de transformation par rgles peut tre dcompos en 3 parties : Pattern Matching, avec une rgle slectionnant o elle sapplique Transformation de la reprsentation, o la rgle transforme localement larbre lemplacement choisi Stratgies de rsolution de conits et dapplication des rgles, o une rgle est choisie quand plusieurs peuvent sappliquer au mme endroit, et en gnral o dans la reprsentation les rgles doivent tre appliques

2.2.1 Pattern matching par expressions rgulires


Le Pattern Matching est la sous-partie dune rgle qui dnit o la transformation sapplique. Comme nous lavons vu dans ltat de lart, dans le cadre du Traitement Automatique de la Langue les Ex-

40

CHAPITRE 2. UN MOTEUR BASE DE TRANSFORMATIONS

pressions Rgulires, ou encore Expressions Rationnelles sont loutil le plus utilis pour cette tche. Le concept original des expressions rgulires a beaucoup volu depuis sa cration et certaines de ces volutions se sont rvles utiles pour le traitement de la langue. Nous avons de plus ajout nos propres extensions. Nous avons dcid, linstar de Scol et CQP, de travailler uniquement sur des mots et non des caractres comme le veut la tradition. En pratique, cela signie que lunit lmentaire de comparaison et de rptition est le mot et que les espaces ne sont pas signicatives au-del de leur rle de sparateur. La facilit de lecture en est grandement amliore, permettant la personne crivant les rgles de choisir sa propre prsentation. Mais cela va plus loin. Un des problmes poss par les expressions rgulires est la difcult en rutiliser des parties. Par exemple nous voudrions pouvoir construire une liste des conjonctions de coordination du franais (liste de mots). Ou encore dtecter les conjugaisons dun verbe donn (mini-expression rgulire mettant en jeu une alternative entre expressions multimots). Dans un cadre tel que PERL ce genre de besoin est satisfait en utilisant des variables contenant les sous-expressions sous forme de chane de caractres. Cependant ces sous-expressions ne sont pas analyses syntaxiquement et les ajouter au milieu dune expression est peu lisible. Avoir des mots comme unit de base permet de dnir des classes de mots correspondant des classes nommes, simples listes de mots, et des macros, sous-expressions dnies au pralable. Nous dnissions tout mot prx par % comme une classe et par & comme une macro. Ceci permet par exemple de dtecter un certain nombre de fonctions politiques amricaines en anglais avec un petit nombre de rgles simples :

&towns : Washington | New York | Boston | ... ; &states : Alabama | Mississippi | New York | ... ; &districts : &towns | &states ; %titles : mayor congressman senator governor ; _Ofce : %titles of &districts ;

En utilisant une telle dcomposition en classes et macros les rgles restent simples alors quune expansion complte ne serait que trs difcilement maintenable. Une amlioration classique, que nous avons vue dans CQP, concerne le contrle n de loprateur de rptition. Loprateur original de Kleene ne propose pas de limite sur le nombre de rptitions et, traditionnellement, essaie dobtenir la squence la plus longue possible. Pour lanalyse de la langue un oprateur permettant dobtenir la squence la plus courte est souvent utile. La version longue est habituellement appelle greedy, et la version courte shy ou lazy. De plus la possibilit de prciser des limites hautes ou basses sur le nombre de rptitions est l encore trs utile. Une autre amlioration, souvent nglige dans le domaine des grammaires formelles et pourtant extrmement utile pour lcriture de rgles, est la capacit tenir compte du contexte. Une mthode venant de PERL, qui lavait lui-mme reprise semblerait-il de PCRE, qui nous a parue intuitive et efcace est la notion de lookahead. Un lookahead est une sous-expression rgulire que le moteur essaie

2.2. TRANSFORMATIONS BASE DE RGLES

41

dappliquer la position courante. Cette application peut se faire vers la droite (lookahead avant) ou la gauche (lookahead arrire ou lookbehind). De plus on peut exiger que lapplication russisse (lookahead positif) ou bien, au contraire, quelle choue (lookahead ngatif). Par exemple, dans la suite de lexemple prcdent, il est possible de dtecter les noms dtats qui ne sont pas ambigus avec un nom de ville. ( ? ! ... ) est loprateur de lookahead ngatif avant :

_unambiguous_state : ( ? ! &towns) &states ;

Travailler sur des mots a cependant un inconvnient : il nest pas possible a priori de classier les mots sur leur structure interne. Il est en effet utile de pouvoir dtecter les nombres, les mots entirement en majuscules (acronymes), ceux avec une majuscule en tte (noms propres), etc. Trois approches principales sont envisageables : accepter des expressions rgulires de caractres pour classer les mots (approche CQP), crer une transformation spcique pour classer les mots (approche GATE) ou simplement prdnir un certain nombre de classes utiles, qui peuvent tre tendues suivant les besoins. Nous avons choisi la dernire possibilit. Bien que limitant plus lutilisateur, elle a trois avantages : il est possible de choisir une syntaxe qui sintgre bien dans les rgles. Il est relativement facile dobtenir de bonnes performances. Et surtout il est possible de crer des catgories paramtrables. En effet, en plus de catgories simples comme acronyme ou nom propre, nous avons pu ajouter une catgorie intervalle de nombres. Un utilisateur peut ainsi crire %number(1900,2050) pour reconnatre les valeurs pouvant dsigner des annes avec une forte probabilit. Devoir les dnir dans une autre transformation serait bien moins pratique, tout comme devoir crire des expressions rgulires de caractres reconnaissant un intervalle. De plus nous avons spar les nombres en cardinaux (1, 2, 3) et ordinaux (1er, 2e, 3e). Les ordinaux sont conventionnellement crits comme leur valeur suivie dun tiret (1-, 2-, 3-), charge une autre transformation de les marquer ainsi. Il ne faut pas ngliger la structure intrinsque de la reprsentation. Les expressions rgulires ne peuvent travailler que sur des structures linraires, or nous avons l un arbre. Nous avons dailleurs remarqu dans le cas de Scol limpossibilit daccder au texte original ds quil est masqu par une substitution. Cependant accder des niveaux infrieurs de larbre est trs utile. Ce nest pas par exemple parce que le groupe verbal a t identi et annot quil nest pas utile de pouvoir vrier de quel verbe il sagit. Nous avons ajout des oprateurs permettant de descendre dans les arbres. Leur principe est simple : ils essaient dappliquer une sous-expression rgulire quelque part dans les descendants du nud en cours dexamen. Dnir le quelque part est la raison sous-jacente au besoin de plusieurs oprateurs. Nous avons dni trois variantes : la plus simple descend dun niveau et essaie dappliquer lexpression rgulire sur tous les nuds situs ce niveau. Pour permettre un ancrage aux extrmits de la drivation, les oprateurs traditionnels de dbut et n de ligne ( et $) sont rednis dans un tel contexte pour signier dbut et n de drivation. Une seconde version de loprateur essaie lexpression rgulire sur tous les nuds drivs du nud de dpart, quelle que soit leur profondeur. Enn la troisime variante est intermdiaire : elle tente dappliquer la sousexpression tous les nuds descendants qui nont pas eux-mmes de descendants. Elle permet en pratique de ne regarder que le texte original en ignorant autant que possible les annotations qui ont t effectues. Un exemple de rgle utilisant de telles constructions est donn en gure 2.2.

42

CHAPITRE 2. UN MOTEUR BASE DE TRANSFORMATIONS


%vehicule : voiture voitures bus car cars autobus autocars avion avions ; _transport : (_subs %vehicule | _NN <* %vehicule *>) ;

F IG . 2.2 Exemple de rgle utilisant la descente dans les arbres pour dtecter les moyens de transport.

Enn le but dune rgle est de dnir une ou des zones o la transformation doit sappliquer. Pour cela les traditionnelles parenthses de substitution, aussi appelles groupes de substitution, sont utilises. Elles permettent de dnir des blocs contigus de nuds situs au mme niveau dans la reprsentation qui seront ensuite les points dancrage de la transformation effectuer. Le besoin davoir une et une seule zone slectionne par groupe de substitution interdit de les avoir dans la sous-expression dune rptition, dune alternative ou dun lookahead, mais cest la seule contrainte. Elles peuvent en particulier se trouver lintrieur dun oprateur de descente dans les arbres, permettant de dsigner des nuds qui ne sont pas situs au plus haut niveau dans la reprsentation.

2.2.2 Transformation de la reprsentation


Une fois quune ou plusieurs zones sont slectionnes par une rgle, une transformation va pouvoir sappliquer. Nous avons dni deux catgories de rgles, les rgles passives et les rgles actives. Les rgles passives se contentent dassocier des noms aux zones. Par exemple la rgle suivante associe le nom _pers aux mots Albert Einstein quand ils sont trouvs dans la reprsentation : _pers : (Albert Einstein) ; Que faire de ces noms est dcid plus haut niveau. Nous avons deux possibilits, la substitution et le tagging. La substitution cre un nouveau nud qui va remplacer la zone. Ce nud va avoir comme alternative unique le nom de la zone et comme drivation le contenu de la zone. Elle va donc en loccurrence construire une sous-structure : <_pers> Albert Einstein </_pers>. Le terme substitution est utilis car l o le nom Albert Einstein tait visible cest ensuite le tag _pers qui lest.

2.2. TRANSFORMATIONS BASE DE RGLES

43

Le tagging ajoute en alternative le nom de la zone tous les nuds la constituant. La sous-structure construite sera l Albert|_pers Einstein|_pers. Les rgles actives dcident directement du rsultat de lapplication. Quatre oprateurs sont possibles : destruction de nuds et remonte de leur descendants, destruction complte de nuds et de leur descendants, replacement des alternatives prsentes dans des nuds et replacement complet dun ensemble de nuds, descendants compris. Par exemple cette rgle simple va dtruire toutes les zones qui ont t annotes _ller : %delete_tree(%1) : (_ller) ; Dans cette rgle, %1 dsigne la premire zone, sachant quil ny en a en loccurrence quune seule. Une rgle plus complexe peut construire directement une structure complte : %replace_tree(%1, _pers _prenom %2 _nom %3 ) : ((%prenom) (%nom)) ; Les classes %prenom et %nom sont considres contenir des listes de noms propres, et loprateur correspond la cration dun sous-arbre. Une telle rgle pourrait crer la sous-structure <_pers> <_prenom> Albert </_prenom> <_nom> Einstein </_nom> </_pers>. Ces rgles actives ne sont pas trs souvent utilises mais sont en pratique trs importantes. Ce sont elles qui permettent de revenir sur des dcisions prises dans des passes prcdentes. Bien au-del de la correction derreur, elles permettent de complter des dcisions locales une fois que des informations de plus haut niveau ont pu tre extraites.

2.2.3 Stratgies de rsolution de conits et dapplication des rgles


Parfois plusieurs rgles de la mme passe peuvent sappliquer au mme endroit dans la reprsentation. Nous sommes alors dans le cas dun conit, et il doit tre rsolu en dcidant quelle rgle sapplique. Ce problme fait partie de la stratgie dapplication des rgles, qui vise dcider o dans la reprsentation le moteur doit tenter dappliquer les rgles. Nous commenons par dnir un algorithme de dcision global en cas de conit entre deux rgles : si les deux rgles ont un niveau de priorit diffrent (donn dans la dnition de la rgle avec une valeur par dfaut), la plus prioritaire gagne si les deux rgles sappliquent des zones de taille diffrente, la rgle englobant la zone la plus grande gagne si les deux rgles sont des rgles diffrentes, la premire rgle dnie dans le chier de rgles gagne

44

CHAPITRE 2. UN MOTEUR BASE DE TRANSFORMATIONS

sinon le matching dont la zone est la plus gauche gagne partir de cet algorithme de dcision, nous avons test plusieurs stratgies dapplications des rgles et deux se sont rvles utiles en pratique. Nous nommons la premire rsolution globale. Toutes les rgles sont essayes sur tous les nuds racine de la reprsentation, donnant un ensemble de zones de matchings et rgles associes. Tous les conits sont alors rsolus via lalgorithme indiqu. Les rgles qui restent ont alors les transformations associes appliques. Cest la stratgie qui est en pratique la moins surprenante. Un expert linguiste comprend bien pourquoi une rgle a t choisie plutt quune autre. La seconde stratgie a t dveloppe pour le problme spcique de la reconstitution des nombres partir de leur expression en mots. Les nuds de haut niveau sont pris un par un de gauche droite. Toutes les rgles sont essayes sur le nud pris, et la recherche sarrte ds quun matching a lieu. Si plusieurs rgles sappliquent il y a ncessairement conit, et le vainqueur est choisi avec le mme algorithme. La transformation associe est alors applique et la recherche recommence au dbut. Le cycle sarrte quand plus aucune rgle ne sapplique. Nous appelons cette stratgie rcursion gauche, la version symtrique, rcursion droite peut tre utile aussi suivant les langues.

2.3 Transformation statistique : le TreeTagger


Comme nous lavons vu dans lintroduction, les approches statistiques dans lannotation de la langue ne sont pas ngliger. Le problme de la disponibilit de donnes ou de modles dans les langues qui nous intressent a cependant t un frein lintgration de telles approches dans notre moteur danalyse. Nous avons cependant trouv utile dintgrer un systme dannotation en parties du discours nomm TreeTagger [Schmid 1994 ; Schmid 1995], pour lequel des modles sont disponibles pour plusieurs langues europennes. Le principe de fonctionnement du TreeTagger combine deux modles, un donnant pour chaque mot lensemble des annotations possibles avec les probabilits associes, et un autre calculant une probabilit pour toute succession dannotations. Les deux modles sont combins via lalgorithme de Viterbi pour obtenir lannotation la plus probable. Cette structure est illustre gure 2.3. Lannotation en parties du discours est dailleurs une des premires utilisations de lalgorithme de Viterbi dans le domaine de lanalyse de la langue [Derose 1989 ; Church 1988]. Loriginalit du TreeTagger est dans la construction de son modle de successions. Dans le cadre qui nous intresse, le modle de successions, dit trigramme, doit tre capable, partir des deux parties du discours prcdant le mot classier, de donner une probabilit pour chacune des parties du discours possibles. Ce type de modle est construit partir de mesures statistiques dans un corpus annot. Cependant il existe beaucoup de trigrammes possibles, de plusieurs dizaines de milliers plusieurs millions suivant le nombre de parties du discours considres, et surtout leur distribution, comme beaucoup de choses dans la langue, na rien duniforme. De nombreux trigrammes peuvent rester trs peu, voire pas, observs dans le corpus dentranement. Il est donc ncessaire de lisser

2.3. TRANSFORMATION STATISTIQUE : LE TREETAGGER

45

F IG . 2.3 Fonctionnement gnral du TreeTagger. Un modle de mots (en bas) est combin avec un modle de successions (en haut) via lalgorithme de Viterbi pour obtenir des annotations en parties du discours. les probabilits pour obtenir une meilleure gnralisation du modle. [Chen & Goodman 1998] reste la rfrence sur le sujet. Les auteurs du TreeTagger ont cependant dcid dutiliser une approche alternative en structurant lespace des contextes possibles (i.e. les deux parties du discours prcdents) via un arbre de dcision construit automatiquement sur des considrations dinformation mutuelle. Le lecteur intress est invit se rfrer [Schmid 1994].

F IG . 2.4 Les trois modes dinterprtation de la structure proposs pour lannotation en parties du discours. shallow ne prend les labels quaux racines, deep prend les feuilles, et semideep cherche les premiers mots en descendant, ntant pas un mot ce qui commence par _. Intgrer un tel systme dans notre moteur pose la question de linterprtation de la reprsentation. Il faut dcider des mots sur lesquels les parties du discours vont tre dtermines. Nous avons dcid de

46

CHAPITRE 2. UN MOTEUR BASE DE TRANSFORMATIONS

proposer lutilisateur trois possibilits : shallow, qui ne prend en compte que les mots de haut niveau (les racines des mini-arbres), deep qui ne prend que ceux de bas niveau (les feuilles) et semideep, un mode hybride qui cherche les mots les plus haut placs dans la structure. Un mot est dni comme toute alternative ne commenant pas par _. La gure 2.4 donne un exemple de ces trois modes. Les parties du discours sont alors ajoutes comme alternatives sur les mots. Lexpert linguiste peut ainsi choisir la meilleure mthode dapplication en fonction de lavance de lanalyse au moment o il utilise ce modle statistique et du type de donnes sur lesquelles il a t entran.

2.4 Transformations algorithmiques


Le dernier type de transformations quil nous reste couvrir sont les transformations algorithmiques. Cest un peu un usage abusif du terme, tant donn que toutes les transformations que nous avons prsentes jusque l ont bien videmment une composante algorithmique, mais nous regroupons dans cette catgorie toutes celles qui sont simples et scrivent naturellement sous forme de programme. Elles prendraient bien souvent la forme dun court script PERL dans une chane de traitement traditionnelle. Nous les avons ajoutes au moteur au fur et mesure de nos besoins, parfois en les testant dabord via un programme extrieur. La premire de ces transformations est lutilisation de dictionnaires associant un ou des tags des mots pour enrichir la reprsentation. Cette transformation ajoute chacun des mots de la reprsentation les tags associs en alternatives. Nous lutilisons entre autres pour intgrer le dictionnaire DELAS [Courtois 1990], qui contient pour plus de 500 000 formes du franais les classes grammaticales, dinexion et smantiques possibles associes. Un autre tranformation est un ltrage. Il permet de supprimer systmatiquement les tags ou mme les mots contenus dans une liste de la reprsentation, remontant les descendants au besoin quand toutes les alternatives dun nud sont supprimes. Nous nous en servons en particulier pour supprimer les tags morphosyntaxiques en n de chane pour rendre la sortie plus lisible pour un humain. Une troisime transformation dtecte les ordinaux numriques, comme 1er, 2nd, etc, et supprime lextension en la remplaant par un tiret, donnant 1-, 2-, permettant ainsi dutiliser les catgories %ordinal et %number. Enn deux transformations sont complmentaires des rgles. La premire reconstruit des mots acronymes partir de leurs lettres individuelles aprs que des rgles les aient regroupes sous un tag @acro. Ainsi <@acro> S. N. C. F. </@acro> devient <SNCF> S. N. C. F </SNCF>. La forme dorigine est ainsi conserve mais il devient possible de manipuler lacronyme reconstitu facilement. La dernire transformation reconstruit les nombres cardinaux partir de leurs mots partir dannotations dun ensemble de rgles appropries qui regroupent les mots dun mme nombre et notent les valeurs numriques de chacun. Par exemple deux mille neuf est annot par les rgles en <@Num-

2.5. GESTION DES ENTRES/SORTIES

47

ber> <@2U> deux </@2U> <@1K> mille </@1K> <@9U> neuf </@9U> </@Number> qui est ensuite simpli par la transformation en <2009> deux mille neuf </2009>. Aucune de ces transformations ne fait dopration complexe ou mme trs originale, mais il est pratique pour le crateur dun systme danalyse de pouvoir les intgrer explicitement dans sa chane de traitement.

2.5 Gestion des entres/sorties


Dnir une reprsentation interne et tre capable de la transformer sont deux points essentiels pour la construction de notre moteur. Cependant un point reste : pouvoir lire des documents en les mettant au format de la reprsentation et inversement crire ltat de la reprsentation sous la forme dun nouveau document. Nous regroupons cela sous le terme gnral dentres/sorties. Deux positions opposes existent en gnral. Soit un petit nombre de formats est impos par loutil, soit, ce que prfrent les frameworks, des composants spciques soccupent du problme. Dans le cas dUIMA [Ferrucci & Lally 2004] par exemple les composants de dbut de chane qui crent la forme initiale de la reprsentation sont nomms lecteurs et ceux de n de chane qui recrent des documents ou rangent les rsultats dans une base de donnes sont nomms consommateurs. tant donn nos besoins, il nous a sembl plus appropri de suivre lapproche simple dun ensemble de formats xes. Nous proposons ainsi comme formats dentre du texte simple qui sera dcoup en mots et mis dans la reprsentation dans un simple vecteur. Nous entendons par mot une suite de caractres entre deux espaces. Nous considrons que le problme gnral de la normalisation [Adda, et al. 1997], qui couvre sparation des mots des ponctuations, correction de la casse, sparation de certains mots composs, des apostrophes, etc, est un problme part entire qui sort du cadre du moteur danalyse. Mais une ide directrice sous-jacente notre choix de reprsentation est la possibilit de lexternaliser dans un format texte aussi lisible que possible. Nous avons donc cr deux formats dexternalisation. Un, nomm xml, est moins lisible mais plus robuste : les groupes dalternatives sont marqus par <a> ... </a> et les drivations par <b> ... </b>. La n du document est marque par <d>. Lexemple de la gure 2.1 page 38 scrit alors :

_GN <b> <a> le _Det </a> <a> garon _Nom </a> </b> _GV <b> <a> mange _Verbe </a> _GN <b> <a> les _Det </a> <a> bonbons _Nom </a> </b> </b>

Un format alternatif, moins robuste mais plus lisible, est le format xtag, o les drivations prennent la forme de tags XML et les alternatives sont spares par des | :

48

CHAPITRE 2. UN MOTEUR BASE DE TRANSFORMATIONS


<_GN> le|_Det garon|_Nom </_GN> <_GV> mange|_Verbe <_GN> les|_Det bonbons|_Nom </_GN> </_GV>

En pratique nous utilisons le format xml pour communiquer avec des transformations externes et le format xtag pour les documents annots naux. Ces deux formats sont bien videmment utilisables aussi en entre du systme, permettant de r-analyser des documents dj analyss. Enn il est intressant de noter que la reprsentation est en pratique assez exible et permet des ralisations un peu en dehors de lanalyse de texte. Par exemple nous avons conu un ltre dentre nous permettant de traiter de manire robuste les documents HTML et XML. Ce ltre voit ces documents comme des ux de tags, ouvrants ou fermants, et de texte, dans une approche similaire SAX [Press 2002]. Pour un extrait de document tel que : carte :<img src="france.jpg" alt="la France"> la reprsentation sera :

les oprateurs de descente dans les arbres permettent alors de rcuperer les attributs des tags et leurs valeurs. Cet aspect nous a souvent aids rcuprer efcacement des informations utiles de documents xml, html ou mme openofce plus ou moins corrects.

2.6 Construction dun analyseur complet


Utilisant les transformations que nous avons prsentes, un expert peut alors construire un systme danalyse complet en combinant une srie de transformations les unes la suite des autres. La reprsentation de ltat de lanalyse tant prvue pour tre externalisable, nos premires expriences ont pris la forme dun simple pipe liant les diffrentes invocations des programmes implmentant les transformations. Une librairie commune gre les entres/sorties vers et depuis la reprsentation interne. La gure 2.5 donne un exemple dun tel script. Cette approche, bien que simple et trs exible, a plusieurs inconvnients : Pour un nombre de passes assez grand (autour de la trentaine), plus de 50% du temps danalyse passait en entres/sorties. Une fois construit, un systme danalyse tait peu pratique intgrer dans une application.

2.6. CONSTRUCTION DUN ANALYSEUR COMPLET


# !/bin/sh h="/people/.../system" r="$h/regles" p="$h/par" wmatch -Ftxtlines -Txml -R $r/sp-num.wm | \ wnumbers -Fxml -Txml | \ wtagger -Fxml -Txml -s $p/spanish-par-linux-3.1.bin $p/sp-mapping.txt | \ wmatch -Fxml -Txml -S $r/type-question.wm | \ wmatch -Fxml -Txml -S $r/sp-date-time.wm | \ wmatch -Fxml -Txml -S $r/org.wm | \ wmatch -Fxml -Txtag -S $r/loc.wm

49

F IG . 2.5 Exemple de systme danalyse sous forme de script. wmatch correspond la transformation par rgles, wnumbers la transformation algorithmique de reconstitution des nombres, wtagger la transformation statistique applicant les modles du TreeTagger. Les paramtres -F et -T grent les formats dentre/sortie, les autres paramtres slectionnent les mthodes dapplication.

En cas de crash caus par un bug du moteur, il ntait pas toujours facile disoler laquelle des tapes posait problme. Elle avait cependant lavantage dtre naturellement parallle, chaque transformation pouvant potentiellement sexcuter sur un processeur diffrent des autres. Cependant le temps pris par chaque transformation peut tre trs dsquilibr et le systme se retrouve en pratique limit par la vitesse de la plus lente des transformations. Pour remdier ces diffrents problmes, nous avons dcid dintgrer la notion de systme complet dans le moteur. Un mini-langage sappuyant sur lua [Ierusalimschy, et al. 1996] permet de dcrire les diffrentes tapes de lanalyse ainsi que les chemins daccs des diffrents chiers externes utiles. Un exemple est donn gure 2.6. Cette diffrence peut paratre insigniante, mais elle se rvle lusage trs importante par ce quelle permet. Tout dabord, combine une organisation du moteur sous forme de bibliothque, elle permet lintgration dun systme danalyse dans une application lutilisant, comme un systme Question-Rponse ou un systme de dialogue, sans avoir se proccuper de la structure interne de lanalyse. Un seul chier dcrivant lanalyse est visible de lapplication lutilisant. Elle permet aussi davoir une notion de compilation, o ce chier dcrivant lanalyse est pass un programme qui fournit partir de l un chier binaire contenant la totalit des informations utiles ainsi que les rsultats de tous les prcalculs dont le moteur a besoin. Ce chier permet ensuite de charger lanalyse en un temps et une utilisation mmoire minimale, ce qui est trs commode pour toutes les applications qui sont simples utilisatrices de lanalyse comme par exemple les systmes Question-Rponse prsents dans les parties suivantes. Enn il reste possible de parallliser le rsultat non plus au niveau des tapes mais au niveau des donnes, en distribuant les phrases ou les documents aux diffrents processeurs disponibles, avec pour effet quaucun processeur ne va faire

50

CHAPITRE 2. UN MOTEUR BASE DE TRANSFORMATIONS


# !/people/.../bin/wmatch h = "/people/.../system" paths.regles = h.."/regles" paths.treetagger = h.."/par" r = input() r = match_left_recurse(r, "sp-num.wm") r = numbers(r) r = treetagger_semideep(r, "spanish-par-linux-3.1.bin", "sp-mapping.txt") r = match_global_replace(r, "type-question.wm") r = match_global_replace(r, "sp-date-time.wm") r = match_global_replace(r, "org.wm") r = match_global_replace(r, "loc.wm") output(r)

F IG . 2.6 Exemple de systme danalyse sous forme intgre. Les fonctions match correspondent la transformation par rgles, numbers la transformation algorithmique de reconstitution des nombres, treetagger la transformation statistique applicant les modles du TreeTagger. Le nom des fonctions indique la mthode dapplication, les formats dentre/sortie ne sont pas slections ce niveau. attendre les autres. Nous sommes arrivs la conclusion que proposer la possibilit davoir une version package de lanalyse tait bien plus quun simple plus au niveau des performances ou du dbogage. Elle permettait une abstraction de lanalyse. Cette abstraction facilite lutilisation boite-noire dune analyse et ainsi la collaboration entre plusieurs personnes travaillant sur des aspects diffrents dun systme. Elle permet aussi la cration doutils de diagnostic capables de rpondre des questions telles que quest-ce qui dans lanalyse a dcid que cette instance du mot avocat tait un fruit ? en permettant de reproduire et de contrler la totalit des changements de la reprsentation effectus par les transformations.

Chapitre 3

Aspects algorithmiques
Aprs avoir expos la spcication de notre moteur danalyse nous abordons ici les problmes dimplmentation. En particulier certains aspects spciques ont un effet primordial pour sa qualit du rsultat : lencodage de la reprsentation et en particulier la reprsentation des mots et des catgories, et les difcults lies au moteur de rgles.

3.1 Encodage de la reprsentation


Un premier aspect fondamental concerne lencodage de la reprsentation de ltat de lanalyse. La structure elle-mme ne pose pas de problme particulier, il ne sagit que dun vecteur dobjets nuds pouvant rcursivement contenir un vecteur de nuds drivs. Lencodage des mots est plus critique. En effet une grande partie des oprations effectues par les transformations consistent comparer si un mot de la reprsentation est identique un mot particulier, venant des rgles ou des modles, ou encore chercher si un mot fait partie dune table et si oui accder aux informations associes. Comparer sans cesse des chanes de caractres nest pas trs efcace et il est plus judicieux dassocier chaque mot un identiant numrique.

3.1.1 Attribution didentiants numriques aux mots


Deux mthodes principales existent pour associer un identiant un objet : recenser lensemble des objets possibles et leur associer chacun un numro, ou construire algorithmiquement un nombre partir de la valeur de lobjet en esprant que deux valeurs diffrentes ne donneront pas en pratique le mme numro. La seconde mthode est souvent qualie de hachage. 51

52

CHAPITRE 3. ASPECTS ALGORITHMIQUES

A priori il nest pas possible de prvoir lensemble des mots possibles, dautant plus quand la dnition de mot est ensemble de caractres entre deux espaces. Cela pousserait donc vers la solution de hachage. Cependant elle nest pas sans inconvnients. En effet, pour rduire la probabilit de collision un niveau acceptable la valeur maximale produite par une fonction de hachage doit tre au minimum le carr du nombre dobjets diffrents attendus. Cela implique des valeurs de 64 bits pour couvrir les mots de la langue, 32 bits tant insufsant, plaant la limite autour de 65 000 mots, et les tailles intermdiaires tant sous-optimales dans les architectures modernes. Une valeur de 64 bits est efcace pour les comparaisons dgalit mais elle est potentiellement trop grande pour servir dindex dans un tableau, obligeant recourir des structures plus lentes telles les tables de hash pour trouver les informations associes un mot. Mais en pratique une variante du recensement est possible : recenser lensemble des mots prsents dans les rgles, modles et dictionnaires utiliss dans les transformations et associer chacun un numro. En pratique nos analyses les plus importantes ont un vocabulaire denviron 1,5 million de mots. Les invitables mots de documents qui nentrent pas dans ce vocabulaire sont regroups sur un numro spcial et un emplacement est prvu dans la structure nud pour mettre le texte effectif. Cette mthode est en pratique trs efcace car un mot ayant cet identiant hors vocabulaire ne peut pas tre dans les rgles ou les tables, garantissant la validit de la comparaison des identiants pour comparer lidentit des mots partir du moment o un des mots compars vient des rgles ou modles. De mme il ne peut avoir dinformations associes pour des raisons identiques.

3.1.2 Gestion des catgories

Un autre aspect important du contenu des nuds est la gestion des catgories. Ces classes de mots, dcrites la section 2.2, contiennent des types prdnis tels que tout en majuscules, tout en minuscules, commenant par une majuscule, mais aussi des intervalles de nombres, cardinaux ou ordinaux. Tester ces classes chaque fois quil y en a besoin serait inefcace, et il est plus performant de le faire au moment de la lecture du document et quand le contenu de nuds est modi par une transformation. chaque catgorie simple est associ un numro et le nud contient la liste de numros de catgories qui lui sont associs. Seuls les intervalles numriques pourraient a priori poser problme. Mais en pratique il est possible de recenser lensemble des intervalles utiliss, faire linventaire de leurs bornes et sen servir pour dcomposer lensemble des entiers en segments disjoints tels que chaque intervalle soit exactement compos dun ensemble ni de segments. Les segments sont alors considrs comme des catgories lmentaires et numrots. Les rfrences aux intervalles dans les rgles sont remplaces par une union de rfrences aux segments les composant. La classication dun nombre ne demande alors qu rechercher dans quel segment il est contenu, ce qui peut tre fait efcacement de manire dichotomique.

3.2. DIFFICULTS LIES AU MOTEUR DE RGLES

53

3.2 Difcults lies au moteur de rgles

La reprsentation dcide, les transformations statistiques et algorithmiques que nous avons prsentes ne posent pas de difcults dimplmentation particulires. Le moteur de rgles possde des particularits intressantes tudier au niveau du matching. La performance globale du systme dpend fortement de sa capacit trouver rapidement quelles expressions rgulires tendues sont applicables un endroit spcique dans la reprsentation. La mthode traditionnelle pour prendre en compte des expressions rgulires est de les transformer en automates nis dterministes, assurant ainsi un temps de recherche linaire en fonction de la taille du document. Cependant les extensions rendent cet exercice particulirement difcile : la prsence de bornes sur les nombres de rptitions peut dclencher des explosions combinatoires sur le nombre dtats dans lautomate. Les automates ne sont pas capables de tenir compte des rptitions shy ou greedy. Ils ne peuvent pas non plus indiquer quelles zones sont couvertes par les parenthses de substitution. Et enn les lookaheads ngatifs ou arrires sont totalement en dehors de leurs capacits. Cette transformation nest donc pas utilisable en ltat.

3.2.1 Matching dexpression rgulires par interprtation de patterns

Nous avons pris loption de considrer les expressions rgulires comme tant un langage de patterns pour lequel nous crivons un interprteur rcursif. Pour chaque type de nud que lon peut trouver dans larbre syntaxique dune de nos expressions, par exemple matching de mot simple, matching de classe, concatnation, alternative, rptition, lookahead, il est possible dassocier deux oprateurs match et next. match doit, tant donn une position dans la reprsentation, indiquer si un premier matching est possible cet endroit et la zone correspondante. next indique ensuite chaque appel si un matching supplmentaire est possible. Ces deux oprateurs peuvent tre crits en fonction de contenu de la reprsentation pour les nuds feuilles et en fonction de ces mmes oprateurs sur le ou les descendants pour les autres, do la rcursivit. En cas dchec un backtrace se produit o les appels rcursifs sont remonts jusqu ce quun matching alternatif soit trouv ou que le matching global soit abandonn. Un intrt supplmentaire de cette approche est que les oprateurs sont retournables, permettant de faire un matching de droite gauche dans le document en partant de la n de lexpression rgulire, ce qui rend immdiate limplmentation des lookaheads arrires mais aussi des recherches rcursives partant de la droite. Une telle approche est bien videmment plus lente quun automate. Elle peut cependant devenir trs performante si lon arrive limiter deux facteurs : dune part la quantit de travail par nud (temps pass par instruction), et dautre part le nombre dessais se rvlant a posteriori inutiles (nombre dinstructions excutes).

54

CHAPITRE 3. ASPECTS ALGORITHMIQUES

3.2.2 Limitation de la quantit de travail par nud et gestion de la mmoire


Limiter la quantit de travail par nud est un problme trs li limplmentation. La transformation des mots et catgories en nombres aide dj, permettant deffectuer les matchings simples de mots par comparaison dentiers et les matchings de classe par lookup dans un vecteur de bits de la taille du vocabulaire. Une difcult reste cependant : la gestion de la mmoire. En effet loprateur next ncessite davoir assez dinformations stockes pour pouvoir calculer le matching suivant. Or la solution vidente, stocker ces informations dans le nud, nest pas aussi simple quil y parat. En prsence de macros, plusieurs matchings peuvent tre actifs pour le mme nud en mme temps. Dupliquer les nuds, ou en dautres termes instancier les macros, donne lieu une explosion combinatoire. Stocker plusieurs informations par nud pose ses propres difcults. Il est en effet possible de les organiser en pile, la recherche par backoff assurant quun matching sera termin avant quun prcdent soit continu. Cela garantit quun appel next agit sur ltat situ en haut de la pile. Cependant vider correctement les piles aprs un matching russi complet dune expression est complexe et coteux. En effet il nest pas possible de simplement supprimer le contenu des piles. Les lookaheads et les descentes dans les arbres sont en pratique des matchings complets de sous-expressions o seul le premier nous intresse et qui donc ncessitent une passe de vidage aprs usage. Mais ces sous-expressions peuvent, via l encore les macros, avoir des nuds communs avec lexpression principale qui est elle nontermine. Il ne faut donc enlever des piles que les parties du haut correspondant la sous-expression. Cela se rvle en pratique assez coteux. Cependant une approche alternative permet de rgler ce problme. La cl est de noter qu lexception des rptitions sans borne suprieure, chaque type de nud a besoin dune place de taille xe pour son stockage, taille calculable au moment de la lecture des rgles, laquelle il faut ajouter la place ncessaire pour ses descendants. Mme le cas des rptitions illimites peut rentrer dans ce cadre en ayant comme information de taille xe un pointeur vers une zone mmoire alloue dynamiquement au besoin. Chaque nud possde ainsi une zone mmoire avec laquelle travailler. Il passe ses descendants leur propre zone qui est une sous-partie de la sienne. Cette structuration en zones mmoire incluses les unes dans les autres rcursivement spare naturellement les multiples matchings pouvant sappliquer sur le mme nud via les macros. Il ny a alors plus besoin daction spcique aprs un matching complet russi. Nous avons constat que mme avec nos rgles les plus complexes cette zone mmoire ne fait pas plus que quelques kilo-octets, rendant cette solution trs performante et lutilisation mmoire du systme aprs initialisation minimale.

3.2.3 Limitation du nombre de tests inutiles


Limiter le nombre dessais inutiles se fait dabord au niveau des rgles elles-mmes, et donc de ce qua crit lexpert linguiste. En effet, comme dans tout langage de programmation, des modications subtiles peuvent avoir de gros effets sur le nombre de tests effectuer. Il est cependant possible de laider avec un outil de proling lui indiquant quelles rgles prennent le plus de temps, et mme dans ces rgles quelles macros sont les plus coteuses.

3.2. DIFFICULTS LIES AU MOTEUR DE RGLES

55

Le moteur lui-mme peut aussi agir sur deux points pour limiter le nombre de tentatives de matching inutiles. Le premier point est un ltrage des rgles. Il est possible dobtenir un sur-ensemble de lensemble des mots ou des catgories pouvant apparatre en premire position dans toutes les suites de mots acceptes par une rgle donne. Lestimation de lensemble ne peut tre exacte cause de lexistence des lookaheads arrires. Ces sur-ensembles calculs permettent alors de construire une table permettant de savoir immdiatement pour un emplacement donn dans un document quelles rgles peuvent potentiellement sappliquer. Le second point concerne les alternatives. Une part signicative de leur utilisation concerne la reconnaissance de listes dexpressions multi-mots, comme des noms de villes, de dpartements, de pays, pouvant avoir des centaines de milliers dentres. Essayer les alternatives une par une est dans ce genre de cas trs inefcace. Il est donc intressant dutiliser une approche de ltrage similaire celle utilise sur les rgles. Filtrer uniquement sur le premier mot possible sest cependant rvl insufsant, et nous ltrons actuellement sur un arbre de prxes possibles. Nous pensons gnraliser cela en une version limite de la transformation en automates. Appliquer un arbre de prxes ou un automate a un cot similaire, mais la meilleure couverture de variantes dun automate permet dobtenir un meilleur rsultat au niveau du ltrage. Nutiliser les automates que pour un tel ltrage local, qui na pas besoin dtre parfait, permet dviter les difcults dues aux extensions proposes. Linterprtation des patterns est toujours effectue et permet de prendre en compte les lookaheads, rptitions limites et autres problmes. Les automates permettent de ltrer efcacement les cas o les expressions multi-mots ont un fort taux de mots optionnels ou de variantes possibles dont la combinatoire est explosive pour un ltrage par prxes.

56

CHAPITRE 3. ASPECTS ALGORITHMIQUES

Chapitre 4

valuation
valuer un moteur danalyse tel que celui que nous proposons nest pas une tche aise. En effet on ne peut, comme pour un systme danalyse, annoter un corpus de test avec les informations que lon veut obtenir et mesurer la qualit de la sortie. Un moteur danalyse, et en particulier un mettant en avant lcriture de rgles, est similaire un langage de programmation : le rsultat est en grande partie dpendant de lensemble de rgles. Se pose donc la question de sur quels critres pouvons-nous valuer un moteur ?. Lanalogie avec un langage de programmation est utile : un moteur danalyse est performant si, dans le cadre o il a t conu, il aide effectivement lexpert linguiste en charge de lanalyse (le programmeur) obtenir les rsultats recherchs. Une grande partie de lvaluation prend donc la forme de cas dusage. Nous en prsentons trois, qui donneront une ide de ce que le moteur nous a permis de construire : Lanalyse pour Ritel, un systme interactif multimodal de recherche dinformations en domaine ouvert en franais. Ladaptation de la sous-partie spcique Question-Rponse de lanalyse de Ritel lespagnol et langlais. Lexploration de corpus. Cependant, mme pour un langage de programmation, mesurer la vitesse dexcution des programmes crits est une information pertinente. Nous prsentons donc un certain nombre de mesures que nous avons effectues sur lanalyseur dvelopp pour Ritel, qui est le plus complet que nous ayons dvelopp.

57

58

CHAPITRE 4. VALUATION

4.1 Ritel : un systme interactif de recherche dinformations en franais


4.1.1 Une analyse multiniveaux unie
Ritel est un projet existant depuis 2004 au LIMSI [Ritel 2007 ; Galibert, et al. 2005]. Son but est de faire progresser la recherche dans le domaine de linteraction homme-machine en sattaquant une tche difcile : la recherche interactive dinformations en domaine ouvert. Les travaux prsents dans ce document, moteur danalyse et systme Question-Rponse, visent apporter des solutions efcaces dans cette direction. Les besoins en analyse de langue pour un projet tel que Ritel poursuivent trois buts : Extraire les informations ncessaires pour la recherche dinformations. Extraire les informations ncessaires pour la gestion du dialogue. Dtecter la thmatique de la demande pour pouvoir rebondir dessus si besoin est. Ces besoins se recoupent partiellement, et nous avons choisi de dtecter cinq types dinformations diffrents, qui font lobjet des prochaines sections. Il est important de noter que le dveloppement des grammaires a t fait par des linguistes et non par nous, mais que lensemble des travaux (moteur, grammaires) ont t conduits en collaboration troite, impliquant de nombreuses discussions et changes de vues.

4.1.2 Les entits nommes, tendues et spciques


Les entits nommes (NE, pour Named Entity), dsignent classiquement des noms de lieux, de personnes et dorganisations. Les entits numriques (souvent associes aux NEs) reprsentent des dates ou des units de mesure, en particulier montaires. Ces entits nommes sont perues comme des lments majeurs pour lanalyse de texte et documents, et la recherche dinformation en particulier. Les confrences MUC [Kaufman 1998] ont mis en avant plusieurs tches gnriques dont lanalyse en entits nommes. Cette analyse recouvre dune part la dtection des entits nommes (les passages contenant lentit nomme et ses frontires) et dautre part le typage de cette entit. Ce typage est effectu daprs des ontologies dnies pralablement. La dnition de base la plus utilise est hrite des confrences MUC. Elle comprend trois catgories : les expressions de noms propres (personne, lieu, organisation), les expressions temporelles (date, heure) et les expressions numriques (les valeurs montaires et les pourcentages). La hirarchie dnie est prsente dans [Grishman 1995]. Ces dnitions sont parfois tendues lintrieur dune catgorie, comme les organisations, an den afner le contour rfrentiel, par exemple les dnitions adoptes dans le cadre de la campagne dvaluation ACE [ACE 2000]. An de couvrir de nouveaux besoins ou de nouvelles tches, ces dnitions et hirarchies sont tendues. Par exemple Sekine propose jusqu 200 types [Sekine 2004]. La couverture de ces entits nous a paru insufsante. En plus des entits normales, dont nous avons

4.1. RITEL : UN SYSTME INTERACTIF DE RECHERCHE DINFORMATIONS EN FRANAIS59


plus dune centaine de types, nous avons ajout des entits nommes non prcises, couvrant une classe dobjets plutt quun instance particulire. Nous avons rajout des types qui ne sont pas traditionnellement considrs comme des entits nommes comme les fonctions, les titres, les couleurs. Et enn nous avons permis une hirarchisation de lannotation, des entits pouvant se contenir les unes dans les autres, ainsi que la possibilit dattribuer plusieurs types de spcicit diffrente la mme entit, parfois en relation dhyperonymie, nous parlons alors de superclasse. Le tableau 4.1 donne des exemples de cet ensemble dentits. Entits nommes <_org> NIST </> <_eve> festival de Cannes de 2006 </> qui a dit <_cit> veni vidi vici </> <_Eve> festival de Cannes </> le <_Pers> president </> a dclar ... Fonctions, titres (prsident, professeur, vque...) couleurs, animaux... vque fonction religieuse fonction <_loc> <_pays> France </> </> <_eve> <_Eve> festival de <_ville> Cannes </> </> de <_date> <_annee> 2006 </> </> </>

Entits non prcises Entits tendues multiniveaux Superclasses Multi-type non hypronyme Hirarchiques

TAB . 4.1 Variation sur le thme des entits nommes normales et tendues

4.1.3 Les mots de question


Les mots de question tels que Qui ou Quoi ou encore Combien sont bien videmment indispensables pour interprter les questions de lutilisateur. Il convient donc de les dtecter et de les typer aussi prcisment que possible. Il est en effet plus intressant dinterprter la locution complte quel est le nom de plutt quun simple quel pour dnir au mieux le type dinformations recherches. L encore une structuration hirarchique est utilise, le mot quel seul tant dabord annot puis ensuite la locution complte.

4.1.4 Les marqueurs thmatiques


Les marqueurs thmatiques sont ceux qui permettent de dtecter le sujet de la discussion, comme le mot littrature dans je mintresse la littrature. Ils sont intressants pour permettre au systme de rpondre lutilisateur dans les cas o la question ne contient pas assez dinformations pour permettre une recherche pertinente. Pour notre exemple, la rponse pourrait tre la littrature est un sujet passionant, que voulez-vous savoir ?, le systme conrmant ainsi sa comprhension du thme lutilisateur.

60

CHAPITRE 4. VALUATION

4.1.5 Les marqueurs dialogiques


Pour permettre un change naturel, nous avons besoin de dtecter et dinterprter les lments de gestion de linteraction. Ils prennent plusieurs formes, des simples commandes directes au revoir, pouvez-vous rpter, aux rponses aux questions oui, non en passant par les corrections non, pas X, je voulais dire Y. Ils doivent donc tre intgrs dans lanalyse.

4.1.6 Les chunks linguistiques


Les mots non couverts par les dnitions prcdentes possdent potentiellement une information utile, ce qui ncessite donc de les annoter. Ils sont regroups en blocs les plus longs possibles de catgorie comparable (groupe nominal, groupe verbal, etc.) typs avec des catgories syntaxiques grossires (nom compos, verbe, adjectif, etc.). Ces goupes sont des lments de bas niveau et ne sont donc pas rcursifs. Comme dit prcdemment, cette dnition se rapproche fortement de celle donne par [Abney 1995] pour la notion de chunk.

4.1.7 Quelques rsultats prliminaires


Nous avons effectu une valuation interne sur les entits nommes et tendues. Pour cela, diffrents corpus, dcrits dans le tableau 4.2, ont t utiliss : questions orales : noncs utilisateurs collects avec la premire plateforme Ritel, transcrits manuellement ; questions crites : questions de lvaluation CLEF04 ; missions dinformation radio- et tl-diffuses : documentaires et informations en franais transcrits manuellement ; journaux : Le Monde et ATS 1994-1995. Ces corpus ont t annots manuellement en fonction des dnitions des entits que nous traitons. Ils ont servi de rfrence pour cette valuation. Catgorie questions orales questions crites missions dinformations journaux # doc. 840 200 7 887 1 000 # mots 10k 1,5k 88k 22k # Entits 1 102 331 5 898 2 485

TAB . 4.2 Caractristiques des corpus de test

Les entits values taient les suivantes : lieux, organisations, personnes, dates, montants, valeurs, ges, couleurs, fonctions, phnomnes mtorologiques, monnaies, mesures physiques, organisations

4.2. ADAPTATION DE LANALYSEUR LESPAGNOL ET LANGLAIS

61

gouvernementales, vnements, prix et muses. Les entits plus spciques comme ville, pays, province ou euve ont galement t values. Dans le cas dun groupe hirarchique seule lentit la plus large a t value. Le tableau 4.3 prsente les rsultats obtenus sur les diffrents corpus. Ce systme obtient une Fmesure allant de 0,82 sur le corpus dmissions dinformations 0,88 sur le corpus de questions orales. La plupart des systmes de dtection en entits nommes obtiennent une F-mesure autour de 0,9 [Poibeau 2005] sur des donnes journalistiques et dans le cadre dune dnition simple des entits nommes. [Favre, et al. 2005] rapportent une F-mesure entre 0,84 et 0,74 sur un corpus dmissions dinformation radio- et tl-diffuses de la campagne dvaluation E STER [Gravier et al. 2004]. Sur des transcriptions manuelles comme celles de notre corpus dmissions dinformation, leur meilleur systme obtient une F-mesure de 0,84. Par ailleurs, [Surdeanu, et al. 2005] rapportent une F-mesure sur des corpus de type conversationnel (en anglais) de 0,75. Comparer nos rsultats avec ceux-ci est relativement peu ais car les dnitions des entits diffrent. Nanmoins, on peut probablement afrmer que sur des donnes journalistiques textuelles (comme notre corpus de journaux) notre systme est lgrement moins bon que ceux dcrits dans la littrature. En revanche, il est hauteur de ltat de lart pour les corpus oraux. Mesure Precision Rappel F-mesure Questions orales 90,3% 86,2% 0,882 Questions crites 85,5% 83,4% 0,845 missions dinformations 83,5% 81,3% 0,824 Journaux 87,1% 86,5% 0,868

TAB . 4.3 Rsultats pour la dtection des entits nommes

Ces rsultats suggrent quil est possible dcrire un systme de dtection dentits nommes robuste et de bonne qualit en sappuyant sur notre moteur.

4.2 Adaptation de lanalyseur lespagnol et langlais


An de pouvoir tester entre autres les capacits multilingues de notre moteur et de notre systme Question-Rponse nous avons particip la campagne dvaluation Question-Answering on Speech Transcripts 2008 [Turmo, et al. 2008]. Cette campagne et les rsultats de notre participation sont dcrits partie III section 11.1. Cette participation a ncessit que nos collgues linguistes adaptent lanalyse prsente langlais et lespagnol. Ladaptation a bien sr t facilite parce que ces deux langues sont proches du franais. Toutefois nous pensons quelle aurait t moins simple si le moteur et le langage que nous avons mis disposition des linguistes pour crire les grammaires ntait pas si simple manipuler. Le passage du franais lespagnol a t fait en deux temps : la recherche de parties du discours non-dsambiguse dans le DELAS a t remplace par une annotation dsambiguse via la transfor-

62

CHAPITRE 4. VALUATION
%lex : University university Universit universit Universidad universidad ; &prep : // franais de la | des | du | "d" | // espagnol de los | de | // anglais of the | of ; // franais &univ-fr : %lex &prep ? ( ? : %caps* ? | %acronym | _ville) ; // espagnol &univ-es : %lex &prep ? ( ? : %caps* ? | %acronym | _ville) ; // anglais &univ-en : %lex &prep ? ( ? : %caps* ? | %acronym | _ville) | ( ? : %caps* ? | %acronym | _ville) %lex ; F IG . 4.1 Exemple dadaptation interlingue dune rgle.

mation statistique utilisant les modles du TreeTagger. De plus aux diffrents lexiques ont t ajouts les quivalents en espagnol. Toutefois, seule une petite partie des lexiques a t adapte. Pour langlais leffort a t plus important, ncessitant en plus de modier lordre dapplication de certains contextes. La gure 4.1 illustre cette adaptation. Cette mthode dadaptation nous a permis dobtenir des analyses comparables entre les trois langues, dont un exemple est donn gure 4.2. Cette adaptation mme incomplte a donn des rsultats tout fait raisonnables lors de la campagne dvaluation QAst 2008.

4.3 Exploration de corpus


Une autre utilisation possible de ce moteur est lexploration de corpus. Cest une utilisation qui rappelle ce que propose CQP. Au Limsi, deux tudes ont dbut mi-2008 ncessitant lexploitation de corpus pralablement annots. Lextraction de patrons et de co-occurrences est rendu possible simplement par la multiplicit des formats dentres et de sorties que manipule le moteur. En particulier les deux expriences que nous abordons ici bncient de la possibilit daccepter en entre le format de sortie. Ainsi des documents pralablement annots peuvent tre rannots/traits avec de nouvelles passes. Dans un premier cas, il sagit dtudier la fonction pragmatique des hsitations et de leurs quivalents

4.3. EXPLORATION DE CORPUS

63

Franais : qui a propos un programme de paix aux palestiniens

Espagnol : quin propuso un programa de paz a los palestinos

Anglais : who proposed a peace program to the Palestinians

F IG . 4.2 Rsultat de ladaptation de lanalyse des langues autres que le franais.

64

CHAPITRE 4. VALUATION

dans les noncs des utilisateurs du systme Ritel. Une premire tape de ce type de travail est de collecter les co-occurrences impliquant justement ces lments. Lextraction des co-occurrences est ralise sur le corpus annot avec le systme Ritel. Il faut dans un premier temps rinsrer puis annoter les marqueurs dhsitations qui sont supprims par lanalyseur standard. Ceci peut tre fait par lapplication dune rgle trs simple telle que : &ller : "%hesitation" | (< ! est) bon | "%respiration" ; _ller : (&ller) ; Nous partons de la phrase je voudrais savoir dans quel lm %hesitation a jou %hesitation qui a t pralablement annote en :

Aprs rinsertion des hsitations et leur annotation on obtient alors :

Il est ensuite possible de regrouper dans des catgories plus larges les diffrents tags, comme toutes les entits nommes et spciques sous la catgorie EN, toutes les entits dialogiques sous une catgorie ED etc, donnant le rsultat :

4.3. EXPLORATION DE CORPUS

65

Ensuite selon les besoins, il est possible dextraire les successions diffrents niveaux. Par exemple, au niveau des ttes de lanalyse on obtient : _ED _PoS _MQ _ller _NE _ller Cette forme a ensuite t utilise pour mesurer statistiquement les probabilits de co-occurrence entre hsitations et entits nommes ou autres lments des phrases. Lextraction se fait ici en partant de lanalyse standard utilise dans Ritel mais elle pourrait se faire depuis nimporte quelle analyse respectant lun des formats grs par le moteur. La deuxime exprience porte sur lextraction de patrons prcis danalyse dans des donnes propres (Wikipedia par exemple) et leur intgration semi-automatique dans lanalyseur (en passe nale par exemple) an damliorer la prcision de la reprsentation des donnes textuelles (en particulier du Web) et donc le systme de Question-Rponse. En sappuyant sur les informations prsentes dans les infobox, il est possible de rcuprer les structures dans le texte principal o ces informations apparaissent et mme dutiliser ces informations pour dtecter des contextes permettant damliorer lanalyse. Par exemple, la phrase :

tienne Daho est un auteur compositeur interprte, acteur et producteur franais, n le 14 janvier 1956 Oran (Algrie). Les lments auteur compositeur interprte, acteur et producteur franais sont prsents dans linfobox de la page, sous la catgorie Profession. La phrase annote par le systme danalyse standard donne :

Les informations contenues dans linfobox permettent de dtecter automatiquement que compositeur interprte nest pas connu du systme en tant que profession (_pers_act) mais est reconnu en tant

66

CHAPITRE 4. VALUATION

que mot compos. Extraire un peu de contexte permet alors de gnrer une rgle de correction qui va rajouter une annotation _pers_act au dessus du _NN.

_pers_act : _pers _aux 1 _pers_act (_NN) _punct _pers_act ;

De plus utiliser ces informations et la possibilit offerte par le moteur de rannoter des arbres ou des nuds permet aussi de prciser certaines annotations. Par exemple, la rgle suivante permet de rannoter un mois dune date de naissance en mois de naissance :

%replace_tree(%1, _mois_naiss %1 ) : _time_naiss _time _date_complete _jour (_mois) _annee ;

Collecter automatiquement des patrons de ce type et les conserver sous forme de rgles permet damliorer la prcision de lanalyse et en particulier de dtecter des relations entre diffrents lments dune phrase et de les regrouper sous un mme nud. Par exemple, partir dun ensemble de patrons constitus partir de diffrentes informations comme celles que nous venons de voir, il est possible de constituer une rgle du type :

_pers_identit : (_pers _aux 1 _pers_act _pers_act _punct _pers_act _conjc _pers_act _Tnaiss _det _time_naiss _prep _loc_naiss _punct _loc_naiss _punct) ;

Cette rgle est un peu illisible, mais elle a t constitue automatiquement en extrayant les racines des arbres de lanalyse. Pousse son terme, ce genre dapproche nous permet dobtenir une analyse plus pousse :

4.4. MESURES DE PERFORMANCE SUR LANALYSEUR DE RITEL

67

Malgr la perte de lisibilit due au grand nombre dannotations, regrouper et prciser les informations permet damliorer les rsultats fournis par le systme Question-Rponse. Il est intressant de constater que la simplicit du moteur permet denrichir lanalyse partir delle-mme et de quelques informations cibles.

4.4 Mesures de performance sur lanalyseur de Ritel


Lanalyseur de Ritel prsent section 4.1 et, nous le rappelons, construit non par nous mais par des linguistes, est structur en 72 transformations successives. 68 de ces passes utilisant la transformation base de rgles, une passe fait des recherches dans le DELAS, une reconstruit les nombres et deux font du ltrage. Le grand nombre de passes facilite la maintenance du systme. En effet les rgles contenues dans les passes ont tendance tre plus simples et reconnatre une seule catgorie de structures. Les conits inter-rgles sont ainsi minimiss et leur rsolution comprhensible. De plus obtenir des structures hirarchiques profondes et dtailles est favoris, la grande majorit des rgles ajoutant des annotations plutt que les modiant. Les macros et classes nommes permettent de construire des bibliothques de patterns utiles qui sont incluses au besoin dans les passes, vitant les problmes classiques de duplication de source. Faciliter lutilisation du multi-passes est donc un plus pour la qualit du rsultat. Les passes contiennent 1 473 rgles utilisant 6 654 macros et 3 588 classes pour un total de 1,8 million de nuds dans les arbres syntaxiques des expressions rgulires. Une partie de ces macros contient de grandes listes dexpressions multi-mots telles que 2 600 noms propres, 500 noms de pays, 185 000 noms de ville, 300 noms de langue, etc. Ces listes sont simplement mises sous la forme dalternatives.

68

CHAPITRE 4. VALUATION

Cette intgration immdiate dans la syntaxe des expressions rgulires permet dutiliser au besoin toutes les possibilits de ces expressions, et en particulier de grer certains cas dambigut. Par exemple dans une des listes de prnoms le mot fuse est interdit devant le prnom Ariane via un lookahead ngatif arrire, rglant le potentiel problme de faon comprhensible et minimale. La vitesse de lanalyse a t mesure sur 10 000 phrases (260 000 mots) extraites dun corpus de journaux et dpches (corpus CLEF). Chaque phrase est analyse en 2,5ms en moyenne, ce qui reprsente 10 000 mots par seconde. Une telle vitesse est gnralement considre trs bonne pour un systme produisant un seul type dannotation, elle est dautant meilleure pour un systme tel que celui de Ritel qui produit des annotations intgres entre multiples niveaux linguistiques et smantiques. Des 1,8 millions de nuds seuls 50 000 en moyenne sont visits par phrase, ce qui dmontre la capacit de discrimination dun systme se basant sur les mots et lefcacit des ltrages des rgles et alternatives. Chaque nud est visit en une moyenne de 150 cycles CPU (50ns sur un processeur 3GHz) ce qui montre que le principe de considrer les expressions comme un programme pour un interprteur de motifs est raisonnable.

Discussion
Les moteurs disponibles permettant un linguiste dcrire un systme de rgles pour ses propres analyses sont rares et, en pratique, assez peu la mode. Ils sont cependant indispensables pour les problmes trs exploratoires o la dnition mme des annotations voulues est un sujet de recherche. Cest le cas du domaine qui nous intresse, linteraction et la rponse aux questions dans un domaine ouvert, o il nexiste pas lheure actuelle de schma dannotation mr pour lanalyse des documents et requtes. Les moteurs de rgles existants ne rpondant pas nos besoins, nous en avons propos un nouveau. Deux aspects un peu conictuels sont prendre en compte lors de la dnition dun tel moteur. Le premier est lexpressivit : le moteur permet-il effectivement datteindre les rsultats recherchs ? Le second est lergonomie : le moteur facilite-il la construction du systme et ensuite sa maintenance ? Un des premiers points o tout se dcide est le choix de la reprsentation interne de ltat de lanalyse. Elle peut tre plus ou moins contrainte, et elle peut avoir une plus ou moins grande couverture. La reprsentation utilise par GATE [Cunningham et al. 2002] et UIMA [Ferrucci & Lally 2004], par exemple, nimpose pratiquement aucune contrainte et a une couverture en pratique illimite. Linconvnient est que labsence de structure contrainte rend les rgles difciles crire et mme souvent indterministes dans leur application. La reprsentation de Scol [Abney 1996], en contrepartie, est essentiellement limite des vecteurs de symboles, et permet de couvrir des analyses en composants simplie sans retour sur dcision. Nous avons choisi une reprsentation structurellement assez contrainte mais avec une couverture relativement large : une fort de mots ou dannotations, avec la possibilit davoir plusieurs labels par nud. Cette structure donne la possibilit dcrire des rgles lexploitant avec une syntaxe claire et sans indterminisme. Elle permet de couvrir toutes les analyses ne demandant pas des relations longue distance. Cest une limitation forte et qui gagnerait tre supprime, ouvrant la porte aux analyses syntaxiques ou smantiques profondes, mais dnir une syntaxe de rgles lisible et maintenable capable de manipuler de telles relations parait extrmement difcile. Le systme de rgles lui-mme est videmment trs important. Les expressions rgulires sont bien souvent la base de tels systmes car elles ont plusieurs avantages : elles sont bien connues des linguistes et elles ont globalement une bonne expressivit tout en restant relativement lisibles. Nous

69

70

CHAPITRE 4. VALUATION

avons considr pertinent de continuer cette tradition. Cependant les expressions rgulires ne sont quun cadre gnral, et leur application fait toute la diffrence. Nous avons fait un certain nombre de choix qui nous paraissent aider grandement lergonomie globale du systme. En particulier nous avons choisi de travailler sur des mots et non sur des caractres, et daider la structuration en agissant sur trois axes. Tout dabord nous permettons la dnition de classes et macros nommes, que lon peut considrer similaires des fonctions. Ensuite nous favorisons la structuration en multiples passes, permettant chaque passe de rester simple et modulaire. Et enn nous autorisons revenir sur des annotations venant des passes prcdentes, ce qui permet de travailler localement en fonction des informations disponibles un moment donn, sachant que rien nest dnitif et que corrections et prcisions sont possibles quand des informations demandant un plus grand contexte sont disponibles. Toutes ces dcisions permettent de construire des analyseurs trs structurs et modulaires, facilitant grandement leur dveloppement et leur volution. Un autre point que nous considrons important est lintgration au besoin dautres approches, quelles soient statistiques ou algorithmiques. Les intgrer permet davoir une vision densemble de lanalyse. Enn un dernier point ne pas ngliger est la vitesse du moteur. En effet un systme plus rapide permet plus dexprimentations. Pouvoir tester ses modications sur quelques phrases immdiatement et sur une base de documents telle que le corpus de QA@Clef en deux heures permet un retour rapide qui permet dviter de sengager sur de mauvaises pistes. Mais le vrai test de qualit dun tel systme passe par lutilisation qui en est faite. Les linguistes lutilisant pour crire des grammaires sont globalement satisfaits, et nous avons prsent certaines de leurs ralisations chapitre 4. Une de ces ralisations, une analyse multiniveaux unie de la langue, est la base sur laquelle nous nous reposons pour notre approche du problme de Question-Rponse, que nous dcrivons dans les parties suivantes.

Deuxime partie

Question-Rponse pour linteraction

71

Introduction
Nous nous intressons, dans cette partie, la recherche dune information prcise en rponse une question prcise. Cette thmatique, plus connue sous le nom de Question-Rponse, a vu ses activits exploser cause notamment des campagnes dvaluation qui ont aid sa dnition. Mais que recouvre ce terme ? Tout dabord on veut comprendre une question en langue naturelle. Cette question peut prendre diverses formes, voici par exemples les types de question tels que dnis par une campagne dvaluation rcente : Questions factuelles : Quand Gorgoroth a-t-il eu des problmes avec la police ? Dnitions : Quest-ce que le racisme ? Questions oui/non : LAloe-Vera est-il un antioxidant ? Pourquoi : Pourquoi Michael Jackson a-t-il t poursuivi en justice en 2005 ? Comment : Comment retirer une tche de vin rouge ? Listes : Quels sont les six pays ayant fond lUnion Europenne ? Se pose alors le problme de la dnition de ce quest une rponse. Cest dailleurs un problme majeur. En effet, prenons un exemple : Quest-ce que lOTAN ?, qui fait partie de la classe question de dnition. Peut-on, doit-on attendre une rponse et une seule ? On peut par exemple attendre comme rponse Organisation du Trait de lAtlantique Nord, considrant quune question de dnition portant sur un acronyme attend en rponse lexpansion de cet acronyme. Mais une rponse telle que organisation politico-militaire cre la suite de ngociations entre les signataires du trait de Bruxelles, les tats-Unis et le Canada ainsi que 5 autres pays dEurope Occidentale invits participer peut constituer une rponse plus informative. De mme, une question comme Qui est Robert Torrens ?, une rponse telle que un conomiste est considre correcte. Toutefois on peut l encore sinterroger sur ce que reprsente une rponse correcte. Est-ce que la correction de la rponse nest pas lie une utilisation relle, un vritable besoin dinformation ? Une rponse comme un conomiste qui a dcouvert le principe de lavantage comparatif serait plus informative dans un tel cadre. Un autre exemple concerne aussi une question de dnition : Quest-ce que le Grenelle de lenvironnement ? Notre systme a rpondu machin, sappuyant sur le support certains ont cru en la

73

74 valeur et lhonntet du machin appell Grenelle de lenvironnement.... En dehors de tout contexte dutilisation, cette rponse peut tre considre comme formellement correcte, mme si son contenu informationnel est quasi-nul. Mais quen est-il rellement ? Comme nous le voyons, en dehors de toute application relle, il est difcile de dnir ce quest une bonne rponse une question. Les diffrentes campagnes dvaluation ont toutes essay de clarier ce problme, et nalement nous pouvons constater que, hors cadre applicatif prcis, elles ont converg sur les questions factuelles, celles se rapportant des faits prcis, et plus prcisment les factuelles simples o les rponses attendues tiennent en quelques mots dsignant une entit prcise. En effet dnir ce quest une bonne rponse est fondamentalement plus simple pour des questions telles que Que mangent les koalas ? ou En France qui est le prsident ?, mme si pour cette dernire des descriptions telles que le chef des armes sont possibles. Des questions certes factuelles mais plus ouvertes telles que Pourquoi le ciel est-il bleu ? ou Comment crer une image ISO sous Linux ? sont elles bien plus complexes : la rponse peut tre constitue de beaucoup dlments, de listes, de phrases... Nous allons donc essentiellement nous intresser ces questions factuelles simples qui ont lavantage dans un systme interactif oral de permettre des rponses courtes. Elle ont aussi lintrt de permettre relativement aisment dvaluer automatiquement les sorties du systme voire mme doptimiser automatiquement certains des paramtres, en compltant la rfrence au besoin [Gillard, et al. 2006a]. Cependant, dans le cas de vraies applications, on constate quil y a en pratique davantage de questions complexes. [Kato, et al. 2006] ont observ dans le cadre dun systme avec utilisateurs rels que 34 % des questions ntaient pas des factuelles simples. Ces 34 % consistaient essentiellement en des questions pourquoi, comment et de dnition. Lors dune exprience avec notre plateforme Ritel [Toney, et al. 2008] nous avons observ que plus de 10 % des questions taient de type oui/non. Il ne faut donc pas non plus les ngliger, et la section 9 prsentera quelques travaux prliminaires sur ces autres types de question. Au-del de la nature des questions se pose aussi le problme de leur forme. Les questions traditionnelles sont des questions crites dans une langue correcte et bien forme, comme nous avons pu voir dans les exemples. Le cadre interactif demande une plus grande exibilit sur ce point. Non seulement les questions peuvent tre transcrites de loral, avec hsitations, reprises, changements davis et la syntaxe spcique de loral, mais elles peuvent en plus tre incompltes car faisant rfrence explicitement ou implicitement dautres informations venant de lhistorique du dialogue. Ces problmes de compltion dhistorique et de rsolution danaphore sont du domaine du gestionnaire de dialogue et sortent du cadre de cette thse. Cependant les approches utilises doivent permettre dincorporer des lments dinformations supplmentaires la question elle-mme que le gestionnaire de dialogue considre pertinents pour la complter. Le type et la nature des questions ne sont cependant pas les seuls points prendre en compte dans le domaine de Question-Rponse. Le type de documents dans lesquelles les rponses vont tre recherches a aussi son importance. Les bases de donnes, populaires pour les systmes de dialogue oraux en domaine ferm classiques, sont trop limites pour de telles questions en domaine ouvert. Lapproche normale de Question-Rponse est de chercher les rponses dans des ensembles de docu-

75 ments en langue peu ou non-structurs. Les valuations proposes se sont longtemps limites des textes journalistiques. Ces textes ont trois avantages : ils peuvent correspondre un besoin utilisateur rel, sont crits dans une langue raisonnablement correcte et normalise, et restent quand mme relativement simples au niveau de la langue en comparaison des uvres littraires. Depuis plusieurs alternatives ont t envisages : les transcriptions de parole, dont la syntaxe est diffrente de celle de lcrit, des encyclopdies, en particulier Wikipdia, dont la structure est trs spcique et o la redondance dinformation est assez faible, ou encore des documents tout venant du Web, o niveau de langue et qualit typographique sont extrmement varis. Dans notre cadre interactif o le systme Question-Rponse nest quun moyen et non une nalit, nous ne pouvons nous permettre de nous limiter un type de documents qui risquerait de nous limiter une catgorie dinformations. Nous prfrons donc viter des mthodologies sappuyant spciquement sur des types ou structures de documents prcis. Indpendamment de ces problmes de questions et de documents, se pose celui de la langue. Les algorithmes prsents dans cette partie sont essentiellement indpendants de la langue des questions et documents. Cependant les ressources linguistiques disponibles dans chaque langue diffrent considrablement. Nous nous sommes donc concentrs sur ce quil tait possible de faire avec les ressources disponibles publiquement en franais. Nous verrons cependant dans la partie III que lensemble a aussi t valu sur langlais et lespagnol. Enn un dernier point concerne le contrle des temps de rponse. Un cadre interactif demande une bonne ractivit de lensemble du systme de dialogue sous peine que lutilisateur ne se lasse. Nous devons donc choisir des approches permettant de matriser autant que possible les temps de rponse maximaux. Nous verrons que ce problme a ce jour rarement t tudi dans la littrature. Dans la section suivante nous prsentons un tat de lart sur les systmes Question-Rponse pour questions factuelles dont la discussion donne lieu ensuite la prsentation du plan du reste de la partie. Lvaluation de tout cela est le thme de la partie III.

76

Chapitre 5

tat de lart
5.1 Prsentation gnrale des systmes Question-Rponse

La gure 5.1 illustre la structure classique pour un systme Question-Rponse. Tout commence par le prtraitement des documents en vue de leur indexation. Ce prtraitement peut tre divis en deux parties : la premire, qui nexiste dailleurs pas toujours, consiste en une forme danalyse de la langue qui essaie de pr-extraire de linformation des documents. Cette analyse peut tre relativement simple, sarrtant aux parties du discours ou aux entits nommes, comme dans [Molla, et al. 2006 ; Molla, et al. 2007 ; Comas, et al. 2007]. Ou elle peut tre plus pousse et atteindre des niveaux danalyse syntaxique ou mme smantique [Laurent, et al. 2006 ; Hickl, et al. 2006 ; Neumann & Wang 2007]. La seconde moiti du prtraitement couvre le formatage des documents pour lindexation. Bien souvent les crateurs de systmes prfrent ne pas travailler avec des documents bruts complets comme unit dindexation. La tendance est plus au dcoupage, parfois en phrases, plus souvent en des blocs de quelques lignes [Laurent et al. 2006]. Mme pour les cas o il ny a pas de structure en phrases intrinsque dans les documents, comme dans le cas de transcriptions de parole, il peut tre utile de tenter de reconstruire des blocs quivalents [Krsten, et al. 2008]. Lindexation des documents ainsi traits est alors effectue par un moteur de recherche. Lucene [Apache 2007], un moteur de recherche dvelopp par la fondation Apache, est trs populaire dans le domaine [Neumann & Wang 2007 ; Comas et al. 2007]. MG (Managing Gigabytes) est aussi utilis, par exemple dans [Neumann & Wang 2007 ; Comas et al. 2007], mais larrt de son dveloppement depuis quelques annes nuit son succs. Un certain nombre de systmes utilisent leur propre moteur dindexation et de recherche, en particulier ceux qui font des analyses linguistiques dans le prtraitement et veulent pouvoir faire des recherches dans les rsultats de ces analyses. [Laurent et al. 2006] avec ses analyses profondes et son indexeur spcique est un bon exemple de ce cas. 77

78

CHAPITRE 5. TAT DE LART

F IG . 5.1 Architecture gnrale des principaux systmes QR (inspir de [Ligozat 2006]). La partie prprocessing est celle effectue avant davoir les questions.

Une fois lindexation faite, il est temps de sintresser aux questions. Lanalyse des questions a deux objectifs : le premier est de dtecter quelles informations venant de la question doivent tre retrouves dans les documents. Ces informations ont bien souvent la forme de mots-cls et dentits nommes, mais on rencontre parfois des relations syntaxiques ou smantiques. Cette partie de lanalyse des questions est gnralement assez proche de celle faite pour les documents de faon pouvoir comparer les rsultats obtenus, ce qui est la base des tapes dextraction de rponse. Le second objectif est la prdiction des types de rponse attendus [Pardio, et al. 2008]. Ces types sont souvent des types dentits nommes (personne, lieu, organisation...) mais peuvent tre plus prcis ou avoir une plus grande couverture quand des taxonomies plus avances sont utilises [Laurent et al. 2006]. Les rsultats de lextraction dinformations de la question sont passs au moteur de recherche dinformation qui slectionne alors des documents ou des passages tels que dnis par lindexation. Une analyse complmentaire des documents extraits est souvent effectue dans la continuit de celle du prtraitement. En pratique, dcider quelle partie de lanalyse des documents doit tre effectue avant lindexation et laquelle aprs combine un problme dingnierie, o entrent en jeu le temps de prprocessing, le temps de rponse, la complexit de lindexation et les problmes de passage lchelle,

5.2. UN SYSTME TRS LINGUISTIQUE : LE SYSTME DU LCC

79

et un problme de recherche o il faut dcider quelles informations spciques sont ncessaires lextraction des documents. Dans tous les cas, ltape nale extrait les candidats rponse des passages analyss et leur donne un rang. Dans la plupart des cas les candidats sont les mots ou groupes de mots annots avec les types attendus pour la rponse. Un score est donn chacun qui peut tre bas sur les distances rponse-mot-cl [Pardio et al. 2008], une mesure gnrale de densit [Gillard, et al. 2006c ; Comas & Turmo 2008] ou mme des similarits syntaxiques et relations de dpendance [Bouma, et al. 2005]. Certains systmes vont mme plus loin en cherchant conrmer leurs rsultats dans dautres sources, et en particulier le web [Plamondon & Kosseim 2003]. Le systme classe ensuite les rponses en fonction des scores obtenus. Cette structure, trs gnrale, couvre la plupart des systmes sappuyant sur des approches linguistiques. Des mthodes alternatives existent dont le but est de ne requrir que peu de connaissances linguistiques. [Berger, et al. 2000] par exemple utilise des modlisations statistiques construites sur des mesures de co-occurrence. [Ittycheriah & Roukos 2002] ajoute cela une slection de passages sappuyant sur un modle de traduction IBM model 1 en considrant un bon passage comme tant une traduction de la question. Ils ajoutent aussi une extraction automatique de patrons de rponse. Ces systmes ajoutent des traits linguistiques simples aux entres de leurs modles statistiques. [Whittaker, et al. 2007] tente daller encore plus loin en liminant toute connaissance linguistique en sappuyant exclusivement sur des modles statistiques probabilistes.

5.2 Un systme trs linguistique : le systme du LCC


Le systme de la Language Computer Corporation [Moldovan, et al. 2002b] a particip de nombreuses valuations avec de trs bons rsultats. Il est un bon exemple des systmes base de connaissances linguistiques que nous avons prsent prcdemment. Les documents sont indexs tels quels, la totalit de leur analyse tant dplace aprs la recherche dinformations. Le vrai travail commence avec les questions. Une premire passe consiste en une correction orthographique de la question, en particulier au niveau des noms propres qui sont primordiaux dans les recherches. De plus, au besoin, les questions sont rcrites dans une forme o le mot de question apparat en premier. Cette forme est ensuite analyse en parties du discours, chunks et syntaxe. La forme analyse de la question est utilise tous les niveaux dans la recherche. En premier lieu les parties du discours sont mises prot pour slectionner les mots-cls considrs pertinents pour la slection des documents. Ces mots-cls sont tendus via des transformations lexicales (abandonn abandonner), morphosyntaxiques ( abandon) et smantiques via WordNet ( oubli). Ils sont alors passs au moteur de recherche qui extrait les documents contenant les conjonctions de ces mots-cls en relchant les contraintes jusqu obtenir un nombre de documents jug acceptable (environ 2 000). De ces documents sont extraits des passages en prenant dix lignes avant et aprs les groupements de mots-cls.

80

CHAPITRE 5. TAT DE LART

La question entre nouveau en jeu ce niveau l. Les dpendances syntaxiques entre les chunks de la question sont extraites et servent construire un ensemble de contraintes, en particulier temporelles et gographiques. Les passages ne les respectant pas sont limins. Les passages ainsi ltrs, il est temps de passer la dtection des candidats rponse. Le choix du type de rponse attendu (personne, lieu, montant, distance...) est effectu via une hirarchie de types constitue semi-automatiquement et sappuyant sur les synsets WordNet associs aux mots de la question [Pasca & Harabagiu 2001]. Laspect semi-automatique vient du fait que la hirarchie de types et ses associations avec les synsets est initialement remplie automatiquement via un corpus de paires question/rponses et les rsultats sont ensuite ltrs par des humains. Le type de rponse attendu dcid, il est temps dextraire et dvaluer les candidats rponse. Un dtecteur dentits nommes, enrichi par le vocabulaire de WordNet pour les types ne faisant pas partie des entits classiques, extrait les candidats rponse. Leur valuation est effectue via un systme de raisonnement logique. Une expression logique est construite reprsentant la question en se basant uniquement sur lanalyse syntaxique [Moldovan, et al. 2002a]. Les mots, dcors de leur partie du discours, deviennent des noms de prdicats prenant comme paramtres des variables rfrenant les autres mots et chunks avec lesquels ils sont en lien syntaxique. La conjonction de ces fonctions donne une expression logique reprsentant la question. Les passages sont transforms de la mme faon. Le contenu dExtended Wordnet [Harabagiu, et al. 1999], qui contient lensemble des donnes de WordNet encodes de la mme faon, est ajout comme axiomes. Cet ensemble de prdicats est trait par le moteur dinfrences Otter [McCune 1994] pour tenter de trouver les meilleures rponses. titre dordre de grandeur, ce systme a trouv une rponse correcte pour 71% des questions factuelles lvaluation TREC 2005, le classant premier (66% pour le second, 32% pour le troisime), et 58% TREC 2006, le classant l aussi premier (39% pour le second, 32% pour le troisime).

5.3 Un systme purement statistique : le systme du Tokyo Institute of Technology


Les systmes prsents par le Tokyo Institute of Technology [Whittaker, et al. 2005a ; Whittaker, et al. 2006] sont un peu loppos de ceux du LCC. Lide est de construire un systme purement statistique sans aucune connaissance linguistique. Dun point de vue probabiliste, trouver la meilleure rponse possible une question consiste construire un modle P (R|Q) capable de donner la probabilit dune rponse tant donne une question et ensuite de garder, dans lensemble des rponses possibles, celle qui a la meilleure probabilit. R = arg max P (r |Q)
r

(5.1)

Le modle propos dcompose linformation donne par la question en deux parties : lun, not

5.3. UN SYSTME PUREMENT STATISTIQUE : LE SYSTME DU TOKYO INSTITUTE OF TECHNOLOGY81


X , reprsente les lements rechercher dans les documents. Lautre, not W , reprsente le type de rponse attendue. R = arg max P (r |W, X ) (5.2)
r

Aprs quelques hypothses simplicatrices (indpendance de W et X pour un r donn, quiprobabilit a priori des candidats rponse), lquation prend la forme : R = arg max P (r |X )P (W |r )
r

(5.3)

Le problme se dcompose ainsi en deux parties : une recherche dinformations, reprsente par P (r |X ), qui extrait les candidats rponse en rapport avec les lments de la question et un ltrage, P (W |r ), qui slectionne parmi ces candidats ceux qui correspondent au type de question voulu. ces deux modles sajoute un algorithme sappuyant sur des probabilits permettant dextraire dans les documents les phrases intressantes. Nous dcrivons ces modles dans lordre de leur utilisation. tant donne une question, la premire tape consiste extraire les phrases les plus pertinentes. La mthode est simple : un modle de langage unigramme est construit pour chaque phrase et document, liss par absolute discounting [Ney, et al. 1994]. Une probabilit peut alors tre calcule pour la question tant donn le modle dune phrase ou dun document. La probabilit calcule sur la phrase est combine linairement celle calcule sur le document qui la contient pour obtenir le score nal de chaque phrase. La question est note Q, le document D et la phrase examine S . Score(S ) = P (Q|S ) + (1 )P (Q|D, S D ) (5.4)

Pour lvaluation QAst 2007 cette extraction a t enrichie par une expansion de requte [Whittaker et al. 2007]. Des classes non-disjointes contenant des ensembles de mots sont construites pour reprsenter les thmes possibles. La mthode de construction nest pas indique. [Peat & Willett 1991] donne des exemples de mthodes possibles, incluant certaines ne demandant aucune connaissance linguistique (mesures de co-occurrence, calculs dinformation mutuelle...). Les mots de la question sont alors tendus en lensemble des mots des classes auxquels ils appartiennent avec une probabilit uniforme. Un score tendu peut alors tre calcul de la mme faon, le calcul tant simpli par le fait que les modles ne sont quunigrammes. Le score nal est une interpolation linaire entre le score simple et le score tendu. Cette expansion nest utilise que pour lextraction de phrases, et na permis dobtenir quun gain trs faible en pratique. Une fois les phrases pertinentes obtenues, le modle de recherche dinformations P (r |X ) tente dextraire les candidats rponse intressants indpendamment du type de question. La mthode de slection des suites de mots reprsentant des candidats nest pas prcise. On peut penser que pour chaque phrase toutes les suites de mots jusqu une certaine taille limite sont values. Les mots vides (stopwords), choisis comme tant les 50 mots les plus prsents dans les documents, sont supprims de la question. Lensemble des suites de mots, de toutes tailles, contenues dans la question ainsi simplie

82

CHAPITRE 5. TAT DE LART

constitue lensemble X des lments rechercher. Lvaluation dun candidat rponse est calcule comme la moyenne de probabilits lmentaires sur tous les sous-ensembles de X : P (r |X ) = 1 2|X |
x X

P (r |x)

(5.5)

Chaque probabilit lmentaire est calcule par maximum de vraisemblance sur lensemble des phrases extraites dans la premire tape : N (r, x) Z (x) N (r, x) = count(S, r S x S ) P (r |x) = (5.6) (5.7)

Z (x) est choisi pour normaliser le rsultat. En pratique le calcul de N (r, x) est lgrement modi pour tenir compte des phrases autour avec un poids infrieur 1 nomm adj . Notant S + et S la phrase aprs et avant une phrase S donne et avec un adj entre 0 et 1 (0,3 pour TREC 2005), N (r, x) = count(S, r S x S ) + adj count(S, r / S (r S + r S ) x S ) (5.8)

Le ltrage des rponses en fonction dune forme de type de question est un peu plus compliqu [Whittaker, et al. 2005b]. Le principe est de comparer la question demande un ensemble de paires question/rponse (environ 290 000) dun corpus dapprentissage. Notant E lensemble des paires (q, a) dapprentissage, et r reprsentant toujours la rponse potentielle examine, le ltrage est approxim par : 1 P (W |q )P (a|r ) (5.9) P (W |r ) = |E |
(q,a)E

La structure de traits contenue dans W est similaire X dans le sens o elle est constitue de lensemble des suites de mots de toutes tailles prsente dans une version ltre de la question. Le ltrage est cependant diffrent : un ensemble denviron 2 500 mots considrs pertinents pour caractriser une question sont conservs, le reste supprim. Cet ensemble de mots a t choisi statistiquement partir de E . La probabilit P (W |q ), mesurant la ressemblance de la question pose une du corpus, est estime comme la proportion des suites de mots de W dans la question du corpus ltre de la mme faon. Lestimation de P (a|r ) se fait via des classes de mots de rponse. Environ 5 000 classes contenant chacune un ensemble de mots sont construites par clustering agglomratif en partant des mots semblant les plus pertinents des questions et en se basant sur des statistiques de co-occurrences calcules sur une grande quantit de documents. De plus, il est pris comme hypothse simplicatrice que seuls les mots de mme indice dans les rponses sont comparer. Le calcul nal est alors, avec r , rponse value et a rponse du corpus dapprentissage vues toutes les deux comme un vecteur de mots, et

5.4. UN SYSTME INTERMDIAIRE : LE SYSTME DU LIMSI-LIR


CA lensemble des classes de mots :
|a|

83

P (a|r ) =
i=1 cCA

P (ai |c)P (c|ri )

(5.10)

Enn la combinaison des deux probabilits de recherche dinformations P (r |X ) et de ltrage P (W |r ) est en pratique insufsante. Les approximations des modles rendent les magnitudes de leur valeurs diffrentes et un facteur de correction , dans la tradition des modles log-linaires, aide compenser cette diffrence : R = arg max P (r |X ) P (W |r ) (5.11)
r

En comparaison avec celui du LCC, ce systme a trouv une rponse correcte pour 21% des questions factuelles lvaluation TREC 2005, le classant 11e, et 25% TREC 2006, le classant 9e.

5.4 Un systme intermdiaire : le systme du LIMSI-LIR


Le systme de Question-Rponse du LIMSI-LIR, connu sous le nom de QALC [Berthelin, et al. 2003] pour le travail sur langlais et FRASQUES [Grau, et al. 2005a] pour le franais, est un exemple de systme intermdiaire. Par intermdiaire nous entendons un systme qui utilise des connaissances linguistiques mais en varit et couverture limites par ce qui est disponible. La plus grande partie des systmes rencontrs dans les valuations relve de cette catgorie. Le prtraitement des documents est assez simple : ils sont tout dabord dcoups en paragraphes puis lemmatiss. Le rsultat est alors index par MG [Belle, et al. 1994] pour langlais ou Lucne [Apache 2007] pour le francais. Lanalyse des questions est beaucoup plus pousse. Quatre informations sont extraites. La premire est la catgorie de la question, factuelle simple ou dnition. La seconde est un type prdit pour la rponse. Ce type peut soit tre un type dEntit Nomme soit un type gnral. Par exemple la question Dans quelle ville le procs de Giulio Andreotti a-t-il eu lieu ? est associe au type dEntit Nomme lieu-ville et Quel contrat a pris place entre 1995 et 2004 ? appelle le type gnral contrat. La troisime information est lensemble des entits nommes de la question, comme la personne Guilio Andreotti ou les annes 1995 et 2004. Enn la dernire information est le focus de la question. Cette notion est dnie de manire un peu intuitive comme tant lobjet sur lequel porte la question et qui sera attendu proximit de la rponse, comme procs ou contrat. Cette analyse effectue, des requtes sont construites partir du focus et des entits nommes et passes au moteur dindexation pour obtenir les paragraphes de documents pertinents. Des relchement de contraintes (suppression dune partie des mots clefs) et des ajouts de synonymes ont lieu jusqu obtenir une centaine de paragraphes.

84

CHAPITRE 5. TAT DE LART

Le systme passe alors lanalyse de ces paragraphes. La premire tape cherche reconnatre les lments de la question prsents dans les documents. Une comparaison simple des mots est bien videmment insufsante, les variations de forme pour exprimer le mme fond tant courantes. Fastr [Jacquemin 1996] est utilis pour gnrer des variantes des phrases des paragraphes qui sont alors compares avec les lments importants de la question, en particulier le focus. Un score de paragraphe est alors calcul en sappuyant sur ces comparaisons, et les plus pertinents sont conservs (environ 70% du nombre initial). Les paragraphes sont ensuite dcoups en phrases. Les phrases qui ne contiennent pas dlment de la question, sous forme dorigine ou en variante, sont supprimes. Les phrases pertinentes ainsi extraites, le systme passe lextraction des rponses. Deux stratgies sont employes suivant la catgorie laquelle le type prdit pour la rponse appartient. Si ce type appartient la catgorie entit nomme, les positions dans la phrase des lments reconnus de la question sont releves. Leur barycentre est calcul, donnant une nouvelle position dans la phrase. Lentit nomme la plus proche de cette nouvelle position est slectionne comme rponse. Sinon, dans le cas des types gnraux, un ensemble de patrons dextraction est appliqu, ces patrons sappuyant la fois sur les mots de la phrases et sur une annotation en parties du discours de celle-ci. Un score nal de rponse est calcul pour trier les rsultats. Ce score est labor partir de plusieurs lments incluant le score donn au paragraphe par le moteur dinxation, la prsence ou non des lments de la question dans la phrase et leurs scores Fastr associs ainsi que des poids attribus au diffrents patrons. Les systmes de LIMSI-LIR nont pas particip TREC 2005 ou 2006, empchant une comparaison directe. Cependant le systme QALC (en anglais) a obtenu TREC 2002 un CWS de 0,497 pour la neuvime place (0,856 pour le premier, l encore le LCC) et le systme FRASQUES (en franais) a obtenu lvaluation Equer un MRR de 0,22, le plaant troisime (le premier ayant un MRR de 0,58 et le second de 0,25).

5.5 Le problme du temps de rponse


Contrairement aux systmes de recherche dinformation tels que Google, AltaVista ou Exalead, o les temps de rponse sont de lordre de la milliseconde, les systmes de Question-Rponse typiques ont besoin de plusieurs secondes voire minutes pour donner une rponse. Le problme des temps de rponse a rarement t considr important dans le domaine. En 2001, [Kim, et al. 2001] prsentait un systme capable de fournir une rponse en une moyenne de 0,029 secondes par question mais la collection de documents tait limite 60Ko de texte ce qui rend toute comparaison difcile. Lvaluation CLEF 2006 a propos une tche nomme Real-Time QA Exercise o les systmes devaient rpondre le plus vite possible 20 questions en espagnol. Le temps de rponse tait pris en compte dans lvaluation nale. Cinq systmes ont particip, mais seul les auteurs de Miracle [de PabloSanchez, et al. 2006] dcrivent leur exprience. Leur systme a une structure standard et emploie une analyse relativement profonde de la langue, combinant entits nommes et annotations smantiques.

5.6. DISCUSSION

85

Leur travail dans le cadre des temps de rponse a consist dplacer le plus possible de lanalyse des documents de la phase post-extraction des documents vers le prprocessing. Le systme initial prenait 198 secondes pour 20 questions, qui sont descendues 73 secondes aprs le dplacement. Leur collection de documents tait celle de CLEF 2006, soit environ 1Go de textes journalistiques. Les auteurs de Nexus [Ahn & Webber 2007] considrent galement ce dplacement comme tant un point essentiel. Leur systme tait capable de donner la rponse 162 questions sur le corpus Acquaint (3Go de textes journalistiques) en moins dune minute, avec une moyenne 0,3 secondes. En plus du dplacement de lanalyse vers le prprocessing, Nexus construit un index contenant toutes les entits nommes, considres comme des rponses potentielles, et les termes situs dans leur contexte. Les rcuprations rapides de rponses permises grce cet index sont considres primordiales par les auteurs pour la performance et la vitesse de leur systme. Dans les deux cas, le moteur de recherche dinformations est gnrique, Xapian [Xapian 2001] pour Miracle et Lemur [Olgivie & Callan 2002] pour Nexus. La vitesse du moteur ne semble pas avoir t un facteur important.

5.6 Discussion
Nous avons prsent comment, dans le mme cadre gnral des systmes Question-Rponse, toute une palette de mthodes pouvaient se dcliner, de la trs linguistique et logique la pure statistique. tant donn nos contraintes de exibilit et de contrle de vitesse chacune a ses avantages et ses inconvnients. Lapproche du LCC, qui donne de trs bons rsultats, pose plusieurs problmes. Le premier est le besoin de ressources linguistiques complexes telles que WordNet qui nont pas ce jour dquivalent en franais. EuroWordNet [Vossen 1998] en particulier semble encore considr insufsant. De plus les nombreux types danalyse relativement pousses peuvent poser des problmes de robustesse face des questions ou des documents autres que du texte bien crit. Enn, dun point de vue global, ce systme a visiblement t construit incrmentalement sur une longue priode ce qui donne lieu un ensemble de modules disjoints dont les diffrents travaux danalyse complmentaire sont un peu redondants. A loppos, le systme du Tokyo Institute of Technology ne sappuie sur aucune ressource ou analyse linguistique. Cela lui permettrait en thorie dtre robuste tout type de questions et de documents. Cependant il ncessite un grand corpus de paires question/rponse dun type similaire celui attendu ce qui nexiste pas pour le franais, et dautant moins pour les questions semi-structures telles quobtenues dans une interaction. De plus les performances sont en pratique assez faibles et semblent a priori difciles amliorer de faon signicative sans rintroduire des approches linguistiques. Le systme du LIMSI-LIR se situe entre les deux en ce qui concerne lutilisation de ressources et danalyses linguistiques. Il est en cela plus typique des systmes gnralement rencontrs dans les valuations ofcielles. En particulier il utilise un systme dindexation gnraliste plutt quun sys-

86

CHAPITRE 5. TAT DE LART

tme spcialis. Cela offre lavantage de proter de systmes disponibles de qualit. Linconvnient est la difcult de les adapter aux besoins spciques de Question-Rponse. Plusieurs difcults sont noter. Tout dabord slectionner les mots-cls passer au systme dindexation pour obtenir les documents les plus pertinents est un problme complexe en soi. Il est en plus difcile dintgrer ce niveau de la recherche les variations dexpression des lments de la question. Nous avons pu voir que le systme prsent ne le fait quune fois les documents slectionns. Le reste du systme est simple mais performant. Il est noter que lutilisation de patrons dextraction permet dobtenir souvent une bonne prcision de rponse mais ils reprsentent un gros travail de dveloppement pour obtenir un rappel dcent. Comme nous lavons vu, les expriences sintressant spciquement au temps de rponse ont t rares. Lide principale cependant est simple : prparer au maximum le travail sur les documents avant de recevoir des questions. En tenant compte de tous ces aspects, nous avons donc dcid dappuyer notre approche sur une analyse multiniveaux unie regroupant autant dinformations que possible. Lanalyse des documents est faite avant lindexation qui prend en compte les rsultats pour enrichir son index. Les questions sont analyses de la mme manire et les annotations de lanalyse sont les donnes lmentaires utilises tous les niveaux du systme, vitant les redondances coteuses en temps. Le reste de cette partie porte sur la description des mthodes et algorithmes qui nous ont permis de rpondre ces besoins. Un analyseur de la langue a t dvelopp par dautres membres de lquipe en utilisant le moteur prsent dans la partie I. Nous commenons par une description rapide des rsultats que produit cette analyse, une description plus complte est donne la section 4.1. Un premier systme QR simple a t construit sappuyant sur ces rsultats et des ensembles de rgles crites la main. Il est dcrit ainsi que les leons que nous en avons tires. Le systme nal, plus avanc, est alors dcrit en dtail. Enn une dernire section prsente des approches prliminaires pour traiter des types de questions autres que les factuelles. Lvaluation de lensemble est le sujet de la partie III.

Chapitre 6

Description de lanalyse
La premire tape de nos systmes de Question-Rponse est lanalyse de la langue naturelle comme dcrit dans [Rosset et al. 2006]. Nous lavons dj prsente section 4.1 mais il nous parat pertinent den rappeller les grandes lignes ici. Par analyse nous entendons lextraction des informations utiles dun texte ou dune question, utiles dans le cadre de la recherche dinformation. Ces informations peuvent prendre plusieurs formes. Pour Question-Rponse nous nous basons sur un concept dentits types hirarchiques. Ce sont des paires (type, valeur) o le type est un label xe et la valeur un groupe de mots du document ou de la question. Les valeurs peuvent tre incluses les unes dans les autres, par exemple on peut avoir pour la question Quelle est la capitale de la France ? la paire (pays, France) incluse dans la paire (ville, capitale de la France), do le terme de hirarchique. Un exemple est donn gure 6.1.

F IG . 6.1 Exemple dannotation en entits telle quutilise par Question-Rponse

Ces entits sont regroupes en 4 grandes catgories : Entits nommes tendues Entits spciques Entits linguistiques Entits couvrant les mots de question 87

88

CHAPITRE 6. DESCRIPTION DE LANALYSE

Les entits nommes traditionnelles sont les expressions qui dsignent les lieux, personnes, organisations, dates, valeurs et contiennent le nom de lentit et non une priphrase ou description la dsignant. Par exemple Paris est une entit nomme alors que capitale de la France ne lest pas. En pratique cette dnition est trop limitative et il est plus intressant daccepter ces expressions ainsi que daugmenter le nombre de types pour une classication plus ne comme le fait [Sekine 2004]. Les entits spciques sont du mme genre mais rajoutent des types spciques au domaine des documents. Dans le cas de QAst il sagissait de systme, mthode, algorithme, score, etc pour les sminaires sur la reconnaissance de la parole ou de matriaux, formes et couleurs pour les runions sur la conception de tlcommandes (cf. [Rosset, et al. 2007]). Les entits linguistiques servent couvrir tout le reste. Lide est dobtenir un chunking du document ou de la question en blocs lmentaires dinformation. Le principal type correspond aux noms complexes, comme imprimante couleur, produit de base ou couvercle standard. En complment viennent les noms isols, adjectifs, adverbes, adjectifs comparatifs, etc. Enn une srie de types dentits couvre les mots ou groupes de mots de question comme qui ou quelle mthode.

Chapitre 7

Une approche prliminaire pour Question-Rponse


Un premier systme peut tre construit utilisant lanalyse dcrite au chapitre prcdent. Sa structure gnrale est prsente gure 7.1. Lapproche consiste prdire le ou les types de rponse possibles tant donn la question, et de chercher la prsence dlments de ces types dans les phrases des documents contenant les lments intressants de la question. Le systme se structure en deux niveaux : Un ensemble de ltres triant les questions sur les lments rsultants de leur analyse Associs chaque ltre, un ensemble de triplets (clefs de recherche, type de rponse, taille autorise) Dans lensemble des ltres acceptant la question, le plus prioritaire est choisi. Il lui est associ des triplets dcrivant les recherches effectuer. Ces triplets sont pris squentiellement. Les paramtres dans les clefs de recherche sont complts daprs le contenu de la question et lensemble des blocs de phrases, leur taille maximale tant donne par le triplet, contenant toutes les clefs de recherche sont extraits des documents. Les lments du type de rponse attendu sont extraits et classs en fonction de leur nombre doccurrences. En labsence de rponse le systme passe au triplet suivant. crire tous ces ltres et triplets la main est un travail considrable, mme avec la gnralisation que lutilisation des types permet. Il nous a cependant t possible de dnir une mthodologie pour cette criture. partir dune forme de question, i.e. les types dentits prsentes dedans, la premire tape est le Choix du type de rponse. Par exemple : _Qqui _pers, _pers_def ou _org Qui a vendu Manhattan ? _Qqui + _fonction _pers Qui est le Pape ?

89

90

CHAPITRE 7. UNE APPROCHE PRLIMINAIRE POUR QUESTION-RPONSE

F IG . 7.1 Structure gnrale du systme Question-Rponse simple. Les paralllogrammes bleus reprsentent les donnes fournies. Les boites arrondies orange reprsentent les rgles crites par un humain. Les rectangles jaunes reprsentent les modules de calcul. Les trapzes verts les rsultats des modules.

Dans le cas o plusieurs types sont possibles, ils sont classs par ordre de pertinence a priori. La seconde tape est la Classication des entits de la question par importance. En particulier les entits nommes sont plus importantes que les noms composs, qui sont eux mmes plus importants que les verbes, etc. Certaines entits considres non-pertinentes comme les dterminants sont supprimes de la liste prendre en considration.

91 Une fois ces deux tapes accomplies il est possible de construire la liste de requtes. La premire requte contient la totalit des entits, le type de rponse le plus probable et une taille accepte minimale. Les requtes suivantes sont produites par relchements sur la requte initiale : Augmentation de la taille maximale accepte Passage aux types de rponse moins probables Suppression des entits les moins importantes Changement de types pour certaines entits (par exemple _loc _org) Variations de valeurs sur certains types (par exemple Bush Georges Bush) Il faut, bien sr, arrter les relchements avant que les requtes ne deviennent trop gnrales et perdent toute signication relativement la question.

Quniv projet(nom-projet) Cls de recherche Type de rponse projet(nom-projet) univ evaluation(nom-projet) univ np(nom-projet) univ projet(nom-projet) organisation acronyme np(nom-projet) organisation acronyme

Taille autorise 2 2 2 2 2

F IG . 7.2 Exemple de rgle de requte

La gure 7.2 montre un exemple dun tel bloc de requtes. Une question telle que Quelle universit participe au projet Ears ? donne comme rsultats importants de lanalyse une entit Quniv et une projet avec comme valeur Ears. La premire requte cherche donc un nom duniversit dans la mme phrase que le nom du projet. Si le systme nen trouve pas, il essaie dans la phrase prcdente et la suivante (taille maxi=2). Le relchement suivant permet de trouver les cas o le nom du projet a t classi comme tant une valuation (LUniversit de Cambridge participe lvaluation Ears.). Le suivant accepte le nom de projet en tant que simple nom propre. Ears pourrait tre vu ainsi sil ntait pas connu dans les listes de lanalyseur mais simplement grce aux mots dclencheurs projet ou valuation. Enn les deux derniers relchements permettent de rcuprer les cas o le nom de luniversit na pas t reconnu en tant que tel mais en tant quorganisation (Cambridge sans prxe serait probablement class ville et organisation) ou mme simplement acronyme. Cette approche a plusieurs problmes. Le choix de la nature et de lordre des relchement est entirement la charge de lexpert linguiste et ces choix sont en pratique assez difciles car rigides, et du coup arbitraires, en labsence de scores. De plus il est facile de perdre le l : dans lexemple prsent, tir du systme rel, rien ne justie labsence du relchement sur evaluation dans la seconde srie. Le nombre de requtes augmente trs rapidement (plus de 5000 pour le systme QAst 2007), rendant leur maintenance difcile, en particulier pour les synchroniser avec des amliorations et extensions de lanalyseur, et malgr ce nombre leur couverture reste insufsante et des entits importantes sont ainsi parfois perdues pour la recherche.

92

CHAPITRE 7. UNE APPROCHE PRLIMINAIRE POUR QUESTION-RPONSE

Outre ces problmes de dveloppement et de maintenance, ce systme ne permet pas de contrle du temps de rponse. La vitesse dpend uniquement du nombre de passages retourns. Les passages ntant ni scors ni classs, il nest pas possible de xer une limite pertinente sur leur nombre. Cela a parfois provoqu des comportements catastrophiques dans un cadre interactif avec des recherches prenant plusieurs minutes. Cest pour rpondre ces observations quun deuxime systme a t conu puis implment.

Chapitre 8

Un systme plus avanc


8.1 Organisation gnrale
Le systme de base prsent dans le chapitre prcdent nous a permis de dgager un certain nombre de principes de fonctionnement pertinents pour la recherche : Des entits de la question, certaines sont importantes, dautres moins, et dautres sont inutiles. Les entits de la question peuvent tres trouves dans les documents lidentique, ou dans des formes plus ou moins modies, et ce de faon dpendante du type. Les entits de la question permettent de dcider de types de rponse attendus et pour une question donne certains types sont plus pertinents que dautres. La distance des candidats rponse aux lments de la question trouvs dans les documents est prendre en compte dans un score. Il faut pouvoir poser une limite la quantit de travail effectue toutes les tapes de la recherche. Ces principes gnraux nont rien de trs original en soi et sont sous-jacents la plupart des systmes existants. Nous avons cependant dcid de les appliquer plus explicitement que ce nest fait habituellement. Les trois premiers portent sur lutilisation des entits de la question dans le cadre de la recherche de la rponse. Lensemble des dcisions associes (niveaux dimportance, variations de formulation, types de rponses attendus) sont regroupes dans une structure abstraite mais comprhensible que nous nommons un Descripteur De Recherche. Le systme lui-mme est dcompos en une srie dtapes lmentaires dont la structure globale est donne gure 8.1. Les deux tapes critiques pour la performance, extraction des documents et des rponses, ont leur temps de calcul limit par des paramtres de contrle de performance. Enn la notion de proximit est utilise plusieurs niveaux, dans la construction des passages et dans le calcul du score associ aux candidats rponse. Le Descripteur De Recherche est un concept fondamental de ce nouveau systme. Cette structure reprsente la recherche effectuer. Elle est complte, contenant toutes les informations ncessaires la recherche. Elle est structure et synthtique, rsumant ces informations efcacement permettant 93

94

CHAPITRE 8. UN SYSTME PLUS AVANC

F IG . 8.1 Structure gnrale du systme Question-Rponse avanc. Les paralllogrammes bleus reprsentent les donnes fournies. Les boites arrondies orange reprsentent les rgles crites par un humain. Les rectangles jaunes reprsente les modules de calcul. Les trapzes verts les rsultats des modules.

aux algorithmes de sappuyer directement dessus. Et elle est lisible, permettant un humain de les lire, les comprendre, dvaluer leur qualit gnrale et mme de les modier. Le descripteur de recherche

8.2. REPRSENTATION DE LA RECHERCHE


est prsent section 8.2.

95

Un autre point important est le contrle des temps de rponse. Cela implique de contraindre deux facteurs principaux : Le temps pass en entres/sorties Le temps pass en calcul Dans le systme de base, le temps dentre-sorties est dominant, spciquement le temps pris par la lecture des lignes individuelles dsignes comme intressantes par lindex. Les disques durs modernes sont capables de grands dbits en lecture linaire mais ont besoin de quelques millisecondes pour changer dendroit o lire. En consquence de nombreuses petites lectures en des endroits disperss et non prvisibles par le systme dexploitation sont particulirement inefcaces. Il est bien plus efcace de choisir un petit nombre de documents en fonction de la question et de les lire entirement. Une fois ces documents choisis et lus, il faut y chercher les rponses possibles. Cependant, les calculs ncessaires pour estimer le score dune rponse peuvent tre compliqus et donc coteux, et ce cot tend tre proportionnel (ou pire) avec la taille du document. Il est donc intressant dessayer de ne garder que les parties potentiellement pertinentes tant donn la question, ce que nous appellons une dcomposition en passages. Enn, une fois ces passages obtenus, il est temps dextraire les rponses possibles. partir du moment o les diffrents passages obtenus sont classs par un ordre de pertinence, il est l encore possible de contrler le temps CPU utilis en limitant le nombre de candidats examiner. En rsum, ce nouveau systme QA peut tre vu comme constitu de trois parties : Une abstraction de la question via la construction dun Descripteur De Recherche. Une indexation, synthtisant les informations pertinentes des documents analyss pour permettre ensuite une recherche efcace. Un ltrage multi-niveaux de la base de documents, commenant par une slection de documents, suivi dune extraction de passages et enn dune extraction de candidats rponse. Chaque tape du ltre ncessite des calculs plus compliqus que la prcdente, mais travaille sur moins de donnes. Conceptuellement, les tapes de slection de documents et dextraction de passages peuvent tre considres comme la partie Recherche dInformation au sens traditionnel du terme, la dernire tape reprsentant plus spciquement laspect Question-Rponse. De plus lindexation est au service de la recherche, et en particulier de la slection de documents. Elle sera donc prsente aprs la mthodologie de slection de documents.

8.2 Reprsentation de la recherche


Le rle du Descripteur De Recherche (DDR) est de reprsenter de faon synthtique la nature de la recherche effectuer et des rponses attendues. Il se compose de trois parties : Les lments considrs pertinents trouver dans les documents

96

CHAPITRE 8. UN SYSTME PLUS AVANC

Les types possibles de rponse attendue Des paramtres de tuning lment critique 1,0 pers identit(Hans Krasa) 0,2 pers expansion(Hans Krasa) lment secondaire 1,0 action identit(assassin) 0,7 action lemme(assassin) 0,5 action synonyme(assassin) 0,5 subs verbe_subs(assassin) Types de rponse 1,0 date_complete 0,9 mois_annee jour_mois heure 0,7 annee F IG . 8.2 Exemple de Descripteur De Recherche pour la requte Quand a t assassin Hans Krasa ? La gure 8.2 montre un exemple dun tel descripteur. La requte associe, tire de lvaluation QAst 2008, est Quand a t assassin Hans Krasa ?. Le premier lment, la personne Hans Krasa, est considr comme critique, cest dire quil doit se situer proximit de tout candidat rponse examin. Il peut apparatre soit sous sa forme Hans Krasa, identique la question, ce qui est indiqu par identit, soit sous une variante, expansion, o seul le prnom ou le nom est prsent, mais avec un poids plus faible (0,2 au lieu de 1). Le second lment, le verbe, action dans nos tags, est secondaire, indiquant que sa prsence est souhaite et prise en compte au niveau des scores mais nest pas strictement indispendable. Il peut tre rencontr tel quel (identit), sous une autre conjugaison du mme verbe (lemme), sous la forme dun verbe synonyme (synonyme, par exemple tuer) ou en tant que nom suite une transformation morphosyntaxique de verbe en substantif (verbe_subs, par exemple assassinat). Le DDR permet ainsi dappliquer et de pondrer a priori un certain nombre de formes dexpansion de requtes. Enn les types de rponse attendus sont prsents avec des poids associs, le type le plus complet tant favoris. Les paramtres de tuning nont pas t mis dans lexemple. La requte a la forme dune question analyse et optionnellement dun ensemble dlments complmentaires extraits de lhistorique de linteraction choisis par le gestionnaire de dialogue. La premire tape de la construction du DDR est la classication de la question. Les lments de la requte, en particulier, mais pas uniquement, les mots de question (qui, o, quand...) sont utiliss dans un premier classieur base de rgles pour obtenir un type gnral attendu pour la rponse tel que lieu, personne, nombre, organisation... chacune de ces classes est associ un ensemble de valeurs de tuning dont lutilisation est prsente dans la suite du document et qui ont t obtenues par essais systmatiques sur un corpus de dveloppement. Une fois la classe de la question obtenue, un second niveau de classication permet dobtenir lensemble des types de rponse attendus et les poids associs. La slection des lments pertinents est algorithmique et sappuie sur un ensemble de listes de types ayant des proprits spciques. La premire tape est une transformation du rsultat de lanalyse

8.2. REPRSENTATION DE LA RECHERCHE

97

F IG . 8.3 Analyse de qu est devenu Adolf Hitler le 30 janvier 1933 ? action(devenu) pers(prenom(Adolf) nom(Hitler)) time(date_complete(jour(30) mois(janvier) annee(1933))) F IG . 8.4 Rsultat du ltrage initial des entits action(devenu) pers(Adolf Hitler) time(date_complete(jour(30) mois(janvier) annee(1933))) F IG . 8.5 Rsultat de llagage des mini-arbres

de la question (telle que gure 8.3) en un vecteur dentits qui sont dans notre cas les mini-arbres individuels contruits par lanalyse. ce vecteur sont ajoutes les entits supplmentaires fournies par le gestionnaire de linteraction en fonction de lhistorique du dialogue sil y en a. Cest cette dcomposition en entits individuelles, qui nous donne la possibilit den ajouter, qui fournit la exibilit de lentre ncessaire pour les systmes interactifs. De ces entits ne sont ensuite conserves que celles de types considrs intressants (gure 8.4). Il sagit en loccurrence des entits nommes gnrales et spciques, de certaines des entits linguistiques et dun certain nombre dentits thmatiques. Puis ces mini-arbres sont lagus en fonction de plusieurs critres : Certains types (comme nom, prnom) ne sont acceptables qu la racine dun mini-arbre et pas dans ses descendants do ils sont supprims. Certains types (comme Tnaiss qui regroupe toutes les expressions parlant de la naissance) ne sont intressants que pour le type lui-mme et la valeur associe doit tre supprime. Certains types (comme les titres douvrages) doivent tre trouvs tels quels et non comme une combinaison de leurs sous-parties et donnent ainsi lieu une suppression des descendants. Certains types (comme Aauteur qui regroupe les verbes et noms indiquant une cration duvre) sont rducteurs, dans le sens o sils sont prsents les autres types associs la mme valeur doivent tre supprims (gnralement des types linguistiques gnraux comme nom ou verbe) ainsi que leurs descendants.

98

CHAPITRE 8. UN SYSTME PLUS AVANC


lment critique pers Adolf Hitler lment critique time 30 janvier 1933 date_complete 30 janvier 1933 Sous-lment critique jour 30 Sous-lment critique mois janvier Sous-lment critique annee 1933 lment secondaire action devenu Types de rponse 1,0 pers_act 1,0 pers_fonct 0,5 fonctions F IG . 8.6 Descripteur De Recherche brut

Certains types font dailleurs partie de plusieurs de ces catgories, comme Tnaiss qui est la fois suppresseur de valeur et rducteur. Une fois tous ces ltrages effectus (gure 8.5), nous avons les entits de base pour la construction du DDR. Il faut ensuite choisir celles qui seront critiques et celles qui seront secondaires. La mthode est simple : sont critiques toutes les entits nommes et les entits linguistiques et thmatiques considres les plus pertinentes (mots composs et substantifs par exemple, mais pas les verbes) ainsi que leurs descendants et le reste est secondaire. Si aucune entit ne rpond au critre pour tre critique, alors la plus importante est marque critique. Cette classication dimportance est faite daprs un classement relatif des types dentits linguistiques et thmatiques et en second ordre la distance par rapport au dbut de la question. Nous avons ce niveau le DDR brut (gure 8.6). La dernire tape consiste tendre pour pouvoir prendre en compte des alternatives dcriture et de typage des entits. Cest ltape dexpansion, constitue dun ensemble de rgles ajoutant ces variantes quand cest appropri (gure 8.7). Par exemple, une de ces rgles rajoute sur les entits de type organisation la possibilit de les trouver en tant que lieu avec un poids de 0,5. Une autre autorise les noms composs tre trouvs sous forme lemmatise. Les transformations (lemmatisation, transformations morphosyntaxiques, etc) seront dcrites au chapitre suivant. Nous avons vu que tous les choix faits dans cette gnration de Descripteurs De Recherche sont algorithmiques ou bass sur des rgles. Il nexiste pas lheure actuelle de corpus de questions et rponses associs disponibles sufsamment grands pour envisager des approches stochastiques robustes. Les listes de types, poids, choix dalternatives doivent ainsi tre choisis avec un mlange dexpertise et

8.3. LES TRANSFORMATIONS


lment critique 1,0 pers identit(Adolf Hitler) 0,05 np identit(Adolf Hitler) 0,7 pers lemme_simple(Adolf Hitler) 0,015 np expansion(Adolf Hitler) lment critique 1,0 time identit(30 janvier 1933) 1,0 date_complete identit(30 janvier 1933) 0,6 time expansion(30 janvier 1933) 0,7 time lemme(30 janvier 1933) 0,7 date_complete lemme(30 janvier 1933) 0,42 time expansion_lemme(30 janvier 1933) Sous-lment critique 1,0 jour identit(30) 0,7 jour lemme(30) Sous-lment critique 1,0 mois identit(janvier) 0,7 mois lemme(janvier) Sous-lment critique 1,0 annee identit(1933) 0,7 annee lemme(1933) lment secondaire 1,0 action identit(devenu) 1,0 subs verbe_subs(devenu) 0,7 action lemme(devenu) Types de rponse 1,0 pers_act 1,0 pers_fonct 0,5 fonctions F IG . 8.7 Descripteur De Recherche tendu dexprimentation sur les quelques donnes de dveloppement disponibles.

99

8.3 Les transformations


Une des difcults de la recherche dinformations est le grand nombre de formes diffrentes sous laquelle la mme information peut appratre. Par exemple les deux phrases Barack Hussein Obama nat le 4 aot 1961 Hawaii. et Barack Hussein Obama II, n le 4 aot 1961 Honolulu, dans ltat dHawaii, est le 44e et actuel prsident des tats-Unis dAmrique. donnent la mme information

100

CHAPITRE 8. UN SYSTME PLUS AVANC

quant la date de naissance de ce prsident mais sous des formes subtilement diffrentes. Le verbe natre est un temps diffrent, et le nom complet contient un II supplmentaire dans un des cas. Les types de variation sont nombreux. On peut citer : Problmes typographiques et orthographiques, et particulirement des problmes de majuscules ou daccents Dclinaisons (singulier/pluriel, conjugaisons, etc) Variantes morphosyntaxiques (ex : fermerfermeture) Synonymie, hypronymie, hyponymie Prendre en compte ces sources de variations a depuis toujours t un problme. Les problmes de majuscules et daccents peuvent tre supprims en ne les prenant pas en compte dans les comparaisons. Les dclinaisons sont gnralement regroupes via un processus de lemmatisation qui supprime la terminaison variable des mots pour ne laisser que la racine [Sparck Jones & Willett 1997] ou remplace le mot par son lemme, en gnral partir dune table telle que prsente dans le dictionnaire DELAS [Courtois 1990]. Les variantes morphosyntaxiques sont en partie traitables de la mme manire ou encore avec des outils plus pousss tels que Fastr [Jacquemin 1996]. Les problmes de synonymie, hyponymie et hypronymie sont bien plus difciles grer en labsence dune ressource telle que WordNet. Cependant des dictionnaires peuvent aider. Mais avoir lemmatiseurs et dictionnaires ne suft pas. Il faut encore dcider comment les intgrer dans la recherche dinformations. La mthode la plus simple, et la plus souvent employe, est de transformer les documents avant indexation vers une forme canonique (lemmatise ou mme encore les mots remplacs par leurs ttes de drivation). Les mots pertinents de la question sont transforms de la mme faon permettant ainsi de trouver plus de documents potentiellement pertinents. Cependant toutes ces transformations font parfois des erreurs, regroupant des termes qui ne devraient pas ltre, ou simplement scartant trop du sens initial tant donn le contexte du document (un problme courant avec WordNet, o il est parfois difcile de savoir o sarrter dans le suivi des liens smantiques). Nous avons donc dcid dune procdure alternative : les transformations possibles sont ajoutes au Descripteur De Recherche avec des poids associs, laissant lexpert humain la matrise du niveau de conance leur accorder. Les prendre en compte au niveau du systme pose de plus grandes difcults, et nous dtaillerons les solutions proposes dans la section 8.5. Reste le problme de la reprsentation de la construction de ces alternatives. Il serait possible de crer un algorithme spcialis pour chacun des types de variation mais il semble plus intressant, pour faciliter lexprimentation, de les unier autant que possible. Nous avons dcompos ces transformations en une srie de transformations lmentaires : Suppression des accents. Suppression des majuscules. Application dun dictionnaire transformant un mot en un mot. Application dun dictionnaire transformant un mot en plusieurs mots possibles sans lappliquer aux documents. Test dinclusion. Comparer la valeur dun lment venant de la question celui venant dun document consiste appliquer la chane de transformations aux deux et comparer les rsultats. La suppression des accents

8.4. SLECTION ET CLASSEMENT DES DOCUMENTS

101

et majuscules permet de prendre en compte des problmes typographiques courants. Lapplication de dictionnaires mot-mot couvre les cas de lemmatisation (mange manger) et, condition de constituer les listes, les cas derreurs dorthographe les plus courants (ethymologie etymologie) ou de simple variantes dcriture correctes (tsar tzar). Lapplication asymtrique de dictionnaires 1-versn permet de traiter les cas de synonymie (abstinence privation, asctisme, jene, dite) sans aller trop loin dans les liens. Par exemple abdiquer pour synonyme (entre autres) renoncer, de mme que sabstenir. Cependant considrer abdiquer et sabstenir en relation de synonymie, ce quune application symmtrique impliquerait, serait incorrect. Les relations dhypronymie et dhyponymie (antidpresseur mdicament) peuvent tre utilises de la mme faon. Le test dinclusion, enn, vrie si la valeur venant de la question est incluse dans celle venant du document ou vice-versa. Il est adapt aux comparaisons de noms de personnes et permet de retrouver Barak Obama quand lon na que Obama ou linverse. Dnir des chanes de transformations avec des dictionnaires bien choisis permet ainsi de retrouver de nombreuses variantes des lmentes de la question et dy associer des indices de conance a priori.

8.4 Slection et classement des documents


Une fois la question analyse, ltape suivante est la Recherche dInformations, dont le but fondamental est dextraire de la base de documents des sous-parties pertinentes pour rpondre la question. Une grande partie de la performance nale du systme est dtermine ce niveau. Trop peu de sous-parties rsultera en un systme probablement rapide mais qui aura rarement les informations ncessaires pour rpondre. Trop ralentira le systme qui aura cependant plus de chances de rpondre. Obtenir trop de texte, en plus dun effet dltre sur la vitesse, noiera le systme dans les candidats rponse possibles, diminuant sa capacit extraire les rponses correctes. Cest donc, comme bien souvent, une question dquilibre entre prcision et rappel de lextraction. Deux options sont possibles : utiliser un systme de recherche dinformations existant et disponible, tel que Lucene [Apache 2007], ou en crer un spcialis. Utiliser un systme existant impose de suivre ses contraintes, en particulier des recherches sur des mots simples et des formes de transformation en gnral limits une lemmatisation. En consquence, pour pouvoir utiliser nos Descripteurs De Recherche comme cl primaire de slection, nous avons prfr dvelopper nos propres approches. Traditionnellement, les systmes de recherche dinformations retournent une liste de documents. Mais la dnition de document est trs variable. Il peut sagir dun des chiers de la collection, ou dune sous-partie dun chier pr-dcoup au moment de lindexation. Prendre une sous-partie permet davoir moins de donnes traiter et potentiellement une meilleure prcision. Cependant un dcoupage a priori nest pas aussi prcis quun dcoupage fait en fonction du contenu de la question. De plus, dans ltat actuel des performances des disques durs, le temps de lecture dun chier est domin par le temps de latence : lire un chier complet, sil est de taille raisonnable, ne prend pas un temps signicativement plus grand quen lire une partie. Nous avons donc dcid de procder en

102

CHAPITRE 8. UN SYSTME PLUS AVANC

deux temps : une slection de documents suivie par une slection de passages pertinents. Calcul du compte net pour un nud function calcule_compte_net(noeud, cc) Trie les lignes par ordre inverse de poids sort(noeud.lignes[], poids, <) for l in noeud.lignes[] do l.compte_net = max(0, l.compte_brut - cc) cc = cc + l.compte_net end Propage les comptes sur les drivations for n in noeud.derivations[] do calcule_compte_net(n, cc) end end Calcul du compte net pour les nuds du haut for n in ddr.noeud_haut[] do calcule_compte_net(n, 0) end

F IG . 8.8 Algorithme de calcul des comptes nets pour les lignes du DDR partir des comptes bruts et de la structure arborescente. La question se poser est donc comment choisir les documents les plus pertinents de la collection. Lapproche que nous avons choisie est de dnir un score calcul par document en fonction du DDR, et ensuite de choisir les documents avec les meilleurs scores. Une ide simple pour construire un tel score est de suivre la structure arborescente du DDR. On part des comptes doccurrences des diffrents lments du DDR. Le score dun nud individuel est la somme des nombres doccurrences des lignes individuelles pondres par leurs poids plus le score de ses drivations. Le score dune conjonction dlments, ou en dautre termes une combinaison de nuds du mme niveau, se fait par une moyenne gomtrique des scores individuels. Lavantage de la moyenne gomtrique est de se rendre indpendant des frquences moyennes diffrentes des divers lments. Cependant, lanalyse produit des annotations hirarchiques et imbriques. Il en rsulte que dans certains cas, la prsence dune variante dune entre du DDR implique la prsence des autres variantes. Par exemple, si on a (lieu, France) alors on aura (pays, France) puisque pays est une sous-catgorie de lieu. Il semble prfrable dviter de compter plusieurs fois le mme lment. Donc la premire tape consiste calculer un compte net qui prend en compte ces rptitions en suivant lalgorithme gure 8.8. Une fois les comptes nets obtenus, chaque nud reoit comme score associ ses lignes la somme de ses comptes nets pondrs par les poids. De plus les nuds secondaires ont 1 ajout leur score.

8.4. SLECTION ET CLASSEMENT DES DOCUMENTS


Calcul du score pour les lignes dun nud function calcul_score_lignes(noeud) score = 0 for l in noeud.lignes[] do score = score + l.poids * l.compte_net end return score end Calcul du score pour un ensemble de nuds de mme niveau function calcul_score_groupe(noeuds[]) score = 1 for n in noeuds[] do score = score * calcul_score_noeud(n) end Moyenne gomtrique score = pow(score, 1/noeuds.size()) return score end Calcul du score complet dun nud function calcul_score_noeud(noeud) score = calcul_score_lignes(noeud) if(noeud.derivations) score = score + calcul_score_groupe(noeud.derivations) if(noeud.secondaire) score = score + 1 return score end Calcul du score dun document doc.score = calcul_score_groupe(ddr.noeud_haut)

103

F IG . 8.9 Calcul dun score de document partir des comptes nets

Ltape nale remonte les scores jusqu la racine : Chaque nud sans descendant a pour score total son score de lignes. Chaque nud avec descendant a pour score total la somme de son score de lignes et de la moyenne gomtrique des scores de ses descendants directs. Le score nal du document est le score dun nud racine virtuel ayant comme drivation tous les nuds de haut niveau. Lalgorithme complet est dtaill gure 8.9. Un exemple de calcul complet est donn gure 8.10.

104 Ligne du DDR 1,000 identit pers Adolf Hitler 0,700 lemme_simple pers Adolf Hitler 0,050 identit np Adolf Hitler 0,015 expansion np Adolf Hitler 1,000 identit time 30 janvier 1933 1,000 identit date_compl. 30 janvier 1933 0,700 lemme time 30 janvier 1933 0,700 lemme date_compl. 30 janvier 1933 0,600 expansion time 30 janvier 1933 0,420 exp._lemme time 30 janvier 1933 1,0 identit jour 30 0,7 lemme jour 30 1,0 identit mois janvier 0,7 lemme mois janvier 1,0 identit annee 1933 0,7 lemme annee 1933 1,000 identit action devenu 1,000 verbe_subs subs devenu 0,700 lemme action devenu

CHAPITRE 8. UN SYSTME PLUS AVANC


Comptes Brut Net 5 5 5 0 0 0 0 0 2 2 2 0 2 0 2 0 5 3 5 0 6 1 6 0 8 3 8 0 20 15 20 0 0 0 0 0 14 14 Score Lignes 5,000 0,000 0,000 0,000 2,000 0,000 0,000 0,000 1,800 0,000 1,000 0,000 3,000 0,000 15,000 0,000 0,000 0,000 9,800 Score nuds Lignes Driv. Total 5,000 5,000

3,800

3,557

7,357

1,000 3,000 15,000 9,800

1,000 3,000 15,000 10,800

Score nal F IG . 8.10 Calcul complet dun score de document

7,351

Les n documents avec le meilleur score sont ainsi slectionns. Ce nombre est le premier facteur de contrle de la vitesse du systme. Mais calculer ce score demande pouvoir efcacement trouver pour chaque ligne, et donc triplet (type, valeur, transformation), du DDR le compte doccurrences associ dans chaque document. Cest le rle de lindexation.

8.5 Indexation des documents


Le but de lindexation est de synthtiser et rorganiser les informations trouves dans les documents de faon permettre aux tapes de recherche dinformations et dextraction de rponse de sexcuter le plus rapidement possible. Dans notre cas cela demande de : tre capable de trouver les lments du DDR dans un document donn en tenant compte des transformations rciproquement, tre capable de dire quels documents contiennent des lments du DDR tre capable de les compter sans avoir lire les documents

8.5. INDEXATION DES DOCUMENTS

105

Nous avons construit la rponse ces besoins autour de plusieurs structures lmentaires. La plus centrale est une table numrotant toutes les paires uniques (type, valeur) trouves dans les documents. Nos plus gros index ce jour comptent environ 26 millions de paires diffrentes, ce qui nest pas si grand compar aux capacits mmoires actuelles. En consquence cette numrotation nous fournit des identiants numriques permettant non seulement de faire des comparaisons dgalit beaucoup plus efcaces quen comparant des chanes de caractres, mais aussi de construire des vecteurs indexs par ces nombres. Une simple table de hachage permet de retrouver efcacement lindentiant correspondant une paire (type, valeur) donne. Cependant ces identiants ne peuvent tre directement appliqus aux DDR. En effet, il est ncessaire de prendre en compte les transformations. Ceci se fait travers une instanciation du DDR, qui consiste trouver lensemble des identiants de paires (type, valeur) des documents satisfaisant chacun des triplets (transformation, type, valeur) du DDR. Pour cela les transformations sont compiles sous la forme dune suite de transformations lmentaires sur les valeurs suivies dune opration nale de recherche didentiants. Les transformations lmentaires correspondent celles choisies par lutilisateur (suppression des accents, des majuscules, application de dictionnaires 1-1 ou 1-n). La recherche nale peut tre soit une recherche normale en simple comparaison dgalit, soit une recherche sur test dinclusion. Il est donc possible, en partant de linventaire de valeurs venant des documents de prcalculer le rsultat des transformations sur ces valeurs puis de les organiser pour permettre des recherches rapides (tables de hachage par type). Au moment de linstanciation du DDR les mmes transformations sont appliques ses valeurs et les recherches didentiants sont faites dans les structures appropries. Cette recherche peut bien videmment donner comme rsultat plusieurs identiants diffrents. De plus lutilisation de dictionnaires donnant plusieurs mots associs un seul, comme les synonymes, peut produire plusieurs valeurs diffrentes. Plusieurs recherches devront dans ce cas tre effectues et les rsultats regroups. Un exemple dune telle instanciation est donn gure 8.11. Nous avons donc un identiant numrique unique pour chaque paire (type, valeur) prsente dans les documents et la capacit pour chaque triplet (transformation, type, valeur) de trouver lensemble des identiants lui correspondant. Calculer les scores des documents ne demande plus donc que dtre capable de donner pour un identiant donn le compte doccurrences dans chacun des documents. Cela se fait par lintermdiaire dun index invers, qui est simplement un tableau, index par les identiants, de listes de paires (identiant, compte doccurrences). Ces listes sont ordonnes, permettant de les rapprocher en temps linraire avec leur taille, et les calculs de scores se font en manipulant de telles listes. Pour rendre plus efcace les tapes suivantes, prsentes dans les sections suivantes, une transformation des documents est faite vers un format que lon pourrait qualier de numrique plat. Chaque document devient un tableau de structures de taille xe, contenant un identiant de paire (type, valeur), des pointeurs vers llment suivant et prcdent au mme niveau dans les arbres si ils existent, et des pointeurs (implicites) vers le premier de ses descendants et son pre, l encore si ils existent. Les pointeurs prcdents/suivants sont rutiliss pour lier les lments de haut niveau des phrases. Cette transformation, associe des tables de positions de dbut de ligne dans le tableau de struc-

106 Ligne du DDR identit pers Adolf Hitler identit np Adolf Hitler expansion np Adolf Hitler lemme_simple pers Adolf Hitler identit jour 30 lemme jour 30 identit mois janvier lemme mois janvier identit annee 1933 lemme annee 1933 identit time 30 janvier 1933 identit date_complete 30 janvier 1933 expansion time 30 janvier 1933

CHAPITRE 8. UN SYSTME PLUS AVANC


Id 137021 600006 5209329 137021 13402536 1638 1638 710 710 139776 139776 865131 865132 1637 5644 88431 139775 865131 3080208 865131 865132 1637 5644 88431 139775 865131 3080208 7646 328 1863 lment trouv pers Adolf Hitler np Hitler np Adolf pers Adolf Hitler pers Adolf HITLER jour 30 jour 30 mois janvier mois janvier annee 1933 annee 1933 time 30 janvier 1933 date_complete 30 janvier 1933 time 30 time janvier time 30 janvier time 1933 time 30 janvier 1933 time janvier 1933 time 30 janvier 1933 date_complete 30 janvier 1933 time 30 time janvier time 30 janvier time 1933 time 30 janvier 1933 time janvier 1933 action devenu action devient action deviennent (37 autres possibilits)

lemme time 30 janvier 1933 lemme date_complete 30 janvier 1933 expansion_lemme time 30 janvier 1933

identit action devenu verbe_subs subs devenu lemme action devenu

F IG . 8.11 lements des documents obtenus par instanciation du DDR de la gure 8.7.

tures, permet des recherches, comparaisons et dplacements trs rapides dans les documents. Les mots non-typs sont perdus, mais la prsence dun type mot inconnu dans lanalyse assure quil nen existe en pratique pas.

8.6. SLECTION ET CLASSEMENT DES PASSAGES

107

8.6 Slection et classement des passages

Les documents sont choisis suivant le score dni section 8.4 valu partir des informations fournies par lindexation dcrite section 8.5 puis ils sont chargs en mmoire. Ltape suivante est alors de slectionner des passages pertinents : des blocs de lignes ayant de fortes chances de contenir la rponse cherche. Le but est double : diminuer la quantit de texte traiter au moment de lextraction de la rponse, et diminuer le bruit d aux candidats rponse situs loin des lments du DDR. Lalgorithme de slection des passages sappuie sur plusieurs concepts. Le premier est celui de satisfaisabilit du DDR. tant donn un Descripteur De Recherche avec sa structure et ses lments critiques et secondaires, un ensemble dentits E venant dun document le valide-t-il ? Un ensemble dlments de DDR est valid si tous les lments critiques sont valids ou, si il ny a pas dlment critique, au moins un des lments secondaires lest. Un lment seul est valid si au moins un des triplets (transformation, type, valeur) qui le caractrise accepte une des entits de E ou alors, si il a une drivation, ses lments drivs en tant quensemble sont valids. Le DDR est bien videmment valid si lensemble form par ses lments de haut niveau est valid. Fondamentalement, cette dnition rcursive veut simplement dire que les lments critiques den haut doivent tre tous prsents, soit en tant que tels soit en tant que combinaison de leurs lments drivs. Nous cherchons donc obtenir des parties de document dont les entits sont capables de satisfaire le DDR. Pour dcouper ces blocs nous nous appuyons sur un concept de distance dinuence des entits. Dcoupant le document en lignes, correspondant en moyenne une phrase ou lquivalent dans un cas oral, nous considrons quune ligne satisfait le DDR si toutes les entits ncessaires sont prsentes une distance maximale de range lignes de celle observe. Cet ensemble de lignes satisfaisant le DDR permet dobtenir un premier dcoupage en passages. Certains des blocs connexes obtenus peuvent cependant tre un peu grands. Pour essayer de limiter cela nous tentons de subdiviser les blocs de taille en lignes suprieure size. La mthode consiste passer temporairement les lments secondaires du DDR en critique, un par un, et tester nouveau la satisfaction du DDR jusqu obtenir des sousblocs sufsamment petits ou quil ny a plus dlment transformer. Cette phase fournit ainsi un second dcoupage en blocs. Ces blocs ont cependant un problme : ils ne contiennent pas toujours les entits ayant justi leur cration. Prenons le cas dun DDR avec deux lments critiques dont des entits les instanciant sont disposes sur deux lignes spares. Si ces lignes sont lgrement plus loignes que la distance dinuence certaines lignes situes au milieu seront conserves mais les deux lignes contenant les entits ne le seront pas. Pour sassurer que ces entits sont bien prsentes dans les blocs il faut donc dans une dernire passe largir leur frontires au besoin pour les rcuprer. Algorithmiquement, nous voyons quune reprsentation des entits prsentes dans une ligne permettant de tenir efcacement compte des distances dinuences et permettant de calculer rapidement si le DDR est satisfait est indispensable. Une observation fondamentale est que pour calculer une satisfaction de DDR les entits spciques rencontres ou leur nombre doccurrences dans les lignes individuelles ne sont pas importantes, seuls les nuds auxquelles elles appartiennent suite linstanciation sont utiles. Lensemble des entits prsentes dans une ligne donne peut ainsi tre rduit

108 Prconstruction de la table nud/entit

CHAPITRE 8. UN SYSTME PLUS AVANC

Allouer un tableau dentiers emask de taille gale au nombre dentits diffrentes dans les documents initialis 0. Numroter les nuds du DDR en commenant a 0. for n in ddr.noeuds[] do mask = 1 << n.numero for l in n.lignes do for e in l.entites do emask[e.identiant] = emask[e.identiant] | mask end end end Construction des vecteurs de bits de nuds par ligne Allouer deux tableaux dentiers lmask et gmask de taille gale au nombre de lignes du document initialiss 0. for l in document.lignes[] do for e in l.entites do lmask[l.numero] = lmask[l.numero] | emask[e.id] end end for lnum in 0..document.lignes.size()-1 do for ldest in max(0, lnum-range)..min(document.lignes.size()-1, lnum+range) do gmask[ldest] = gmask[ldest] | lmask[lnum] end end Les vecteurs de bits, inuence incluse, sont disponibles dans gmask

F IG . 8.12 Algorithme de calcul des vecteurs de bits reprsentant les prsences dentits par ligne

un vecteur de bits, un bit par nud du DDR, indiquant quels nuds elle valide. Une combinaison de prsence dentits se calcule alors par un simple ou binaire. De plus ces nuds sont peu nombreux, une quinzaine au grand maximum, permettant de stocker ce vecteur de bits dans un entier du processeur. Cela, combin aux identieurs numriques dentits, permet de construire un algorithme efcace pour calculer lensemble des entits, vues en tant que nud, inuenant chaque ligne. Cet algorithme est dcrit gure 8.12. La liste des entits validant chaque ligne est obtenue par linstanciation du DDR dcrite section 8.5. Lensemble des entits prsentes par ligne est obtenue efcacement grce au format numrique plat dcrit dans la mme section.

8.6. SLECTION ET CLASSEMENT DES PASSAGES


lment du DDR Numro Reprsentation binaire pers Adolf Hitler 0 time 30 janvier 1933 1 jour 30 2 mois janvier 3 annee 1933 4 action devenu 5 Expression de validation : b0 (b1 (b2 b3 b4 ))

109

F IG . 8.13 Numrotation des lments du DDR et expression logique de statisabilit associe Extension dune frontire Les paramtres sont la position de la frontire et la direction de dplacement, le rsultat la nouvelle position. lmask et gmask viennent de lalgorithme gure 8.12 function replace_frontiere(line, direction) Rcupre lensemble des inuences agissant sur la frontire cur_mask = gmask[line] while(cur_mask != 0 && line > 0 && line < doc.line_count-1) do Supprime les inuences justies par les entits de la ligne courante. cur_mask = cur_mask & lmask[line] Supprime les inuences qui nexistent plus dans la ligne suivante, et donc venant de lautre cot. cur_mask = cur_mask & gmask[line+direction] Si il en reste alors on dplace la frontire et on continue. if(cur_mask != 0) line = line + direction end return line end F IG . 8.14 Algorithme dexpansion des frontires des blocs. Une fois ces vecteurs obtenus il faut ensuite tre capable de savoir quelles lignes satisfont le DDR. Cela peut tre ramen un test logique sur le vecteur de bits. En effet : Un groupe de nuds contenant un ou plusieurs lments critiques est satisfait si tous ses nuds critiques sont statisfaits (et logique). Un groupe de nuds ne contenant que des lments secondaires est satisfait si au moins un des nuds est statisfait (ou logique). Un nud individuel est satisfait si les entits prsentes le valident (test de bit dans le vecteur) ou ses drivations sont satisfaites en tant que groupe (ou logique entre les deux rsultats). Le DDR lui-mme est satisfait si le groupe des nuds de plus haut niveau est satisfait. Il est ainsi facile de construire rcursivement une expression logique effectuant le test. La gure 8.13

110 Ligne 0 1 2 3 4 5 6 7 8 9 10 Entits ... ... ... annee(1933) ... ... jour(30) mois(janvier) pers(Adolf Hitler) ... ... ... lmask

CHAPITRE 8. UN SYSTME PLUS AVANC


gmask DDR cur_mask Bloc

F IG . 8.15 Exemple dextraction de bloc. lmask indique les nuds du DDR directement valids par les entits prsentes. gmask propage ces nuds sur la distance dinuence (range=2). DDR indique si gmask satisfait le DDR, nous donnant le bloc initial. cur_mask indique lensemble dinuence restant justier suivant lalgorithme dexpansion de frontire. Bloc indique les lignes nalement conserves. donne un exemple de numrotation des lments du DDR et lexpression de satisabilit associe. La premire construction des blocs ainsi que leur subdivision si ncessaire par passage dlments de secondaire critique ne pose plus alors de difcult algorithmique particulire. Reste lexpansion nale pour retrouver les entits manquantes. Lalgorithme de cette passe sappuie sur les deux tableaux lmask et gmask qui reprsentent les entits des lignes et leur inuence. Les frontires vont alors tre dplaces jusqu ce que toutes les sources des inuences les atteignant aient t indenties ou que les entites concernes se trouvent vers lintrieur du bloc. Lalgorithme exact est donn gure 8.14. Un exemple de droulement complet de ces algorithmes est gure 8.15. Les passages obtenus, il suft alors de leur donner un score. Nous avons choisi de le calculer de la mme manire que les scores de documents partir des comptes doccurrences des entits individuelles. Seule la procdure de calcul des comptes nets est change. En effet avoir le texte des passages permet de mesurer exactement les inclusions des entits les unes dans les autres. Chaque entit validant plusieurs lignes dans les nuds du DDR nest ainsi compte quune seule fois, pour la ligne qui a le plus grand poids, et seulement si elle nest pas incluse dans une autre entit validatrice. Cependant la relative petite taille des passages rend ces scores un peu abrupts. Ils ont besoin dtre lisss avec les scores de document. Nous avons choisi une moyenne gomtrique pondre par un coefcient w pour cela : 1w w Sdocument (8.1) Slisse = Sbrut Les passages peuvent ensuite tre examins par ordre de score par ltape suivante, lextraction des rponses. Cet ensemble dalgorithmes est contrl par 3 valeurs, range, size et w. Nous appellons ces valeurs

8.7. EXTRACTION ET CLASSEMENT DES RPONSES

111

des variables de tuning. Leurs valeurs sont xes par essais systmatiques sur des donnes de dveloppement, comme dcrit section 8.8.

8.7 Extraction et classement des rponses


Une fois les passages obtenus et leurs scores calculs, il est temps dexaminer les candidats rponse. Est considr comme rponse possible la question pose toute entit prsente dans un passage dont le type fait partie des types prdits pour la rponse. Sont cependant supprimes toutes les entits validant des lignes du DDR ou leurs descendants. En effet ces entits sont bien videmment extrmement favorises par la recherche, et les questions qui contiennent leur propre rponse sont rares dans un besoin rel. Nous avons dcid de construire un score se basant sur une mesure de distance entre le candidat et les entits validant le DDR situes dans le mme passage. Cela nous rend un peu similaire [Plamondon & Kosseim 2002] o un score de proximit est utilis. Plus une entit validant le DDR est proche du candidat, plus elle ajoutera au score nal. Ce genre de distance est souvent mesur en nombre de mots, mais dans notre cas, nous pouvons faire mieux. En effet les entits de lanalyse forment des blocs de mots, pas trs lointains de la notion de chunk, reprsentant chacun un objet ou concept spcique. Il est donc plus intressant de compter les entits de haut niveau traverses plutt que les mots, permettant dobtenir le mme cot unitaire pour traverser Sarkozy ou prsident de la Rpublique Franaise. Nous dnissons donc d(e, a), la distance entre un candidat rponse et une entit validant une ligne du DDR. Mais nous ne voulons pas non plus que toutes les entits du passage ajoutent au score, seulement celles qui semblent les plus pertinentes vis--vis du candidat rponse. Lanalyse ne permet cependant pas de savoir quelles entits sont en relation smantique avec le candidat rponse. Une approximation simple pour choisir ces entits pertinentes est de prendre le sous-groupe maximisant le score nal tout en vitant les redondances au niveau du DDR. tant donn un ensemble E de paires (e, l) contenant une entit dun passage et la ligne quelle valide (la mme entit pouvant apparatre dans plusieurs paires). Un tel ensemble est considr non-redondant si : Deux paires diffrentes de E ne valident pas une ligne du mme nud (redondance interne aux nuds). Deux paires diffrentes de E ne valident pas deux nuds dont lun est descendant de lautre (redondance structurelle). On associe chacune de ces paires (entit du passage, ligne du DDR) un score partir de la distance entre lentit et le candidat d(e, a), le poids associ la ligne du DDR w(l) et une variable de tuning . Le score pour E est la somme des scores individuels. S (E, a) =
(e,l)E

w(l) (1 + d(e, a))

(8.2)

Il est ncessaire de rajouter 1 la distance pour viter des divisions par zro. Pour tous ces ensembles E non-redondants possibles, nous choisissons celui donnant le meilleur score. Multiplier ce score par

112

CHAPITRE 8. UN SYSTME PLUS AVANC

le poids associ au type de a en tant que rponse nous donne un premier score individuel pour a : S1 (a) = w(a) max
E (e,l)E

w(l) (1 + d(e, a))

(8.3)

Ce score brut nest pas sufsant. En particulier il ne prend pas en compte ladquation du passage ou du document au thme de la question, et ne tient pas non plus compte de la redondance (mme rponse plusieurs endroits diffrents). Nous commenons par le lisser avec le score de passage Sp :
1 S2 (a) = S1 Sp

(8.4)

Pour tenir compte de la redondance, nous considrons que toutes les instances de la mme paire (type, valeur) reprsente la mme rponse r . Notant Ar lensemble des instances de candidat rponse ayant r comme (type, valeur), son score global primaire est la somme des scores individuels : S1 (r ) =
aAr

S2 (a)

(8.5)

Mais cette addition favorise trop les entits frquentes. Donc une dernire compensation est ncessaire pour obtenir le score nal. Partant des comptes doccurrences Cd (r ) de r dans les documents et Cp (r ) dans les passages, le score nal est : S (r ) = S1 (r ) Cd (r ) Cp (r ) (8.6)

et sont l encore des variables de tuning. Regroupant tout, cela nous donne comme quation complte : w (l) 1 S (a) p aAr (w(a) max Ea (e,l)Ea (1+d(e,a)) ) S (r ) = (8.7) Cd (r ) Cp (r ) En rsum les entits validant le DDR participent chacune au score hauteur du poids de la ligne du DDR associe divise par leur distance au candidat. Ce score est ensuite pondr par le poids associ au type de rponse, puis liss avec le score de passage. Les scores individuels des diffrentes instances de la mme paire (type, valeur) sont additionns, puis partiellement compenss par leurs comptes doccurrences dans les documents et dans les passages. En pratique, examiner la totalit des candidats rponse peut poser des problmes de performances dans certains cas. En particulier des types trs courants comme substantif sont acceptables en rponse pour les questions considres vagues par lanalyse, ou simplement hors typologie prcise. Du coup le nombre moyen de candidats rponse par ligne de passage est extrmement variable dune question lautre et la limitation sur le nombre de documents charger est un contrle insufsant. Nous nous retrouvons devoir choisir entre un croulement des performances sur les questions vagues du point de vue de lanalyse et une incapacit de rpondre sur les questions prcises par manque de candidats. Nous avons donc un second niveau de contrle qui est le nombre maximal de candidats examiner. Les passages sont pris un par un dans lordre de leurs scores et les candidats prsents

8.8. OPTIMISATION DES PARAMTRES DE TUNING

113

examins. Lextraction sarrte quand le nombre de candidats examins atteint ou dpasse cette limite. Il est noter que la limite nest consulte que quand on passe dun passage un autre, ce qui rend limplmentation lgrement plus simple et efcace sans perte de vitesse dtectable. Dun point de vue algorithmique calculer ces scores est plus simple quil ny parat au premier abord. La slection de lensemble E dentits validant des lignes du DDR optimal pour un candidat donn respecte le principe doptimalit de Bellman [Press 1957] grce sa construction partir dadditions et de maximum entre valeurs strictement positives et son indpendance entre nuds. Il est donc possible dappliquer la Programmation Dynamique, en calculant le score par remonte des feuilles aux lments de haut niveau, slectionnant la meilleure possibilit chaque fois. La seule difcult reste le calcul des comptes doccurrence, mais ceux-ci sont disponibles dans lindex pour les documents et calculables au vol pour les passages.

8.8 Optimisation des paramtres de tuning


Nous avons vu que nos diffrents algorithmes sappuient sur une srie de variables dites de tuning. La slection de passages sappuie sur deux variables, range et size, pour diriger sa slection de lignes des documents et sur la variable w, coefcient de lissage entre son score brut et celui du document. Le calcul du score des candidats sappuie sur 4 variables de plus, , , et , agissant respectivement sur la prise en compte des distances entre les entits et le candidat, le lissage avec le score de passage et la prise en compte des comptes doccurrences dans les documents dun ct et les passages de lautre. De plus deux variables contrlent la vitesse globale du systme, le nombre maximal de documents lire et le nombre maximal de candidats tudier. Ces deux dernires variables sont plus faciles tudier et font lobjet du chapitre 14. Modliser ces 7 variables de tuning et leurs interactions est a priori trs difcile et nest, heureusement, pas indispensable. En effet tout ce que nous voulons cest un ensemble de valeurs donnant de bons rsultats. En labsence de rsultats quant la convexit de lespace de recherche, qui permettraient denvisager des algorithmes plus volus, ces valeurs peuvent tre obtenues par essais systmatiques sur un corpus de dveloppement. Cela reprsente un nombre dessais assez important, 1,2 million pour 4 paires (range, size) et toutes les valeurs de 0 1 par pas de 0,1 pour les autres sauf pour que nous faisons varier entre -1 et 1 ou encore 57 024 essais en choisissant un pas de 0,2. La structure du systme permet cependant de factoriser une grande partie de ces essais. En effet pour une question donne la slection des documents est identique quelles que soient les valeurs. La slection de passages varie, mais une fois celle-ci effectue et les scores de passages calculs les candidats rponse examins restent les mmes. Les scores peuvent ainsi tre calculs en mme temps pour toutes les valeurs de , , et , acclrant grandement la recherche globale. Cette systmatisation et automatisation de loptimisation de ces variables nous a permis de constater quil tait intressant de les varier dune question lautre. Nous navons cependant pas de mthode capable de trouver des valeurs optimales pour chaque question individuelle, et quelques mthodes

114

CHAPITRE 8. UN SYSTME PLUS AVANC

de clustering automatique nont rien donn de pertinent, probablement d un manque de donnes dapprentissage. Nous avons cependant constat quutiliser le rsultat du classieur slectionnant le type gnral de rponse attendu (section 8.2) fournit une classication des questions pertinente pour le choix des valeurs de tuning. Nous utilisons donc une srie de valeurs par type gnral.

Chapitre 9

Autres types de question


Rpondre des questions factuelles est un problme intressant, mais cela est loin de couvrir lensemble des questions quun utilisateur peut avoir envie de poser. Nous avons fait des travaux prliminaires pour traiter dautres types de question. Aucune valuation srieuse nen a encore t faite, mais ils ont lintert de montrer comment tout ou partie de lapproche propose pour les questions factuelles peut tre rutilis en support dune analyse adapte pour traiter dautres problmes. Le premier type de question est les listes fermes. Ces questions, telles que Quels sont les cinq pays premiers producteurs de ptrole ?, attendent une liste de plusieurs rponses et prcisent le nombre attendu explicitement. Nous avons aussi dcid de nous limiter dans un premier temps aux cas o la liste rponse apparat dans une courte partie dun document, voulant viter les difcults lies la fusion multi-documents. La mthode est alors simple : aprs une extension de lanalyse pour la rendre capable de dtecter ce type de question et disoler le compte, un Descripteur De Recherches est construit de la manire habituelle. Le compte, n, est extrait indpendamment et ne fait pas partie des lments du DDR. Les candidats rponse sont valus, donnant pour chaque rponse possible un score global. Une seconde passe a alors lieu sur les passages avec une fentre glissante dune taille en lignes dcide lavance. Chaque ensemble de candidats rponse contenu dans une telle fentre devient alors un candidat de rponse liste. Les listes candidates de plus de n lments sont coupes n en gardant seulement les lments ayant le score global le plus lev. Finalement chaque liste est value en lui donnant comme score la somme des scores de ses lments individuels. Comme dhabitude, celle avec le meilleur score est considre la meilleure. Cette mthode a donn des rsultats tout fait raisonnables sur les donnes de dveloppement et le test. Les checs, particulirement en anglais, taient plutt dus des checs danalyse des lments de la liste dans les documents, et donc pas fondamentalement causs par la demande de liste. Deux types de questions que nous avons traites de faon similaire sont les questions pourquoi et comment telles que Pourquoi le ciel est-il bleu ? ou Comment peler les tomates ?. La encore nous nous limitions des rponses simples, devant tenir dans une phrase, ou ligne de document. Notre approche 115

116

CHAPITRE 9. AUTRES TYPES DE QUESTION

a repos sur la dtection de marqueurs linguistiques du type de phrase que nous cherchions, tels que parce que ou est le rsultat de pour les questions pourquoi ou encore en + participe prsent pour les comment. Ces marqueurs se voient attribuer un type spcique et ce sont eux qui sont recherchs en tant que candidat rponse. Le calcul de score est lgrement modi : les candidats individuels sont considrs indpendants mme sils ont la mme valeur, il ny a pas dadditions de scores pour obtenir un score global, et les comptes doccurrence et scores de passage sont ignors ( = = = 0). Les autres variables de tuning (range, size, w et ) sont xes de manire empirique. De ce score modi ressort un meilleur candidat que les autres, et la rponse donne est la phrase complte qui le contient. En loccurrence nous extrayons les phrases Le bleu du ciel est le rsultat de la diffusion de la lumire solaire par les composants de latmosphre et Peler les tomates en les plongeant quelques secondes dans une casserole deau bouillante, qui sont plutt pertinentes. Un autre type de question qui demande lextraction de phrases est les questions oui/non, telles que Est-ce que lAfrique du sud fait partie des siges permanents au conseil de scurit des Nations Unies ?. Cependant il ny a pas de marqueurs linguistiques dans les documents associs aux rponses ce type de question. Nous nous sommes donc appuys sur lextraction de passages pour extraire une phrase pertinente en forant range a 0 et size 1. Les quelques phrases extraites rpondent bien souvent effectivement la question. Cependant la rponse attendue est un oui ou un non, et estimer la valeur de ces phrases nest pas facile. Notre mthode brutale consistant dtecter la prsence dune ngation est nettement insufsante, comme pour la phrase Le Brsil, lInde et lAfrique du Sud intensieront leur campagne pour lobtention de siges permanents au conseil de scurit des Nations Unies quand leurs dirigeants se rencontreront Pretoria, la capitale sud-africaine. En effet il ny a pas de ngation dans cette phrase alors quelle indique clairement que lAfrique du Sud nest pas encore membre permanent. Le dernier type sur lequel nous avons fait des travaux prliminaires sont les questions de dnition, comme Quest-ce que le cabernet typique ?. Cest l o nous nous sommes le plus loigns des algorithmes prsents. Une analyse spcique dtecte les structures linguistiques caractristiques dune dnition, nom est-un expression-multi-mots par exemple, et marque lobjet dni et la dnition. Ces dnitions dtectes sont ensuite rcupres pour constituer une base de donnes. Cette base sert ensuite rpondre aux questions. Pour arriver trouver les dnitions mme face des variations dcriture, le principe de transformation dcrit chapitre 8.3 est utilis sur la cl de recherche. Nos premires expriences montrent que ce principe de constitution de base de donnes est approfondir. Si nous sommes capables den constituer sur divers types de question ou dinformation avec une grande prcision nous devenons capables de rpondre certaines questions trs rapidement. Cela revient fondamentalement construire des bases de connaissances strutures partir des documents. Nanmoins il faut pouvoir valuer la qualit de ces entres, ce dont nous ne sommes pas encore capables.

Discussion
Nous avons prsent une approche gnrale et un ensemble dalgorithmes dont le but est de rpondre au problme de la rponse des questions factuelles simples sous deux contraintes fortes issues du domaine de linteraction : documents en domaine ouvert aux formats libres exibilit de lentre qui ne se limite pas une simple question, des entits complmentaires pouvant tre fournies par le gestionnaire de dialogue contrle de la vitesse du systme, pour assurer une bonne interactivit Rpondre ces contraintes est pass par deux originalits. La premire est que lensemble des algorithmes reposent sur une analyse unie multi-niveaux qui structure lensemble des textes et questions en entits individuelles ayant la forme darbres de types avec les mots originaux au niveau des feuilles. Ces entits sont utilises la fois comme cls de recherche, rponses potentielles et structuration gnrale du texte. La seconde originalit est la construction dun Descripteur De Recherche (DDR), qui reprsente ce que le systme a compris de la demande. Ce descripteur, abstrait mais comprhensible par un humain, permet de saffranchir de la forme de lentre. Nous avons prsent un algorithme pour le gnrer partir dune phrase optionnellement accompagne dentits complmentaires, mais lon peut imaginer que de tels descripteurs soient directement construits partir de rsultats de systmes de raisonnement ou autres approches algorithmique. Essentiellement, le DDR peut tre vu comme similaire select dans une base de donnes, qui serait les documents dans lesquels les recherches sont effectues. Nous envisageons dailleurs de dtecter certains DDR caractristiques de recherches en domaine spcique pour les rediriger vers de vraies bases de donnes. Les recherches de noms dacteurs ou de ralisateurs de lms pourraient par exemple donner lieu une requte sur une base en ligne telle que IMDB plutt que dans une base de documents libres. Obtenir linformation est aprs tout le but et la recherche dans des documents libres nest quun moyen. Notre concept de Descripteur De Recherches semble tre un outil de communication intressant entre un ou plusieurs systmes de recherche dinformations au sens large et un systme tel quun systme de dialogue intress uniquement par les rsultats. La chane de traitement cherche donc extraire les meilleures rponses possibles tant donn un tel descripteur. premire vue, lapproche est assez traditionnelle : une passe de Recherche dInformations slectionne des documents, qui sont ensuite dcoups en passages dans lesquels la rponse est recherche. On peut dailleurs noter un certain dsaccord dans la littrature pour savoir si le d-

117

118

CHAPITRE 9. AUTRES TYPES DE QUESTION

coupage en passages fait partie de la Recherche dInformations ou non. Nous avons cependant une certaine diffrence de philosophie. Lide traditionnelle est, en strotypant un peu, de chercher le document o se trouve la phrase qui contient la bonne rponse. [Litkowski 2001] par exemple mesure quel rang la sortie de leur recherche se trouve le premier document contenant la bonne rponse, et sappuie sur ces rsultats pour limiter leur analyse aux 20 premiers. Nous considrons que dans le cadre de questions poses par des utilisateurs rels, et sur une base de documents sufsamment grande et adapte, les bonnes rponses apparaissent plusieurs fois, voire mme un grand nombre de fois. Cela est connu sous le terme gnral de redondance. Notre but a donc t non pas tellement de trouver le bon document ou la bonne phrase mais plutt daugmenter le taux de prsence de la bonne rponse par rapport la quantit de texte traiter. Nos approches sont fondamentalement plus des approches de ltrage, o nous cherchons supprimer le texte non-pertinent. Il est ainsi possible de voir notre slection de documents comme comprenant deux tapes : une suppression de tous les documents qui ne peuvent pas rpondre la question, puis dans un deuxime temps un calcul de score pour faire une slection lie aux besoins en temps de rponse. De mme la slection de passages supprime toutes les lignes trop lointaines des lments dcrits dans le DDR, avant de calculer un score prsent l encore pour la gestion de la vitesse. Cet aspect est aussi visible dans le calcul des scores de rponse. Il est trs similaire dans le principe des scores de compacit prsents dans [Gillard, et al. 2006b]. Cependant il intgre dans sa dnition la notion de redondance, en tenant compte de toutes les instances dune rponse candidate et en intgrant des mesures compensatoires du biais quune utilisation aveugle de la redondance pourrait provoquer, en favorisant trop les entits naturellement frquentes dans la langue. Ce score, qui est un des points les plus importants dans la qualit globale des rponses du systme, reste encore trs adhoc. Il mriterait dtre construit sur des bases plus solides, et un travail est en cours pour le rednir sur des bases probabilistes, un peu dans lesprit de [Gillard, et al. 2007]. Enn le dernier point mettre en valeur dans le systme propos est la facilit avec laquelle il permet lexprimentation. Le Descripteur De Recherche, tout dabord, par sa reprsentation synthtique et complte de la recherche effectuer permet un bon niveau de diagnostic en voyant directement limpact des modications sur ses rgles de gnration ou sur les rgles de prdiction des types attendus. Mais il est aussi possible de modier directement son contenu pour mesurer limpact de corrections sur les tapes suivantes. De mme ces tapes suivantes, choix des documents, des snippets et extraction des rponses ont des fonctionnalits et fonctionnements relativement simples comprendre permettant de savoir, en comparant DDR et documents, pourquoi un document ou un passage spcique a t perdu un niveau donn et dagir en consquence. Il est l de mme possible de changer ces rsultats intermdiaires (liste de documents ou de passages) pour tudier leffet de corrections ou variations sur la suite. Tout cela est mis en exergue par la vitesse leve de lensemble, permettant un retour rapide sur toute modication.

Troisime partie

valuation du systme Question-Rponse

119

Introduction
Rendre un ordinateur capable de rpondre nimporte quelle question qui lui soit pose est un vieux rve de lIntelligence Articielle. Cependant cest en soi un problme un peu vague. la n du sicle dernier, la Recherche dInformations consistait devoir retourner un ensemble de documents en rponse une requte. Les spcialistes du domaine ont alors ressenti un besoin de se rapprocher plus de cet idal de lIA en tentant de donner des rponses plus prcises que des documents. tant des habitus de lvaluation, ils ont cherch dnir une tche, ou en dautres termes une sous-partie bien dnie du problme qui paraisse faisable et valuable. Paraphrasant [Voorhees & Tice 1999], la tche devait tre ni trop simple ni trop difcile de faon ce que les rsultats permettent dapprendre quelque chose sur la viabilit des diffrentes approches envisages. Depuis, toutes les valuations du domaine ont eu essayer de maintenir cet quilibre entre intrt applicatif, scientique et difcult. Concevoir une telle campagne dvaluation pose des problmes. Nous rentrerons plus dans les dtails au chapitre suivant mais les questions essentielles se poser sont : quels types de questions voulons-nous nous intresser ? Sommes-nous capables den crer ? Sommes-nous capables dvaluer les rponses ? Il ny a pas fondamentalement de bonne ou de mauvaise rponse ces questions. En dehors dun contexte applicatif direct ces choix ne peuvent tre quarbitraires, mme si des critres pertinents de faisabilit et de lvaluation et des systmes sont pris en compte. Face ces questions, les campagnes dvaluation ont beaucoup volu dune anne sur lautre et chaque instance a eu ses caractristiques propres. Nous prsentons donc un panel reprsentatif de ces campagnes, en mettant en avant les points les caractrisant. Nous prsentons aussi cette occasion les mtriques utilises dans le domaine pour quantier la qualit des systmes. Une fois ce tour dhorizon fait, nous nous intressons aux campagnes spciques auxquelles nos systmes ont particip. Nous prsentons les caractristiques spciques de ces campagnes et les rsultats que nous avons obtenus. Cependant regarder des rsultats bruts ne donne quune partie de linformation. Nous avons donc examin le comportement du systme suivant plusieurs aspects. Le premier a t de quantier limpact

121

122 sur les rsultats de la taille du corpus de questions dentranement. Ce corpus agit deux niveaux : il sert estimer les paramtres de fonctionnement optimaux, mais aussi il donne des exemples pertinents pour les linguistes travaillant sur lanalyse de la langue et la prdiction de type attendu pour les rponses. Notre tude sparera les deux contributions. Un autre aspect est une analyse modulaire. Lanalyse de la langue, la prdiction des types possibles pour la rponse et lextraction de passages sont des modules spars pour lesquels il nous a paru intressant dvaluer les contributions individuelles et en combinaison. Enn un dernier aspect est le contrle de la vitesse. Nous avons prvu dans les algorithmes deux paramtres pour contrler la vitesse de rponse du systme. Il sagit du nombre maximum de documents examins et du nombre maximum de candidats rponse extraits. Le dernier chapitre avant la discussion globale sera consacr une analyse du comportement du systme en fonction de variations sur ces paramtres.

Chapitre 10

Les campagnes dvaluation Question-Rponse


10.1 Prsentation gnrale des campagnes dvaluation en QuestionRponse

Lvaluation internationale pionnire du domaine Question-Rponse est TREC (Text REtrieval Conference), organise par le NIST aux Etats-Unis [Voorhees & Harman 2005]. Elle a introduit la premire tche Question-Rponse en 1999 et en a organis une chaque anne jusquen 2007. Pour 2008, la confrence, renomme TAC (Text Analysis Conference), sest tourne plus vers des problmes dextraction dopinion qui sont hors de notre cadre. En Europe, Clef (Cross-Language Evaluation Forum) a t cre en 2000 pour tre le pendant pour les langues europennes de TREC qui se consacre langlais [Peters & Braschler 2001]. Question-Rponse y a t introduit en 2003 et donne l aussi lieu des valuations annuelles. Une sous-tche qui nous intresse spciquement, QAst (Question Answering on Speech Transcripts), est prsente depuis 2007 [Turmo, et al. 2007]. Un quivalent asiatique existe se nommant NTCIR (NII Test Collection for IR Systems), cr en 1999 et o Question-Rponse est apparu en 2002 [Fukumoto, et al. 2002]. Cela fait le tour des valuations internationales les plus inuentes. En France ce jour deux valuations Question-Rponse ont eu lieu. La premire est EQueR (Evaluation des systmes Question-Rponse) en 2005 [Ayache, et al. 2006] dans le cadre du projet EVALDA. Ce projet na pas encore connu de suite. Enn la seconde a eu lieu dans le cadre du projet Quaero [Quaero 2008 ; Quintard 2009], un grand projet franco-allemand centr sur le contenu numrique, et en particulier lextraction dinformations, leur analyse et classication, et en gnral leur exploitation. Cette campagne dvaluation est lheure actuelle limite aux partenaires du projet. Nous faisons cependant partie des participants ce qui nous permet de nous y rfrer. Le tableau 10.1 synthtise les caractristiques principales de ces nombreuses valuations. Les sections suivantes vont dvelopper plus avant ces caractristiques. 123

124

CHAPITRE 10. LES CAMPAGNES DVALUATION QUESTION-RPONSE


TREC 1 9 9 9 2 0 0 0 2 0 0 1 2 0 0 2 2 0 0 3 2 0 0 4 2 0 0 5 2 0 0 6 2 0 0 7 QA@Clef Main Track 2222222 0000000 0000000 3456789 QAst 2 0 0 7 2 0 0 8 2 0 0 2 NTCIR 2 0 0 4 2 0 0 5 2 0 0 7 2 0 0 8 EQueR Quaero 2 0 0 5 2 0 0 8

Factuelles Dnitions simpl. Dnitions Pourquoi Comment Oui/non Listes ouvertes Listes fermes Enchanements Thmatisation Information Journaux Parole Politique Mdical Juridique Wikipdia Blogs Web en gnral Classe donne Rponses multiples Rponses longues Support Translingue Docs. alignables Restr. temporelles Timecodes

: tche part Sources : TREC : [Voorhees & Tice 1999 ; Voorhees 2000 ; Voorhees & Tice 2001 ; Voorhees 2002 ; Voorhees 2003 ; Voorhees 2004 ; Voorhees & Dang 2005 ; Dang, et al. 2006 ; Dang, et al. 2007]. QA@Clef Main Track : [Magnini et al. 2003 ; Magnini, et al. 2004 ; Vallin, et al. 2005 ; Magnini, et al. 2006 ; Giampiccolo, et al. 2007 ; Forner, et al. 2008] et des messages de la mailing-list pour la dnition de la tche 2009. QA@Clef QAst : [Turmo et al. 2007 ; Turmo et al. 2008] et des messages de la mailing-list pour la dnition de la tche 2009. NTCIR : [Fukumoto et al. 2002 ; Fukumoto, et al. 2004 ; Kato, et al. 2004 ; Kato, et al. 2005 ; Sasaki, et al. 2005 ; Sasaki, et al. 2007 ; Fukumoto, et al. 2007 ; Mitamura, et al. 2008]. EQueR : [Ayache et al. 2006]. Quaero : [Quintard 2009].

TAB . 10.1 Tableau rsumant les caractristiques des principales valuations Question-Rponse

10.2. LES TYPES DE QUESTIONS

125

10.2 Les types de questions

Le premier point dcider quand on dnit une campagne dvaluation Question-Rponse est le type de questions que lon envisage de traiter. Le type de question le plus habituel est la question factuelle, telle que Qui est le prsident de la France ? o une rponse prcise de peu de mots, souvent une entit nomme ou assimile, est attendue. De ce type de question est driv le type Liste qui attend plusieurs rponses de ce type, qui se dcline en Liste ferme o le nombre dlments attendus est prcis, comme pour Nommez les sept nains., et en Liste ouverte o ce nombre nest pas indiqu Qui ont t les prsidents lus de la cinquime Rpublique en France ?. Ces questions posent peu de difcults au niveau de lvaluation, savoir si une rponse donne par un systme est correcte ne donne en gnral pas lieu ambigut. Un autre type de question trait couramment dans ces valuations concerne les questions de Dnition. Le problme des dnitions dans le cas gnral, comme pour Quest-ce quun parachute dor ?, pose un gros problme dvaluation. En effet il est difcile de dire quand une dnition est correcte et sufsamment complte. Le NIST a propos dans [Voorhees 2003] une mthodologie gnrale pour les valuer : faire une liste de lensemble des informations lmentaires prsentes sur le sujet dans les documents de rfrence et les classer entre indispensables dans une dnition et optionnelles. Cependant mme en suivant cette mthodologie ils ont not une importante variance dans les rsultats dun valuateur humain lautre, essentiellement due des dsaccords sur quelles informations sont indispensables. Pour faciliter cette valuation un sous-type a t dni dans QA@Clef nomm Dnition simplie [Vallin et al. 2005]. Pour ces questions, telles que Qui est Patrick de Carolis ?, une rponse simple est demande, du mme ordre de complexit que celles associes aux questions factuelles. Nimporte quelle rponse donnant au moins une caractristique pertinente de lobjet est considre correcte. Par exemple PDG de France Tlvision ou encore ls de Dominique de Carolis seraient accepts. Deux types de questions plus avancs parfois rencontrs sont les questions Pourquoi et Comment, telles que Pourquoi le ciel est-il bleu ? ou Comment retirer une tche de vin rouge ?. Dcider de la validit dune rponse peut poser de gros problmes (le systme doit-il fournir une procdure ? Une synthse de diverses informations ?) ce qui incite les campagnes dvaluation poser des contraintes spciques. Par exemple la campagne QA@Clef 2005 [Vallin et al. 2005] autorisait les questions Comment mais limitait leurs rponses une entit simple. De mme, la campagne Quaero autorisait les deux types mais exigeait que la rponse tienne en une phrase extraite dun document. Le problme de lvaluation des rponses ces types de questions dans le cas gnral est loin dtre rsolu. En apparence plus simples, les questions Oui/Non, ou encore Questions fermes, telles que Est-ce que Saturne est une plante gazeuse ? posent le problme de la justication. En effet il nest dans ce cas pas raisonnable de rpondre simplement oui ou non. Avec une probabilit de 50%, il serait difcile de faire la part entre qualit du systme et chance sauf avoir un trs grand nombre de questions. Les valuations traitant de ce type de questions doivent donc demander aux systmes de fournir la ou les phrases et documents les ayant pouss prendre leur dcision.

126

CHAPITRE 10. LES CAMPAGNES DVALUATION QUESTION-RPONSE

Dans lide de se rapprocher plus dune application interactive, une forme de question a t introduite impliquant des Enchanements. Les questions sont organises en sries tournant autour du mme sujet et des anaphores implicites ou explicites sont possibles dans les questions. Par exemple, cette srie est traduite de NTCIR [Kato et al. 2005] : A quel genre littraire appartient la srie Harry Potter ? Qui est lauteur ? Qui sont les personnages principaux dans cette srie ? Quand le premier volume a-t-il t publi ? Quel tait son titre ? Combien de titres ont t publis en 2001 ? Dans quelles langues a-t-il t traduit ? Combien dexemplaires ont t vendus au Japon ? Cette srie a t construite via une interaction relle entre un humain et un systme Wizard of Oz. Elle montre bien en particulier les variations de focus qui safne, slargit et se dplace au long des questions. Elle est en cela trs similaire avec des interaction relles entre un humain et un systme. Dans QA@Clef, o ce type de question est galement prsent, lapproche est beaucoup plus limite : la premire question xe le thme via son focus ou sa rponse et les questions suivantes ne peuvent faire rfrence qu la premire question et ce de faon explicite. Par exemple cette srie est tire de ldition 2008 : Qui a t ambassadrice de l UNICEF entre 1988 et 1992 ? Quelles langues parlait-elle ? Qui pousa-t-elle en 1969 ? O est-elle morte ? Le rsultat est bien moins naturel, ressemblant bien plus une interrogation crite qua une vraie recherche dinformations par quelquun qui ne connait pas la rponse. Ce type de question est cependant plus facile traiter. Une valuation TREC a aussi eu lieu avec la mme organisation de questions que QA@Clef, mais les rsultats ont t considres non probants scientiquement car trop contraints par la slection initiale de documents [Voorhees & Tice 2001]. En alternative aux enchanements, la campagne dvaluation TREC a propos une Thmatisation des questions. Un thme gnral est donn et les questions tournent toutes autour de lui [Voorhees 2004] : Thme : Comte Hale Bopp FACTUEL - Quand la comte a-t-elle t dcouverte ? FACTUEL - Avec quelle frquence approche-t-elle la Terre ? LISTE - Dans quels pays tait-elle visible lors de son dernier retour ? AUTRE Le principe de devoir rsoudre les anaphores reste le mme, la rsolution tant cependant vidente vu quil sagit chaque fois de lentit thme de la srie. Avec ce type de questions thmatiques on simule une application o lutilisateur est un expert cherchant un ensemble dinformations sur un sujet dont il a dj une connaissance vague lui permettant de savoir a priori les questions poser. Dans la mme optique ils ont introduit le notion de question Autre, note dans le tableau sous le nom Information, qui nest pas une question en soi, mais demande fournir lensemble des informations sur le thme qui nont pas encore t demandes par les autres questions. La mthodologie dvaluation par

10.3. TYPES DE DOCUMENTS

127

informations lmentaires quils utilisent est une extension de celle quils avaient dveloppe pour les questions de dnition.

10.3 Types de documents


Un autre aspect de la dnition dune valuation Question-Rponse est lensemble des documents dans lesquels les rponses doivent tre cherches. Le tableau 10.2 donne les caractristiques de quelques unes des collections de documents utilises dans nos valuations. QAst 2008 Parole 2004 12 2,3K 87K 460K 200 37 5,3 QA@Clef Journaux 1994-95 200K 3M 70M 400M 17 25 5,4 Ritel Web 2004 63K 29M 380M 2,4G 450 13 6,9 Quaero Web 2008 500K 82M 840M 4,2G 170 10 5,3

Type Annes Nombre de documents Nombre de phrases Nombre de mots Nombre de caractres Phrases/document Mots/phrase Caractres/mot

TAB . 10.2 Types et tailles de plusieurs collections de documents utiliss dans des valuations QR en franais. QAst 2008 contient des transcriptions dmissions de radio. QA@Clef contient les annes 1994 et 1995 du journal Le Monde et de lAgence Tlgraphique Suisse. Ritel et Quaero sont des collections de pages du Web.

Nous pouvons constater que dune valuation lautre ces caractristiques varient fortement. La principale est le type de documents. Les documents journalistiques (journaux, dpches), sont les plus courants et ont des avantages certains : les documents sont plutt factuels, la densit dinformations est assez leve et avec une certaine redondance, les mmes vnements tant abords sur plusieurs jours, la qualit de la langue est plutt bonne sans tre trop recherche, les documents sont en gnral monothmatiques et les sujets abords sont intressants pour tout un chacun, rendant entre autres la cration des questions plus facile. Ils ont par contre deux inconvnients : la couverture des informations tend tre limite lactualit et couvre peu les questions demandant des connaissances de type encyclopdique. Le second est le problme du cot. Ce type de documents a un cot commercial assez lev et ncessite des ngociations avec les propritaires des droits. En consquence les documents proviennent en gnral de peu de sources (2 pour QA@Clef), sont assez vieux (1994-1995 dans le cas de QA@Clef) et sont en quantit relativement faible (quelques annes). En complment les valuations QA@Clef rcentes (2007-2008) ont rajout lensemble de Wikipedia. La quantit de donnes disponibles ainsi est trs importante et varie et le niveau de langue reste en gnral bon. Cependant la difcult est en pratique bien plus leve quavec les documents journalis-

128

CHAPITRE 10. LES CAMPAGNES DVALUATION QUESTION-RPONSE

tiques cause de trois problmes principaux : le nombre de concepts rencontrs tend tre bien plus lev que dans lactualit, une encyclopdie ayant, par dnition, une plus large varit de sujets, la redondance dinformations est assez faible et la structure des documents est trs spcique, avec de nombreuses anaphores rfrant au titre de la page ou aux titres de section. Un alternative explore de temps en temps sont les documents de domaines spciques. Documents politiques (dbats du Snat, valuation EQueR), mdicaux (articles scientiques du domaine mdical, EQueR) ou juridiques (JRC-Acquis, le Journal Ofciel de lUnion Europenne, valuation QA@Clef 2009). Ces tches sont intressantes et ont des possibilits applicatives videntes, mais demandent traiter une langue spcique dun domaine dans lesquels les personnes travaillant sur lanalyse de la langue peuvent ne pas tre comptentes (terminologie et concepts spciques en particulier). De plus lvaluation en est rendue plus difcile avec le besoin de recourir des spcialistes pour crer les questions et parfois mme valuer les rponses. Lvaluation QAst a t organise pour travailler spciquement sur une modalit de documents : la parole. Sous la forme de transcriptions manuelles ou automatiques, elle peut venir de bien des sources avec des proprits spciques. En 2008 par exemple taient proposes des transcriptions de sminaires (un locuteur principal) et de runions de travail (plusieurs intervenants) en anglais, des transcriptions dmissions de radio en franais, et des transcriptions de dbats du parlement europen en anglais et espagnol. Les niveaux de langue, couverture conceptuelle et complexit syntaxique varient donc beaucoup dune sous-tche lautre, mais reste commune la trs faible quantit de documents du au cot des transcriptions manuelles et de la difcult dobtenir des transcriptions automatiques. Enn la dernire source de documents tudie dans ces valuations est bien videmment le Web. Ce peut tre des parties spciques (Wikipedia comment nous avons vu, ou encore des blogs dans le cadre de TREC) o lon peut esprer une certaine uniformit de qualit de langue. Mais les dernires expriences ont lieu sur des gros corpus de pages choisies via un moteur de recherches (Altavista pour notre corpus interne Ritel, Exalead pour lvaluation Quaero) sur une srie de thmes (cas de Ritel) ou de recherches par mots-cls faites par de vrais utilisateurs (cas de Quaero). Le Web tout venant est particulirement difcile traiter cause dune absence totale duniformit dans les contenus. Les niveaux et qualit de la langue sont extrmement variables, la slection de la langue des pages parfois incorrecte, la structuration souvent assez obscure rendant lextration du texte peu able. De plus des pages existent contenant par exemple des listes de mots ou de noms. Ces mots et noms peuvent apparatre dans les questions et poser problme au moment de la recherche. Pire encore sont les pages, souvent pornographiques ou publicitaires, comportant des listes de mots-cls pour essayer dattirer les moteurs de recherches et qui attirent ainsi trs bien les passes de slection de documents et de passages des moteurs de Question-Rponse, noyant ainsi les documents pertinents. De plus, ces collections ont beau tre importantes leur taille est en pratique relativement faible par rapport aux nombres de thmes abords, rsultant en une redondance en pratique assez faible. Tout cela rend les documents tout-venant du web les plus difciles traiter.

10.4. AUTRES CARACTRISTIQUES DES CAMPAGNES DVALUATION

129

10.4 Autres caractristiques des campagnes dvaluation

En plus des caractristiques primaires que sont les types de questions et de documents de nombreuses caractristiques secondaires donnent chaque valuation sa propre personnalit. Nous en avons slectionn certaines qui semblent particulirement intressantes. La premire touche les questions elles-mmes. La prsence de plusieurs catgories de questions pose le problme, pour les systmes, de dtecter quelle classe une question appartient. Cette classication est souvent simple mais peut dans certains cas poser problme. Par exemple un systme ne peut savoir a priori que Qui a crit Good Omens ? a pour rponse deux auteurs et non un seul. Considrant que ce problme ne faisait pas partie de la tche, certaines valuations, en particulier TREC, ont dcid dindiquer pour chaque question quelle catgorie (factuelle rponse unique, dnition, liste...) elle appartient. Cette option nest cependant pas pertinente dans un cadre interactif. En effet il ne parat pas raisonnable de demander lutilisateur la classe de la question quil vient de poser. Un ensemble de caractristiques touche les rponses attendues de la part du systme. Un point de contentieux dans la dnition dune tche est le nombre de rponses attendues, ou plus spciquement si une seule rponse (une seule entit, une seule dnition, une seule liste dentits...) est attendue ou, alternativement, le systme peut proposer plusieurs rponses de la plus la moins probable. Dans le premier cas, les organisateurs considrent que Question-Rponse, en tant que version plus prcise de la recherche de documents, implique devoir donner la rponse et rien dautre. Le fait quune question a rarement une seul rponse correcte nest pas pris en compte. Dans lautre cas, ils considrent que donner plusieurs rponses permet une valuation un peu plus ne des systmes eux-mmes, et que de toutes faons dun point de vue applicatif prsenter plusieurs rponses possibles une utilisateur est pour certaines modalits comme une interface web parfaitement raisonnable. Les deux points de vue se dfendent, mais dans un cadre de dveloppement de systme avoir plusieurs rponses semble effectivement permettre de constater des changement de score plus progressifs au moment des rglages ns optimisants les performances du systme, en particulier en utilisant la mtrique MRR dcrite section 10.5. Une autre de ces caractristiques touchant les rponses attendues est historique : le concept de rponse longue. Le problme ayant t initialement conu comme un rafnement de la slection de documents les premires valuations ne demandaient pas encore une rponse prcise mais un passage dun nombre limit de caractres (50 ou 250 suivant les valuations). La rponse tait considre correcte si le passage contenait la rponse prcise attendue. TREC a abandonn cette approche en 2002 pour exiger la place les rponses prcises. Cette mthode dvaluation a cependant t reprise de temps en temps en alternative optionnelle aux rponses prcises pour permettre aux participants de mesurer la qualit de leur extraction de rponse. Une variante de la notion de rponse longue utilise lorigine dans le cadre de QA@Clef est la notion de support. Un passage de 250 caractres est fourni en plus de la rponse et son but est de convaincre lvaluateur de la validit de la rponse. Lide sous-jacente est de pouvoir proposer une

130

CHAPITRE 10. LES CAMPAGNES DVALUATION QUESTION-RPONSE

interface utilisateur similaire aux moteurs de recherche actuels o un ensemble de documents sont dsigns par leur titre et des passages courts en sont extraits permettant dun coup dil de dcider de leur pertinence. Ce nest pas proprement parler une justication. En particulier le passage peut contenir des anaphores rfrant des entits de la question situes en dehors de la plage des 250 caractres. Le passage se doit juste dtre convaincant. Un dernier grand axe concerne la multilingualit. La tche Question-Rponse a initialement t dnie comme un problme monolingue : questions et documents sont dans la mme langue. Cependant, pour en particulier une question de quantit dinformations disponibles voire de biais ditorial, il est intressant de pouvoir faire des recherches dans des documents dune langue que lon ne parle pas. De la vient la notion dvaluation translingue. Les questions sont dans une langue, la langue source, et les documents dans une autre, la langue cible. Les rponses sont donnes dans la langue cible, le problme de leur traduction tant considre comme ne relevant pas de la tche. NTCIR organise ainsi des campagnes dvaluation translingues entre japonais et anglais ou chinois et anglais. Pour QA@Clef une matrice est construite avec les langues europennes principales et des ensembles de questions construits pour chacune des langues. La combinatoire a cependant donn lieu une trop grande dispersion des efforts, avec une grande partie des paires de langues nayant quun ou deux participants pour lvaluation associe, rendant toute comparaison srieuse illusoire. En 2009 une approche alternative va tre tente avec des documents alignables, cest--dire des documents disponibles dans toutes les langues couvertes et dont les versions sont des traductions strictes les unes des autres, comme les instances europennes en fournissent beaucoup. Les questions auront la mme proprit, un pool de questions traduites strictement dans toutes les langues, et les participants seront libres de slectionner les langues de questions et de documents quils veulent, voire de croiser les rponses entre plusieurs sorties de systmes. Les rsultats dvaluation obtenus devraient du coup tre beaucoup plus comparables. En 2005, dans le but daugmenter graduellement la difcult des questions poses, la campagne dvaluation QA@Clef a dcid de codier la notion de restriction temporelle. Il sagit dune catgorie couvrant les questions contenant une clause slectionnant une plage temporelle spcique dans laquelle le rponse est attendue. Par exemple pour Qui est le prsident de la France ? nimporte quel nom de prsident fourni par les documents serait correct, mais pour Qui tait le prsident de la France en 1994 ? seul Franois Mitterand est correct. Les informations temporelles ncessaires peuvent tre explicites dans les documents, cest dire prsentes dans le texte donnant la rponse, ou implicite via la date du document, gnralement disponible dans le cas journalistique. Une partie des questions a alors t dnie comme devant comporter de telles restrictions, et les systmes ont d tre adapts en consquence pour les prendre en compte. On peut imaginer quune valuation future prendra en compte des restrictions gographiques du mme ordre. Enn la recherche des rponses dans des documents sortis de systmes de transcription automatiques a ses spcicits. Les systmes de transcription font des erreurs par rapport ce qui a t rellement dit mais en contrepartie fournissent la position temporelle de chacun des mots reconnus. Du coup les systmes de recherches dinformations peuvent tenter de reconstituer ce qui avait t rellement dit en sappuyant sur les entits de la question et des connaissances smantiques haut niveau absentes

10.5. LES MTRIQUES


Question : What is the Vlaams Blok ? Transcription manuelle : the Belgian Supreme Court has upheld a previous ruling that declares the Vlaams Blok a criminal organization and effectively bans it . Rponse : criminal organisation Extrait dune transcription automatique (format CTM) : (...) 20041115_1705_1735_EN_SAT 1 1018.408 0.440 Vlaams 0.9779 20041115_1705_1735_EN_SAT 1 1018.848 0.300 Blok 0.8305 20041115_1705_1735_EN_SAT 1 1019.168 0.060 a 0.4176 20041115_1705_1735_EN_SAT 1 1019.228 0.470 criminal 0.9131 20041115_1705_1735_EN_SAT 1 1019.858 0.840 organisation 0.5847 20041115_1705_1735_EN_SAT 1 1020.938 0.100 and 0.9747 (...) Rponse : 1019.228 1020.698

131

F IG . 10.1 Question What is the Vlaams Blok ? et rponse dans une transcription manuelle (haut) et automatique (bas) transcripts. Les colonnes du format CTM sont nom de document, numro de canal, position temporelle, dure, mot, indice de conance dans le systme de transcription dun ct, et sur une transcription phontique des mots reconnus de lautre. Le rsultat peut alors prendre la forme dun intervalle dans le signal o la rponse est dite, et que lon peut du coup rejouer lutilisateur. On parle alors de timecodes. Dans cette optique lvaluation QAst 2008 a propos lutilisation de ces intervalles temporels comme rponse attendue du systme, comme on peut le voir gure 10.1.

10.5 Les mtriques


Plusieurs mtriques ont t dveloppes au cours du temps. Nous allons voir dans un premier temps celles dnies pour le cas le plus courant o les rponses peuvent tre classes de faon binaire correcte ou incorrecte, puis nous regarderons ce qui a t propos pour valuer les rponses dans les cas de listes, de dnitions complexes ou de recherche dinformations complmentaires. La mtrique la plus simple est la prcision (accuracy), le ratio entre nombre de rponses correctes et nombre total de questions. Dans le cas o le systme peut donner plusieurs rponses par question on ne considre que la premire. En notant CRi le rang de la premire rponse correcte pour la question i, prenant pour valeur + si aucune rponse correcte na t trouve : prcision = #CRi = 1 #questions (10.1)

132

CHAPITRE 10. LES CAMPAGNES DVALUATION QUESTION-RPONSE

Cette mesure donne directement la probabilit que le systme soit correct quand il donne une rponse, ce qui est utile dans un cadre applicatif. Cependant dun point de vue de dveloppement de systme cette information manque de nesse. Il est intressant de connatre la densit de rponses correctes parmi les n premires rponses proposes et ne pas se limiter la premire La mesure la plus immdiate pour les prendre en compte est le top-n, la prcision en acceptant les rponses correctes de rang 1n: #CRi n (10.2) top-n = #questions Cette mesure nest en pratique utilise quavec n gal au nombre maximal de rponses autoris pour le systme, ce qui en fait une sorte de rappel. Le systme essaie cependant de mettre les rponses les plus sres en premier. Pour mesurer plus la qualit de ce classement, le Mean Reciprocal Rank (Moyenne des Rciproques des Rangs), ou MRR est souvent utilise. La rponse correcte la mieux classe est pondre par linverse du rang auquel elle a t propose. Une absence de rponse correcte correspond un rang inni et donc une contribution nulle. Le score nal est la moyenne de ces contributions : 1 CR i (10.3) MRR = #questions Les mesures de prcision, MRR et top-n forment un ensemble de valeurs croissantes utiles pour avoir une ide de la qualit dun systme et de ses possibilits dvolution et aussi pour comparer la rsultats de plusieurs versions du mme systme. Ce sont les mtriques que nous avons utilises dans nos exprimentations. Les questions de listes, de dnitions au sens large et les demandes dinformations complmentaires ont la particularit de donner lieu des rponses que lon peut considrer plus ou moins correctes. Une simple classication binaire correct/incorrect telle quutilise pour les questions factuelles semble insufsante. Lide est alors de donner un score entre 0 et 1 chaque rponse, score qui pourra ensuite tre intgr directement dans les mtriques standard. Pour les listes, le problme est de comparer une liste dlments fournis par le systme une liste de rfrence. On notera C le nombre de corrects, i.e. le nombre dlments corrects entre les deux listes, L le nombre dlments de rfrence et S le nombre dlments donns par le systme. Les valuateurs de TREC ont propos dans [Voorhees 2003] dutiliser comme score la F-mesure, qui est dnie en fonction de la prcision et du rappel : P = C S R= C L F = 2P R P +R (10.4)

Alternativement, lvaluation Quaero a propos dutiliser une mtrique inspire de la reconnaissance vocale o les rponses correctes font gagner des points et les erreurs en perdre (S C est le nombre derreurs) : C (S C ) ) (10.5) Q = max(0, L

10.5. LES MTRIQUES


Il ny a pas lheure actuelle dtude comparant ces deux mtriques.

133

Le problme des dnitions au sens large et celui des demandes de complments dinformations a t uni dun point de vue valuation par TREC. Pour une question donne un ensemble dinformations lmentaires qui lui sont li est constitu partir des documents et des rponses des systmes. De plus une sous-partie de ces informations sont annotes comme vitales. Par exemple, pour la question Quest-ce quun parachute dor ? [Voorhees 2003] ces informations peuvent tre : contrat entre une entreprise et ses hauts dirigeants (vital) ddommagement pour les cadres perdant leur emploi (vital) ddommagement gnralement trs lev (vital) encouragement pour les cadres ne pas rsister aux rachats bnques pour les actionnaires mthode pour les enterprises pour attirer certains cadres ddommagement non-imposable au titre des cotisations sociales Le nombre dinformations vitales r et non-vitales mais correctes a prsentes dans la rponse du systme est compt. Le rappel est estim directement sur les informations vitales. Notant V le nombre dinformations vitales dans la rfrence : r (10.6) R= V La prcision est plus difcile estimer en soi, un extrait pouvant contenir plusieurs informations. Les valuateurs se sont du coup tourns vers une notion de compacit. Un nombre de caractres maximal A est autoris en fonction du nombre dinformations prsentes et le dpasser baisse la prcision. Notant T le nombre de caractres de la rponse du systme : A = 100 (r + a) P = min(1, 1 T A ) L (10.7)

Le score nal est obtenu par une F-mesure pondre entre prcision et rappel : F = 10 P R 9P + R (10.8)

Cette mthodologie dvaluation est trs intressante mais demande un gros travail pour les valuateurs, et il a t constat que des problmes daccord inter-annotateurs sont courants dans le choix de quelle partie des informations devait tre considre vitale. Elle reste une approche garder lesprit si lon veut aller un jour vers des rponses des questions complexes construites par synthse entre plusieurs documents. Enn certains systmes ont la capacit de fournir des niveaux de conances avec les rponses quils donnent, en dautres termes la probabilit estime que la rponse soit juste. Deux mtriques existent pour aider estimer la qualit de ces niveaux de conance. La premire, K [Herrera, et al. 2004], essaie destimer la qualit de ces niveaux de conance en faisant gagner des points proportionnellemant la conance sur les rponses correctes, et en faisant perdre dans la mme proportion pour les rponses fausses. Les rponses dupliques, o le systme a rpondu plusieurs fois la mme chose sans sen apercevoir sont limines. Pour un ensemble de Q questions, on note pour la question i :

134

CHAPITRE 10. LES CAMPAGNES DVALUATION QUESTION-RPONSE

Si le nombre de rponses donnes par le systme Ri le nombre de rponses diffrentes correctes trouves dans les documents ei,j lvaluation de la j -me rponse du systme la question i, +1 si correct et -1 si faux ci,j la conance du systme en sa j -me rponse la question i Les valeurs Ri correspond aux comptes de rponses de rfrence, trouves la main par les valuateurs et compltes aprs valuation des sorties des systmes. Alors la mesure K est dnie comme : 1 K= Q
Q i=1 Si j =1 ei,j ci,j

max(Si , Ri )

(10.9)

Cette mesure donne une valeur entre -1 et 1. Dans le cas o les rponses ne sont pas strictement correctes ou incorrectes (listes, dnitions...), mais donnent lieu un score entre 0 et 1 tel quobtenu par les F-mesures ou le score Q prsents prcdemment, on peut imaginer utiliser le mapping linaire : e = 2 score 1 (10.10)

Une variante de cette mesure nomme K1 est dnie pour les cas o les systmes doivent donner une et une seule rponse. Ri est force 1, simpliant la formule en : K1 = 1 Q
Q

ei ci
i=1

(10.11)

Lautre mesure, nomme Condence Weighted Score, essaie de prendre en compte la difcult relative des questions estime par le systme. Utilise dans les cas o le systme doit donner une rponse par question avec un taux de conance, la premire tape est de classer les paires question/rponse dans lordre de la conance la plus leve la plus faible. Le score est alors calcul en donnant un plus fort poids aux premires questions de la liste quaux dernires. En prenant comme hypothse que i, numro de question, suit lordre obtenu, on note scorei le score entre 0 et 1 obtenu pour la question i. CW S est dni comme : Q i 1 j =1 scorej (10.12) CW S = Q i
i=1

En rorganisant un peu les termes, et notant Hn est le nombre harmonique n, Hn = on peut rcrire la formule sous la forme : CW S = 1 Q
Q

n 1 i=1 i , H0

= 0,

(HQ Hi1 )scorei


i=1

(10.13)

On voit bien alors quil sagit dune pondration sur les rponses. Lensemble de ces mtriques peuvent tre regroupes sous la forme de la gure 10.2. Tout commence par une sortie de systme sous la forme de triplets question, liste de rponses et optionellement niveaux de conance associs. La premire tape est lvaluation humaine de ces rsultats. A chaque

10.5. LES MTRIQUES

135

F IG . 10.2 Structuration gnrale des mtriques dvaluation en Question-Rponse

rponse individuelle un score est associ, 0 pour les rponses fausses, 1 pour les correctes, et une valeur entre 0 et 1 pour les cas intermdiaires tels que se produisant sur les questions de listes ou de dnitions complexes. Une fois cette tape franchie, il est alors possible de choisir les calculs effectuer pour mettre tel ou tel point en valeur. La premire tape des calculs est lestimation dun score par question. Quatre alternatives sont possibles : lAccuracy, o le score de la premire rponse est pris, le top-n o la rponse avec le meilleur score est retenue, le Reciprocal Rank o chaque score est divis par son rang et le meilleur est choisi, et enn, si des niveaux de conances individuels sont disponibles, la mesure K vue quation 10.9 en la limitant une seule question. Chacune met laccent sur un point particulier : lAccuracy permet destimer la qualit dun systme cens retourner une seule rponse, comme cest le cas des systmes interactifs oraux le Top-N sapplique plus au cas dune prsentation type moteur de recherche web o une page de rsultats est retourne. Il tente dindiquer si la bonne rponse est dans la page. le Reciprocal Rank sapplique dans le mme cadre et favorise la prsence de la bonne rponse dans le haut de la page la mesure K cherche estimer la qualit des niveaux de conance fournis par le systme

136

CHAPITRE 10. LES CAMPAGNES DVALUATION QUESTION-RPONSE

Enn la seconde tape combine les scores par question en un score global. La mthode la plus courante est la simple moyenne, parfois pondre en fonction des types de question. CWS est une mthode alternative intressante quand des niveaux de conance par question sont disponibles. Elle a pour but de mesurer la capacit du systme estimer la difcult des questions les unes par rapport aux autres. Ainsi, en choisissant les calculs lmentaires effectuer il est possible de mettre en avant les points qui nous intressent. En labsence de niveaux de conance, nous nous en tiendrons aux trois principaux, Accuracy, MRR et top-n avec la moyenne comme combinaison inter-questions.

Chapitre 11

Rsultats aux campagnes dvaluation ofcielles


11.1 La campagne dvaluation QAst
Lvaluation QAst, Question-Answering on Speech Trancripts (Question-Rponse sur transcriptions de parole), a t cre en 2007 pour tudier le problme de la recherche dinformations prcises dans la parole [Turmo et al. 2007]. Cependant la parole nest quune modalit, et divers genres de documents peuvent tre concerns. lheure actuelle quatre genres ont t tudis. Le premier genre est le sminaire. Une personne seule parle pendant que les autres prsents dans la salle coutent et interviennent parfois mais rarement. Le corpus CHIL [CHIL 2007] est constitu de 25 sminaires transcrits manuellement par ELDA et automatiquement par le systme du LIMSI [Lamel, et al. 2005]. Ces sminaires sont en anglais, sur le thme du traitement de la langue et de la parole, et le plus souvent donns par les locuteurs non-natifs. Le second est la runion de travail. Plusieurs personnes parlent ensemble, et souvent en mme temps, se coupent la parole, etc. Le corpus AMI [AMI 2005] contient 168 runions qui ont l encore t transcrites manuellement et automatiquement. Le systme de transcription avait t conu par lUniversit de Edinbourg [Hain, et al. 2007]. Les runions sont en anglais et portent sur la conception de tlcommandes de tlvision. Ces deux premiers genres de donnes taient les seuls disponibles pour lvaluation 2007. Lanne suivante deux genres supplmentaires ont t ajouts. Le premier correspond aux missions dinformations de la radio. Le corpus ESTER [Galliano, et al. 2006] en contient 10 heures, enregistres de sources francophones varies (France Inter, Radio France International, Radio Classique, France Culture, Radio Tlvision du Maroc) et transcrites manuellement par ELDA. Ces donnes ayant 137

138

CHAPITRE 11. RSULTATS AUX CAMPAGNES DVALUATION OFFICIELLES

t initialement constitues pour une valuation des systmes de reconnaissance vocale [Galliano et al. 2006] trois sorties de systmes sont disponibles trois taux derreurs de mots diffrents (11,0%, 23,9% et 35,4%). Enn le dernier genre est les sessions du Parlement Europen en anglais et espagnol. Chaque parlementaire fait son tour un discours prpar pendant quelques minutes, le prsident de sance sassurant du bon droulement de la session. Pour chaque langue trois heures ont t transcrites dans le cadre du projet TC-STAR [TC-Star 2004-2008], manuellement l encore par ELDA et automatiquement dans le cadre dune valuation nous permettant davoir trois sorties par langue des taux derreur de 11,5%, 12,7% et 13,7% pour lespagnol et 10,6%, 14,0% et 24,1% pour langlais. Tous ces genres de parole ont les mmes caractristiques de surface, en particulier les hsitations, bruits de respirations, erreurs de prononciation, correction, faux dparts... Cependant la parole dans le cas des missions dinformations et du Parlement Europen est moins spontane que pour les sminaires et runions car elle est en gnral prpare lavance et est proche structurellement des textes crits. Cela pousse qualier les sminaires et runions de parole spontane et les missions et dbats de parole prpare. Les sminaires, monologues, ont une syntaxe assez diffrente de celle de lcrit, avec phrases rallonge et structuration locale, et les runions, multilogues, rajoutent cela un certain niveau de dstructuration d aux nombreuses interruptions mutuelles, discussions parallles et en gnral la complexit des tours de parole. Dveloppement # m. # h. 68 541 8h45 281 454 21h15 35 328 2h15 11 568 1h00 13 355 1h10 Test # m. # h. 57 133 5h45 692 957 50h40 87 147 5h40 22 514 1h50 20 007 1h40

T1 T2 T3 T4 T5

# d. 10 50 6 3 1

# q. 50 50 50 50 50

# d. 15 120 12 4 4

# q. 100 100 100 100 100

TAB . 11.1 Les corpus QAst : # d. : nombre de documents ;# m. : nombre de mots ; # h. : dure de parole. ; # q. : nombre de questions Ces corpus ont t diviss en deux parties, une pour les questions de dveloppement et une pour les questions de test. Les tailles de ces corpus sont indiques tableau 11.1. Chaque type de donne, avec sparation par langue, correspond une tche, nommes T1 et T2 pour 2007 et de T1 T5 pour 2008. En rsum : T1 correspond Question-Rponse dans des sminaires en anglais. T2 correspond Question-Rponse dans des runions en anglais. T3 correspond Question-Rponse dans des missions dinformations radiophoniques en franais. T4 correspond Question-Rponse dans des sessions du Parlement Europen en anglais. T5 correspond Question-Rponse dans des sessions du Parlement Europen en espagnol. An de pouvoir estimer limpact sur les rsultats des erreurs de la transcription automatique, on consi-

11.1. LA CAMPAGNE DVALUATION QAST

139

dre pour chaque tche deux sous-tches, la sous-tche a ayant lieu sur les transcriptions manuelles et les b sur la ou les transcriptions automatiques1 . Type personne lieu organisation langue mthode/algorithme mesure data/heure couleur forme matriau dnition Exemple Quel est le ralisateur du lm Holy Lola ? O le Marchal Lannes est-il n ? quel parti politique Ariel Sharon appartient-il ? En quelle langue la chane Al-Jazira est-elle diffuse ? Which windowing method is used for acoustic pre-processing ? Combien de personnes sont mortes du SRAS ? Quand John Lennon fut-il assassin ? Quelle est la couleur du ciel autour du golfe du Lion ? What shape could the joystick have ? What material can be exible ? Quest-ce que le Patriot Act ? TAB . 11.2 Exemples de questions QAst

QAst 2007 traitait uniquement de questions factuelles dont les rponses devaient tre des entits nommes de types prdnis : personne, lieu, organisation, langue, mthode/algorithme, mesure, date/heure, couleur, forme et matriau. Ldition 2008 rajoute les questions de dnition simple. Le tableau 11.2 donne des exemples de ces questions. Les systmes pouvaient donner jusqu 5 rponses par question, et environ 10% des questions navaient pas de rponse dans les documents. Les rponses attendues doivent contenir lidentiant de la question, le rang de la rponse, lidentiant du document dans laquelle elle a t trouve, son texte et optionnellement son indice de conance. De plus, depuis 2008 et dans le cas des transcriptions automatiques, la rponse attendue nest pas seulement un texte mais aussi un intervalle temporel du signal audio original contenant la rponse. Cet intervalle est considr correct si ses bornes ne sont pas trop loignes des bornes du ou des intervalles de rfrence. Cette rfrence est tablie par alignement de la transcription manuelle et du signal audio dorigine, assurant ainsi des mesures prcises. La gure 11.1 donne un exemple de question et de rponse attendue dans une transcription manuelle et une transcription automatique. La campagne dvaluation QAst 2007 a t loccasion de notre premire participation une valuation ouverte internationale. Nous y avons utilis deux systmes. Le premier, dcrit dans la chapitre 7, Une approche prliminaire pour Question-Rponse, sappuie sur des listes de requtes possibles crites la main. Le second, dcrit dans le chapitre 8, Un systme plus avanc, sappuie sur une abstraction de la recherche effectuer et des algorithmes sappuyant dessus, et constituait la toute premire version du systme actuel. Le tableau 11.3 donne les rsultats obtenus au test ofciel avec pour comparaison le rsultat sur les questions de dveloppement. La gure 11.2 permet de comparer ces rsultats ceux
La terminologie utilise pour QAst 2007 tait en ralit 4 tches nommes T1, T2, T3 et T4 correspondant respectivement T1a, T1b, T2a et T2b. La gnralisation en tche/sous-tche a t introduite en 2008. La terminologie 2008 sera utilise pour les deux pour viter toute confusion.
1

140

CHAPITRE 11. RSULTATS AUX CAMPAGNES DVALUATION OFFICIELLES

Question : What is the Vlaams Blok ? Transcription manuelle : the Belgian Supreme Court has upheld a previous ruling that declares the Vlaams Blok a criminal organization and effectively bans it . Rponse : criminal organisation Extrait dune transcription automatique (format CTM) : (...) 20041115_1705_1735_EN_SAT 1 1018.408 0.440 Vlaams 0.9779 20041115_1705_1735_EN_SAT 1 1018.848 0.300 Blok 0.8305 20041115_1705_1735_EN_SAT 1 1019.168 0.060 a 0.4176 20041115_1705_1735_EN_SAT 1 1019.228 0.470 criminal 0.9131 20041115_1705_1735_EN_SAT 1 1019.858 0.840 organisation 0.5847 20041115_1705_1735_EN_SAT 1 1020.938 0.100 and 0.9747 (...) Rponse : 1019.228 1020.698 criminal organisation F IG . 11.1 Exemple de requte What is the Vlaams Blok ? et rponse dans une transcription manuelle (haut) et automatique (bas). Le format CTM est un format colonne contenant identieur de document, numro de canal, position temporelle, dure, mot et score de conance. des autres participants lvaluation. Tche T1a T1a T1b T1b T2a T2a T2b T2b Systme Simple Avanc Simple Avanc Simple Avanc Simple Avanc Acc. 32,6% 39,7% 20,4% 21,4% 26,0% 26,0% 18,3% 17,2% MRR 0,37 0,46 0,23 0,24 0,28 0,31 0,19 0,19 Top5 43,8% 57,1% 28,5% 28,5% 32,2% 41,6% 22,6% 22,6% Acc. dev 74% 94% 24% 34% 28% 72% 20% 32%

TAB . 11.3 Rsultats de lvaluation QAst 2007. Acc. est laccuracy, MRR le Mean Reciprocal Rank, Top5 (le rappel), le taux de rponses correctes quelles que soit leur rang. Acc. dev donne pour comparaison laccuracy sur les donnes de dveloppement. Lamlioration du Top5 (9-13% absolus) observe sur les transcriptions manuelles montre bien que lextraction explicite de passages suivi dune extraction des candidats rponses qui y sont situs permet une bien meilleure couverture des rponses potentielles que la simple extraction de lignes des documents sur requte. Les variations daccuracy sont moins claires, et en particulier nettement moins tranches que sur les donnes de dveloppement, allant dun gain pour T1a une perte pour T2b. Lhypothse qui semble la plus probable est que la taille des donnes de dveloppement tait insufsante, donnant lieu une sur-spcialisation du systme sur ces donnes et en consquence une perte

11.1. LA CAMPAGNE DVALUATION QAST


Prcision et Top5 sur T1a 70 top5 prcision 60 60 70 top5 prcision Prcision et Top5 sur T1b

141

50 Prcision et top5 (%) Prcision et top5 (%) clt1 clt2 dfki1 limsi1 limsi2 tokyo1 tokyo2 upc1

50

40

40

30

30

20

20

10

10

0 clt1 clt2 dfki1 limsi1 limsi2 tokyo1 tokyo2 upc1 upc2

Prcision et Top5 sur T2a 70 top5 prcision 60 60 70

Prcision et Top5 sur T2b top5 prcision

50 Prcision et top5 (%) Prcision et top5 (%) clt1 clt2 limsi1 limsi2 upc1

50

40

40

30

30

20

20

10

10

0 clt1 clt2 limsi1 limsi2 upc1 upc2

F IG . 11.2 Rsultats ofciels pour la campagne dvalution QAst 2007

de robustesse. Une tude plus pousse de ce genre de problmes est dcrite section 12 mais nous avons remarqu par exemple que toutes les questions de dveloppement portant sur des systmes ou des mthodes contenaient le mot system ou method ce qui ntait le cas daucune de celles du test. Du coup les rgles de prdiction de types de rponses attendues sappuyaient sur ces mots comme indices, ce qui a nuit la qualit des rsultats. Ce genre de problme est moins probable avec une plus grande varit de questions sur lesquelles sappuyer. Les rsultats ont t bien meilleurs sur ldition 2008 de cette valuation. Il sont prsents dans le tableau 11.4. Comme nous avons vu prcemment 16 sous-tches taient proposes. Nous tions les seuls participants pour les 4 sous-tches du franais (T3) et sommes arrivs premiers pour 8 des 12 autres. Ces rsultats ont t obtenus par la combinaison dun gros travail damlioration de la qualit de lanalyse et de la gnration des descripteurs de recherche, et en particulier la prdiction des types de rponses attendus, une augmentation de la taille des corpus (cf. chapitre 12) et de lajout dans les transformations du support des synonymes. Cet effort a t grandement facilit par la vitesse leve du systme permettant de nombreuses expriences comparatives, mesurant immdiatement limpact de toute modication. De plus, le concept des Descripteurs de Recherche est la fois puissant et

142

CHAPITRE 11. RSULTATS AUX CAMPAGNES DVALUATION OFFICIELLES


Tche manuel ASR T2 manuel ASR T3 manual ASR A ASR B ASR C T1 Prec. 41% 27% 33% 16% 45% 41% 25% 21% Meilleur 31% UPC 18% UPC Tche manuel ASR A ASR B ASR C T5 manuel ASR A ASR B ASR C T4 Prec. 33% 21% 20% 19% 33% 24% 19% 23% Meilleur 34% UPC 30% INAOE -

TAB . 11.4 Rsultats ofciels de lvaluation QAst 2008. La colonne Meilleur indique le meilleur rsultat et le systme layant obtenu le cas chant.

simple comprendre et facilite le diagnostic. Il est gnralement possible pour une question donne de comprendre pourquoi le systme a privilgi une rponse donne en comparant descripteurs et passages, donnant des ides de points sur lesquels agir au niveau de lanalyse de la langue pour amliorer les rsultats. Ces rsultats montrent que les algorithmes et mthodes proposes ont des performances tout fait honorables et sont dautant plus mis en valeur que le travail spcique la langue est de qualit. ASR_A Prec. WER 41% 11,0% 21% 10,6% 24% 11,5% ASR_B Prec. WER 25% 23,9% 20% 14,0% 19% 12,7% ASR_C Prec. WER 21% 35,4% 19% 24,1% 23% 13,7% MAN Prec. 45% 33% 33%

T3 T4 T5

TAB . 11.5 Rsultats comparatifs sur transcription manuelle et automatique pour T3, T4 et T5. Prec. : % taux de rponses correctes au premier rang. WER : Word Error Rate, taux derreur de mots Un des buts de lvaluation QAst tait dtudier limpact des erreurs de la reconnaissance automatique sur les systmes de Question-Rponse. Les rsultats sont regroups dans le tableau 11.5. Les mmes systmes taient utiliss pour les transcriptions manuelles et automatiques, ces rsultats nous donnent des indications sur la robustesse des systmes. L encore la plus grande maturit du systme en franais est vidente, avec une perte de seulement 4% absolus (9% relatifs) pour un taux derreur de mots de 11%, contre 9% absolus (27% relatifs) pour lespagnol et 12% absolus (36% relatifs) pour langlais. Globalement un lien qualitatif apparat entre taux derreur de mots et russite du systme, plus derreurs de transcription donnent gnralement lieu de plus mauvais rsultats, ce qui tait attendu. Cependant prvoir quantitativement la perte en fonction du taux derreur semble difcile. Il est probable que 100 questions et un petit nombre de documents sont insufsants pour mesurer des diffrences nes.

11.2. LA CAMPAGNE DVALUATION QUAERO

143

11.2 La campagne dvaluation Quaero


Le projet Quaero [Quaero 2008], qui inclut entre autres une tche Question-Rponse, a organis dans son premier semestre dexistence une valuation baseline des systmes des participants [Quintard 2009]. La qualication de baseline signie que les systmes devaient tre tests en ltat autant que possible, une adaptation la tche restant cependant ncessaire. Le but tait de savoir do nous partions an de mesurer les progrs via les valuations des annes suivantes. Quaero Web Franais Anglais 500K 500K 82M 92M 840M 921M 4,2G 4,9G 170 180 10 10 5,3 5,3

Type Langue Nombre de documents Nombre de phrases Nombre de mots Nombre de caractres Phrases/document Mots/phrase Caractres/mot

TAB . 11.6 Types et tailles de la collection de documents pour lvaluation baseline Quaero.

Lorganisation de lvaluation a suivi des lignes traditionnelles. Elle a commenc par une dnition du corpus de documents. Le but terme tant daller plus loin dans le domaine des moteurs de recherche grand public, le corpus se devait dtre constitu de documents du Web. Exalead, qui est une entreprise franaise partenaire du projet et qui possde un moteur de recherche grand public en ligne2 , sest charg de cet aspect. Un ensemble de requtes utilisateur a t collect, et environ 500 000 documents potentiellement pertinents pour y rpondre ont t slectionns. Le texte de ces documents a t extrait automatiquement pour constituer la collection. La mme opration a t mene pour le franais et langlais. Les caractristiques nales de ces deux collections sont donnes tableau 11.6. La dnition des types de questions a t un compromis entre les types de questions quun humain pose naturellement et ce que nous pouvons valuer. Comme nous lavons dj indiqu, [Kato et al. 2006] a observ dans le cas dutilisateurs rels que 34% des questions consistaient de questions comment, pourquoi et dnitions. Nous mmes avons constat que plus de 10% des questions taient de type oui/non [Toney et al. 2008]. Finalement les partenaires se sont entendus sur 6 types de questions : Questions factuelles : Quand Gorgoroth a-t-il eu des problmes avec la police ? Dnitions : Quest-ce que le racisme ? Questions oui/non : LAloe-Vera est-il un antioxidant ? Pourquoi : Pourquoi Michael Jackson a-t-il t poursuivi en justice en 2005 ? Comment : Comment retirer une tche de vin rouge ?
2

http ://www.exalead.fr/

144

CHAPITRE 11. RSULTATS AUX CAMPAGNES DVALUATION OFFICIELLES

Listes fermes : Quels sont les six pays ayant fond lUnion Europenne ? Ces diffrents types ont sembl un bon quilibre entre les besoins utilisateurs et ce que nous tions capables dvaluer. Une priode dadjudication avait cependant t prvue aprs lvaluation pour pouvoir rectier les rsultats de lvaluation, et nous navons pas constat de problmes de dsaccord quand la correction ou non dune rponse. Cela ne veut pas dire quil nexistait pas de rponse que lon pourrait considrer limite dans les documents, juste que les systmes ne les ont pas retourns comme rponse correcte. Le problme pourra donc se produire plus souvent lavenir avec lamlioration des systmes. De plus, toujours dans lide dun application relle, les systmes devaient fournir une justication avec chaque rponse, une extrait de texte de 250 caractres maximum devant convaincre un utilisateur humain du bien fond de la rponse. Environ 130 questions par langue ont t fournies avant lvaluation comme donnes de dveloppement par un effort commun entre participants et valuateurs. Les valuateurs ont ensuite cr environ 250 questions par langue pour lvaluation partir des logs utilisateur qui avaient servi construire la collection de documents. Au nal, aprs adjudication, 256 questions ont t conserves pour le franais et 242 pour langlais. Notre systme 19,3% 0,204 23,1% 18,9% 0,200 22,7% 9,1% 0,114 15,2% 9,1% 0,110 15,2% Systme B 30,9% 0,338 37,7% 29,7% 0,304 36,0% 24,7% 0,266 27,2% 24,3% 0,259 27,2% Systme C 11,9% 0,143 19,6% 11,9% 0,139 19,1% 14,1% 0,152 17,9% 14,1% 0,152 17,9%

Franais sans justif. Franais avec justif. Anglais sans justif. Anglais avec justif.

Prcision MRR Top3 Prcision MRR Top3 Prcision MRR Top3 Prcision MRR Top3

TAB . 11.7 Rsultat de lvaluation Quaero, avec et sans prise en compte de la justication. Les systmes B et C sont les systmes des deux autres participants. Les rsultats, tableau 11.7, sont assez mitigs. Notre systme tait celui de lvaluation QAst 2008 dont les rsultats taient prsents la section prcdente. Nous y avions ajout les algorithmes prsents chapitre 9 pour pouvoir rpondre aux questions autres que les factuelles simples. Nos rsultats trs moyens ont premire vue plusieurs causes. La premire est un certain nombre de bugs dans le systme, en particulier au niveau de la dtection de type de question et au niveau de la prdiction de type de rponse qui nous ont cot cher, particulirement en anglais. Une seconde est labsence en pratique de redondance. Les questions, construites partir de logs utilisateurs mais en se rfrant aux documents, tendaient tre assez prcises. La rponse se trouvait du coup un trs petit nombre dendroits dans la collection. Des documents journalistiques par exemple ont tendance se rpter

11.2. LA CAMPAGNE DVALUATION QUAERO

145

beaucoup plus, dun jour sur lautre et dun journal lautre, tout en variant les formulations, rendant la recherche beaucoup plus facile. Mais la raison principale des faibles rsultats reste la qualit des documents. La collection de documents est, rappelons-le, un ensemble de pages web choisies partir des logs utilisateurs. Exalead na effectu aucun ltrage particulier dans les pages choisies sauf celui de la langue, et mme l de nombreuses erreurs sont prsentes en particulier en anglais. En effet ne sont pas rares les pages ayant tout ou partie de leur navigation en anglais mais le contenu effectif dans une autre langue, trompant le systme de slection. Or une grande partie du web actuel consiste en des spams ou en gnral en des sites cherchant tromper les moteurs de recherche et attirer les utilisateurs en contenant des listes de mots-cl les plus larges possibles. La collection de documents na pas t ltre ce niveau l. Et nos scores, en particulier les scores de documents et de passages, sont essentiellement bass sur des comptes doccurrence des termes de la question. Ils sont donc particulirement sensibles ce genre daction. Ils devront donc tre modis pour pouvoir y rsister. Lautre aspect de la qualit des documents est la typographie. Dans des documents propres le placement des majuscules en particulier est un indicateur fort de la prsence de noms propres et dacronymes. Mais les documents venant du web sont, en moyenne, tout sauf propres. Nous allons devoir travailler plus avant sur le problme de la normalisation, qui cherche rgulariser les conventions typographiques utilises dans les documents.

146

CHAPITRE 11. RSULTATS AUX CAMPAGNES DVALUATION OFFICIELLES

Chapitre 12

Impact de la taille des corpus de questions


Une de nos conclusions de lvaluation QAst 2007 est que la robustesse du systme, et donc ses performances au test ofciel, tait trs dpendante de la taille et de la couverture des donnes de dveloppement et que celles proposes taient insufsantes ([Rosset, et al. 2008] ainsi que section 11.1). Ldition 2008 de cette valuation ne proposant l encore que 50 questions par tche pour le dveloppement (cf. tableau 11.1), nous avons dcid dagir sur ce point. La premire tape a t de demander des locuteurs natifs de construire des reformulations des questions de dveloppement. Les questions dorigine, construites par des humains partir des documents, ont tendance reprendre les mots et tournures exactes qui y sont trouvs. Construire des reformulations sans consulter les documents permet de sen loigner et du coup de limiter ce biais. Les rponses restent en thorie les mmes que pour les questions initiales, mme si en pratique de lgers glissements de sens demandent parfois les adapter. Par exemple reformuler En quelle anne la Lituanie est-elle devenue indpendante ? en Quand la Lituanie est-elle devenue indpendante ? ne change pas fondamentalement le sens mais demande de rajouter les dates compltes (11 mars 1990 vs. 1990 seul) comme rponses correctes. Nous avons utilis ces corpus de questions de dveloppement (nomm OffDev par la suite) et de reformulations (RefCorp) directement pour lamlioration des analyses, le choix des diffrents poids et le rglage des paramtres de fonctionnement du systme en gnral. Cela en fait, dans le vocabulaire de la construction des systmes statistiques, des corpus dentranement. Pour pouvoir avoir une ide des performances relles, un vrai corpus de dveloppement est ncessaire, qui nest utilis que pour contrler leffet gnral des volutions et non pour des rglages ns. Nous avons donc d construire un tel corpus, que nous avons nomm Blind Corpus ou BlCorp. Pour les tches T1 et T2, dj prsentes en 2007, nous avons utilis le test 2007 comme corpus. Pour T3 T5 nous avons rcupr des documents similaires ceux prsents dans les corpus ofciels et avons demand aux mmes natifs de 147

148

CHAPITRE 12. IMPACT DE LA TAILLE DES CORPUS DE QUESTIONS

crer de nouvelles questions et reformulations partir de ces documents. Les tailles nales de tous ces corpus sont donnes dans le tableau 12.1. # q. 50 50 50 50 50 # d. 10 50 6 3 1 OffDev # m. 68 541 281 454 35 328 11 568 13 355 # h. 8h45 21h15 2h15 1h00 1h10 # q. 565 587 350 277 217 RefCorp # d. # m. 10 61 025 50 281 454 6 35 328 3 11 568 1 13 355 # h. 5h45 21h15 2h15 1h00 1h10

T1 T2 T3 T4 T5

T1 T2 T3 T4 T5

# q. 100 100 248 186 36

# d. 15 118 3 3 2

BlCorp # m. 63 526 692 957 44 048 11 568 47 721

# h. 8h30 50h40 3h00 1h00 2h25

# q. 100 100 100 100 100

# d. 15 120 12 4 4

Test # m. 57 133 692 957 87 147 22 514 20 007

# h. 5h45 50h40 5h40 1h50 1h40

TAB . 12.1 Les corpus : OffDev : donnes de dveloppement ofcielles ; RefCorp : questions de dveloppement reformules ; BlCorp : donnes de test 2007 pour T1 et T2, donnes construites la main sur dautres documents pour T3 T5 ; Test : donnes ofcielles de test. # q. : nombre de questions ; # d. : nombre de documents ;# m. : nombre de mots ; # h. : dure de parole. De faon mesurer limpact effectif de ces corpus sur les rsultats nous avons repris le systme danalyse et la gnration de DDR correspondante davant que le corpus de reformulations soit constitu et lavons compar avec le systme nal, en sparant laspect optimisation automatique de paramtres numriques, permettant de diffrencier les parties lies lexpertise humaine (analyse et DDR) des parties automatiques. Les rsultats sont regroups dans le tableau 12.2. Ces rsultats montrent que limpact de lamlioration de lanalyse et de la gnration des DDR est trs signicative, avec un gain absolu sur le test de 9% (T5) 24% (T1). Avoir un plus grand nombre dexemples avec lesquels travailler est en pratique aussi important pour un humain crivant des rgles la main que pour un systme statistique. Lintuition a des limites. La forte perte entre le Blind Corpus et le test ofciel pour les tches T1 et T2 sexplique par un mismatch entre les donnes de dveloppement et de test. Le blind corpus suit les catgories de questions des donnes de dveloppement, mais celles-ci navaient pas chang depuis 2007. Or les catgories, elles, avaient chang, en particulier avec laddition de nombreuses questions de dnitions (environ 25% des questions du test). Ces changements manquaient donc la fois dans les donnes de dveloppement et dans le blind corpus. Le travail sest donc fait suivant les lignes de lvaluation 2007 et lutilisation du blind corpus na pas permis de sapercevoir du problme.

149 T1 BlCorp 45,9% 54,1% 64,3% 64,3% T2 BlCorp 37,5% 45,8% 49,0% 49,0% T3 BlCorp 29,0% 29,0% 40,3% 41,5% T4 BlCorp 15,1% 15,1% 24,2% 26,9% T5 BlCorp 11,1% 11,1% 25,0% 36,1%

Original Paramtrage sur tout Analyse sur tout Tout sur tout

Test 29% 33% 44% 41%

Test 29% 30% 33% 33%

Test 40% 41% 45% 45%

Test 25% 31% 28% 33%

Test 22% 24% 29% 33%

TAB . 12.2 Rsultats comparatifs obtenus sur le Blind Corpus (BlCorp) et le test ofciel (Test). Le systme original est construit uniquement sur le corpus de dveloppement ofciel. partir de l loptimisation du paramtrage pour tre effectu sur lensemble dev+reformulations, lanalyse et les poids dans la gnration des DDR peut tre travaill sur le mme ensemble, ou les deux la fois. Les valeurs sont les prcisions (accuracy). En contrepartie pour T3 T5 nous pouvons voir que ces blind corpus sont lgrement plus difciles que le corpus de test ofciel. Cela en fait des bons guides pour notre travail. Lutilisation de reformulations dans leur construction a assur que la plupart des questions ne reprenaient pas directement les formulations des documents. La lgre perte observe sur T5 peut probablement tre explique par la relative petitesse de ce corpus spcique. En ce qui concerne loptimisation des paramtres, nous pouvons voir quen gnral plus de donnes rsulte en un gain, comme attendu. T1 est une exception, qui est probablement explique par le mismatch prcdemment dcrit. La magnitude du gain est cependant peu prvisible. Cela laisse penser que la mthode destimation des scores de rponse gagnerait tre retravaille pour assurer une meilleure robustesse.

150

CHAPITRE 12. IMPACT DE LA TAILLE DES CORPUS DE QUESTIONS

Chapitre 13

Rsultats individuels par modules


13.1 Impact de lanalyse et de la Recherche dInformations
Le systme Question-Rponse sappuie sur 5 tapes principales : lanalyse de la langue, la gnration dun Descripteur De Recherche et en particulier la prdiction des types de rponse, la slection des documents, lextraction des passages et nalement lvaluation des candidats rponses. Il est intressant de mesurer pas pas limpact de ces diffrents modules. Le tableau 13.1 regroupe un ensemble de rsultats individuels sur les donnes QAst 2008 (transcription manuelle) et Quaero en franais, obtenus sur les questions factuelles ayant une rponse dans la collection uniquement (do les pourcentages diffrents des rsultats ofciels). Rappelons les caractristiques de ces valuations. Les tches T1 T5 de QAst sappuient sur des transcriptions de parole de natures diverses. T1 et T2 sintressent langlais technique spontan, dans le cadre de sminaires pour T1 (un seul locuteur) et de runions de travail pour T2 (locuteurs multiples). T3 couvre le franais prpar dmissions dinformations radiodiffuses. Enn T4 et T5 couvrent la parole prpare des dbats du parlement europen, en anglais pour T4 et espagnol pour T5. Lvaluation Quaero sappuie sur une collection de documents (500 000) rcuprs du Web. Pour interprter ce tableau, il faut tout dabord se rappeler que seules les entits annotes par lanalyse sont considres comme rponses potentielles. Par exemple si une rponse attendue est centre marocain de la gouvernance mais que lanalyseur ne dtecte que centre marocain la rponse attendue ne sera jamais candidate. Cest ce que mesure la ligne Entit, qui permet ainsi de voir le maximum absolu en performance que lon peut obtenir pour une analyse donne. Lalgorithme dextraction fait cependant aussi un ltrage sur le type de lentit : seules sont prises en compte celles dun des types prdits pour la rponse. Par exemple, pour la question De quel organisme Driss Abbudi est-il prsident ? le systme prdit que la rponse doit tre une organisation. Si, par erreur, lanalyse a annot centre marocain de la gouvernance comme un lieu, le systme ne pourra trouver la bonne rponse. 151

152

CHAPITRE 13. RSULTATS INDIVIDUELS PAR MODULES


QAst T3 92,0% 87,4% 100,0% 86,2% 80,5% 75,9% 49,4% Quaero T4 88,8% 71,9% 100,0% 66,3% 66,3% 58,4% 34,8% T5 85,4% 66,3% 100,0% 65,2% 59,6% 49,4% 33,7% 87,8% 63,4% 75,6% 56,7% 51,2% 36,0% 23,8%

Entit En+Type Document Passage Pass+En Pass+En+Type Prcision

T1 83,3% 60,0% 100,0% 77,8% 67,8% 53,3% 38,9%

T2 90,9% 59,1% 100,0% 72,7% 67,0% 54,5% 31,8%

TAB . 13.1 valuation modulaire sur questions factuelles uniquement. Entit : la rponse attendue est en une seule entit pour lanalyse. En+type : la rponse attendue est en une seule entit et son type fait partie des types prdits pour la rponse dans le DDR. Document : la rponse attendue apparat dans les documents choisis. Passage : la rponse attendue apparat dans les passages extraits. Pass+En : la rponse attendue apparat en une seule entit dans les passages. Pass+En+Type : la rponse attendue apparat en une seule entit dans les passages avec un type prdit dans le DDR. Prcision : la rponse attendue est donne au premier rang.

Cette deuxime condition est mesure dans la ligne En+Type. Le systme fonctionne globalement par ltrage. La premire tape est une slection dun sousensemble de documents. Dans le cas de QAst cette slection nest pas faite, le nombre de documents tant trs faible. Mais dans le cas de Quaero il sagit de slectionner un maximum de 300 documents parmi une collection en contenant 500 000. La ligne Document indique le niveau de succs de cette tape en vriant si la rponse est prsente dans les documents slectionns. Aprs la slection des documents, des passages en sont extraits. La qualit de ces passages est mesure suivant le mme critre dans la ligne Passage. Les deux lignes suivantes, Pass+En et Pass+En+Type croisent lextraction de passages avec lanalyse. La premire, croisant Passage et Entit indique si la rponse existe en tant quentit dans les passages extraits. La seconde croise Passage et En+Type et indique si la rponse existe dans les passages non seulement en tant quentit mais aussi dun type attendu pour la rponse. Enn la dernire ligne, Prcision, donne la performance nale du systme complet. Que nous indiquent ces chiffres ? Le plus simple est de regarder les pertes successives causes par chaque tape, partant dun idal de 100%. En premier lieu, on peut constater que le choix des frontires dentits par lanalyse occasionne une perte de 8% (T3) 16,7% (T1) (ligne Entit), ce qui est relativement peu et justie de ne considrer que les entits comme rponses potentielles. La prdiction de type de rponse fait perdre de 4,6% (T3) 31,8% (T2) de plus (ligne En+Type). Le meilleur rsultat de ces deux tapes (8% et 4,6% pour un total de 12,6%) est obtenu pour les questions sur

13.1. IMPACT DE LANALYSE ET DE LA RECHERCHE DINFORMATIONS

153

les informations en franais (T3). Les donnes sont relativement propres et le franais est la langue pour laquelle lanalyseur a t dvelopp depuis le plus longtemps. Dans des conditions similaires, les analyseurs anglais (T4) et espagnol (T5), plus rcents, atteignent 28,1% et 33,7% de perte cumule respectivement. Il est noter que ces pertes combinent trois types derreurs : problmes de frontires dentits, problmes de typages dentits et problmes de prdiction de type attendu. Toujours pour EN+Type, la perte cumule de 40% et 40,9% pour T1 et T2 (sminaires et runions en anglais), plus importante denviron 12% que T4 (anglais gnral) tout en tant la mme langue, peut sexpliquer par deux facteurs : couverture de lanalyseur et mismatch dveloppement/test. Le vocabulaire technique du traitement de la langue dans T1 a entran des problmes de frontires et de typage. Il en est de mme dans T2 pour les locutions varies dsignant des formes et couleurs. Les questions trs diffrentes du test par rapport au dveloppement, qui avaient t constitues un an dcart par deux personnes diffrentes et dans un anglais parfois approximatif ont mis rude preuve la prdiction de type de rponse attendue. Enn dans le cas de Quaero la perte est l aussi importante 36,6%, et est trs probablement due la nature des documents. Le Web tout-venant est particulirement inconsistant tous les niveaux, qualit de langue, orthographe, typographie, qualit informationnelle, etc. Cela pose bien des problmes et en particulier au niveau du typage des entits. Des efforts sont dailleurs prvus au niveau de la normalisation des documents pour amliorer la situation. La qualit de la recherche dinformations, ligne Passage, dpend, dans le cas des donnes QAst (o le faible nombre de documents fait quils sont tous conservs), de la capacit du systme reconnatre les lments importants de la question dans le voisinage de la rponse. Les rsultats nont rien de surprenant, mme sils gagneraient tre amliors. Le systme le plus abouti (T3, franais) a les meilleurs rsultats, les systmes plus rcents (T4, anglais, et T5, espagnol) sont moins bons. La perte plus faible pour T1 et T2 (anglais technique) par rapport T4 (anglais gnral) sexplique probablement par la spcicit des thmes abords donnant lieu lutilisation de termes et locutions du domaine se retrouvant lidentique dans les questions. Dans le cas de Quaero, la recherche dinformations dpend dun facteur de plus : la capacit du systme choisir les documents les plus pertinents dans la grande masse disponible (environ 500 000). Ce facteur, cumul avec les problmes de typage dentit dj voqus, rend la reconnaissance des entits des questions plus difcile. Nous pouvons constater que 24,4% de pertes sont dues la slection des documents (ligne Document). cela sajoutent 18,9% de pertes dues la slection des passages. En comparaison T3, informations en franais sans slection de documents, perd 13,8% au niveau de la slection de passages. Cette slection est particulirement difcile dans le cas de Quaero o sont prsentes dans la collection de documents de nombreuses pages non pertinentes pour la question qui essaient cependant dattirer les moteurs de recherches (pages de sites pornographiques ou publicitaires en particulier) avec des listes de mots ou de noms. Lalgorithme de slection des pages, sappuyant sur de simples comptes doccurrences, y est particulirement sensible. Des efforts devront tre faits pour amliorer cela, une piste est de mesurer la distance de la page des donnes journalistiques via des mesures de perplexit calcules avec des modles de langages appropris et de favoriser

154

CHAPITRE 13. RSULTATS INDIVIDUELS PAR MODULES

les pages proches de ce type de langue, les considrant gnralement plus informatives. La dernire tape est lvaluation des candidats rponse, qui nous amne au score nal, la prcision. La perte associe, successive ltape prcdente Pass+En+Type, varie de 30% 40%. Deux facteurs entrent en jeu : la capacit du systme reconnatre les lments de la question mais aussi lalgorithme de score lui-mme. La mthode de calcul propose a ses limites. En effet la prsence de deux entits proches nindique pas toujours une relation positive entre elles, et une simple notion de distance est dans tous les cas trop limite. On peut imaginer que des informations linguistiques plus avances telles que des relations smantiques entre les entits pourraient permettre dobtenir de meilleures performances sans inuer de manire notable sur la vitesse du systme.

13.2 Impact des erreurs de transcription sur les diffrents modules


La table 13.2 prsente les rsultats par composant en suivant la mme approche que la section prcdente sur les transcriptions automatiques de QAst 2008 en comparaison ceux obtenus sur les transcriptions manuelles. Ces mesures sont l encore limites aux questions factuelles. WER T3 Manuel ASR_A ASR_B ASR_C Manuel ASR_A ASR_B ASR_C Manuel ASR_A ASR_B ASR_C 11,0% 23,9% 35,4% 10,6% 14,0% 24,1% 11,5% 12,7% 13,7% Entit 92,0% 97,7% 97,7% 97,7% 88,8% 97,8% 97,8% 98,9% 85,4% 95,5% 92,1% 95,5% En+Type 87,4% 86,2% 86,2% 78,2% 71,9% 67,4% 64,0% 61,8% 66,3% 66,3% 61,8% 64,0% Passage 86,2% 59,8% 37,9% 29,9% 66,3% 40,4% 34,8% 30,3% 65,2% 51,7% 53,9% 46,1% Pass+En+Type 75,9% 55,2% 35,6% 27,6% 58,4% 33,7% 30,3% 25,8% 49,4% 38,2% 38,2% 33,7% Prcision 49,4% 41,4% 24,1% 19,5% 34,8% 20,2% 18,0% 16,9% 33,7% 23,6% 20,2% 22,5%

T4

T5

TAB . 13.2 valuation modulaire sur questions factuelles uniquement sur transcriptions manuelles et automatiques. WER : taux derreur de mots des transcriptions automatiques. Entit : la rponse attendue est en une seule entit pour lanalyse. En+type : la rponse attendue est en une seule entit et son type fait partie des types prdits pour la rponse dans le DDR. Passage : la rponse attendue apparat dans les passages extraits. Pass+En+Type : la rponse attendue apparat en une seule entit dans les passages avec un type prdit dans le DDR. Prcision : la rponse attendue est donne au premier rang. La valeurs leves de la colonne Entit pour les transcriptions automatiques sont un artefact de la mthode dvaluation. Le systme doit donner un intervalle temporel comme rponse et une marge

13.2. IMPACT DES ERREURS DE TRANSCRIPTION SUR LES DIFFRENTS MODULES 155
derreur est autorise sur les bornes (cf. section 11.1). En consquence nimporte quelle suite de mots de la transcription automatique commenant et nissant lintrieur des marges doit tre considre correcte. Du coup la rponse peut souvent tre rduite a un simple mot, parfois mme un mot vide (dterminant, prposition, ...), qui est annot en tant que tel par lanalyse. Le score Entit est ainsi articiellement augment. Ajouter la corrlation avec les types dentit attendus pour la rponse, colonne En+Type, donne des informations plus intressantes quand aux pertes dues aux erreurs de transcription automatique. Nous pouvons voir que les systmes franais et espagnols sont plutt robustes, arrivant annoter les entits avec les types corrects attendus la plupart du temps mme en prsence derreurs dans les entits ou leur contexte (environ 1% derreur pour environ 11% de WER). Le systme anglais est lgrement moins robuste ce qui explique sa perte plus leve (environ 4% pour un WER similaire). La plus grande perte a lieu au niveau de lextraction des passages, colonnes Passage et Pass+En+Type. Extraire les passages, et ensuite valuer les candidats rponse, dpend, comme nous lavons vu, de la capacit du systme reconnatre les lments des questions dans le document, avec des possibilits de transformations entre les deux pour amliorer la couverture. Mme si les rsultats En+Type montrent que les types sont en grande partie conservs, les valeurs elles changent avec les erreurs, faisant chouer les correspondances. Cette conservation des types laisse penser quil serait intressant dajouter une tranformation base sur la phontique permettant des correspondances plus lches, quitte lui donner un poids plus faible au niveau des DDR. Ces rsultats montrent que le lien augmentation du WER et augmentation des pertes reste prsent tous les niveaux. Pour le cas trange des ASR B et C en espagnol, o la diffrence entre les rsultats (20,2% contre 22,5% de prcision) est inverse par rapport la diffrence de taux derreur (12,7% contre 13,7% de WER), un indice semble tre prsent dans la colonne En+Type, avec des valeurs de 61,8% contre 64,0%. Il semblerait indiquer que les rponses attendues aux questions du test se sont trouves tre plus touches par les erreurs de reconnaissance du systme B que du systme C. Cependant, le faible nombre de questions (100) semble tre insufsant pour tirer de ces relativement faibles diffrences des conclusions signicatives statistiquement.

156

CHAPITRE 13. RSULTATS INDIVIDUELS PAR MODULES

Chapitre 14

Equilibre vitesse - performance


Un des buts du systme de Question-Rponse que nous avons dcrit est de pouvoir contrler la vitesse de raction du systme. Cela se fait via deux paramtres, le nombre maximal de documents retenus et le nombre maximal de candidats rponse valus. Nous allons valuer linuence de ces deux paramtres sur les performances du systme, en termes de MRR pour la qualit des rponses et de temps moyen par question pour la vitesse. Nous avons fait ces exprimentations sur deux jeux de donnes : Clef : la collection QA@Clef en franais et les 400 questions des valuations 2004 et 2005. Web : Documents rcuprs du Web et 100 questions construites partir du corpus Ritel [Rosset & Petel 2006]. La collection de documents Clef comprend les annes 1994 et 1995 du journal Le Monde ainsi que les dpches de lagence de presse suisse ATS. Les documents portent chacun sur un seul sujet et leur taille varie de 3 octets 95Ko suivant une courbe exponentielle inverse (gure 14.1). La taille totale est lgrement en dessous de 400Mo pour 177 000 documents. Les questions et rponses de rfrence sont celles des valuations Question-Rponse de Clef des annes 2004 et 2005. La collection Web a t construite en 2006 en rcuprant les (approximativement) 1 000 premires pages retournes par Altavista sur une srie de requtes construites autour denviron 10 thmes. La taille de ces pages HTML, une fois le texte extrait, varie de un octet 33Mo, avec une distribution en loi de puissance tel que nous pouvons voir gure 14.2. Nous avons supprim de la collection tous les documents plus grand que 1Mo pour ces valuations, conservant cependant une taille moyenne bien plus leve que pour Clef avec un total de 5Go de texte pour environ 62 000 documents. Comparant avec la collection Quaero, construite en 2008 par des moyens similaires avec le moteur dExalead, nous avons constat que les documents de notre collection Web taient en moyenne beaucoup plus propres et moins spamms. Cela sexplique probablement par deux facteurs : la collection Quaero a t constitue par Exalead eux-mmes sans appliquer leurs ltres anti-spam, alors que ce type de ltre est appliqu par linterface web dAltavista que nous avions utilis, et le web franais en 2006 tait 157

158
100000

CHAPITRE 14. EQUILIBRE VITESSE - PERFORMANCE

10000

Nombre de documents

1000

100

10

1 0Ko 10Ko 20Ko Taille de document 30Ko 40Ko

F IG . 14.1 Distribution des tailles de documents pour la collection Clef

100000

10000

Nombre de documents

1000

100

10

1 0Ko

250Ko

500Ko

750Ko

1Mb

1250Ko

1500Ko

1750Ko

2Mb

Taille de document

F IG . 14.2 Distribution des tailles de documents pour la collection Web

probablement intrisquement plus propre, mais moins riche, quen 2008, son dveloppement tant rapide. Les questions associes sont des vraies questions utilisateurs, parfois reconstruites daprs lhistorique du dialogue, qui ont t poses oralement et spontanment par des utilisateurs testeurs.

159 Nous avons ensuite cherch la main les rponses dans les documents. Cette procdure demande beaucoup de travail mais assure que le biais habituel apparaissant quand des questions sont construites partir de documents soit cette fois-l absent.

Temps moyen par question 0.30 0.28 0.26 0.24 0.22 0.20 0.18 0.16 0.14 0.12

MRR 55.0 50.0 45.0 40.0 35.0 30.0 25.0

10000 1000 100 Nombre de candidats 10 1 1 10 10000 1000 100 Nombre de documents 100000

10000 1000 100 Nombre de candidats 10 1 1 10 10000 1000 100 Nombre de documents 100000

10000

1000

Nombre de candidats

100

10

1 1 10 100 1000 10000 100000 Nombre de documents

F IG . 14.3 Clef : Temps par question en secondes, MRR et lignes de contour. Dans le graphe de contours, chaque ligne rouge correspond une perte de 5% absolus par rapport au MRR maximal, et chaque ligne verte un ralentissement de 10%. Pour chacune des collections nous avons valu le temps moyen par question et le MRR en fonction des valeurs des deux paramtres contrlant la vitesse, le nombre maximal de documents retenus et le nombre maximal de candidats rponse examins. Les courbes pour la collection Clef sont gure 14.3 et celle de la collection Web gure 14.4. Les courbes de MRR sont similaires pour les deux collections : elle grimpent rapidement vers un plateau qui reprsente la performance maximale du systme. Les courbes de temps sont trs raisonnables : elles dmarrent un niveau non-compressible qui reprsente le temps pris par la slection des documents. On voit dailleurs l une diffrence fondamentale entre les deux collections. Les documents Clef sont courts et monothmatiques. En consquence le nombre de documents contenant les lments importants dune question donne est en gnral

160

CHAPITRE 14. EQUILIBRE VITESSE - PERFORMANCE

Temps moyen par question 3.00 2.50

MRR 60.0 55.0 50.0

2.00 1.50

45.0 40.0 35.0

1.00 0.50 0.00 10000 1000 Nombre de candidats 100 10 1 1 10 10000 1000 100 Nombre de documents 100000

30.0

10000 1000 100 Nombre de candidats 10 1 1 10 10000 1000 100 Nombre de documents 100000

10000

1000

Nombre de candidats

100

10

1 1 10 100 1000 10000 100000 Nombre de documents

F IG . 14.4 Web : Temps par question en secondes, MRR et lignes de contour. Dans le graphe de contours, chaque ligne rouge correspond une perte de 5% absolus par rapport au MRR maximal, et chaque ligne verte un ralentissement de 10%. relativement faible. Par contre la collection Web est constitue de gros documents, parfois multithmatiques. En consquence beaucoup plus de documents sont pertinents pour une question donne. Cela rend la slection des documents deux fois plus lente pour le Web que pour Clef bien que la collection contienne trois fois moins de documents. Ces courbes de temps augmentent relativement lentement ensuite avec le nombre de documents et le nombre de candidats examins. Dans le cas du Web le temps est domin largement par le nombre de documents, ce qui nest pas tonnant vu la taille moyenne bien suprieure des documents. Le point important, montr par les courbes de contour, est que le plateau du MRR est atteint avant que les temps augmentent de faon signicative, permettant de choisir pour chaque collection un point de fonctionnement o les rsultats sont maximaux alors que le temps moyen nest que 5 15% au dessus du minimum absolu. Les temps rsultants, environ 0,3s par question pour le corpus

161 Web et 0,13s pour Clef, sont raisonnables pour une systme interactif ractif. Ces rsultats montrent cependant que lamlioration de ces temps devra passer par une acclration de ltape de slection des documents, ce qui nest pas a priori simple.

162

CHAPITRE 14. EQUILIBRE VITESSE - PERFORMANCE

Discussion
Nous avons prsent des valuations de systmes construits sur la base des algorithmes proposs suivant plusieurs angles. Les valuations Question-Rponse ofcielles permettent dobtenir une vue globale des performances de lensemble du systme. Ltude de limpact de la taille des corpus donne une ide de la quantit de donnes ncessaire pour lapprentissage non seulement des paramtres du systme mais aussi des linguistes construisant lanalyse et les rgles de classication de questions. Les rsultats dtaills par module permettent de diagnostiquer les points forts et points faibles an dorienter les travaux de recherche futurs. Enn ltude de lquilibre vitesse-performance permet de choisir un point de fonctionnement optimal pour le systme tant donn les contraintes matrielles imposes par le contexte exprimental. Ces valuations ont ainsi permis de mettre en vidence des forces et des faiblesses de lensemble. Une grande force est la vitesse leve de tous les composants du systme lie la exibilit de ce que lon peut lui demander. Il est trs facile de modier lanalyse, les rgles de classication de questions ou encore les transformations et un nouveau rsultat est rapidement obtenu. Prenons le cas des anciennes valuations QA@Clef par exemple. Avec ses 400M de documents et 200 questions on peut la considrer de taille moyenne. Lanalyse et lindexation de lensemble des documents prend moins de deux heures, un tuning complet (57024 runs factoriss au mieux) environ une demi-heure, et la recherche des rponses pour lensemble des donnes de dveloppement vingt trente secondes. Et il nest videmment pas ncessaire de refaire la totalit des tapes chaque fois. Il est donc possible davoir une dmarche exprimentale, o lon teste trs souvent limpact des modications effectues, permettant davoir une bonne ide de ce qui amliore le rsultat ou le dgrade. De plus les descripteurs de recherche sont une reprsentation intermdiaire synthtique donnant un point de contrle intressant sur le comportement du systme. Il est intressant de noter aussi que nous avons atteint nos objectifs fonctionnels. Le systme est capable dintgrer des lments complmentaires venant du gestionnaire de dialogue via son algorithme de gnration des Descripteurs de Recherche. Sa vitesse est sufsante pour un cadre interactif. De plus le typage de la rponse ainsi que la prsence des lments pertinents dans le DDR facilite la construction de la rponse donner lutilisateur. Le systme est ainsi rellement utilis dans un cadre de dialogue en domaine ouvert avec des rsultats intressants, mais sortant du cadre de cette thse. Le lecteur intress peut consulter [Toney et al. 2008] par exemple.

163

164

CHAPITRE 14. EQUILIBRE VITESSE - PERFORMANCE

Les approches proposes ont cependant des faiblesses. La premire tourne autour de lvaluation des rponses. La mthode de scoring est construite sur une combinaison dindices pertinents, et les rsultats sont acceptables. Cependant lvaluation modulaire montre quelle gagnerait tre plus robuste et moins dpendre de paramtres arbitraires. Nous pensons quune approche probabiliste, comme voque dans la conclusion de la partie prcdente, pourrait tre plus robuste. Le seconde faiblesse, que nous avons vue dans les rsultats de lvaluation ofcielle Quaero, est la sensibilit des scores de document et de passage la pollution voulue quest le spam. Il semble donc indispensable dans les cas o ce genre de problme se pose dtendre le score pour tenir compte de la qualit informative intrinsque des documents. Mais la principale faiblesse est la limite sur ce que lanalyse peut reprsenter. Comme nous lavons vu dans la premire partie la reprsentation ne permet pas dannoter les relations longue distance. Or nous pensons que des relations smantiques de qualit liant les lments trouvs par lanalyse permettraient dobtenir une bien meilleure qualit au niveau du score de rponse. Cependant, reprsentation mise part, poser de telles relations de faon able semble trs difcile sans de grandes ressources linguistiques. Concevoir un moteur de rgles capable de travailler sur de telles relations, crire des rgles pour les tablir dune manire able et les exploiter ensuite dans un systme Question-Rponse restent des problmes ouverts.

Quatrime partie

Conclusions et perspectives

165

Chapitre 15

Conclusions
Le travail que nous avons prsent sinscrit dans le cadre dun project de recherche dinformations interactive. Le projet Ritel [Ritel 2007 ; Rosset et al. 2006], qui a vu le jour au LIMSI en 2004, a pour objectif de construire une plateforme de dialogue permettant dassister un utilisateur dans diverses tches dont, en premier lieu, la recherche dinformations en domaine ouvert. Passer en domaine ouvert pose de nombreuses difcults. Une des questions se poser est quels types dinformation est-on capable de rechercher en dehors dune tche prcise. Depuis la n des annes 90 une sous-partie du domaine de la Recherche dInformations se dveloppe, les Systmes de Rponse des Questions, ou Systme Question-Rponse pour faire court. Le but est de rpondre au mieux des questions poses en langue partir dune base de documents. Cependant il existe bien des types de questions, dnitions, pourquoi, comment... Un type spcique qui nous intresse pour plusieurs raisons est les questions prcises qui demandent une rponse prcise tenant en peu de mots, souvent qualies de questions factuelles. Par exemple la question Qui a t lu prsident des tats-Unis en 2008 ? attend la rponse Barak Obama, pas plus, pas moins. Ces questions ont trois avantages : le premier est quelles sont raisonnablement faciles valuer. Dcider si une rponse donne par un systme est correcte ou non pose rarement problme. Le 44e prsident des tats-Unis ou encore le candidat dmocrate, pourraient certes poser problme en thorie, mais la raction humaine immdiate oui mais ctait qui ? tend diminuer la discussion pour les classer insufsantes, et donc incorrectes. En comparaison une question de dnition telle que quest-ce quune OPA hostile ? pose un bien plus gros problme dvaluation : une rponse doit-elle contenir la dnition dune OPA ou les particularits spcique des hostiles sont elles sufsantes ? Un deuxime avantage, li au premier, est quelles ont t bien plus tudies et les systmes tentant dy rpondre peuvent participer des valuations internationales reconnues qui permettent davoir une ide de o on se trouve par rapport ltat de lart. Enn le dernier point est spcique linteraction, et en particulier linteraction orale : des rponses attendues courtes permettent au systme de rpondre de faon efcace et mme, dans le cas de documents audio, de rejouer les bouts de documents associs. 167

168

CHAPITRE 15. CONCLUSIONS

Et ce sans ennuyer lutilisateur ou avoir besoin de construire un rsum synthtique des informations trouves, ce qui est un problme de recherche part entire. Nous nous sommes donc intresss aux systmes Question-Rponse (QR) pour pouvoir les utiliser dans un cadre interactif. Cependant ce cadre apporte des contraintes propres. La premire, vidente, est un besoin de contrler le temps de rponse. En effet un utilisateur est impatient par dnition, il ne faut donc pas le faire attendre, particulirement quand linteraction se fait via le tlphone. Or le tlphone, par sa facilit de mise en uvre, est un des vecteurs de communication orale privilgis par le projet Ritel. Et le problme de la vitesse a t trs peu tudi dans le cadre des systmes QR. La seconde contrainte est plus subtile : la question ne se limite pas une phrase bien construite. En effet une interaction inclut un contexte, et une demande de lutilisateur se doit dtre interprte en fonction de ce contexte. En pratique cette interprtation prend la forme dentits compltant la demande, entits slectionnes par le gestionnaire de dialogue, partie de systme charge de la gestion de linteraction. Nous avons donc besoin dune certaine exibilit de lentre. Nous avons vu quen dehors dune structure gnrale similaire il ny a pas vraiment dapproche standard pour la conception de tels systmes. Ils peuvent aller du tout statistique sans connaissance de la langue au trs linguistique avec analyse profonde base sur de grandes bases de connaissances et incluant du raisonnement logique sur les concepts extraits. Notre exprience dans le domaine du dialogue nous a pouss vers une organisation un peu intermdiaire : une analyse de la langue, que lon pourrait qualier de comprhension est applique aux documents et aux questions et leur impose une structure. Lensemble des algorithmes de recherche travaille alors uniquement sur le rsultat de cette structuration. Cette approche a plusieurs avantages : le premier est une sparation conceptuelle entre les parties dpendantes de la langue, lanalyse, et celles indpendantes de la langue, la recherche. Cette sparation nest pas parfaite, certaines parties de lanalyse sont presque indpendantes de la langue, et certaines parties de la recherche sont trs dpendantes de lanalyse et donc de la langue. Cette dcomposition reste cependant trs utile pour contrler la complexit de lensemble et donc dvelopper efcacement le systme. Un autre avantage est li la vitesse. Les documents sont analyss avant toute recherche, et aucune analyse supplmentaire de ces documents nest ncessaire au moment o la demande de lutilisateur est disponible. Cette concentration de lanalyse dans les prtraitements permet de concevoir des algorithmes trs performants qui le seraient beaucoup moins si il fallait redescendre aux mots. Enn dans notre cadre interactif cette approche nous permet dunier comprhension pour le dialogue et analyse pour la recherche dinformations, permettant au gestionnaire de dialogue et au systme Question-Rponse de parler une langue commune que sont les entits structures construites par lanalyse. Notre systme se divise donc en deux parties, une analyse de la langue et un systme de recherche de rponses. Construire une telle analyse de la langue, qui unie les besoins du dialogue et de QuestionRponse, est un problme ouvert. De plus il ne relve pas vraiment de notre comptence mais plutt de celle de linguistes. Notre but est donc devenu de fournir des linguistes le meilleur outil possible pour leur permettre de construire au mieux une telle analyse. Nous avons donc d tudier le problme des moteurs danalyse. Le caractre trs exprimental du problme nous conduit nous intresser en particulier aux moteurs permettant dcrire des systmes base de rgles. En effet avec un systme

169 bas sur des rgles rien nest g. Il est toujours possible de modier le schma dannotation choisi, et il est plus facile dagir directement sur les points semblant poser problme quavec un systme statistique. Les moteurs disponibles existants nous ayant sembl insufsants, nous avons propos le ntre qui essaie dquilibrer au mieux les aspects un peu conictuels que sont lexpressivit et lergonomie. Une dcision fondamentale a t de le structurer comme un moteur de transformations qui agissent sur une reprsentation commune. Cette reprsentation est trs structure, elle consiste en une fort dalternatives, o chaque nud contient un ou plusieurs labels qui peuvent tre des mots ou des tags. Une manire alternative utile de la voir est un vecteur de nuds, chaque nud pouvant optionnellement contenir un vecteur de nuds drivs. Une telle reprsentation a du bon et du mauvais. Le principal avantage dune telle structuration est la facilit dinterprtation de son contenu. La syntaxe des rgles peut en particulier sappuyer sur cette structure pour fonctionner de manire claire et non-ambige. Linconvnient principal est la limitation sur ce qui peut tre reprsent. En loccurrence il nest pas possible de reprsenter des relations longue distance entre nuds. En termes linguistiques, il nest pas possible de reprsenter dans le cas gnral des dpendances syntaxiques ou des relations smantiques entre chunks. Tous les groupements sont connexes. Une telle structure reste sufsante pour les parties du discours, les entits nommes, le chunking et lanalyse syntaxique en composants, entre autres, donc sa couverture est loin dtre minimale. Les transformations peuvent tre de trois types : algorithmiques, statistiques ou base de rgles. Les transformations dites algorithmiques couvrent toutes celles qui sont simples et scrivent bien sous la forme dun court programme. Dans un analyseur traditionnel ce rle est bien souvent couvert par des scripts PERL judicieusement placs. Nous avons prfr les intgrer dans le moteur de faon ce que leur utilisation soit explicite. Les transformations statistiques sont encore trs peu dveloppes et nincluent pour linstant quune analyse en parties du discours sappuyant sur les modles de TreeTagger. La transformation base de rgles est la plus aboutie. Elle sappuie fondamentalement sur la notion dexpression rgulires mais ltend sur de nombreux axes. Le point fondamental est ce sur quoi elles sappliquent. En effet, plutt que de traiter des caractres, nos expressions travaillent sur des mots. Cela correspond bien videmment mieux notre reprsentation, mais cela permet en plus damliorer grandement la lisibilit des rgles. En effet, lespace ntant plus quun sparateur, lutilisateur est bien plus libre au niveau du formatage des rgles. Cela permet aussi, et cest fondamental, de dnir une syntaxe pour des classes et macros nommes, permettant une structuration naturelle des rgles. Les oprateurs tendus habituels sont prsents, tels que le contrle des rptitions (bornes infrieures et suprieures, rptitions au plus court ou au plus long) ou encore les lookaheads, qui permettent de tenir compte des contextes dans lapplication des rgles. De plus des oprateurs spciques notre moteur permettent de se dplacer dans la reprsentation, et en particulier de descendre dans les drivations, ce qui rend possible dobserver la totalit des annotations prsentes un moment donn et mme de redescendre jusquaux mots dorigines. Enn un dernier point important est la possibilit de transformer la reprsentation de faon assez libre via les rgles, permettant de revenir sur des annotations ou de les prciser.

170

CHAPITRE 15. CONCLUSIONS

Globalement, un mini-langage bas sur Lua permet dorganiser les diffrentes passes de transformation utilises dans lanalyse. Cela permet de regrouper en un chier visible, mais qui en utilise dautres, lensemble dune analyse. Nous avons aussi donn la possibilit de construire un chier binaire regroupant la totalit dun systme danalyse, crant ainsi une version package trs pratique pour les applications voulant ensuite utiliser cette analyse. Nous avons prsent quelques cas dutilisation de ce moteur et aussi quelques chiffres de performance montrant quil est tout fait adapt ce pour quoi nous lavons conu. Nos collgues linguistes ont en effet pu dvelopper un systme danalyse multi-niveaux complet couvrant la fois les besoins du dialogue et ceux de Question-Rponse. Ils ont galement pu avec un effort minimal traduire ce systme pour lui faire traiter lespagnol et langlais. Ayant ainsi une analyse de la langue performante, nous avons pu nous intresser la seconde partie du problme, le systme de recherche dinformations lui-mme. Nous avons deux contraintes ce niveau-l : nous devons tre capables daccepter des entits supplmentaires venant du gestionnaire de dialogue, et nous devons pouvoir contrler la vitesse globale du systme pour assurer de bons temps de raction du systme de dialogue. Le systme Question-Rponse que nous proposons a plusieurs originalits. La premire est de ne travailler que sur les structures produites par lanalyse, que nous nommons entits. En comparaison, beaucoup de systmes font dabord une extraction de texte brut des documents partir des mots de la question, puis analysent ensuite ce texte pour rechercher la rponse. contrario, nous pranalysons tous les documents et toutes les extractions se font ensuite en utilisant les lments de lanalyse comme cls de recherche. Ce principe de fonctionnement a un impact primordial sur la vitesse globale du systme. Une seconde originalit est la cration explicite dun Descripteur De Recherche (DDR) structur. Ce descripteur contient la totalit des informations ncessaires pour reprsenter la recherche effectuer pour obtenir la rponse attendue par lutilisateur. Cela inclut les lments pertinents de la question et les lments complmentaires, leurs variantes possibles, ainsi que les types attendus pour la rponse et leurs poids associs. Lexistence dun tel descripteur a deux avantages. Le premier est quil est sufsamment comprhensible par un humain pour avoir une ide de sa qualit. En cas dchec de la recherche il est ainsi facile de savoir si le problme tient linterprtation de la question ou lextraction effective de la rponse. Le deuxime avantage est quil suft de pouvoir en gnrer un pour pouvoir effectuer une recherche. Lalgorithme que nous proposons gre les requtes en langue optionnellement accompagnes dlments complmentaires. Mais nous pouvons trs bien imaginer gnrer de tels descripteurs partir dautres sources, tels que des rsultats de raisonnements logiques. De plus, il est aussi possible de reconnatre certains types de DDR pour rediriger la recherche vers dautres mthodes ou sources dinformations comme des bases de donnes. Enn la dernire originalit est une utilisation forte de la redondance. Cela transparat dans les approches gnrales qui sont des approches de ltrage. Mme si, en pratique, nos algorithmes ne sont pas si diffrents des approches traditionnelles, leur but fondamental est de supprimer le texte non-

171 pertinent. En comparaison le but des approches standard est de trouver la phrase qui contient la rponse, et de diminuer la quantit de texte traiter avant de la rencontrer. Nous cherchons plus augmenter le taux de prsence de la bonne rponse par rapport la quantit de texte traiter. Les paramtres de contrle de vitesse se contentent alors de limiter la quantit de texte examin pour assurer un temps de rponse maximal prdictible. Les valuations nous ont montr que les rsultats du systme taient tout fait honorables, incluant une bonne rsistance aux erreurs induites par un systme de transcription automatique de la parole. Nous avons cependant not, dans le cas de la recherche dans une base constitue de pages Web, une sensibilit aux pages de spam, cherchant attirer lutilisateur par un orilge de mots-cls, mais noffrant pas les informations recherches. De plus, globalement, le score servant valuer les rponses candidates gagnerait tre plus robuste. La prsence de plusieurs valeurs de tuning dont limpact sur le rsultat est difcilement modlisable oblige une optimisation sur des donnes de dveloppement, avec un grand risque de sur-apprentissage. Il est cependant important de noter que notre but a t atteint. Le systme global de Question-Rponse a les capacits ncessaires pour sintgrer dans un systme interactif. Il est utilis dans le cadre du projet Ritel et a permis des premires expriences dont le but tait dtudier le comportement des humains face un tel systme et linteraction homme-machine en domaine ouvert en gnral.

172

CHAPITRE 15. CONCLUSIONS

Chapitre 16

Perspectives
Les buts ont beau avoir t atteints, il est toujours possible de faire mieux. Un certain nombre de points en particulier peuvent tre amliors. En premier lieu le moteur danalyse pourrait tirer un meilleur parti des approches statistiques. La difcult est double : avoir des donnes disponibles pour lentranement ou des modles adapts prexistants, et pouvoir intgrer lapproche en tant que transformation lmentaire sur la reprsentation de ltat de lanalyse. Nous avons deux pistes intressantes lheure actuelle. Une premire est dutiliser des modles probabilistes pour la dsambigusation entre diffrents types. Il est par exemple difcile dans bien des cas de dterminer via des rgles si une instance du nom France est utilise comme lieu ou comme organisation. Des expriences prliminaires effectues il y a quelques annes ont montr quun gain relatif de 10% pouvait tre obtenu avec un simple classieur bas sur les exemples (Memory Based Learning). Le langage dorganisation des passes peut trs facilement tre tendu pour autoriser des branches multiples suivies de merges rsolus statistiquement. Reste le problme des donnes dentranement. Nous esprons que le renouveau dintert actuel pour la dtection et classication des entits nommes en franais nous permettra dobtenir des donnes dentranement pertinentes. Une autre exprience que nous sommes actuellement en train de mener (thse de G. Bernard) est du chunking et typage de chunks partir de champs conditionnels alatoires (CRF). Nous parlons ici de chunks syntaxiques (groupe sujet, verbal, nominal...). Les modles sont construits sur le rsultat de lanalyse actuelle et donnent des rsultats prometteurs. Sils se conrment, intgrer lapproche dans le moteur parat pertinent. Mais la principale volution du moteur danalyse serait de modier la reprsentation pour permettre lajout de liens typs entre les nuds. Ces liens permettraient ainsi dtablir des relations syntaxiques ou smantiques entre lments. Cependant cela ncessite de dvelopper une syntaxe de rgles capable de manipuler ces liens efcacement, et cela semble a priori trs difcile. 173

174

CHAPITRE 16. PERSPECTIVES

Les algorithmes proposs pour la recherche de rponses peuvent eux aussi tre amliors. Les scores en particulier manquent un peu de robustesse. Inuence du spam, surapprentissage des variables de tuning, ils mriteraient dtre plus labors. Il est toujours possible de rajouter des composants dans ces scores, tel un score de qualit informative par document qui pourrait tre estim a priori. Mais nous pensons quune approche probabiliste, un peu dans lesprit de [Gillard et al. 2007], pourrait permettre dobtenir une bien meilleure robustesse. Ultimement, nous voulons aller plus loin que la simple analyse de documents. Un corpus de documents contient un ensemble dinformations. Notre but, fondamentalement, est dextraire ces informations. Si nous devenons un jour capable de le faire avec une prcision sufsante indpendamment de toute question, il deviendra envisageable de construire des graphes de connaissances dans lesquels des recherches directes seront possibles, bien plus rapides et potentiellement bien plus riches.

Bibliographie
S. Abney (1991). Parsing by chunks. In Principle-Based Parsing, pp. 257278. Kluwer Academic Publishers. S. Abney (1995). Chunks and Dependencies : Bringing Processing Evidence to Bear on Syntax. In Computational Linguistics and the Foundations of Linguistic Theory. S. Abney (1996). Partial parsing via nite-state cascades. In Workshop on Robust Parsing, 8th European Summer School in Logic, Language and Information, pp. 815. S. Abney (1997). The SCOL Manual - Version 0.1b. http ://www.vinartus.net/spa/. ACE (2000). Entity Detection and Tracking, Phase 1, ACE Pilot Study. Task Denition. http ://www.nist.gov/speech/tests/ace/phase1/doc/summary-v01.htm. G. Adda, M. Adda-Decker, J. Gauvain et L. Lamel (1997). Text Normalization and Speech Recognition in French. In Proceedings of Eurospeech97, vol. 5, pp. 27112714, Rhodes, Greece. G. Adda, J. Mariani, P. Paroubek, M. Rajman et J. Lecomte (1999). Laction GRACE dvaluation de lassignation des parties du discours pour le franais. revue Langues 2(2) :119129. M. Agatonovic, N. Aswani, K. Bontcheva, H. Cunningham, T. Heitz, Y. Li, I. Roberts et V. Tablan (2008). Large-scale, Parallel Automatic Patent Annotation. In Proceedings of 1st International CIKM Workshop on Patent Information Retrieval - PaIR08, Napa Valley, California, USA. K. Ahn et B. Webber (2007). Nexus : a real time QA system. In Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Amsterdam, The Netherlands. AMI (2005). The AMI meeting corpus. http ://www.amiproject.org. Apache (2007). Apache Lucene, An overview. http ://lucene.apache.org/java/docs/. C. Ayache, B. Grau et A. Vilnat (2006). EQueR : the French Evaluation campaign of QuestionAnswering Systems. In LREC 2006, Genoa, Italy. C. Baker, C. Fillmore et J. Lowe (1998). The Berkeley FrameNet project. In Proceedings of the COLING-ACL, pp. 8699, Montreal, Canada. A. Barrn-Cedeo, G. Sierra, P. Drouin et S. Ananiadou (2009). An Improved Automatic Term Recognition Method for Spanish. In Computational Linguistics and Intelligent Text Processing, vol. 5449/2009 of Lecture Notes in Computer Science, pp. 125136. 175

176

BIBLIOGRAPHIE

T. C. Belle, A. Moffat, I. Witten et J. Zobel (1994). http ://www.ncsi.iisc.ernet.in/raja/netlis/wise/mg/mainmg.html. R. E. Bellman (1957). Dynamic Programming. Princeton, NJ. A. Berger, R. Caruana, D. Cohn, D. Freitag et V. Mittal (2000). Bridging the lexical chasm : statistical approaches to answer-nding. In Proceedings of the 23rd annual internation ACM SIGIR conference on research and develomment in information retrieval, Athens, Greece. J.-B. Berthelin, G. de Chalendar, F. Elkateb-Gara, O. Ferret, B. Grau, M. Hurault-Plantet, G. Illouz, L. Monceaux et I. Robba (2003). Getting reliable answers by exploiting results from several sources of information. In 2nd CoLogNET-ElsNET Symposium : Questions and Answers : Theoretical and Applied Perspectives, Amsterdam. S. Bird, E. Klein et E. Loper (2009). Natural Language Processing with Python. Analyzing Text with the Natural Language Toolkit. OReilly. P. Blunsom (2004). Maximum Entropy Markov Models for Semantic Role Labelling. In Proceedings of ALTA-2004, Sydney. H. Bonneau-Maynard, A. Denis, F. Bchet, L. Devillers, M. Quignard, S. Rosset et J. Villaneau (2008). Lvaluation technologique dans le domaine du traitement automatique de la langue : lexprience du programme Technolangue, chap. Evaluation de la comprhension de la parole : le projet M EDIA. Herms ditions, Paris. H. Bonneau-Maynard, S. Rosset, C. Ayache, A. Kuhn et D. Mostefa (2005). Semantic Annotation of the French Media Dialog Corpus. In Proceedings of Interspeech 2005, Lisbon. G. Bouma, J. Mur, G. van Noord, L. van der Plas et J. Tiedemann (2005). Question Answering for Dutch using Dependency Relations. In Working Notes for the CLEF 2005 Workshop, Vienna, Austria. D. Bourigault (2007). Un analyseur syntaxique oprationnel : SYNTEX. Mmoire dHabilitation Diriger les Recherches. J. Boye, J. Gustafson et M. Wirn (2006). Robust spoken language understanding in a computer game. Speech Communication 48(3-4) :335353. A. Branco, A. Mendes et R. Ribeiro (2003). Tagging and Shallow parsing of Portuguese : workshop notes of TASHA2003. Tech. Rep. TR-03-28, Department of Informatics, Faculty of Sciences, University of Lisbon. X. Carreras et L. Mrquez (2005). Introduction to the CoNLL-2005 Shared Task : Semantic Role Labeling. In Proceedings of CoNLL-2004. S. F. Chen et J. Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling. Tech. Rep. TR-10-98, Computer Science Group, Harvard University, Cambridge, Massachusetts. CHIL (2007). The European project CHIL. http ://chil.server.de. N. Chomsky (1956). Three models for the description of language. IEEE Transactions on Information Theory 2(3) :113124. O. Christ (1994a). The IMS Corpus Workbench Technical Manual. Institut fur maschinelle Sprachverarbeitung.

BIBLIOGRAPHIE

177

O. Christ (1994b). A Modular and Flexible Architecture for an Integrated Corpus Query System. In Proceedings of COMPLEX 94 : 3rd Conference on Computational Lexicography and Text Research, Budapest). O. Christ, B. M. Schulze et A. Hofmann (1999). The IMS Corpus Workbench : Corpus Query Processor (CQP) Users Manual. K. W. Church (1988). A stochastic parts program and noun phrase parser for unrestricted text. In Proceedings of the second conference on Applied natural language processing, pp. 136143, Morristown, NJ, USA. Association for Computational Linguistics. P. Cimiano, M. Hartung et E. Ratsch (2006). Finding the Appropriate Generalization Level for Binary Relations Extracted from the Genia Corpus. In Proceedings of the International Conference on Language Resources and Evaluation (LREC), pp. 161169. C. W. Cleverdon (1967). The Craneld tests on index language devices. In Aslib Proceedings. R. Cole, T. Carmell, P. Connors, M. Macon et J. Wouters (1998). Intelligent animated agents for interactive language training. In ACM SIGCAPH Computers and the Physically Handicapped. P. Comas et J. Turmo (2008). Robust Question Answering for Speech Transcripts : UPC Experience in QAst 2008. In Working Notes of CLEF 2008 Workshop, Aarhus, Denmark. P. Comas, J. Turmo et M. Surdeanu (2007). Robust Question Answering for Speech Transcripts Using Minimal Syntactic Analysis. In Working Notes for the CLEF 2007 Workshop, Budapest, Hungary. B. Courtois (1990). Un systme de dictionnaires lectroniques pour les mots simples du franais in Dictionnaires lectroniques du franais.. Langue franaise 87 :1122. H. Cunningham, D. Maynard, K. Bontcheva et V. Tablan (2002). GATE : A framework and graphical development environment for robust NLP tools and applications. In Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics, pp. 168175. H. T. Dang, J. Lin et D. Kelly (2006). Overview of the TREC 2006 Question Answering Track. In Text Retrieval Conference TREC-15, pp. 99116, Gaithersburg, MD, USA. H. T. Dang, J. Lin et D. Kelly (2007). Overview of the TREC 2007 Question Answering Track. In Text Retrieval Conference TREC-15, Gaithersburg, MD, USA. E. V. de la Clergerie, O. Hamon, D. Mostefa, C. Ayache, P. Paroubek et A. Vilnat (2008). PASSAGE : from French Parser Evaluation to Large Sized Treebank. In E. L. R. A. (ELRA) (ed.), Proceedings of the Sixth International Language Resources and Evaluation (LREC08), Marrakech, Morocco. R. De Mori, F. Bechet, D. Hakkani-Tur, M. McTear, G. Riccardi et G. Tur (2008). Spoken language understanding. IEEE Signal Processing Magazine 25(3) :5058. C. de Pablo-Sanchez, A. Gonzales-Ledesma, A. Moreno-Sandoval et M. T. Vicente-Diez (2006). Miracle experiments in QA@CLEF 2006 in Spanish : Main Task, Real-Time QA and Exploratory QA Using Wikipedia (WiQA). In Lecture Notes in Computer Science, vol. 4730. S. J. Derose (1989). Stochastic methods for resolution of grammatical category ambiguity in inected and uninected languages. Ph.D. thesis, Providence, RI, USA.

178

BIBLIOGRAPHIE

L. Devillers, H. Maynard, S. Rosset, P. Paroubek, K. McTait, D. Mostefa, K. Choukri, L. Charnay, C. Bousquet, N. V. . 4), F. Bchet, L. Romary, J. Antoine, J. Villaneau, M. Vergnes et J. Goulian (2004). The French MEDIA/EVALDA project : the evaluation of the understanding capability of Spoken Language Dialogue Systems. In Proceedings of the fourth International Conference on Language Resource and Evaluation. Diderot et dAlembert (17511772). Encyclopdie ou Dictionnaire raisonn des sciences, des arts et des mtiers. J. Eckle-Kohler (1998). Methods for quality assurance in semi-automatic lexicon acquisition from corpora. In Proceedings of EURALEX98, Lige, Belgique. B. Favre, F. Bechet et P. Nocra (2005). Robust Named Entity Extraction from Large Spoken Archives. In Proceedings of HLT-EMNLP05, pp. 491498, Vancouver, Canada. C. Fellbaum (1998). WordNet An Electronic Lexical Database. D. Ferrucci et A. Lally (2004). UIMA : An architectural approach to unstructured information processing in the corporate research environment. Natural Language Engineering 10(3-4) :327 348. P. Forner, A. Peas, I. Alegria, C. Forascu, N. Moreau, P. Osenova, P. Prokopidis, P. Rocha, B. Sacaleanu, R. Sutcliffe et E. T. K. Sang (2008). Overview of the CLEF 2008 Multilingual Question Answering Track. In Working Notes for the CLEF 2008 Workshop, Aarhus, Denmark. J. Fukumoto, T. Kato et F. Masui (2002). Question Answering Challenge (QAC-1) : Question answering evaluation at NTCIR Workshop 3. In Proceedings of the Third NTCIR Workshop on Research in Information Retrieval, Automatic Text Summarization and Question Answering, Tokyo, Japan. J. Fukumoto, T. Kato et F. Masui (2004). Question Answering Challenge for Five Ranked Answers and List Answers - Overview of NTCIR4 QAC2 Subtask 1 and 2. In Proceedings of the Fourth NTCIR Workshop on Research in Information Access Technologies Information Retrieval, Question Answering and Summarization, Tokyo, Japan. J. Fukumoto, T. Kato, F. Masui et T. Mori (2007). An Overview of the 4th Question Answering Challenge (QAC-4) at NTCIR Workshop 6. In Proceedings of the Sixth NTCIR Workshop Meeting on Evaluation of Information Access Technologies : Information Retrieval, Question Answering, and Cross-Lingual Information Access, Tokyo, Japan. R. Gaizauskas, P. Rodgers, H. Cunningham et K. Humphreys (1996). http ://gate.ac.uk/. GATE User Guide.

O. Galibert, G. Illouz et S. Rosset (2005). Ritel+ : dialogue homme-machine domaine ouvert. In Proceedings of TALN, pp. 439444, Dourdan. S. Galliano, E. Geoffrois, G. Gravier, J. Bonastre, D. Mostefa et K. Choukri (2006). Corpus description of the ESTER Evaluation Campaign for the Rich Transcription of French Broadcast News. In Proceedings of LREC06, Genoa. D. Giampiccolo, P. Forner, A. Peas, C. Ayache, D. Cristea, V. Jijkoun, P. Osenova, P. Rocha, B. Sacaleanu et R. Sutcliffe (2007). Overview of the CLEF 2007 Multilingual Question Answering Track. In Working Notes for the CLEF 2007 Workshop, Budapest, Hungary.

BIBLIOGRAPHIE

179

L. Gillard, P. Bellot et M. El-Bze (2006a). Question answering evaluation survey. In LREC 2006, pp. 16401643, Genoa, Italy. L. Gillard, P. Bellot et M. El-Bze (2007). Dune compacit positionnelle une compacit probabiliste pour un systme de Questions / Rponses. In Proceedings of CORIA07, pp. 271286. L. Gillard, L. Sitbon, P. Bellot et M. El-Beze (2006b). Dernires volutions de SQuaLIA, le systme de Questions/Rponses du LIA. Traitement Automatique des Langues 46(3/2005). L. Gillard, L. Sitbon, E. Blaudez, P. Bellot et M. El-Bze (2006c). The LIA at QA@CLEF-2006. In Working Notes for the CLEF 2006 Workshop, Alicante, Spain. B. Grau, G. Illouz, L. Monceaux, P. Paroubek, O. Pons, I. Robba et A. Vilnat (2005a). FRASQUES, le systme du groupe LIR, LIMSI. In Atelier EQueR de TALN 05. B. Grau, A.-L. Ligozat, I. Robba, M. Sialeu et A. Vilnat (2005b). Term Translation Validation by Retrieving Bi-terms. In Working Notes for the CLEF 2005 Workshop, Vienna, Austria. G. Gravier, J. Bonastre, E. Geoffrois, S. Galliano, K. McTait et K. Choukri (2004). ESTER, une campagne dvaluation des systmes dindexation automatique dmissions radiophoniques en franais. In Proceedings of JEP04, Fz, Maroc. R. Grishman (1995). Wheres the syntax ? The NYU MUX-6 system. In Proceedings of MUC-6, San Francisco. T. Hain, L. Burget, J. Dines, G. Garau, M. Karaat, M. Lincoln, J. Vepa et V. Wan (2007). The AMI system for the Transcription of meetings. In Proceedings of IEEE ICASSP07, Hawaii. S. M. Harabagiu, G. A. Miller et D. I. Moldovan (1999). Wordnet 2 - a morphologically and semantically enhanced resource. In SIGLEX Workshop On Standardizing Lexical Resources, pp. 18. S. Heiden et P. Lafon (2002). Lectures assistes de lEncyclopdie lectronique : Philologic et Weblex. Recherches sur Diderot et sur lEncyclopdie 3132. J. Herrera, A. Peas et F. Verdejo (2004). Question Answering Pilot Task at CLEF 2004. In Working Notes for the CLEF 2004 Workshop, Bath, UK. A. Hickl, J. Williams, J. Bensley, K. Roberts, Y. Shi et B. Rink (2006). Question Answering with LCCs CHAUCER at TREC 2006. In The 15th TREC Conference (TREC 2006). R. Ierusalimschy, L. Henrique, F. Waldemar et C. Filho (1996). Lua - an extensible extension language. Software : Practice and Experience 26 :635652. A. Ittycheriah et S. Roukos (2002). IBMs statistical Question-Answering system - TREC-11. In Proceedings of the TREC 2002 Conference. C. Jacquemin (1996). A symbolic and surgical acquisition of terms through variation. In Connectionist, Statistical and Symbolic Approaches to Learning for Natural Language Processing, pp. 425438. Springer. T. Kato, J. Fukumoto et F. Masui (2004). Question Answering Challenge for Information Access Dialogue - Overview of NTCIR4 QAC2 Subtask 3. In Proceedings of the Fourth NTCIR Workshop on Research in Information Access Technologies Information Retrieval, Question Answering and Summarization, Tokyo, Japan.

180

BIBLIOGRAPHIE

T. Kato, J. Fukumoto et F. Masui (2005). An Overview of NTCIR-5 QAC3. In Proceedings of the Fifth NTCIR Workshop Meeting on Evaluation of Information Access Technologies : Information Retrieval, Question Answering and Cross-Lingual Information Access, Tokyo, Japan. T. Kato, J. Fukumoto, F. Masui et N. Kando (2006). WoZ Simulation of Interactive Question Answering. In NAACL Workshop on Interactive Question Answering, New York, USA. M. Kaufman (1998). Proceedings of the Seventh Message Understanding Conference (MUC-7). http ://www.itl.nist.gov/iaui/894.02/related_projects/muc/. H. Kim, K. Kim, G. G. Lee et J. Seo (2001). MAYA : A Fast Question-answering System Based on a Predictive Answer Indexer. In Proceedings of the ACL 2001 workshop on Open-Domain Question-Answering, Toulouse, France. J. Kupiec (1993). MURAX : A Robust Linguistic Approach for Question Answering Using an OnLine Encyclopedia. In SIGIR, pp. 181190. J. Krsten, H. Kundisch et M. Eibl (2008). QA Extension for Xtrieval : Contribution to the QAst track. In Working Notes of CLEF 2008 Workshop, Aarhus, Denmark. L. Lamel, G. Adda, E. Bilinski et J.-L. Gauvain (2005). Transcribing Lectures and Seminars. In in InterSpeech05, Lisbon, Portugal. L. Lamel, S. Rosset, J. Gauvain, S. Bennacef, M. Garnier-Rizet et B. Prouts (2000). The LIMSI ARISE System. Speech Communication 31(4) :339354. D. Laurent, P. Sgula et S. Ngre (2006). Cross Lingual Question Answering using QRISTAL for CLEF 2006. In Working Notes for the CLEF 2006 Workshop, Alicante, Spain. M. Lesk (1978). Lex : a lexical analysis program generator. In UNIX Programming Utilities and Libraries. A.-L. Ligozat (2006). Exploitation et fusion de connaissances locales pour la recherche dinformations prcises. Ph.D. thesis, Universit Paris-Sud 11, Orsay, France. K. C. Litkowski (2001). CL research experiments in TREC-10 question answering. In Text Retrieval Conference TREC-10, pp. 122121, Gaithersburg, MD, USA. B. Magnini, D. Giampiccolo, P. Forner, C. Ayache, P. Osenova, A. Peas, V. Jijkoun, B. Sacaleanu, P. Rocha et R. Sutcliffe (2006). Overview of the CLEF 2006 Multilingual Question Answering Track. In Working Notes for the CLEF 2006 Workshop, Alicante, Spain. B. Magnini, S. Romagnoli, A. Vallin, J. Herrera, A. Peas, V. Peinado, F. Verdejo et M. de Rijke (2003). The Multiple Language Question Answering Track at CLEF 2003. In Working Notes for the CLEF 2003 Workshop, Trondheim, Norway. B. Magnini, A. Vallin, C. Ayache, G. Erbach, A. Peas, M. de Rijke, P. Rocha, K. Simov et R. Sutcliffe (2004). Overview of the CLEF 2004 Multilingual Question Answering Track. In Working Notes for the CLEF 2004 Workshop, Bath, UK. M. P. Marcus, M. A. Marcinkiewicz et B. Santorini (1993). Building a Large Annotated Corpus of English : The Penn Treebank. Computational Linguistics 19(2). W. McCune (1994). OTTER 3.0 Reference Manual and Guide. Tech. Rep. ANL-94/6, Argonne National Laboratory, Argonne, IL.

BIBLIOGRAPHIE

181

W. S. Means et M. A. Bodie (2002). The Book of SAX : The Simple Api for Xml. USA. T. Mitamura, E. Nyberg, H. Shima, T. Kato, T. Mori, C.-Y. Lin, R. Song, C.-J. Lin, T. Sakai, D. Ji et N. Kando (2008). Overview of the NTCIR-7 ACLIA Tasks : Advanced Cross-Lingual Information Access. In Proceedings of the Seventh NTCIR Workshop Meeting on Evaluation of Information Access Technologies : Information Retrieval, Question Answering, and Cross-Lingual Information Access, Tokyo, Japan. D. Moldovan, A. Harabagiu, R. Girju, P. Morarescu, F. Lacatusu, A. Novischi, A. Badulescu et O. Bolohan (2002a). LCC tools for Question Answering. In Proceedings of the 2002 Text Retrieval Conference. D. Moldovan, M. Pasca, S. Harabagiu et M. Surdeanu (2002b). Performance Issues and Error Analysis in an Open-Domain Question Answering System. In Proceeding of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 3340, Philadelphia. D. Molla, S. Cassidy et M. van Zaanen (2007). AnswerFinder at QAst 2007 : Named Entity Recognition for QA on Speech Transcripts. In Working Notes for the CLEF 2007 Workshop, Budapest, Hungary. D. Molla, M. van Zaanen et L. Pizzato (2006). AnswerFinder at TREC 2006. In The 15th TREC Conference (TREC 2006) proceedings. D. Moll, M. van Zaanen, et D. Smith (2006). Named Entity Recognition for Question Answering. In Proceedings of ALTW 2006, Sydney. C. N. Mooers (1948). Application of Random Codes to the Gathering of Statistical Information,. Masters thesis, MIT, Boston, MA. D. Nadeau et S. Sekine (2007). A survey of named entity recognition and classication. Linguisticae Investigationes 30(1). G. Neumann et R. Wang (2007). DFKI-LT at QAST 2007 : Adapting QA Components to Mine Answers in Speech Transcripts. In Working Notes for the CLEF 2007 Workshop, Budapest, Hungary. H. Ney, U. Essen et R. Kneser (1994). On structuring probabilistic dependences in stochastic language modelling. Computer Speech and Language 8(1) :138. P. Olgivie et J. Callan (2002). Experiments using the Lemur toolkit. In Proceedings of the 2001 Text Retrieval Conference. D. S. Pallett, J. G. Fiscus, W. M. Fisher, J. S. Garofolo, B. A. Lund et M. A. Przybocki (1994). 1993 benchmark tests for the ARPA spoken language program. In HLT 94 : Proceedings of the workshop on Human Language Technology, pp. 4974, Morristown, NJ, USA. Association for Computational Linguistics. M. Pardio, J. Gmez, H. Llorens, R. Muoz-Terol, B. Navarro-Colorado, E. Saquete, P. MartnezBarco, P. Moreda et M. Palomar (2008). Adapting IBQAS to work with Text Transcriptions in QAst Task : IBQAst. In Working Notes of CLEF 2008 Workshop, Aarhus, Denmark. P. Paroubek, I. Robba, A. Vilnat et C. Ayache (2006). Data, Annotations and Measures in EASY, the Evaluation Campaign for Parsers of French. In LREC 2006, Genoa, Italy. M. Pasca et S. H. Harabagiu (2001). The Informative Role of WordNet in Open-Domain Question Answering. In NAACL 2001 Workshop on WordNet and Other Lexical Resources : Applications, Extensions and Customizations, Pittsburg, Pennsylvania.

182

BIBLIOGRAPHIE

H. J. Peat et P. Willett (1991). The limitations of term co-occurrence data for query expansion in document retrieval systems. Journal of the American Society for Information Science 42 :378 383. C. Peters et M. Braschler (2001). European Research Letter : cross-language system evaluation : the CLEF campaigns. J. Am. Soc. Inf. Sci. Technol. 52(12) :10671072. L. Plamondon et L. Kosseim (2002). QUANTUM : A Function-Based Question Answering System. In R. Cohen & B. Spencer (eds.), Advances in Articial Intelligence, 15th Conference of the Canadian Society for Computational Studies of Intelligence, AI 2002, pp. 281292, Calgary, Canada. L. Plamondon et L. Kosseim (2003). Le web et la question-rponse : transformer une question en rponse. In Journes francophones de la toile (JFT 2003), pp. 225234, Tours, France. L. Plamondon, G. Lapalme et F. Pelletier (2004). Anonymisation de dcisions de justice. In B. Bel & I. Martin (eds.), XIe Confrence sur le Traitement Automatique des Langues Naturelles (TALN 2004), pp. 367376, Fs, Maroc. T. Poibeau (2005). Sur le statut rfrentiel des entits nommes. In Proceedings TALN05, Dourdan, France. B. Popov, A. Kiryakov, A. Kirilov, D. Manov, D. Ognyanoff et M. Goranov (2003). KIM Semantic Annotation Platform. In Proceesings of the 2nd International Semantic Web Conference (ISWC2003), Florida, USA. M. F. Porter (1997). An algorithm for sufx stripping. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA. C. A. Prolo (2002). Generating the XTAG english grammar using metarules. In Proceedings of the 19th international conference on Computational linguistics, pp. 17, Morristown, NJ, USA. Association for Computational Linguistics. Quaero (2008). Le programme Quaero. http ://www.quaero.org/. L. Quintard (2009). Overview of the QUAERO 2008 monolingual question-answering track. http ://www.lne.eu/en/r_and_d/quaero.asp. Ritel (2007). Le projet R ITEL. http ://ritel.limsi.fr. S. Rosset (2000). Stratgies et gestionnaire de dialogue pour des systmes dinterrogation de bases de donnes reconnaissance vocale. Thse de doctorat, Universit Paris Sud, Orsay. S. Rosset, O. Galibert, G. Adda et E. Bilinski (2007). The LIMSI Qast systems : comparison between human and automatic rules generation f or question-answering on speech transcriptions. In IEEE ASRU. S. Rosset, O. Galibert, G. Adda et E. Bilinski (2008). The LIMSI participation to the QAst track. In Lecture Notes in Computer Science, vol. 5152, pp. 414423. S. Rosset, O. Galibert, G. Illouz et A. Max (2006). Interaction et recherche dinformations : le projet R ITEL. Traitement Automatique des Langues 46(3/2005). S. Rosset et S. Petel (2006). The Ritel Corpus - An annotated Human-Machine open-domain question answering spoken dialog corpus. In LREC 2006, Genoa, Italy.

BIBLIOGRAPHIE

183

Y. Sasaki, H.-H. Chen, K. hua Chen et C.-J. Lin (2005). Overview of the NTCIR-5 Cross-Lingual Question Answering Task (CLQA1). In Proceedings of the Fifth NTCIR Workshop Meeting on Evaluation of Information Access Technologies : Information Retrieval, Question Answering and Cross-Lingual Information Access, Tokyo, Japan. Y. Sasaki, C.-J. Lin, K. hua Chen et H.-H. Chen (2007). Overview of the NTCIR-6 Cross-Lingual Question Answering (CLQA) Task. In Proceedings of the Sixth NTCIR Workshop Meeting on Evaluation of Information Access Technologies : Information Retrieval, Question Answering, and Cross-Lingual Information Access, Tokyo, Japan. F. Schilder, A. McCulloh, B. T. McInnes et A. Zhou (2005). TLR at DUC : Tree Similarity. In Document Understanding Conference (DUC), University of Minnesota. H. Schmid (1994). Probabilistic Part-of-Speech Tagging Using Decision Trees. In International Conference on New Methods in Language Processing, pp. 4449, Manchester, UK. H. Schmid (1995). Improvements in Part-of-Speech Tagging with an Application to German. In Proceedings of the ACL SIGDAT-Workshop, pp. 4750. K. K. Schuler (2005). Verbnet : a broad-coverage, comprehensive verb lexicon. Ph.D. thesis, Philadelphia, PA, USA. Supervisor-Martha S. Palmer. H. Schtze (1995). Distributional part-of-speech tagging. In Proceedings of the seventh conference on European chapter of the Association for Computational Linguistics, pp. 141148, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. Y. Seginer (2007). Fast Unsupervised Incremental Parsing. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp. 384391, Prague, Czech Republic. Association for Computational Linguistics. S. Sekine (2004). Denition, dictionaries and tagger of Extended Named Entity hierarchy. In LREC04, Lisbon, Portugal. F. Smadja (1993). Retrieving Collocations from Text : Xtract. Computational linguistics 19(1) :143 177. M. Surdeanu, J. Turmo et E. Comelles (2005). Named Entity Recognition from spontaneous OpenDomain Speech. In in InterSpeech05, Lisbon, Portugal. R. S. Swier et S. Stevenson (2004). Unsupervised Semantic Role Labelling. In D. Lin & D. Wu (eds.), Proceedings of EMNLP 2004, pp. 95102, Barcelona, Spain. Association for Computational Linguistics. TC-Star (2004-2008). http ://www.tc-star.org. D. Toney, S. Rosset, A. Max, O. Galibert et E. Bilinski (2008). An Evaluation of Spoken and Textual Interaction in the RITEL Interactive Question Answering System. In ELRA (ed.), Proceedings of the Sixth International Language Resources and Evaluation (LREC08), Marrakech, Morocco. J. Turmo, P. Comas, C. Ayache, D. Mostefa, S. Rosset et L. Lamel (2007). Overview of the QAST 2007. In Working Notes for the CLEF 2007 Workshop, Budapest, Hungary. J. Turmo, P. Comas, S. Rosset, L. Lamel, N. Moreau et D. Mostefa (2008). Overview of QAST 2008. In Working Notes for the CLEF 2008 Workshop, Aarhus, Denmark.

184

BIBLIOGRAPHIE

A. Vallin, D. Giampiccolo, L. Aunimo, C. Ayache, P. Osenova, A. Peas, M. de Rijke, B. Sacaleanu, D. Santos et R. Sutcliffe (2005). Overview of the CLEF 2005 Multilingual Question Answering Track. In Working Notes for the CLEF 2005 Workshop, Vienna, Austria. E. M. Voorhees (2000). Overview of the TREC-9 Question Answering Track. In Text Retrieval Conference TREC-9, pp. 7180, Gaithersburg, MD, USA. E. M. Voorhees (2002). Overview of the TREC 2002 Question Answering Track. In Text Retrieval Conference TREC-11, Gaithersburg, MD, USA. E. M. Voorhees (2003). Overview of the TREC 2003 Question Answering Track. In Text Retrieval Conference TREC-12, pp. 5468, Gaithersburg, MD, USA. E. M. Voorhees (2004). Overview of the TREC 2004 Question Answering Track. In Text Retrieval Conference TREC-13, Gaithersburg, MD, USA. E. M. Voorhees et H. T. Dang (2005). Overview of the TREC 2005 Question Answering Track. In Text Retrieval Conference TREC-14, Gaithersburg, MD, USA. E. M. Voorhees et D. K. Harman (2005). TREC : Experiment and Evaluation in Information Retrieval. Digital Libraries and Electronic Publishing. E. M. Voorhees et D. M. Tice (1999). The TREC-8 Question Answering Track Report. In Text Retrieval Conference TREC-8, pp. 7782, Gaithersburg, MD, USA. E. M. Voorhees et D. M. Tice (2001). Overview of the TREC 2001 Question Answering Track. In Text Retrieval Conference TREC-10, pp. 4251, Gaithersburg, MD, USA. P. Vossen (1998). EuroWordNet A Multilingual Database with Lexical Semantic Networks. M. Walker, A. Rudnicky, J. Aberdeen, E. Bratt, J. Garofolo, H. Hastie, A. Le, B. Pellom, A. Potamianos, R. Passonneau, R. Prasad, S. Roukos, G. Sanders, S. Seneff et D. Stallard (2002). DARPA Communicator Evaluation : Progress from 2000 to 2001. In ICSLP02, Denver, EU. J. Weizenbaum (1966). ELIZAA Computer Program For the Study of Natural Language Communication Between Man and Machine. Communications of the ACM 9(1). E. Whittaker, P. Chatain, S. Furui et D. Klakow (2005a). TREC2005 Question Answering Experiments at Tokyo Institute of Technology. In Proceedings of the 14th Text Retrieval Conference. E. Whittaker, S. Furui et D. Klakow (2005b). A Statistical Classication Approach to Question Answering using Web Data. In CW 05 : Proceedings of the 2005 International Conference on Cyberworlds, pp. 421428, Washington, DC, USA. IEEE Computer Society. E. Whittaker, J. Novak, M. Heie et S. Furui (2007). CLEF2007 Question Answering Experiments at Tokyo Institute of Technology. In Working Notes for the CLEF 2007 Workshop, Budapest, Hungary. E. Whittaker, J. Novakand, P. Chatain et S. Furui (2006). TREC2006 Question Answering Experiments at Tokyo Institute of Technology. In Proceedings of the 15th Text Retrieval Conference. W. A. Woods (1973). Progress in natural language understanding : an application to lunar geology. In AFIPS 73 : Proceedings of the June 4-8, 1973, national computer conference and exposition, pp. 441450, New York, NY, USA. ACM. Xapian (2001). The Xapian project. http ://www.xapian.org.

Vous aimerez peut-être aussi