Vous êtes sur la page 1sur 12

TALN 2011, Montpellier, 27 juin 1er juillet 2011

valuer la pertinence de la morphologie constructionnelle dans les systmes de Question-Rponse


Delphine Bernhard1 Bruno Cartoni2 Delphine Tribout1 (1) LIMSI-CNRS, 91403 Orsay, France (2) Dpartement de linguistique, Universit de Genve, Suisse bernhard@limsi.fr, bruno.cartoni@unige.ch, tribout@limsi.fr

Rsum.

Les connaissances morphologiques sont frquemment utilises en Question-Rponse an de faciliter lappariement entre mots de la question et mots du passage contenant la rponse. Il nexiste toutefois pas dtude qualitative et quantitative sur les phnomnes morphologiques les plus pertinents pour ce cadre applicatif. Dans cet article, nous prsentons une analyse dtaille des phnomnes de morphologie constructionnelle permettant de faire le lien entre question et rponse. Pour ce faire, nous avons constitu et annot un corpus de paires de questions-rponses, qui nous a permis de construire une ressource de rfrence, utile pour lvaluation de la couverture de ressources et doutils danalyse morphologique. Nous dtaillons en particulier les phnomnes de drivation et de composition et montrons quil reste un nombre important de relations morphologiques drivationnelles pour lesquelles il nexiste pas encore de ressource exploitable pour le franais.

Abstract. Morphological knowledge is often used in Question Answering systems to facilitate the matching between question words and words in the passage containing the answer. However, there is no qualitative and quantitative study about morphological phenomena which are most relevant to this application. In this paper, we present a detailed analysis of the constructional morphology phenomena found in question and answer pairs. To this aim, we gathered and annotated a corpus of question and answer pairs. We relied on this corpus to build a gold standard for evaluating the coverage of morphological analysis tools and resources. We detail in particular the phenomena of derivation and composition and show that a signicant number of derivational morphological relations are still not covered by any existing resource for the French language. Mots-cls : Keywords: 1
valuation, Morphologie, Ressources, Systme de Question-Rponse. Evaluation, Morphology, Resources, Question-answering system.

Introduction

Les systmes de Question-Rponse (QR) ont pour objectif de fournir une rponse prcise une question. Pour ce faire, ils reposent gnralement sur un composant de recherche dinformation (RI) qui vise apparier les mots de la question avec les mots des documents contenant la rponse potentielle. La principale difcult pour les systmes de RI rside dans le fait quune rponse peut se trouver dans un document qui ne reprend pas forcment les mots de la question. Les systmes de RI et de QR doivent donc pouvoir rcuprer les documents pertinents sans se baser uniquement sur lidentit formelle entre les mots de la question et les mots du document. cette n, la morphologie a souvent t prfre une analyse smantique plus complexe dans la mesure o deux mots relis morphologiquement montrent gnralement une similitude formelle qui permet de prendre en compte facilement leur relation smantique. Les systmes de RI et de QR intgrent donc gnralement des connaissances morphologiques, que ce soit lors de lindexation des documents ou lors de la recherche, en tendant les requtes ou en les reformulant au moyen de mots morphologiquement relis. Cette intgration est gnralement effectue de manire trs gnrique, cest--dire que toutes les relations morphologiques possibles, ou pour lesquelles on dispose dune ressource, sont incluses. Par ailleurs, les valuations sont effectues de manire globale, en valuant lamlioration de la performance globale du systme, et non limpact de cet ajout. La plupart des recherches menes dans ce domaine utilisent des techniques de dsufxation (stemming) bases sur des heuristiques simples qui suppriment la n des mots (Lennon et al., 1988; Harman, 1991; Fuller & Zobel,

D ELPHINE B ERNHARD , B RUNO C ARTONI , D ELPHINE T RIBOUT 1998). Ces mthodes savrent efcaces pour les langues morphologie moins riche comme langlais, mais ne sont pas disponibles pour toutes les langues (McNamee et al., 2009). La plupart du temps lutilisation de ces mthodes permet daugmenter lgrement le rappel, mais ces techniques gnrent galement du bruit. Bilotti et al. (2004) ont par exemple montr que des mots relativement loigns comme organisation et organ sont rduits la mme racine par lalgorithme de dsufxation de Porter. Moreau & Claveau (2006) ont quant eux utilis une mthode dacquisition automatique de connaissances morphologiques par apprentissage, et leur tude a montr que lutilisation des connaissances morphologiques pour tendre les requtes amliore les rsultats pour la plupart des langues europennes quils ont testes. Dans chacune des tudes prcdentes, les mots de la question sont tendus lensemble des mots appartenant la mme famille morphologique, et les diffrents types de procds (tels que la formation dun nom dverbal ou la formation dun nom dsadjectival) ne sont pas distingus. Ainsi, tous les mots appartenant la mme famille morphologique sont considrs comme smantiquement proches. Or, nous pensons que tous les mots morphologiquement relis nont pas la mme proximit smantique et que certaines relations morphologiques sont plus pertinentes que dautres dans le cadre de QR. Par exemple dans ce type de tche, il nous semble plus pertinent dtendre une requte contenant le verbe diviser au nom dvnement driv division, plutt qu ladjectif driv divisible. Cependant, notre connaissance, aucune tude qualitative ni quantitative na t mene en ce sens, an de dterminer quels types de relations morphologiques sont pertinents pour la recherche en QR. Au del de lextension de requte, la morphologie trouve galement sa place dans les mthodes de reformulation automatique des questions, qui visent traiter des phnomnes de paraphrase entre question et rponse. Ainsi Ravichandran & Hovy (2002) proposent une mthode dacquisition de patrons de reformulation de surface pour des types prcis de questions. Ces patrons incluent entre autres des mots morphologiquement relis tels que discover, discovery et discoverer, dans le cas dune question portant sur la personne ayant fait une dcouverte donne. Ces patrons sont ensuite utiliss pour extraire la rponse. Une approche similaire est propose par Lin & Pantel (2001) et Hermjakob et al. (2002). Ces travaux ne se focalisent toutefois pas sur la morphologie et ne proposent donc pas dvaluation spcique. Seul Jacquemin (2010) value lapport de la mophologie dans ce contexte en utilisant le lexique des verbes franais de Dubois & Dubois-Charlier (1997) et les relations de drivation quil contient pour automatiquement reformuler des noncs, sur la base des relations de dpendance syntaxique. Dans cet article, nous prsentons les rsultats dune valuation portant sur la pertinence des connaissances morphologiques dans un systme de QR. Ces rsultats permettent dune part de dterminer quels types de ressources morphologiques sont ncessaires lamlioration des systmes de QR, et dautre part dvaluer la couverture des ressources existantes pour une telle tche. Pour valuer la pertinence des connaissances morphologiques dans un systme de QR, nous avons tout dabord constitu un corpus de paires question-passage contenant la rponse partir de trois collections de donnes issues de campagnes dvaluation en QR. Nous avons ensuite annot ce corpus an de dterminer quelles sont les relations morphologiques les plus frquentes qui relient les mots de la question et les mots du passage. Enn, nous avons analys les rsultats de cette annotation et valu la couverture des ressources existantes en franais pour les procds morphologiques observs 1 .

2
2.1

Constitution et annotation dun corpus de paires question-passage rponse


Corpus de questions-passages

Nous avons constitu notre corpus de paires question-passage rponse partir de trois collections de donnes utilises pour lvaluation de systmes QR : Quro, EQueR et Conique. Ces trois collections et le corpus quelles nous ont permis de constituer sont dcrits ci-dessous. La table 1 prsente les statistiques concernant ces trois collections.

1. Cet article prsente les rsultats de lvaluation uniquement pour des ressources morphologiques. Les mmes donnes de rfrence ont t utilises pour valuer des outils danalyse morphologique (Bernhard et al., paratre)

VALUER LA PERTINENCE DE LA MORPHOLOGIE DANS LES SYSTMES DE Q UESTION -R PONSE Quro 350 566 8,8 38,5 EQueR-Medical 200 394 9,9 29,0 Conique 201 664 11,4 92,4

#Questions #paires de question-passage Longueur moyenne de la question Longueur moyenne du passage rponse

TABLE 1 Statistiques sur les sous-corpus de questions-rponses utiliss 2.1.1 Quro

Le corpus franais Quro a t constitu dans le cadre du projet Quro avec pour objectif dvaluer des systmes de QR (Quintard et al., 2010). Le corpus de documents contient 2,5 millions de documents en franais extraits de lInternet et 757 questions, dont 250 pour la campagne de 2008 et 507 pour celle de 2009. La collection de documents a t constitue en prenant les 100 premires pages retournes par le moteur de recherche Exalead pour une srie de requtes trouves dans les logs du moteur. Quant aux questions, elles ont t rdiges par des francophones, sur la base du contenu des documents pour la campagne 2008, et sur la base du log uniquement pour la campagne de 2009. Trois types de questions ont t formules : des questions factuelles, des questions boolennes attendant une rponse de type oui/non, et des questions de type liste. Pour notre tche dannotation, nous avons constitu des paires question-passage, formes de lensemble des questions factuelles et des passages contenant la rponse qui ont t fournis par les systmes et valids manuellement lors des deux campagnes dvaluation 2008 et 2009. Nous avons ainsi obtenu 566 paires de questions-passages contenant la rponse, 338 pour la campagne 2008 et 228 pour la campagne 2009.

2.1.2

EQueR-Medical

Les donnes du corpus EQueR ont t constitues dans le cadre de la campagne dvaluation EQueR-EVALDA pour les systmes de question-rponse du franais (Ayache et al., 2006). La campagne comprenait deux tches principales : (i) question-rponse gnrale sur une collection darticles de journaux et de rapports snatoriaux et (ii) question-rponse spcialise sur une collection de textes mdicaux. Pour ces deux tches, les passages contenant les rponses retournes par les systmes participants ont t valids manuellement par des spcialistes du domaine. Pour notre tude, seule la partie mdicale a t retenue, constituant ainsi un ensemble de 394 paires de questions-passages, pour un total de 200 questions distinctes.

2.1.3

Conique

Le corpus Conique a t constitu dans le but dtudier les justications pertinentes pour les rponses des systmes de QR (Grappy et al., 2010). Les justications des rponses fournissent un matriel supplmentaire pour lutilisateur, an quil ou elle puisse faire conance la rponse fournie par le systme. Le corpus est bas sur un sous-ensemble de 291 questions de la campagne EQueR pour le franais (Ayache et al., 2006) et de plusieurs campagne CLEF. Les passages-rponses candidats ont t extraits de la version franaise de Wikipedia laide dun systme de RI et ont ensuite t annots par 7 annotateurs. Contrairement aux deux corpus dcrits prcdemment, les passages-rponses de Conique ne correspondent pas une sortie dun systme de QR. Le corpus possde donc un taux de rappel extrmement haut, et est exempt de tout biais inhrent aux systmes de QR, comme les taux importants de mots identiques entre les questions et le passage. Nous avons pr-trait ce corpus, pour ne conserver que les justications compltes ou partielles. De plus, nous avons rduit le passage une longueur de trois phrases. Au total, le corpus constitu partir de la collection Conique contient 664 paires de question-passage, pour 201 questions distinctes.

2.2

Annotation

Pour chaque paire question-passage rponse, nous avons manuellement annot les mots de la question et les mots du passage an de dterminer quels mots sont morphologiquement relis et par quels types de relations.

D ELPHINE B ERNHARD , B RUNO C ARTONI , D ELPHINE T RIBOUT Les annotations ont t effectues par trois annotateurs indpendants 2 au moyen de loutil dalignement YAWAT (Germann, 2008). Cet outil a t initialement conu pour aligner les mots de paires de phrases bilingues pour des campagnes dvaluation de traduction automatique. Dans cette tude, nous lavons utilis pour aligner les mots (ou groupes de mots) dans des paires question-passage rponse, et pour assigner ces paires de mots une tiquette, parmi les trois types de relations morphologiques suivantes : exion, drivation, composition. Les gures 1 3 prsentent des exemples de paires question-passage impliquant respectivement des relations de exion, drivation et composition. Q : Quand est n Philippe dOrlans ? R : Philippe dOrlans naquit le 2 aot 1674. Q : Comment un insufsant rnal doit-il tre suivi ? R : Du fait du risque de transmission nosocomiale du VHC chez les insufsants rnaux hmodialyss et chez les transplants rnaux, une surveillance annuelle de la srologie doit tre ralise. Q : combien de milliards de dollars slve le dcit budgtaire amricain ? R : Politique budgtaire. Le PIB des tats-Unis slve environ 10 000 milliards de dollars et les dcits atteindraient au moins 300 ou 400 milliards de dollars en 2003 F IGURE 1 Exemples de paires question-passage impliquant une relation de exion

Q : En quelle anne Martin Luther King a-t-il t assassin ? R : Il dit avoir t ct du pasteur King Memphis lors de son assassinat, le 4 avril 1968. Il est ordonn ministre baptiste la n de cette mme anne. Q : Quels sont les quatre ralisateurs du lm "Le jour le plus long" ? R : Le Jour le plus long (The Longest Day) est un lm amricain ralis par Ken Annakin, Andrew Marton, Bernhard Wicki et Gerd Oswald sorti en salle en 1962... Q : La pose damalgame dentaire peut-elle provoquer des allergies ? R : Il est certain que la pose damalgames peut entraner des ractions allergiques plus ou moins graves et prononces chez les patients. F IGURE 2 Exemples de paires question-passage impliquant une relation de drivation

Q : O Marcos fut-il dictateur ? R : Imelda Marcos, le 22 fvrier 2006. Imelda Romualdez Marcos (ne le 2 juillet 1929) fut la femme de Ferdinand Marcos, prsident-dictateur des Philippines de 1965 1986. Q : Le mercure est-il un mtal toxique ? R : En grande concentration ou lorsque lexposition est prolonge, le mercure a des effets neurotoxiques connus, principalement dans sa forme organique, soit le mthylmercure Q : Quengendre la corticothrapie sur los ? R : Les fractures de lostoporose cortisonique surviennent au moins en partie en raison dune perte osseuse induite par la corticothrapie F IGURE 3 Exemples de paires question-passage impliquant une relation de composition tant donn que deux mots morphologiquement lis peuvent tre relis par plus dune relation, des instructions spciques ont galement t dnies. Ainsi, nous navons pas annot les variantes exionnelles des auxiliaires et des dterminants, dans la mesure o ils sont trs frquents et apportent donc peu dinformation smantique. Nous
2. Co-auteurs de cet article.

VALUER LA PERTINENCE DE LA MORPHOLOGIE DANS LES SYSTMES DE Q UESTION -R PONSE avons galement dcid de donner la priorit aux relations de drivation et de composition sur les relations exionnelles. Par exemple, dans la paire de question-passage prsente la Figure 4, il y a deux tapes morphologiques entre le nom Australie dans la question et ladjectif fminin australienne dans la rponse : la premire tape est la drivation de ladjectif australien partir du nom propre ; la seconde est la exion de ladjectif driv au fminin. Dans ce cas, la relation morphologique la plus pertinente est la relation drivationnelle entre le nom propre et ladjectif, cest pourquoi dans un tel cas seule la relation drivationnelle a t annote. Enn, une tiquette spcique autre a t utilise pour annoter des mots qui ne sont par directement relis morphologiquement, mais qui sont le rsultat de deux constructions partir de la mme base. Par exemple dans la paire prsente la Figure 5 le nom utilit et le verbe utiliser (sous la forme passive est utilise) ne drivent pas lun de lautre, mais sont tous deux drivs de ladjectif utile. Q : Quelle est la capitale de lAustralie ? R : le territoire sur lequel est situe la capitale fdrale australienne, Canberra . F IGURE 4 Exemple de paires question-passage o deux types de relation sont prsentes (exion et drivation)

Q : Quelle est lutilit de la pierre dalun ? R : La pierre dalun est un excellent dodorant corporel. Elle est utilise pour neutraliser la transpiration, empcher la fermentation et liminer les mauvaises odeurs. F IGURE 5 Exemple de paires question-passage o la relation morphologique implique deux constructions diffrentes partir de la mme base Nous avons mesur la qualit des annotations laide du coefcient kappa de Fleiss (Fleiss, 1971) 3 . Le coefcient varie en fonction du corpus et du type de relation considr : il est fort (0,674) presque parfait (0,83) pour la exion, bon pour la drivation (0,662 0,729) et faible (0,39) bon (0,665) pour la composition. Tous les dsaccords ont t rsolus et les donnes valides par lensemble des annotateurs an de constituer un corpus de rfrence. Nous avons ensuite class et caractris les paires de mots que nous avions considrs comme morphologiquement relis lors de lannotation. Les rsultats de cette analyse sont prsents dans la section suivante et fournissent un panorama des relations morphologiques mises en jeu dans le cadre de Question-Rponse.

Analyse des rsultats

Au terme de lannotation, nous avons obtenu un ensemble de mots morphologiquement relis jouant un rle dans le lien opr entre la question et le passage contenant la rponse. Plusieurs observations peuvent tre faites suivant diffrents points de vue. Nous prsentons tout dabord la rpartition des diffrentes relations morphologiques observes (exion, drivation et composition). Puis nous dcrivons prcisment les procds de drivation et de composition les plus frquemment observs. Enn, nous tudions la position du mot construit dans la paire et en particulier sil se trouve dans la question ou dans le passage rponse.

3.1

Types de relations morphologiques

Les rsultats de lannotation de chaque sous-corpus en fonction des diffrents types de relations morphologiques sont prsents dans la table 2 4 . Ces chiffres montrent que chaque sous-corpus semble favoriser un type particulier de relation morphologique : le sous-corpus Conique contient un majorit de relations de drivation, le sous-corpus Quro contient davantage de exion, alors que pour le sous-corpus EQueR, cest la composition qui semble la plus frquente. De plus, si lon tudie les relations morphologiques en fonction des sous-corpus, on constate que la composition est quasiment absente des sous-corpus Quro et Conique.
3. Le kappa de Fleiss permet de mesurer laccord inter-annotateurs lorsquil y a plus de deux annotateurs. Il a t calcul en fonction de laccord des annotateurs sur la prsence dune paire de mots morphologiquement relis pour une mme paire de questions-rponse 4. Les paires de question-passage (paire qp) ne contiennent pas toujours des relations morphologiques, et certaines paires peuvent contenir plus dune relation morphologique, impliquant parfois les mmes mots.

D ELPHINE B ERNHARD , B RUNO C ARTONI , D ELPHINE T RIBOUT Flexion nbr % 159 41,8 136 61,8 69 26,5 Drivation nbr % 188 49,5 80 36,4 81 31,0 Composition nbr % 33 8,7 4 1,8 111 42,5

Corpus (paire qp) Conique (664) Quro (566) EQueR (394)

TABLE 2 Flexion, drivation et composition dans les trois sous-corpus

Il est notable que le sous-corpus Conique contient plus de relations de drivation que le sous-corpus Quro. Ceci est li la manire dont le corpus Conique a t construit. En effet, il na pas t constitu partir des rponses fournies par un systme de QR, mais sur la base de rponses identies et annotes manuellement. De plus, Conique contient en moyenne les passages les plus longs (c.f. table 1), ce qui peut expliquer la prsence dun nombre plus important de paires drivationnelles dans ce sous-corpus. Quant EQueR, la proportion importante de mots composs est lie au domaine de spcialit du sous-corpus qui contient un grand nombre de termes mdicaux, ceux-ci tant souvent composs, comme le montre la gure 6.

Q : Quelle est la consquence de la corticothrapie sur los ? R : Le problme essentiel des corticodes rside dans leurs effets secondaires (... ostoporose, ostoncrose aseptique des ttes fmorales ou parfois humrales ...). F IGURE 6 Exemple de paire de question-passage de EQueR

Il est galement intressant de noter le rle important de la drivation dans les trois sous-corpus (entre 31 % et 49 %), et limportance de la composition dans le domaine mdical (42,5% dans EQueR). Ceci conrme lintrt dinclure des connaissances morphologiques de ce type dans un systme de QR. Dans la suite, nous dcrivons plus prcisment ces deux types de construction, en analysant quels procds morphologiques sont les plus prsents. Nous ne nous attardons pas sur la morphologie exionnelle dans le cadre de cet article car elle est considre comme pertinente par les systmes de QR existants. De plus, elle est gnralement bien prise en compte par les systmes de QR existant, notamment via lutilisation de lemmatiseurs.

3.2

Drivation

Comme nous venons de le montrer (table 2), la drivation joue un rle important dans les trois sous-corpus. Dans certain cas, la relation morphologique entre le mot de la question et le mot du passage-rponse implique plus dune tape drivationnelle : soit lun des mots est plus complexe que lautre, mais nest pas un driv direct (par exemple, lune et alunissage, ce dernier drivant du verbe alunir, lui-mme driv de lune) ; soit les deux mots sont complexes et sont tous deux drivs dun mme mot (par exemple joueur et jouable tous deux drivs du verbe jouer). Le premier cas de gure reprsente 1,70% des relations observes et le second 8,30%, ce qui reprsente une proportion assez faible et indique que dans la grande majorit des cas les mots morphologiquement relis entretiennent une relation de drivation directe. Les relations non directes impliquent une prdictibilit moindre, et inuencent le choix des mthodes dimplmentation, comme nous lexpliquons dans la section 3.4. Dans un premier temps nous tudions donc uniquement les paires de mots morphologiquement relis par une drivation directe. La table 3, qui prsente la proportion des diffrents types de procds morphologiques observs, montre que les sous-corpus diffrent selon les procds de drivation majoritairement utiliss. Si Conique contient une majorit dadjectifs dnominaux (environ 47% des procds de drivation), Quro et EQueR montrent une prfrence pour des procds de nominalisation (avec respectivement 61% et 54% des procds de drivation).

VALUER LA PERTINENCE DE LA MORPHOLOGIE DANS LES SYSTMES DE Q UESTION -R PONSE Exemple Nom > Adj Nom propre> Adj Nom > Nom Nom propre > N Adj > Nom Verbe > Nom Autres commerce > commercial Afrique > africain prsident > prsidente Armnie > Armniens national > nationalit traiter > traitement complet > compltement Conique (174) nbr % 37 21 45 26 29 17 6 3 3 2 41 24 13 7 Quro (70) nbr % 16 23 8 11,5 5 7 8 11,5 0 0 30 43 3 4 EQueR (70) nbr % 28 40 1 1 2 3 2 3 9 13 25 36 3 4

TABLE 3 Procds drivationnels dans les paires de question-passage

3.2.1

Adjectifs dnominaux

Dans les trois sous-corpus, les adjectifs drivs dun nom propre sont toujours des adjectifs relationnels, qui peuvent tre remplacs par un complment du nom quivalent, comme chilien driv de Chili ou africain driv de Afrique. Les adjectifs drivs dun nom commun sont la plupart du temps relationnels, comme le montrent les chiffres de la table 4. Par exemple, commercial driv de commerce ou solaire driv de soleil. Cependant, on trouve galement quelques adjectifs qualicatifs comme g driv de ge ou montagneux driv de montagne. La table 4 prsente les proportions dadjectifs relationnels et qualicatifs dans notre corpus, et montre que ce sont les adjectifs relationnels qui sont les plus frquents dans les trois sous-corpus. Adj. relationel nbr % 23 62 10 62 24 86 57 70 Adj. qualicatif nbr % 14 38 6 38 4 14 24 30

Conique (37) Quro (16) EQueR (28) Total (81)

TABLE 4 Types dadjectifs dnominaux

3.2.2

Procds de formation des noms

En ce qui concerne les procds de formation de noms, on trouve dans les trois sous-corpus un grand nombre de nominalisations dverbales, ainsi que quelques cas de nominalisations dsadjectivales ou dnominales. La formation de noms sur des bases nominales est relativement rare, sauf dans Conique qui contient plusieurs noms de profession fminiss, comme inrmier et inrmire, directeur et directrice, prsident et prsidente, que nous avons considrs comme drivs lun de lautre et non comme deux formes chies du mme mot. Nous avons galement trouv quelques noms diminutifs, comme rame > ramette et quelques prxs comme prsident > vice-prsident. Nous avons aussi considr les formations de noms partir de noms propres comme des nominalisations. Ces noms drivs sont principalement des gentils comme Colombien driv de Colombie. Les noms dsadjectivaux sont rares dans les trois sous-corpus, voire inexistants dans le cas de Quro. Ces noms dsadjectivaux sont principalement des noms de proprit, comme toxicit construit sur toxique. La plupart des noms dsadjectivaux se trouvent dans le corpus EQueR. Cela sexplique par le fait que le corpus mdical contient beaucoup de noms de maladie ou de pathologie (comme toxicit ou insufsance), or ces noms rfrent la plupart du temps la proprit de se trouver dans un tat particulier (toxicit proprit dtre toxique, insufsance proprit dtre insufsant). Quant aux noms dverbaux, qui sont les plus frquents, ce sont essentiellement des noms dvnements, comme dbarquement driv du verbe dbarquer. Les noms dvnements reprsentent presque 85% des noms dverbaux, comme le montre la table 5. Cependant, on trouve galement un petit nombre de noms dagents dans les souscorpus Conique et Quro, comme ralisateur construit sur raliser, et quelques cas de noms rsultatifs comme produit driv de produire.

D ELPHINE B ERNHARD , B RUNO C ARTONI , D ELPHINE T RIBOUT Exemple Verbe > N vnement Verbe > N agent Verbe > N autre inaugurer > inauguration raliser > ralisateur produire > produit Conique (41) nbr % 34 83 4 10 3 7 Quro (30) nbr % 25 83 4 13 1 4 EQueR (25) nbr % 22 88 0 0 3 12

TABLE 5 Types smantiques des noms dverbaux dans les paires de questions-passage 3.2.3 Autres procds de formation

Parmi les autres procds de formation observs dans le corpus, on trouve des formations dadverbes, comme compltement driv de complet ou directement construit sur direct, ainsi quun certain nombre de verbes prxs, comme dboucher, ou dadjectifs prxs, comme international. Il est galement intressant de noter que nous navons observ aucun verbe dsadjectival (comme national > nationaliser) et trs peu de verbes dnominaux (quatre cas seulement dans le sous-corpus Conique, dont trois sont des verbes convertis : border, fusionner et suicider). La quasi-absence de verbes dnominaux peut sexpliquer par la faible prdictibilit du sens dun verbe dnominal. Comme lont dcrit Hopper & Thompson (1984), il existe une asymtrie entre les catgories lexicales, dans la mesure o un nom dverbal continue de rfrer lvnement dnot par le verbe base, alors quun verbe dnominal ne rfre pas lentit dnote par le nom base, mais dnote un vnement associ cette entit. Or, les vnements associs une entit peuvent tre nombreux et varis. Par exemple, le nom destruction dnote le mme vnement que sa base verbale dtruire, alors quun verbe dnominal comme hospitaliser ne rfre pas lobjet dnot par la base nominale (hpital), mais lun des vnements lis cet objet. Ainsi, dans le cadre dun systme de QR, la relation smantique entre un nom et son verbe driv est moins informative que la relation entre un verbe et son nom driv.

3.3

Composition

En ce qui concerne la composition, comme nous lavons vu dans la section 3.1 et la table 2, elle est surtout prsente dans les sous-corpus EQueR et Conique, mais quasiment absente du sous-corpus Quro. Dans notre analyse de la composition nous avons distingu les paires de question-passage contenant un compos et au moins lun de ses constituants (comme dans lmographie compos de lm), des paires contenant deux composs qui partagent un mme constituant (comme aronautique et aroport partageant le constituant aro). La table 6 prsente les rsultats de cette classication, et montre que le second cas (deux composs partageant un constituant) est avant tout prsent dans le corpus spcialis. compos-constituant(s) nbr % Conique (33) 26 79 Quro (4) 4 100 EQueR (111) 70 63 2 composs nbr % 7 21 0 0 41 37

TABLE 6 Types de relations de composition

3.4

Conclusion sur les relations morphologiques observes dans les trois sous-corpus

Comme le montre lanalyse des rsultats de notre annotation, la morphologie joue un rle important pour tablir le lien de similarit entre question et passage-rponse. Daprs notre tude qualitative des relations morphologiques observes, la exion est loin dtre la seule connaissance morphologique prsente dans notre corpus, et la drivation, tout comme la composition, jouent un rle important. Notons galement que les types de procds morphologiques employs sont trs similaires dans les corpus de langue gnrale, alors que la langue de spcialit EQueR, corpus mdical montre des tendances nettement diffrentes. Nous avons galement tudi la position privilgie du mot le plus complexe morphologiquement, an se savoir sil se trouve plutt dans la question ou dans le passage rponse. La prdominance de lune ou lautre position

VALUER LA PERTINENCE DE LA MORPHOLOGIE DANS LES SYSTMES DE Q UESTION -R PONSE joue un rle essentiel dans la manire de grer la morphologie dans les systmes de QR. Pour les paires impliquant une relation de drivation, le mot complexe se trouve majoritairement dans le passage rponse (52% des cas dans EQueR, 59% dans Quro et 65% dans Conique). Ce rsultat conrme lintrt de lexpansion de requte aux mots drivs des mots de la question. De plus, le nombre important de relations de composition o les deux membres de la paire sont des composs partageant un mme constituant (37% dans EQueR et 21% dans Conique) pointe les limites de lapport de la morphologie dans de tels systmes, tant donn quil est difcilement envisageable de vouloir gnrer tous les mots composs partir dun lment de la question. Dans la suite de cet article, nous utilisons les rsultats de lannotation comme gold-standard (ensemble de rfrence) pour valuer les ressources morphologiques existantes en franais. Cette valuation permet donc implicitement de connatre limpact de telles ressources si elles taient intgres dans un systme de QR. noter galement quen plus des ressources statiques rendant compte des relations morphologiques, il existe galement des outils danalyse, base de rgles ou dheuristiques comme Drif (Namer, 2009) 5 .

Evaluation des ressources morphologiques existantes

En franais, il nexiste pas de ressources contenant des relations morphologiques drivationnelles large chelle similaire la base CELEX qui contient un nombre important dinformations morphologiques pour le nerlandais, langlais et lallemand (Baayen et al., 1995). Il existe pour le moment uniquement des ressources conues pour traiter dun phnomne morphologique particulier. Dans le cadre de notre tude, nous nous sommes intresss trois ressources qui couvrent des phnomnes morphologiques particulirement frquents dans notre corpus : les noms dverbaux et les adjectifs dnominaux. Ces ressources sont VerbAction, Dubois et Prolexbase. Nous laissons de ct dans le cadre de cette tude la couverture des procds de composition, pour lesquels il nexiste pas de ressource.

4.1

Prsentation des ressources existantes

Verbaction 6 est une ressource lexicale regroupant tous les noms dactions drivs dun verbe (Hathout et al., 2002; Hathout & Tanguy, 2002). Elle contient un total de 9 393 paires de nom-verbe. Dubois 7 Cette ressource XML, constitue partir du travail de (Dubois & Dubois-Charlier, 1997) est une description des verbes franais regroups en classes syntaxico-smantiques, qui fournit galement des informations sur les drivs de ces verbes. Elle contient au total 25 609 entres pour lesquels elle mentionne 33 955 drivs. Prolexbase 8 est un dictionnaire multilingue de noms propres (Tran & Maurel, 2006; Bouchou & Maurel, 2008). Bien quelle ne contienne pas explicitement de connaissances morphologiques, cette ressource fournit des informations sur les noms relationnels et les adjectifs associs aux noms propres. Par exemple, Franais et franais sont explicitement associs lentre France. Au total, Prolexbase contient 76 118 lemmes et 20 614 relations drivationnelles.

4.2

Rsultats

Lvaluation de ces trois ressources drivationnelles ne peut se faire sur lensemble du gold-standard dans la mesure o chacune delles a t conue pour couvrir un phnomne morphologique spcique. De ce fait nous avons valu les ressources uniquement sur la partie du gold-standard concerne par le phnomne pour lequel
5. 6. 7. 8. ce sujet voir Bernhard et al. ( paratre). http://w3.erss.univ-tlse2.fr:8080/index.jsp?perso=hathout&subURL=verbaction/main.html http://rali.iro.umontreal.ca/Dubois/ http://www.cnrtl.fr/lexiques/prolex/

D ELPHINE B ERNHARD , B RUNO C ARTONI , D ELPHINE T RIBOUT elles ont t conues. La couverture de VerbAction et de Prolexbase a t value en comptant le nombre de paires de mots morphologiquement relis qui sy trouvent. Dubois, en revanche, ne contient pas les drivs mais mentionne uniquement leur existence et fournit des informations permettant de dduire la forme du driv. Pour valuer Dubois nous avons donc pris en compte les cas o le driv pouvait tre automatiquement calcul partir des informations fournies. La table 7 rsume la couverture de VerbAction et de Dubois pour les noms dvnement observs dans notre corpus. La couverture de VerbAction est meilleure que celle de Dubois, en particulier pour les sous-corpus de langue gnrale Conique et Quro. Quant aux noms dverbaux agentifs, Dubois couvre 100% des noms de Conique et 75% de ceux de Quro (aucun nom agentif na t trouv dans le sous-corpus EQueR). VerbAction est limit aux noms daction et ne contient donc aucun nom dagent. VerbAction nbr. % 33 97 25 100 22 100 80 99 Dubois nbr. % 19 56 9 36 19 86 47 58

Corpus (nbr.) Conique (34) Quro (25) EQueR (22) Total (81)

TABLE 7 Couverture des ressources pour les noms dvnements dverbaux Pour ce qui est des gentils et des adjectifs relationnels drivs de noms gographiques, les rsultats de lvaluation de Prolexbase sont prsents dans la table 8. Nous distinguons les gentils (habitants dun lieu), les adjectifs relationnels, et les noms de lieu ou dentit institutionnelle que nous avons appels LocOrg. Les chiffres montrent que Prolexbase a une trs bonne couverture pour les gentils drivs dun nom de lieu, et pour les adjectifs relationnels drivs dun nom de lieu ou dun gentil 9 . Les ressources existantes VerbAction, Dubois et Prolexbase offrent donc une bonne couverture des noms dverbaux et des gentils et adjectifs drivs de noms propres. Cependant, si lon value ces trois ressources sur lensemble des relations drivationnelles observes dans le corpus, le taux de couverture global est relativement faible (environ 52%). Ce faible taux de couverture nest pas tonnant dans la mesure o les ressources values sont conues pour des phnomnes particuliers. Cela dmontre galement quil reste un nombre important de relations morphologiques drivationnelles pour lesquelles il nexiste pas encore de ressource exploitable. En premier lieu, il manque une ressource associant les adjectifs dnominaux aux noms dont ils drivent, lorsquil ne sagit pas de noms gographiques. Or, ce type de relation drivationnelle est une des plus frquentes dans notre corpus puisquelle concerne environ 21% des paires de mots relis par un procd drivationnel dans le sous-corpus Conique, 23% dans le sous-corpus Quro, et 40% dans le sous-corpus EQueR (cf. table 3). Une telle ressource spciant la relation entre un adjectif dnominal et son nom base permettrait donc daugmenter de faon signicative la couverture globale des ressources morphologiques du franais pour les relations morphologiques observes dans notre corpus de question-passage.

Conclusion et perspectives

Nous avons prsent une tude dtaille des phnomnes morphologiques permettant de faire le lien entre question et rponse dans le cadre des systmes de QR. Pour raliser cette tude, nous avons constitu un corpus de paires de question-passage rponse partir de divers corpus utiliss pour lvaluation en QR. Nous avons ralis une annotation dtaille du corpus, portant sur les liens morphologiques entre question et rponse. Cette annotation nous a permis dobtenir des donnes de rfrence, que nous avons analyses de manire dtaille selon plusieurs axes : types de relations morphologiques, procds drivationnels utiliss, relations de composition. Cette analyse nous a permis de tirer les conclusions suivantes : (i) la morphologie drivationnelle constitue une forte proportion des phnomnes morphologiques luvre dans le corpus, (ii) les phnomnes de drivation observs concernent essentiellement les adjectifs dnominaux et les nominalisations verbales, (iii) le procd de composition sobserve essentiellement dans le sous-corpus spcialis de la langue mdicale EQueR.
9. Dans le corpus Quro, aucune paire gentil>adjectif relationnel na t trouve, et dans le corpus EQueR, seule une paire LocOrg>adjectif relationnel a t trouve et est analyse correctement.

VALUER LA PERTINENCE DE LA MORPHOLOGIE DANS LES SYSTMES DE Q UESTION -R PONSE Trouv dans Prolexbase nbr. % 1 100 6 100 43 96 5 62 8 100 1 100 64 93

Corpus Conique

Relation morphologique (nbr.) Gentil - Adj. Rel LocOrg - gentil LocOrg - Adj. rel LocOrg - Gentil LocOrg - Adj. rel. LocOrg - Adj. rel. (1) (6) (45) (8) (8) (1) 69

Quro EQueR Total

TABLE 8 Couverture de Prolexbase pour les relations morphologiques de type "gographique" Si ces rsultats soulignent limportance de la morphologie dans lappariement en question-rponse, et montrent clairement quelles relations sont les plus pertinentes (car les plus frquentes), ils ne permettent pas dvaluer limpact, notamment en termes de bruit, de la prise en compte de ces relations, frquentes ou non, dans un systme de QR. Une intgration modulaire de chacune des relations, et une valuation prcise de leur impact sur les rsultats dun systme de QR permettraient sans doute davoir une meilleure ide sur la question. Nous avons galement valu la couverture de ressources morphologiques existantes pour le franais par rapport aux phnomnes observs. Si certains procds bncient dune trs bonne couverture (noms dvnement dans VerbAction, gentils et adjectifs relationnels drivs de noms gographiques dans Prolexbase), dautres souffrent dun manque de ressource adapte, comme par exemple les adjectifs dnominaux. Les perspectives de ces travaux sont multiples. Dun point de vue linguistique, lobservation des relations morphologiques les plus frquentes, et labsence constate de certaines autres, semblent indiquer que certains types de relations morphologiques sont plus informatifs et donc plus pertinents que dautres. Dun point de vue applicatif cette hypothse mriterait nanmoins dtre value empiriquement. Lanalyse a galement permis de distinguer les procds drivationnels intgrer de faon prioritaire dans les systmes de QR. Nous envisageons dintgrer ces observations dans un systme de QR existant, en dnissant notamment des patrons de reformulation de question bass sur la morphologie. Remerciements Ces travaux ont t partiellement nancs par OSEO dans le cadre du programme QUAERO.

Rfrences
AYACHE C., G RAU B. & V ILNAT A. (2006). EQueR : the French Evaluation campaign of Question-Answering Systems. In Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC 2006), p. 11571160. BAAYEN R. H., P IEPENBROCK R. & G ULIKERS L. (1995). The Celex Lexical Database (Release 2) [CDROM]. Philadelphia, PA : Linguistic Data Consortium. B ERNHARD D., C ARTONI B. & T RIBOUT D. ( paratre). A Task-Based Evaluation of French Morphological Resources and Tools : A Case Study for Question-Answer pairs. Linguistic Issues in Language Technology LiLT. B ILOTTI M. W., K ATZ B. & L IN J. (2004). What Works Better for Question Answering : Stemming or Morphological Query Expansion. In Proceedings of the Information Retrieval for Question Answering (IR4QA) Workshop at SIGIR 2004, Shefeld, England. B OUCHOU B. & M AUREL D. (2008). Prolexbase et LMF : vers un standard pour les ressources lexicales sur les noms propres. Traitement Automatique des Langues, 49(1), 6188. D UBOIS J. & D UBOIS -C HARLIER F. (1997). Les verbes franais. Larousse-Bordas. F LEISS J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378382.

D ELPHINE B ERNHARD , B RUNO C ARTONI , D ELPHINE T RIBOUT F ULLER M. & Z OBEL J. (1998). Conation-based comparison of stemming algorithms. In Proceedings of the Third Australian Document Computing Symposium, p. 813, Sydney. G ERMANN U. (2008). Yawat : yet another word alignment tool. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies (HLT 08), p. 2023. G RAPPY A., G RAU B., F ERRET O., G ROUIN C., M ORICEAU V., ROBBA I., TANNIER X., V ILNAT A. & BARBIER V. (2010). A Corpus for Studying Full Answer Justication. In Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC10), Valletta, Malta. H ARMAN D. (1991). How effective is sufxing ? Journal of the American Society of Information Science, 42(1), 715. H ATHOUT N., NAMER F. & DAL G. (2002). Many Morphologies. chapter An Experimental Constructional Database : The MorTAL Project, p. 178209. Cascadilla Press. H ATHOUT N. & TANGUY L. (2002). Webafx : Discovering Morphological Links on the WWW. In Proceedings of the Third International Conference on Language Resources and Evaluation, p. 17991804, Las Palmas de Gran Canaria, Espagne : ELRA. H ERMJAKOB U., E CHIHABI A. & M ARCU D. (2002). Natural Language Based Reformulation Resource and Wide Exploitation for Question Answering. In Proceedings of the Eleventh Text Retrieval Conference (TREC 2002). H OPPER P. & T HOMPSON S. (1984). The discourse basis for lexical categories in universal grammar. Language, 60, 703752. JACQUEMIN B. (2010). A Derivational Rephrasing Experiment for Question Answering. In Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC10), Valletta, Malta : European Language Resources Association (ELRA). L ENNON M., P IERCE D. S., TARRY B. D. & W ILLETT P. (1988). An evaluation of some conation algorithms for information retrieval. Journal of Information Science, 3(4), 177183. L IN D. & PANTEL P. (2001). Discovery of Inference Rules for Question Answering. Natural Language Engineering, 7(4), 343360. M C NAMEE P., N ICHOLAS C. & M AYFIELD J. (2009). Addressing morphological variation in alphabetic languages. In SIGIR 09 : Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, p. 7582, New York, NY, USA : ACM. M OREAU F. & C LAVEAU V. (2006). Extension de requtes par relations morphologiques acquises automatiquement. In Actes de la Troisime Confrence en Recherche dInformations et Applications CORIA 2006, p. 181192. NAMER F. (2009). Morphologie, Lexique et TAL : lanalyseur DriF. TIC et Sciences cognitives. London : Hermes Sciences Publishing. Q UINTARD L., G ALIBERT O., A DDA G., G RAU B., L AURENT D., M ORICEAU V., ROSSET S., TANNIER X. & V ILNAT A. (2010). Question Answering on Web Data : The QA Evaluation in Quro. In Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC10), Valletta, Malta. R AVICHANDRAN D. & H OVY E. (2002). Learning surface text patterns for a Question Answering system. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL 02), p. 4147. T RAN M. & M AUREL D. (2006). Prolexbase : un dictionnaire relationnel multilingue de noms propres. Traitement Automatique des Langues, 47(1), 115139.