Vous êtes sur la page 1sur 5

Franois Morlane-Hondre

Octobre 2009

Projet de thse
La question des ressources lexicales est de premire importance dans le domaine du Traitement Automatique des Langues. En effet, bon nombre de systmes intgrant des connaissances linguistiques reposent sur des bases de donnes dont la constitution ncessite temps et argent (comme le fait remarquer [Habert 05], le cot de dictionnaires lectroniques comme EuroWordNet fait que cette ressource reste inaccessible pour de nombreux laboratoires de recherche). De plus, la lourdeur de leur constitution implique quil est impossible de disposer de telles donnes pour tous les types de textes. Lautomatisation du recueil de telles ressources reprsente ainsi un enjeu de taille, dans le sens o elle permettrait de disposer de donnes exploitables dans des applications de TAL un cot rduit et avec une flexibilit inaccessible une mthode de constitution manuelle.

Analyse distributionnelle automatique et acquisition de relations smantiques Dans le cadre de mes deux mmoires de master, jai t amen manipuler des ressources gnres automatiquement et tudier les problmatiques qui sont lies un tel mode de constitution. Mes travaux ont notamment port sur une base lexicale, les voisins de Wikipdia, obtenue laide du programme danalyse distributionnelle automatique UPERY, dvelopp au sein de lquipe CLLE-ERSS ([Bourigault 02]), et dun corpus compos de lensemble des articles de la version francophone de lencyclopdie en ligne Wikipdia (soit plus de 470 000 articles pour 194 millions de mots1). Le concept de voisins distributionnels est issu du domaine de lanalyse distributionnelle, dveloppe par L. Bloomeld dans les annes 30. Cette mthode danalyse sappuie sur lide selon laquelle la seule observation des contextes dapparition des mots dune langue (leur distribution) permettrait den tablir la grammaire. Un corollaire de cette thorie est que les mots qui ont des distributions similaires, appels voisins, ont des chances de partager des lments de sens ([Harris, 1991]). Cette analyse peut ainsi permettre de rapprocher des mots smantiquement proches comme chteau et forteresse en se basant sur le fait que ces deux noms apparaissent en position objet de verbes comme construire, btir, dtruire, qui savrent eux aussi smantiquement proches. Cest cette proprit de lanalyse distributionnelle qui fait tout lintrt dune ressource comme les voisins de Wikipdia. Le processus de gnration dune telle ressource dbute par le traitement dun corpus (ici, le corpus Wikipdia voqu supra pralablement tiquet par TreeTagger2) par lanalyseur syntaxique SYNTEX ([Bourigault 07]), qui va extraire les relations syntaxiques du texte sous forme de triplets <gouverneur, relation, dpendant>. Ainsi, le programme va reprer dans la phrase Pierre mange un biscuit les triplets <manger, suj, Pierre> et <manger, obj, biscuit>. Quand la relation de dpendance syntaxique se fait via une prposition, cette dernire prend la place de la relation au sein du triplet (biscuit au chocolat se reprsente <biscuit, , chocolat>). Ces triplets sont ensuite ramens sous la
1

Le corpus a t recueilli courant avril 2007. Le recueil du corpus, son traitement ainsi que la cration de la base de voisins sont dus au travail de Franck Sajous (CLLE-ERSS). Universit de Stuttgart (www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/)

forme de couples <prdicat, argument> o le prdicat correspond au gouverneur auquel on accole la relation, et o largument correspond au dpendant (<biscuit, , chocolat> devient <biscuit_, chocolat>). Cette formalisation va permettre doprer un double rapprochement : celui des prdicats partageant les mmes arguments, mais aussi celui des arguments partageant les mmes prdicats. Lors de cette tape, le programme attribue chaque paire de voisins deux scores de proximit qui indiquent dans quelle mesure les distributions des deux mots rapprochs sont similaires (et donc, idalement, dans quelle mesure les deux voisins sont smantiquement proches). Les calculs utiliss pour obtenir sont lindice de Jaccard et la mesure de Lin ([Lin 98]), qui sappuient sur le nombre de prdicats/arguments partags et leur frquence dans le corpus pour faire merger les paires de voisins considres comme les plus susceptibles dtre porteuses dune relation smantique. Concrtement, le prdicat manger_obj est rapproch de se nourrir_de via les arguments pousse, bourgeon, crustac, etc., et largument biscuit est rapproch de sucre via les prdicats fabrique_de, marque_de, production_de, etc. Cette mthode possde lavantage de permettre les rapprochements intercatgoriels qui font cruellement dfaut aux ressources actuellement disponibles3. Ainsi, le verbe prdicat manger_obj se retrouve galement associ des prdicats nominaux comme bouillon_de, cuisson_de, recette_de ou plat_de via des arguments communs comme viande, poulet, poisson, spaghetti, etc. Lintrt dune telle ressource repose ainsi dans le fait quelle offre la possibilit des systmes qui mobilisent des mthodes relevant du traitement automatique des langues de prendre en compte un pan entier des relations lexicales jusque l inexploit comme les relations de collocation (au sens de [Halliday & Hasan 76]).

Profusion et htrognit des liens smantiques Des ressources gnres par UPERY ont t utilises dans le cadre de la constitution dontologies dans des domaines de spcialit comme la mdecine (sur un corpus de comptes-rendus dhospitalisation en ranimation chirurgicale ([Le Moigno et al. 02])) ou le droit ([Bourigault & Lame 02]). Sur des textes de langue gnrale (des discours dhommes politiques et des articles de journaux), la mthode distributionnelle fait apparatre des relations trs htrognes : des tudes comme ([Bourigault & Galy 05]) ou ([Fabre & Bourigault 06]) ont montr quil est difficile de dgager une typologie des relations de voisinage extraites. La raison en est que les corpus non spcialiss prsentent moins de redondance et se caractrisent par des restrictions syntaxiques moins fortes. Partant de ce constat, le travail que jai ralis dans le cadre de mon mmoire de M1 intitul Combiner proximit distributionnelle et patrons linguistiques pour reprer l'antonymie (sous la direction de Ccile Fabre) stait donn pour but la mise au point dune mthode de filtrage des couples de voisins antonymiques l'aide de patrons lexico-syntaxiques comme X ou Y, X plutt que Y, plus X que Y, etc. Jai ainsi insr un ensemble de mots dans ces patrons que jai ensuite projets sur un corpus (toujours Wikipdia). Les mots rapports ont ensuite t compars aux voisins du mot projet. Par exemple, la projection du mot dernier a rapport actuel grce au patron X ou Y, et premier grce aux patrons entre X et Y, ni X ni Y et X comme Y. Seul le mot premier, qui apparat clairement comme un antonyme de dernier, figurait dans la liste de ses voisins Cette approche visant identifier un certain type de relation smantique parmi la masse de paires de voisins en les filtrant laide dun critre relevant de la dimension syntagmatique sinscrit dans une dmarche plus globale
3

Le projet EuroWordNet avait tent une approche intercatgorielle qui restait toutefois limite aux mots prsentant des similarits morphologiques ([Fabre & Bourigault 06]).

qui consiste amliorer notre connaissance des voisins distributionnels afin de mettre au point des mthodes de filtrage permettant de discriminer les paires les plus pertinentes dans un contexte donn. Le besoin dune telle mthode de filtrage sest notamment fait ressentir lors de la ralisation des expriences sur lesquelles sest bas mon mmoire de M2 (Deux approches de la cohsion lexicale pour le reprage de phnomnes discursifs, dirig par Marie-Paule Pry-Woodley et encadr par Ccile Fabre). Jai en effet tent dautomatiser la mthode danalyse de lorganisation discursive des textes dveloppe dans [Hoey 91], et la profusion de liens fournis par les bases lexicales mobilises (une base de voisins, les sorties du programme JeuxDeMots et le dictionnaire de synonymes Dicosyn) sest rvle particulirement problmatique pour lanalyse, tant donn que la plupart des relations repres ntaient pas pertinentes. Jai alors mis en place deux mthodes de filtrage. La premire a consist ne conserver que les paires de voisins qui apparaissaient au moins une fois ensemble dans une mme phrase du corpus. Cette dmarche rappelle les travaux que jai raliss en M1, dans le sens o il sagit ici aussi de recouper des informations relevant des dimensions syntagmatiques et paradigmatiques. La deuxime ide a t de faire varier la taille du texte sur lequel les relations de la base taient projetes. Il sest avr que la pertinence des relations augmentait considrablement lorsque le texte analys ne dpassait pas la dizaine de lignes. Au final, jai pu explorer le phnomne des liens discursifs de longue distance travers ltude des relations entre les phrases contenues dans la section introductive dun article de Wikipdia et les phrases auxquelles elles faisaient cho dans le reste du texte : jai pu mettre en vidence certaines relations que lon peut considrer comme relevant de llaboration.

Vises de la thse Dans la continuit de ces tudes, lobjectif du travail de thse sera double. Il consistera la fois en une rflexion sur la nature des relations lexicales et en une approche plus applicative, o les considrations thoriques seront confrontes aux contraintes lies lutilisation de donnes lexicales pour le TAL. Le premier aspect de ce travail sinscrit dans une approche purement linguistique o sera notamment abord le problme de la nature des relations qui sortent du cadre des relations dites classiques que sont la synonymie, lantonymie, lhypronymie, la mronymie, et qui englobent par exemple4 : des sous-ensembles lis une notion non-lexicalise comme la suite funrailles/n/mari, que lon peut considrer comme appartenant un ensemble TAPES DE LA VIE, des paires nom/adjectif typiques : professeur/brillant, des couples de mots qui se retrouvent souvent associes et qui peuvent entretenir un rapport qui a trait un lieu (funrailles/chapelle), une notion de cause/consquence (ou assimile : alcoolique/sevrage), etc.

Exemples extraits et traduits de [Morris et Hirst 04].

Il a t dmontr (notamment dans [Morris et Hirst 04]) que les relations de ce type jouaient un rle de premier ordre pour linterprtation dun texte. Or, nous avons vu que lanalyse distributionnelle automatique permettait justement de capter de telles relations : ce travail de thse sera ainsi loccasion de remettre en question la nature des relations lexicales au regard de ces relations nonclassiques , dont les voisins distributionnels nous permettront lobservation. Le deuxime aspect relve dune dmarche applicative, puisquil sagira de mobiliser les bases de voisins dans des applications de TAL comme des systmes de question/rponse ([Van der Plas 08]), de recherche dinformation ([Picton, Fabre & Bourigault 08]), de rsum, ou encore de segmentation automatique ([Adam & Morlane-Hondre 09]). Ces exprimentations vont notamment permettre une valuation des ressources aussi bien intrinsque que compare dautres types de bases lexicales aux modes de constitution diffrents. Au final, ces deux facettes complmentaires font que ce projet aborde des problmatiques qui relvent de la linguistique gnrale, la croise du lexique et du discours, et qui s'intgrent donc bien dans les thmatiques de CLLE-ERSS. Plus spcifiquement, ce projet s'inscrit parfaitement dans les activits de laxe TAL, axes sur la cration de ressources linguistiques et d'outils pour le Traitement Automatique des Langues et pour ses applications. Les collaborations internes CLLE entre l'ERSS et le LTC peuvent galement permettre d'envisager d'autres pistes d'valuation sur la question des relations smantiques. Rfrences [Adam & Morlane-Hondre 09]ADAM C. et MORLANE-HONDERE F., 2009, Dtection de la cohsion lexicale par similarit distributionnelle : application la segmentation thmatique, In Actes de la confrence RECITAL (Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues), Senlis. [Bourigault 02] BOURIGAULT D., 2002, Upery : un outil d'analyse distributionnelle tendue pour la construction dontologies partir de corpus, Actes de la 9me confrence sur le Traitement Automatique de la Langue Naturelle, p. 75-84 (Nancy) [Bourigault 07] BOURIGAULT D., 2007, Un analyseur syntaxique oprationnel : SYNTEX, Habilitation diriger des recherches, Universit Toulouse II-Le Mirail [Bourigault & Galy 05] BOURIGAULT D. & GALY E., 2005, Analyse distributionnelle de corpus de langue gnrale et synonymie. In 4e Journes de la linguistique de corpus, p. 163-174 (Lorient) [Bourigault & Lame 02] BOURIGAULT D., LAME G., 2002, Analyse distributionnelle et structuration de terminologie. Application la construction d'une ontologie documentaire du Droit, TAL, 43:1, p. 128150, Herms (Paris) [Fabre & Bourigault 06] FABRE C. & BOURIGAULT D., 2006, Extraction de relations smantiques entre noms et verbes au-del des liens morphologiques. In Actes de la 13e confrence sur le Traitement Automatique de la Langue Naturelle (Louvain) [Habert 05] HABERT B., 2005, Instruments et ressources lectroniques pour le franais, Ophrys (Gap/Paris)

[Halliday et Hasan 76] HALLIDAY M. A. K. et HASAN R., 1976, Cohesion in English, Longman (Londres) [Harris 91] HARRIS Z. S., 1991, A theory of language and information : a mathematical approach, Clarendon Press (Oxford) [Hoey 91] HOEY M., 1991, Patterns of lexis in text, Oxford University Press (Oxford). [Le Moigno et al. 02] LE MOIGNO S., CHARLET J., BOURIGAULT D., JAULENT M. C., 2002, Construction dune ontologie partir de corpus : exprimentation et validation dans le domaine de la ranimation chirurgicale, 13e journes francophones dingnierie des Connaissances (Rouen) [Lin 98] LIN D., 1998, An information-theoretic denition of similarity. In Proceedings of the 15th International Conference on Machine Learning, p. 296-304, Morgan Kaufmann (San Francisco) [Morris et Hirst 04] MORRIS J. et HIRST G., 2004, Non-classical lexical semantic relations, In MOLDOVAN D. et GIRJU R., diteurs : Proceedings of the HLTWorkshop on Computational Lexical Semantics, p. 46-51 (Boston) [Picton, Fabre & Bourigault 08] PICTON A., FABRE C. et BOURIGAULT D., 2008, Mthodes linguistiques pour l'expansion de requtes. Une exprience base sur l'utilisation du voisinage distributionnel, In CONDAMINES A. & POIBEAU T., diteurs : Extraction d'information : l'apport de la linguistique, Revue Franaise de Linguistique Applique, XIII(1), p. 83-96. [Van der Plas 08] VAN DER PLAS L., 2008, Automatic lexico-semantic acquisition for question answering, Thse de doctorat, Universit de Groningue