Vous êtes sur la page 1sur 10

TALN 2009, Senlis, 2426 juin 2009

Acquisition morphologique partir dun dictionnaire informatis


Nabil Hathout Universit de Toulouse Nabil.Hathout@univ-tlse2.fr
Larticle propose un modle linguistique et informatique permettant de faire merger la structure morphologique drivationnelle du lexique partir des rgularits smantiques et formelles des mots quil contient. Ce modle est radicalement lexmatique. La structure morphologique est constitue par les relations que chaque mot entretient avec les autres units du lexique et notamment avec les mots de sa famille morphologique et de sa srie drivationnelle. Ces relations forment des paradigmes analogiques. La modlisation a t teste sur le lexique du franais en utilisant le dictionnaire informatis TLFi.

Rsum.

Abstract.

The paper presents a linguistic and computational model aiming at making the morphological structure of the lexicon emerge from the formal and semantic regularities of the words it contains. The model is word-based. The proposed morphological structure consists of (1) binary relations that connect each headword with words that are morphologically related, and especially with the members of its morphological family and its derivational series, and of (2) the analogies that hold between the words. The model has been tested on the lexicon of French using the TLFi machine readable dictionary.

Morphologie drivationnelle, morphologie lexmatique, similarit morphologique, analogie formelle.

Mots-cls :

Keywords:

Derivational morphology, word-based morphology, morphological relatedness, formal analogy.

Introduction

Lobjectif de cet article est dapporter quelques lments de rponse la question suivante : Comment raliser une analyse morphologique drivationnelle dans le cadre dune morphologie lexmatique, cest--dire sans recourir aux notions de morphme, dafxe ni dexposant morphologique ? Cette tude, encore exploratoire, sinscrit dans le cadre dune thorie morphologique et dun modle informatique en cours de co-laboration (section 1). Elle porte sur une mesure de similarit morphologique (section 3) et une mthode dacquisition de relations drivationnelles (section 4), deux composants fondamentaux dun systme qui permettra terme de crer un rseau morphologique global partir de ressources lexicographiques et de corpus. Nous prsentons galement quelques rsultats prliminaires (section 5), une valuation dtaille de ces deux composants tant pour lheure prmature.

Nabil Hathout

Thorie morphologique. Cette tude sinscrit dans le cadre dune thorie morphologique lexmatique dans laquelle les atomes ne sont pas des morphmes mais des mots. Dans cette thorie, les mots nont pas de structure. La structure morphologique est conue comme un niveau dorganisation du lexique, bas sur les relations de partage de proprits smantiques et formelles entre mots (Bybee, 1985). Dans la thorie propose ici, cette structure se compose notamment des relations morphologiques : entre les formes dun mme lexme. Par exemple, la forme verbale drivons appartient lensemble des formes chies du verbe driver, qui contient galement drive, driverez, drivaient, drives, drivions, etc. entre les formes dune mme srie exionnelle. Par exemple, drivons appartient une srie de formes verbales lindicatif prsent premire personne du pluriel qui inclut acclimatons, compilons, duquons, localisons, varions, etc. entre les mots dune mme famille morphologique. Par exemple, la famille morphologique de drivation contient driver, drivable, drivatif, drivationnel, drivabilit, etc. entre les mots dune mme srie drivationnelle. Par exemple, drivation appartient une srie de noms en -ion qui rassemble galement compilation, ducation, variation, etc. Chacune de ces relations est intgre un ensemble danalogies permettant de la caractriser sur le plan smantique et formel. Par exemple, la relation entre drivation et drivable fait partie dune srie danalogies incluant drivation:drivable::variation:variable 1 , drivation:drivable::modication:modiable, etc. De faon analogue, drivation et variation entrent dans une srie danalogies comme drivation:variation::driver:varier, drivation:variation::drivationnel:variationnel, drivation:variation::drivable:variable. Naturellement, la morphologie ne se rduit pas cette organisation lexicale et toutes les constructions produites par la premire nont pas vocation entrer dans la seconde (par exemple, anti petit morveux qui ne connaissent plus que le mot pikachou). Dans le reste de larticle, nous nous intressons uniquement la composante drivationnelle de cette structure.

Modle informatique. La distinction entre morphologie morphmatique et morphologie lexmatique se retrouve sur le plan informatique. Dans une conception morphmatique, lanalyse dun mot consiste le dcouper en une squence de morphmes (Djean, 1998; Gaussier, 1999; Schone & Jurafsky, 2000; Goldsmith, 2001; Creutz & Lagus, 2002; Bernhard, 2006). Par exemple, drivabilit est analys en [[[driv-]V -able]A -it]N . Dans une conception lexmatique, elle est de dcouvrir les relations que le mot entretient avec les autres units du lexique. Ces relations permettent de dterminer sa position dans le lexique, notamment didentier sa famille morphologique, sa srie drivationnelle et les analogies auxquelles il participe. Par exemple, on considrera que lanalyse du mot drivation est satisfaisante si elle le met en relation avec un nombre sufsant dlments de sa famille morphologique et de sa srie drivationnelle. Larticle propose une mthode originale permettant de faire merger une partie de la structure morphologique drivationnelle du lexique. Lapport principal de la mthode est de combiner analogie formelle et mesure de proximit morphologique. Dans un premier temps, la similarit morphologique est utilise pour slectionner des quadruplets de mots susceptibles dtre morphologiquement apparents. Ces candidats sont ensuite ltrs au moyen de lanalogie. Ces deux techniques sont complmentaires : les voisinages morphologiques peuvent tre calculs
1. Nous notons a : b :: c : d le fait que (a, b, c, d) forme un quadruplet analogique, cest--dire que a est b ce que c est d.

Acquisition morphologique partir dun dictionnaire informatis

en grand nombre, mais ils sont trop grossiers pour discriminer entre les mots qui sont effectivement morphologiquement apparents et ceux qui ne le sont pas ; lanalogie formelle permet un ltrage n mais elle est coteuse calculer. La mthode a t teste en utilisant le Trsor de la Langue Franaise informatis 2 (TLFi). Les caractristiques principales de notre modle sont (1) que la dcouverte de relations morphologiques entre les mots ne fait intervenir aucun moment la notion de morphme ni aucune reprsentation de morphme ; (2) quil intgre de manire uniforme les informations smantiques et formelles ; (3) que lappartenance aux familles et aux sries est graduelle, permettant par exemple de rendre compte du fait que driveur est morphologiquement et smantiquement plus proche de drive que ne lest drivationnellement, bien que les trois mots appartiennent clairement la mme famille morphologique. Le modle permet darticuler la reprsentation du lexique sous la forme dun graphe et son exploitation au moyen de parcours alatoires dans la ligne des travaux de Gaume (2002), avec les travaux sur lanalogie formelle entre chanes de caractres (Lepage, 1998; Stroppa & Yvon, 2005; Langlais & Patry, 2007) dont les algorithmes ne font pas intervenir la notion de morphme.

Travaux connexes

Un grand nombre de recherches en morphologie informatique visent dcouvrir des relations entre des units lexicales. Toutes sappuient en premier lieu sur les similarits entre les formes graphmiques des mots. Ces relations sont gnralement prxales et / ou sufxales. Deux exceptions peuvent tre signales : (Yarowsky & Wicentowski, 2000) et (Baroni et al., 2002) utilisent les distances ddition pour estimer la similarit formelle des mots. notre connaissance, tous les autres ralisent dune faon ou dune autre une segmentation, y compris celles comme (Neuvel & Fulop, 2002) dont lobjectif nest pas de dcouvrir des morphmes. Notre modle se distingue de ces approches par le fait que la proximit graphmique est estime sans segmentation, de faon globale, lchelle de la totalit du lexique. Notre mthode peut tre galement compare aux approches qui combinent indices formels et smantiques. Ces derniers sont gnralement acquis partir de corpus en utilisant, par exemple, lanalyse smantique latente comme (Schone & Jurafsky, 2000), linformation mutuelle comme (Baroni et al., 2002) ou la co-occurrence lintrieur dune fentre de mots comme (Xu & Croft, 1998; Zweigenbaum & Grabar, 2003). Notre approche sen distingue par le fait que nous utilisons une ressource lexicographique et que les similarits smantiques sont tablies sur la base de parcours alatoires dans un graphe lexical. Notre proposition peut tre rapproche de celle de (Hathout, 2002) qui utilise un dictionnaire de synonymes ou de (Claveau & LHomme, 2005) qui tablissent des relations morphologiques au sein dune terminologie.

Similarit morphologique

Nous adoptons ici une dnition classique de la parent morphologique : deux mots sont morphologiquement apparents sils partagent la fois des proprits phonologiques et smantiques. Le TLFi ne fournissant pas la prononciation de toutes les entres, nous utilisons les pro2. atilf.atilf.fr/tlf.htm

Nabil Hathout

prits graphmiques la place des proprits phonologiques 3 . La similarit morphologique est estime en utilisant un bigraphe qui contient un ensemble de sommets qui reprsentent les lexmes et un autre de sommets qui reprsentent leurs proprits formelles et smantiques (voir gure 1). N.pointage N.action_X.de N.rsultat_X.de_X.ce entati N.orientation orient V.orienter A.original $or $ori

N.fermentation

F IGURE 1 Extrait du bigraphe qui reprsente le lexique. Les lexmes se trouvent dans des ovales, les traits formels par des octogones et les traits smantiques par des rectangles. Le graphe est symtrique. Les traits formels associs un lexme sont les n-grammes de lettres qui apparaissent dans son lemme. Nous imposons aux n-grammes une taille minimale (n 3). Le dbut et la n des lemmes sont marqus par des $. La gure 2 prsente une partie des n-grammes associs au mot orientation. Signalons que dans cette description aucun n-grammes na le statut de morphme. Tous les n-grammes jouent le mme rle. Leur seule fonction est de rapprocher les mots qui contiennent les mmes sons. $orientation$ $orientation orientation$ $orientatio orientation rientation$ $orientati orientatio rientation ientation$ $ori orie rien ient enta ntat tati atio tion ion$ $or ori rie ien ent nta tat ati tio ion on$ F IGURE 2 Liste partielle des traits formels associs au mot orientation. De faon similaire, les traits smantiques qui dcrivent un lexme sont les n-grammes de mots qui apparaissent dans ses dnitions. Les n-grammes qui contiennent des ponctuations sont limins. Par exemple, les traits smantiques induits par la dnition action dorienter, de sorienter ; rsultat de cette action du lexme orientation sont prsents en gure 3. Les mots des dnitions sont catgoriss et lemmatiss. Les tiquettes utilises sont : A pour les adjectifs ; R pour les adverbes ; N pour les noms ; V pour les verbes ; X pour toutes les autres catgories. Cette reprsentation trs grossire de la smantique des mots est inspire des segments rpts (Lebart et al., 1998). Elle prsente plusieurs avantages : (1) elle est fortement redondante, pour capter les ressemblances qui existent entre les dnitions ; (2) les n-grammes permettent
3. Nous envisageons de reprendre lexprience prsente ici en utilisant des reprsentations phonologiques calcules par LliaPhon (Bchet, 2001).

Acquisition morphologique partir dun dictionnaire informatis

dintgrer des informations de nature syntagmatique sans raliser une vritable analyse syntaxique des dnitions ; (3) elle gomme lgrement les variations qui existent dans le traitement lexicographique des mots, notamment dans les dcoupages en sous-sens et la formulation des dnitions. N.action_X.de_V.orienter N.action_X.de X.de_V.orienter N.action X.de V.orienter X.de_V.sorienter V.sorienter N.rsultat_ X.de_X.ce_N.action N.rsultat_X.de_X.ce X.de_X.ce_N.action N.rsultat_X.de X.de_X.ce X.ce_N.action N.rsultat X.ce F IGURE 3 Traits smantiques induits par la dnition action dorienter, de sorienter ; rsultat de cette action. Le bigraphe est construit en connectant de faon symtrique chaque mot lensemble de ses traits formels et smantiques (voir gure 1). La structure de graphe bipartie nest pas essentielle mais elle est utile car elle permet de propager de faon synchrone une activation dans les sousgraphes formel et smantique. Parcours alatoires. La similarit morphologique est estime en propageant une activation dans le bigraphe un nombre pair de fois. Dans un graphe fortement redondant comme celui que nous venons de dcrire, une propagation de longueur 2 (des mots vers les traits puis des traits vers les mots) permet dobtenir les proximits vises. La propagation est simule par des parcours alatoires et calcule de faon classique en multipliant la matrice dadjacence stochastique du graphe (Gaume et al., 2002; Muller et al., 2006). Dans lexemple de la gure 1, les voisins morphologiques du mot orientation sont identis en gnrant une activation au niveau du sommet qui reprsente ce mot. Lors de la premire tape, lactivation est propage vers lensemble des sommets qui reprsentent les traits formels et smantiques de orientation. Lors de la deuxime tape, lactivation qui se trouve au niveau des traits est propage vers les mots. Ainsi orienter se trouve activ via les traits formels $or, $ori, orien et fermentation par lintermdiaire du trait formel entati et du trait smantique N.rsultat_X.de_X.ce. Lactivation que lon rcupre au niveau de chaque mot est dautant plus grande que le nombre de traits quil partage avec orientation est lev et que ces traits sont spciques (i.e. peu frquents). Lhypothse sous-jacente est que le niveau dactivation est une estimation du degr de parent morphologique. Voisinage lexical dans le graphe du TLFi. Le graphe que nous utilisons est construit partir des entres et des dnitions du TLFi. Nous en avons limin celles qui concernent des emplois non standards (archaques, argotiques, etc.). Le bigraphe est ainsi cr partir de 225 529 dnitions dcrivant 75 024 entres. Nous avons supprim les traits qui napparaissent que dans un mot. On rduit ainsi fortement la taille du graphe sans modier les connexions qui stablissent entre les mots. On voit dans le tableau 1 que llagage est plus fort pour les proprits smantiques quil ne lest pour les proprits formelles. La gure 4 illustre lutilisation du graphe. Elle prsente les 30 premiers voisins du verbe fructier pour diffrentes congurations de propagation. On voit en (a) que les membres de la famille morphologique tendent tre plus proches que ceux de la srie drivationnelle, en loccurrence les verbes en -ier. On constate galement en comparant (a) et (b), que les traits formels sont les plus prdictifs et que les traits smantiques sont les moins ables.

Nabil Hathout

traits formels smantiques total

complet rduit hapax 1 306 497 400 915 69% 7 650 490 548 641 93% 8 956 987 949 556 90%

TABLE 1 Nombre des traits formels et smantiques issus du TLFi. La premire colonne indique le nombre initial des traits, la deuxime, le nombre des traits associes deux mots ou plus et la dernire, le taux de rduction. (a) V.fructier N.fructication A.fructicateur A.fructiant A.fructifre V.sanctier V.rectier A.rectier V.fructidoriser N.fructidorien N.fructidor N.fructuosit R.fructueusement A.fructueux N.rectieur A.obstructif A.instructif A.destructif A.constructif N.infructuosit R.infructueusement A.infructueux V.transsubstantier V.substantier V.stratier V.schistier V.savantier V.refortier V.ratier V.quantier (b) V.fructier V.trouver N.missionnaire N.mission A.missionnaire N.saisie N.police N.hangar N.dme N.ban V.affruiter N.melon N.saisonnement N.azdarach A.fruitier A.bifre V.saisonner N.roman N.troubadour V.contaminer N.conductibilit N.alevinage V.proter A.fructiant N.pouvoir V.agir N.opration V.placer N.rentabilit N.jouissance (c) V.fructier A.fructiant N.fructication A.fructicateur V.trouver A.fructifre V.rectier V.sanctier A.rectier V.fructidoriser N.fructidor N.fructidorien N.missionnaire N.mission A.missionnaire A.fructueux R.fructueusement N.fructuosit N.rectieur N.saisie N.police N.hangar N.dme N.ban A.fruitier V.affruiter A.instructif A.obstructif A.destructif A.constructif F IGURE 4 Les 30 voisins les plus proches du verbe fructier lorsque lon utilise (a) seulement les traits formels, (b) seulement les traits smantiques et (c) la fois les traits formels et smantiques. Les mots qui appartiennent la famille ou la srie de fructier sont en gras.

Analogies

Les lments des sries et des familles sont massivement impliqus dans les analogies qui structurent le lexique. Par exemple, le couple (fructier, fructication) forme des analogies avec plusieurs couples composs dlments des sries de fructier et de fructication comme (rectier, rectication), (certier, certication), (plastier, plastication), etc. De faon duale, fructier et sanctier forment des analogies avec les membres de leurs familles respectives comme (fructicateur, sancticateur), (fructication, sanctication) ou (fructiant, sanctiant). Les analogies permettent de ltrer efcacement les voisinages morphologiques. Si v est un voisin morphologique correct de m, cest soit un lment de la famille de m, soit un lment de sa srie. Il existe alors un autre voisin v de m (v appartient la famille de m si v appartient la srie de m ou vice versa) tel quil existe w voisin de v et de v tel que m : v :: v : w 4 . Il nexiste ainsi que deux congurations possibles : 1. si v Fm , alors v Sm , w Sv Fv , m : v :: v : w 2. si v Sm , alors v Fm , w Fv Sv , m : v :: v : w o Fx reprsente la famille de x et Sx sa srie. La conguration 1 est illustre par les exemples ci-dessus avec m = fructier et v = fructication, et la 2 avec m = fructier et v = rectier.
4. Nous notons a : b :: c : d le fait que (a, b, c, d) forme un quadruplet analogique, cest--dire que a est b ce que c est d.

Acquisition morphologique partir dun dictionnaire informatis

Analogies formelles. Une analogie formelle est une relation a : b :: c : d qui stablit entre quatre formes telles que les diffrences graphmiques qui existent entre a et b sont les mmes que celles qui existent entre c et d. La gure 5 en prsente un exemple adapt de (Lepage, 1998; Lepage, 2003). On constate que les diffrences entre les deux premires formes et les deux dernires sont bien identiques. k a t k t a b a ou b on f a 3 a f 3 ou l a l on

ma

ma

F IGURE 5 Analogie formelle entre les transcriptions de quatre mots arabes, kataba: maktoubon::fa3ala:maf3oulon. Ces mots sont respectivement la forme de citation du verbe crire, du nom de rsultat crit, du verbe faire et du nom de rsultat effet. Les diffrences sont situes dans les parties encadres. Les analogies formelles peuvent tre dnies en utilisant la notion de factorisation (Stroppa & Yvon, 2005). Soit L un alphabet et a L une chane de caractres dnie sur L. On appelle factorisation de a de longueur n une squence de n chanes de caractres f1 , . . . , fn dont la concatnation est gale a. Par exemple, (ma, k, , t, ou, b, on) est une factorisation de longueur 7 de maktoubon. On peut alors dnir lanalogie formelle comme suit. Soit (a, b, c, d) L 4 quatre chanes de caractres. a : b :: c : d constitue une analogie formelle ssi il existe un entier n N et quatre factorisations de longueur n des quatre chanes (f (a), f (b), f (c), f (d)) (L n )4 telles que i [1, n], (fi (b), fi (c)) {(fi (a), fi (d)), (fi (d), fi (a)). Dans le cas de lanalogie kataba:maktoubon:: fa3ala:maf3oulon, la proprit est vrie pour n = 7.

Mise en uvre. Les analogies formelles peuvent tre vries en comparant les squences doprations ddition permettant de transformer une chane de caractres en une autre. Ces squences peuvent tre dduites simplement des tables de distances ddition de Levenshtein (Jurafsky & Martin, 2000). Chaque squence doprations permettant de transformer une premire chane de caractres en une seconde correspond un parcourir dans le tableau qui part de la dernire case et remonte jusqu la premire. Nous ne nous intressons ici quaux squences de longueur minimale obtenues en slectionnant pour chaque case la voisine de cot le plus faible et en cas dgalit, en prfrant la case qui se trouve sur la diagonale (substitution), et dfaut celle de gauche (insertion) puis celle du haut (suppression). La gure 6 prsente la squence doprations que lon obtient pour le couple fructueux: infructueusement. Cette squence peut tre simplie en fusionnant les identits contigus : ((I, ,i), (I, ,n), (M,fructueu,fructueu), (S,x,s), (I, ,e), (I, ,m), (I, ,e), (I, ,n), (I, ,t)). La squence similaire pour le couple soucieux:insoucieusement est identique lexception de la sous-squence didentits : ((I, ,i), (I, ,n), (M,soucieu,soucieu), (S,x,s), (I, ,e), (I, ,m), (I, ,e), (I, ,n), (I, ,t)). Les deux squences peuvent tre rendues strictement identiques si ces sous-chanes ne sont pas spcies. On peut ainsi rendre compte de lanalogie formelle fructueux:infructueusement::soucieux:insoucieusement en associant chaque couple sa squence comme signature ddition ( ). En loccurrence (fructueux, infructueusement) = (soucieux, insoucieusement) = ((I, ,i), (I, ,n), (M,@,@), (S,x,s), (I, ,e), (I, ,m), (I, ,e), (I, ,n), (I, ,t)). Plus gnralement, quatre chanes de caractres forment une analogie formelle a : b :: c : d si (a, b) = (c, d). Insistons sur le fait que le calcul des signatures ne fait intervenir ni morphme ni reprsentation de morphme.

Nabil Hathout

I a b i

M f n f

M r r

M u u

M c c

M t t

M u u

M e e

M S u x u s

I e

I m

I e

I n

I t

F IGURE 6 Squence doprations permettant de passer de fructueux (a) infructueusement (b), reprsente sous la forme dune correspondance entre deux factorisations f (a) et f (b) des deux chanes de caractres. Lopration correspondant un couple (fi (a), fi (a)) est indique sur la premire ligne par I pour une insertion, D pour une suppression, M pour une identit et S pour une substitution par un caractre diffrent.

Premiers rsultats

Nous avons implment le modle informatique qui vient dtre prsent et ralis une premire exprience consistant dterminer les 100 plus proches voisins de chaque entre pour les trois congurations prsentes en gure 4, puis calculer les analogies formelles qui stablissent entre cette entre et les mots qui se trouvent dans ces voisinages. Nous avons ensuite rvis manuellement les analogies induites par un chantillon de 22 entres appartenant 4 familles morphologiques de la tranche fr- du TLF 5 . Une analogie a : b :: c : d est considre correcte si b Fa , c Sa , d Sb Fc ou si b Sa , c Fa , d Fb Sc . Voici quelques exemples de quadruplets corrects et errons : R.fructueusement:R.affectueusement::A.infructueux:A.inaffectueux N.fruiterie:N.fruitier::N.laiterie:N.laitier * N.fruit:N.bruit::V.frusquer:V.brusquer * A.fruit:A.truit::N.frusquin:N.trusquin Le premier exemple est particulirement intressant car il implique dun ct des mots sufxs et de lautre des mots prxs. Les rsultats obtenus sont rsums dans le tableau 2. On observe que la qualit des rsultats est trs satisfaisante, mais que la quantit des quadruplets varie fortement en fonction du type de parcours. parcours quadruplets corrects erreur form 169 163 3.6% sm 5 5 0.0% sm + form 130 128 1.5% TABLE 2 Nombre de quadruplets acquis pour un chantillon de 22 entres et taux derreur. taille 4 5 6 quadruplets 29 22 8 corrects 14 14 7 erreur (%) 51.7 36.4 12.5 7 8 10 55 8 54 20.0 1.8 9 10 11 12 13 14 15 29 30 32 19 11 35 63 27 30 32 19 11 35 63 6.9 0.0 0.0 0.0 0.0 0.0 0.0 16 39 39 0.0

TABLE 3 Nombres de quadruplets pour 13 chantillons de 5 entres slectionns alatoirement. Les quadruplets sont acquis dans des voisinages calculs en utilisant la fois les traits formels et smantiques. Les entres dans chaque chantillon sont de la mme taille. La taille varie entre 4 et 16 caractres. Les performances de la mthode dpendent fortement de la longueur des entres parce quelle sappuie avant tout sur les similarits formelles et que ces dernires sont dautant plus grandes
5. Les entres de cette tranche ont t classes en familles morphologiques en 1999 par Josette Lecomte et moi.

Acquisition morphologique partir dun dictionnaire informatis

que les mots sont longs. Cette corrlation apparat trs clairement dans le tableau 3. On y voit notamment que les quadruplets issus dentres de 10 caractres ou plus sont toutes correctes.

Conclusion

Nous avons prsent un modle informatique capable de faire merger une partie de la structure morphologique du lexique. Ce modle purement lexmatique intgre de manire uniforme les proprits smantiques et formelles des mots au sein dun bigraphe permettant de simuler la propagation dune activation dans un rseau lexical. Le niveau dactivation obtenu la suite de la propagation permet didentier les voisins lexicaux de chaque entre. On peut ensuite retrouver parmi ces voisins les membres de la famille morphologique de lentre et les lments de sa srie drivationnelle en constituant des quadruplets analogiques. Cette tude prliminaire fait partie dun projet de constitution dune base de donnes ddie la description morphologique. Nous envisageons dans ce cadre de construire un rseau morphologique en utilisant une mthode par bootstrap partir des entres les plus longues. Nous prvoyons galement de rpter lexprience sur langlais notamment pour raliser une valuation prcise en utilisant la base CELEX (Baayen et al., 1995).

Remerciements
Je remercie lATLIF et Jean-Marie Pierrel davoir mis notre disposition le TLFi. Je remercie Bruno Gaume et Philippe Muller pour les nombreuses discussions que nous avons eu sur prox et sur le nettoyage et lexploitation du TLFi. Je suis reconnaissant Gilles Boy, Olivier Haute-Cur, Ludovic Tanguy et aux trois relecteurs anonymes de TALN 2009 pour leurs commentaires et suggestions.

Rfrences
BAAYEN R. H., P IEPENBROCK R. & G ULIKERS L. (1995). CELEX-2. Cdrom. Penn.: LDC. BARONI M., M ATIASEK J. & T ROST H. (2002). Unsupervised discovery of morphologically related words based on orthographic and semantic similarity. In Proceedings of the ACL Workshop on Morphological and Phonological Learning, p. 4857, Philadelphia, Penn.: ACL. B ERNHARD D. (2006). Automatic acquisition of semantic relationships from morphological relatedness. In Advances in Natural Language Processing, volume 4139 of LNCS, p. 121132: Springer. B YBEE J. L. (1985). Morphology. A Study of the Relation between Meaning and Form. Amsterdam: John Benjamins Publishing Company. B CHET F. (2001). Lia_phon : un systme complet de phontisation de textes. Traitement Automatique des Langues, 42(1), 4767. C LAVEAU V. & LH OMME M.-C. (2005). Structuring terminology by analogy-based machine learning. In Proceedings of the 7th International Conference on Terminology and Knowledge Engineering, TKE05, Copenhague.

Nabil Hathout

C REUTZ M. & L AGUS K. (2002). Unsupervised discovery of morphemes. In Proceedings of the ACL Workshop on Morphological and Phonological Learning, p. 2130, Philadelphia, Penn.: ACL. D JEAN H. (1998). Morphemes as necessary concept for structures discovery from untagged corpora. In Proceedings of the Workshop on Paradigms and Grounding in Natural Language Learning, p. 295299, Adelaide. G AUME B., D UVIGNEAU K., G ASQUET O. & G INESTE M.-D. (2002). Forms of meaning, meaning of forms. Journal of Experimental and Theoretical Articial Intelligence, 14(1), 61 74. G AUSSIER E. (1999). Unsupervised learning of derivational morphology from inectional lexicons. In Proceedings of the ACL Workshop on Unsupervised Learning in Natural Language Processing, University of Maryland. G OLDSMITH J. (2001). Unsupervised learning of the morphology of natural language. Computational Linguistics, 27(2), 153198. H ATHOUT N. (2002). From WordNet to CELEX: acquiring morphological links from dictionaries of synonyms. In Proceedings of LREC-2002, p. 14781484, Las Palmas de Gran Canaria: ELRA. J URAFSKY D. & M ARTIN J. H. (2000). Speech and language processing. Prentice-Hall. L ANGLAIS P. & PATRY A. (2007). Translating unknown words by analogical learning. In Proceedings of EMNLP-CoNLL 2007, p. 877886, Prague: ACL. L EBART L., S ALEM A. & B ERRY L. (1998). Exploring textual data. Dordrecht: Kluwer Academic Publishers. L EPAGE Y. (1998). Solving analogies on words: an algorithm. In Proceedings of COLINGACL98, p. 728735, Montral. L EPAGE Y. (2003). De lanalogie rendant compte de la commutation en linguistique. Mmoire de HDR, Universit Joseph Fourier, Grenoble. M ULLER P., H ATHOUT N. & G AUME B. (2006). Synonym extraction using a semantic distance on a dictionary. In Proceedings of the HLT/NAACL Workshop Textgraphs, p. 6572, New York, NY: ACL. N EUVEL S. & F ULOP S. A. (2002). Unsupervised learning of morphology without morphemes. In Proceedings of the ACL Workshop on Morphological and Phonological Learning, Philadelphia, Penn.: ACL. S CHONE P. & J URAFSKY D. S. (2000). Knowledge-free induction of morphology using latent semantic analysis. In Proceedings of CoNLL-2000, p. 6772, Lisbonne. S TROPPA N. & Y VON F. (2005). An analogical learner for morphological analysis. In Proceedings of CoNLL-2005, p. 120127, Ann Arbor, Michigan: ACL. X U J. & C ROFT W. B. (1998). Corpus-based stemming using co-occurrence of word variants. ACM Transaction on Information Systems, 16(1), 6181. YAROWSKY D. & W ICENTOWSKI R. (2000). Minimally supervised morphological analysis by multimodal alignment. In Proceedings of the ACL-2000, p. 207216, Hong Kong. Z WEIGENBAUM P. & G RABAR N. (2003). Learning derived words from medical corpora. In 9th Conference on Articial Intelligence in Medicine Europe, p. 189198, Cyprus.

Vous aimerez peut-être aussi