Vous êtes sur la page 1sur 10

TALN 2007, Toulouse, 58 juin 2007

Traitement smantique par analyse distributionnelle des noms transdisciplinaires des crits scientifiques
Agns TUTIN LIDILEM, Universit Grenoble 3, BP 25, 38040 Grenoble Cedex 09
agnes.tutin@u-grenoble3.fr

Rsum.

Dans cette tude sur le lexique transdisciplinaire des crits scientifiques, nous souhaitons valuer dans quelle mesure les mthodes distributionnelles de TAL peuvent faciliter la tche du linguiste dans le traitement smantique de ce lexique. Aprs avoir dfini le champ lexical et les corpus exploits, nous testons plusieurs mthodes bases sur des dpendances syntaxiques et observons les proximits smantiques et les classes tablies. Lhypothse que certaines relations syntaxiques - en particulier les relations de sous-catgorisation sont plus appropries pour tablir des classements smantiques napparat quen partie vrifie. Si les relations de sous-catgorisation gnrent des proximits smantiques entre les mots de meilleure qualit, cela ne semble pas le cas pour la classification par voisinage.

Abstract. In this study about general scientific lexicon, we aim at evaluating to what extent
distributional methods in NLP can enhance the linguists task in the semantic treatment. After a definition of our lexical field and a presentation of our corpora, we evaluate several methods based on syntactic dependencies for establishing semantic similarities and semantic classes. Our hypothesis that some syntactic relations namely subcategorized relations is more relevant to establish semantic classes does not entirely appears valid. If subcategorized relations produce better semantic links between words, this is not the case with neighbour joigning clustering method.

Mots-cls : Keywords:

corpus crits scientifiques - classes smantiques analyse distributionnelle. corpus scientific writings semantic classes distributional analysis.

1 Introduction
Le traitement smantique des lments du lexique constitue un pralable dans de nombreuses applications du TAL. Dans une application daide la rdaction en Franais Langue Etrangre (Kraif & Tutin 2006), nous souhaitons ainsi effectuer un traitement du lexique transdisciplinaire des crits scientifiques et de ses collocations. Dans ce cadre, nous souhaiterions proposer une approche onomasiologique de ce lexique (i.e. avec un accs par le sens plutt que par la forme), dont ltude pourrait tre facilite si les approches machinales (Habert & Zweigenbaum 2003) de traitement smantique partir danalyse distributionnelle se rvlaient concluantes pour le travail du linguiste. Dans cette tude, nous dsirons plus prcisment valuer la pertinence des mthodes danalyse distributionnelle bases sur des dpendances syntaxiques pour la constitution de classes smantiques homognes de noms transdisciplinaires des crits scientifiques. Nous voudrions en particulier dterminer dans quelle mesure cette mthode, qui sest rvle adapte des sous-langages spcifiques pour la terminologie du droit (Bourigault & Lame 2002), de limmunologie (Harris et al. 1989) ou de la mdecine (Nazarenko et al. (2001), peut tre applique au lexique du genre des crits scientifiques qui prsente davantage de polysmie. Nous faisons lhypothse

Agns TUTIN que certaines relations syntaxiques de dpendance, plus contraintes sur le plan syntaxique et smantique, produiront des associations smantiques de meilleure qualit. Dans un premier temps, nous dfinirons le lexique transdisciplinaire des crits scientifiques, et prsenterons un premier classement smantique manuel bas sur des proprits linguistiques. Dans un second temps, nous valuerons les rsultats de la mthode distributionnelle employe par Didier Bourigault (Bourigault 2002 ; Bourigault et Lame 2002) notre lexique, mthode qui dissocie les voisins en tte des voisins en expansion , et les comparerons au classement manuel. Puis, nous nous pencherons sur une seconde mthode base sur les dpendances syntaxiques que le mot soit recteur ou rgi ( linstar de Grefenstette 1996). Nous comparerons enfin les associations tablies avec les relations syntaxiques de souscatgorisation et les associations issues des relations de modification. Nous finirons par une valuation et une rflexion sur les mthodes distributionnelles machinales pour la tche linguistique qui nous intresse.

2 Le lexique transdisciplinaire des crits scientifiques : un premier classement manuel


Le lexique transdisciplinaire des crits scientifiques, qui apparat dans les articles de recherche, les monographies scientifiques, les mmoires, les thses et les rapports de recherche, est le lexique partag par la communaut scientifique mis en uvre dans la description et la prsentation de lactivit scientifique. Ce lexique peut tre considr comme un lexique de genre, nintgrant pas la terminologie du domaine, mais renvoyant aux concepts mis en uvre dans lactivit scientifique (examiner, prouver, rfuter, concluant, hypothse, examen, encourageant ) (Cf. aussi les dfinitions un peu diffrentes du VGOS de Phal (1971) et les travaux de Pecman (2004) sur le lexique des crits des sciences dures ). Nous nous intressons en particulier au lexique mthodologique partag par lensemble des disciplines scientifiques, quil sagisse des sciences exprimentales, des sciences appliques ou des sciences humaines. Ltude de ce lexique permet dapprofondir au plan linguistique et pistmologique la spcificit de lcrit scientifique en reprant un ensemble de traces lexicales emblmatiques du genre. Ce traitement peut galement dboucher sur des applications didactiques comme laide la rdaction en langue maternelle et en langue trangre. Dans cette perspective, nous souhaiterions proposer des outils facilitant le choix lexical pour les apprenants trangers, bass sur un accs onomasiologique (accs par lanalogie ou la classe smantique) ou smasiologique (par la forme) (Cf. Kraif & Tutin 2006). A cet effet, un premier relev bas sur les noms frquents et communs des corpus de plusieurs disciplines a t effectu puis filtr 1 . Dans un second temps, ces noms ont t rpartis dans des grandes classes smantiques, partir de proprits syntaxiques, morphologiques et smantiques, un peu la faon de Flaux et van de Velde (2000) pour les noms abstraits. Pour les 83 noms les plus frquents, sept grandes classes ont t dgages :

Ont t retenus un ensemble de noms (catgorisation de Cordial) apparaissant plus de 15 fois en mdecine, linguistique et conomie dans un corpus de 2 millions de mots.

Traitement smantique par analyse distributionnelle des noms transdisciplinaires

1 2 3 4 5 6 7

Les noms de processus de lactivit scientifique (analyse, application, choix, ) sont des noms extensifs (se combinent avec lors, durant, des verbes phasiques, souvent avec faire), et ont un agent humain. Les noms dobjets construits par lactivit scientifique ( approche, argument, concept, conception, dmarche, ) ne sont pas extensifs, ont un agent humain, se combinent avec des verbes comme laborer, construire. Les noms dobservables de lactivit scientifique (cas, donnes, chantillon, exemple, facteur,) ne sont pas extensifs, se combinent avec le support tre et avec les verbes analyser, examiner, tudier. Les noms de supports de la rdaction scientifique (article, chapitre, conclusion, document, figure, ) sont la fois concrets et abstraits non extensifs. Ils se combinent avec la prposition dans, et sont sujets du verbe prsenter. Les noms de caractrisation (caractre, caractristique, diffrence, difficult, fonction,) sont des noms intensifs, se combinant souvent avec le support avoir et sont gnralement accompagns dun adjectif. Les noms dacteurs de lactivit scientifique (auteur, chercheur, ) sont des noms humains, souvent sujets des verbes dactivit scientifique (examiner, dcrire, observer ). Les noms de relation logique (but, cause, consquence, corrlation, effet, influence, liaison, lien, rapport, relation), qui sont abstraits et non extensifs, se combinent avec les supports tre et avoir et apparaissent souvent dans des structures : Nlogique de N..

Les noms polysmiques comme rapport ou tude sont bien entendu rattachs plusieurs classes. Ce premier classement sera notre talon pour lvaluation des mthodes distributionnelles automatiques.

3 Le corpus des crits scientifiques


Les mthodes distributionnelles machinales sont tributaires des donnes textuelles exploites. La qualit des associations lexicales extraites dpend en effet trs largement de lhomognit et de la reprsentativit des corpus traits. Pour cette tude, nous avons constitu un corpus de 2 millions de mots comprenant plusieurs genres dcrits scientifiques du franais (articles scientifiques, thses, rapports, cours) dans trois disciplines assez diffrentes : la linguistique, lconomie et la mdecine (Le tableau 1 indique le nombre de mots pour chaque type de texte). Le corpus darticles scientifiques est extrait du corpus KIAP 2 labor par lquipe de Kjersti Flttum, de lUniversit de Bergen. Notre objectif sera dobserver comment seffectuent les regroupements des noms transdisciplinaires qui ont des comportements syntaxiques analogues.
Linguistique Articles de revues (corpus KIAP) Thses, rapports, cours Total 285 881 mots 364 812 650 693 mots mots Economie 374 516 mots 286 653 mots 661 169 mots Mdecine 164 315 mots 492 173 mots 656 488 mots

Tableau 1 : Corpus des crits scientifiques

KIAP : Kulturell Identitet i Akademisk Prosa. Cf. http://kiap.aksis.uib.no/

Agns TUTIN

4 La mthode distributionnelle du linguiste et lanalyse distributionnelle machinale


Pour tablir des associations smantiques, lintrt de lanalyse distributionnelle parat aller de soi, puisquil est classique dans la tradition de la smantique lexicale, en particulier europenne (Cruse 1986, par exemple), de considrer que des mots qui ont des environnements syntaxiques comparables partagent des proprits smantiques non triviales, allant de la synonymie pour les associations les plus fortes la co-hyponymie (Cf. aussi ltude ralise par Galy & Bourigault ( paratre)). Le recours aux distributions syntaxiques pour mettre en vidence les proprits smantiques permet au linguiste de sappuyer sur des critres tangibles, palpables, et non plus des approximations notionnelles. Cependant, la mthode distributionnelle du linguiste, qui fait appel en partie son intuition de sujet parlant et catgorisant, diffre assez largement de lapproche distributionnelle orthodoxe , en particulier dans Harris et al. (1989), entirement base sur les observables du corpus. En effet, le linguiste choisit tout dabord les contextes lexicaux qui lui apparaissent les plus pertinents pour circonscrire la notion qui lintresse (Cf. par exemple, la notion de classe dobjets, chez Gaston Gross (1994)). Dans notre champ lexical, par exemple, on pourra ainsi reprer comme objets construits par lactivit scientifique des noms qui se combinent rgulirement avec les verbes de la srie laborer, construire, concevoir. Le linguiste laissera de ct les associations lexicales qui lui apparaissent moins dterminantes, contrairement lapproche automatique qui ne peut pas slectionner a priori les contextes lexicaux qui seront les plus rvlateurs. En outre, le linguiste effectue naturellement la dsambigusation des notions, par exemple conclusion comme partie du texte, ou comme aboutissement dun raisonnement, opration qui sera beaucoup plus dlicate avec une mthode machinale. Enfin, le linguiste complte les donnes lacunaires du corpus ou carte les associations juges atypiques. Si un contexte nest pas observable dans les textes, il recourt son intuition pour vrifier si le contexte est possible. En bref, le linguiste saide du corpus, mais sen abstrait partiellement pour les besoins interprtatifs si besoin est. La mthode distributionnelle orthodoxe apparat plus contrainte, puisquelle doit permettre de tirer toutes les observations du corpus et rien que du corpus. Le corpus doit donc la fois tre exhaustif pour la reprsentativit des associations lexicales (donc de grande taille), et trs homogne pour viter la polysmie. Cette approche donne gnralement de bons rsultats dans le domaine de la terminologie (Bourigault & Lame 2002 ; Harris et al. 1989 ; Nazarenko et al. 2001) o le lexique prsente peu de variations. Nous souhaitons valuer la mme mthode dans notre champ lexical, en exploitant des relations syntaxiques de dpendance. Nous faisons lhypothse quen slectionnant certains types de relation, linstar de la mthode distributionnelle manuelle , nous obtiendrons des rsultats de meilleure qualit.

5 valuation de mthodes danalyse distributionnelle machinale bases sur des dpendances syntaxiques
Dans les mthodes danalyse distributionnelle machinale, plusieurs dfinitions de la distribution ont t proposes. Les plus rustiques (Cf. par exemple Grefenstette (1996) peuvent simplement prendre en compte les mots pleins partags dans une fentre de quelques mots. Les distributions bases sur les relations syntaxiques partages donnent cependant de meilleurs rsultats sur les lexmes les plus frquents, donc les plus significatifs (Grefenstette Ibid.). Nous adopterons cette dernire mthode en exploitant les dpendances syntaxiques obtenues sur

Traitement smantique par analyse distributionnelle des noms transdisciplinaires

notre corpus laide des rsultats de lanalyseur Syntex (Bourigault et al. 2005). Nous valuerons les proximits smantiques tablies et les classes smantiques obtenues laide des coefficients de similarit entre les mots.

5.1 Proximits smantiques tablies laide de la mthode de D. Bourigault (2002)


La mthode distributionnelle a t applique avec succs par Didier Bourigault et ses collgues plusieurs domaines dont la terminologie du droit (Bourigault & Lame 2002). Cette approche prsente deux originalits : dune part, elle dissocie les mots proches, appels voisins , selon quils sont recteurs (ou ttes) ou rgis (dans lexpansion) ; dautre part, comme elle vise les applications terminologiques, elle prend en compte aussi bien les units que les syntagmes dans les relations syntaxiques de dpendance. Le systme, appel Upery, bas sur les rsultats de lanalyse syntaxique du logiciel Syntex (Bourigault et al. 2005), extrait des triplets contenant le terme (unit lexicale simple ou complexe), la relation de dpendance, et le contexte (le syntagme ou lment lexical rgi). Il rapproche ensuite, en utilisant des mesures de proximit comme le jaccard, les termes selon le nombre de contextes diffrents quils partagent 3 . Par exemple, les mots article et chapitre, qui apparaissent la premire ligne du tableau, partagent 6 contextes identiques (= a) lorsquils sont accompagns dun adjectif 4 (par exemple prsent, suivant, dernier ). article apparat lui-mme dans 18 contextes adjectivaux diffrents (= n1), alors que chapitre apparat lui-mme dans 12 contextes adjectivaux (= n2). Le coefficient jaccard utilis ici calcule la proximit smantique entre les mots avec la formule suivante : a/(n1+n2-a). Seuls sont slectionns les voisins pour lesquels le coefficient de jaccard dpasse 0,10 et qui ont au moins quatre types de contextes communs.
contexte1 article article tableau rel1 ADJ EPI EPI contexte2 chapitre section chapitre rel2 ADJ EPI EPI a 6 6 21 n1 n2 jaccard 18 12 0.25 11 19 0.25 84 21 0.25

Tableau 2 : Exemples de voisins en tte extraits laide de loutil Upery de Didier Bourigault Upery a t appliqu notre corpus dcrits scientifiques et sur le lexique des 85 noms transdisciplinaires classs. Nous avons ensuite valu les couples extraits partir des classes tablies manuellement, en examinant tour tour les voisins en expansion et les voisins en tte. Les voisins en tte associent des mots qui sont des recteurs et qui partagent des contextes semblables avec une relation syntaxique donne. Pour la liste de noms slectionns, on obtient 516 rsultats. Nous avons observ pour chaque couple de voisins tabli si les deux lments associs appartenaient la mme classe dans notre classification manuelle. Si tel tait le cas, nous avons considr que la rponse tait acceptable et lavons rejete dans le cas inverse. Par exemple, lassociation figure-chapitre a t considre comme satisfaisante car les deux noms font partie de la classe des supports crits de lactivit scientifique, mais lassociation

La mthode ne prend pas en compte le nombre doccurrences pour chaque contexte, contrairement dautres approches comme celle de Grefenstette (1996) mais seuls sont retenus les contextes apparaissant plus de deux fois. Les relations pourraient ici tre diffrentes pour les deux lments rapprochs.

Agns TUTIN hypothse-section napparat pas valide car les deux lments appartiennent des classes diffrentes. Lobservation des rsultats rvle que 50,5 % des voisins en tte extraits relvent de la mme classe, ce qui est a priori assez peu, tant donn le caractre assez lche des classes tablies manuellement. Les voisins en tte mettent en jeu de nombreuses relations de modification 5 , facultatives, et peu contraintes sur le plan smantique, comme la relation dpithte ou dattribut. Par exemple, les noms cas et modle, assez distincts sur le plan smantique, apparaissent dans 19 contextes adjectivaux communs. Un examen plus pouss montre que nombre de ces adjectifs sont trs peu contraints du point de vue de leur slection nominale (par exemple, autre, dernier, tel, gnral, prcdent) et donc probablement peu informatifs du point de vue smantique. Nous avons ensuite compar ces rsultats avec les voisins en expansion, cest--dire les cas o les noms transdisciplinaires sont rgis dans une relation de sujet ou de complment. Nous faisons lhypothse que ces relations qui mettent souvent en jeu des arguments souscatgoriss mais pas uniquement , souvent obligatoires, seraient davantage significatives pour tablir des proximits smantiques. Les rsultats obtenus, bien que peu nombreux, semblent aller dans ce sens. Utilisant les mmes seuils que pour les voisins en tte, 52 paires de voisins sont dgages, dont 34 apparaissent valides (65,5% des paires). Lexamen plus dtaill des contextes partags montre que les associations Nom-Verbe apparaissent souvent plus significatives que dans les contextes Nom-Adj, lexception des relations o le verbe tre apparat.

5.2 Proximits smantiques tablies laide de lensemble des relations syntaxiques


La mthode de Didier Bourigault dissocie les voisins qui apparaissent comme ttes des voisins qui apparaissent comme rgis (dans l expansion ). Ce traitement spar permet de mettre en lumire des associations spcifiques, comme lassociation examiner des donnes et lexamen des donnes, qui seraient autrement noyes dans lensemble des relations. Ce type dobservation ntant pas essentiel pour notre tude, nous avons observ, linstar de Grefenstette (1996) les proximits smantiques tablies partir de lensemble des relations syntaxiques, que le nom transdisciplinaire soit recteur (Ex : analyse des donnes) ou rgi (Ex : confirmer lanalyse ). Les contextes ont ici t rduits aux verbes, noms et adjectifs qui entretenaient une relation syntaxique avec le nom transdisciplinaire, et non plus tous les lments (mots simples ou syntagmes) apparaissant en cooccurrence. Lide tait ici de vrifier si une fusion des relations, en produisant un plus grand nombre de contextes communs, pouvait amliorer la qualit des rsultats. La mthode employe (avec les mmes seuils quen 5.1) produit 292 paires, dont 177 (soit 60,5%) apparaissent correctement apparies. Les rsultats apparaissent donc meilleurs que pour les voisins en tte, mais cependant infrieurs ceux des voisins en expansion.

Mais pas uniquement. On repre aussi des relations de complments de noms comme dans lefficacit de cette mthode ou llaboration du modle.

Traitement smantique par analyse distributionnelle des noms transdisciplinaires

En outre, une classification par voisinage (neighbour joining cluster) a t effectue partir dune une matrice contenant tous les coefficients de proximit (jaccard) sans seuil liant les mots (Cf. Fig. 1.a). Sur les 27 classes finales obtenues, 20 constituent des sous-ensembles des 7 classes dfinies manuellement (2 sous-ensembles ont des lments uniques). Les sous-classes rvlent des associations lexicales fines, qui apparaissent pour la plupart appropries pour notre approche onomasiologique.

5.3 Proximits smantiques tablies laide des relations de souscatgorisation vs relations de modification
Nous faisons lhypothse que les relations syntaxiques mettant en jeu la sous-catgorisation sont plus dterminantes pour tablir des proximits smantiques que les relations de modification, parce que les arguments sont davantage contraints sur le plan syntaxique et smantique par les restrictions slectionnelles. Les voisins en expansion - correspondant pour la plupart des relations de sous-catgorisation - obtenus avec la mthode de Didier Bourigault semblaient aller dans ce sens. Nous avons souhait approfondir ce point en observant plus systmatiquement quelques relations de sous-catgorisation. Les relations de souscatgorisation observes ont t la relation objet (confirmer une analyse), la relation sujet (les rsultats infirment ), les complments nominaux en de, que le nom soit recteur (ou tte) (lanalyse des donnes) ou rgi (lefficacit de la mthode) 6 . La mthode a dgag 76 paires, dont 48 ont t considres valides, soit 63 %. Nous avons ensuite compar ces rsultats avec les associations obtenues uniquement avec les modifieurs. Pour cela, nous avons slectionn uniquement les relations liant ladjectif pithte au nom, ainsi que la relation dapposition. 582 paires ont t obtenues, parmi lesquelles 285 ont t valides, soit 49%. On remarque donc que le nombre de paires obtenues par les relations de sous-catgorisation apparat nettement moins important que le nombre de paires obtenues laide des relations de modification. Cette disparit des effectifs semble avoir une incidence sur les classes tablies laide de la mme mthode quen 5.2 (Cf. Fig. 1.b et Fig. 1.c), puisquon relve que les classes obtenues par les relations de sous-catgorisation sont de moins bonne qualit (14 sur 23 classes sont des sous-classes de nos classes manuelles) que les classes obtenues laide des relations de modification (20 sur 29 classes apparaissent valides). Le type de relation sous-catgorisation ou modification semble donc avoir une incidence sur la qualit des associations produites avec la mthode distributionnelle lorsquon observe les proximits entre mots. Les relations adjectivales et apposition, plus lches, permettent moins facilement de rendre compte du sens des noms. Les relations de sous-catgorisation paraissent plus adaptes pour cette tche, mais la supriorit de lanalyse laide des relations de souscatgorisation napparat cependant pas relle si lon observe les classes obtenues laide des coefficients de proximit, probablement du fait dun nombre de relations syntaxiques moins important pour ces distributions syntaxiques.

Les relations incluant dautres prpositions comme sur ou dans nont pas t retenues car elles mettent en jeu des relations de sous-catgorisation ou de modification selon le contexte. Le logiciel Syntex ne fait pas la diffrence entre ces deux types de relations.

Agns TUTIN

(a) Ensemble des relations syntaxiques

(b) Relations de souscatgorisation

(c) Relations de modification

Fig. 1 : Classification par voisinage partir des coefficients de proximit (jaccard) entre mots

Traitement smantique par analyse distributionnelle des noms transdisciplinaires

Le tableau 2 rsume les rsultats des mthodes employes.


Ensemble des relations de dpendance Nombre de paires dgages Qualit estime pour les paires obtenues (avec la mesure jaccard) Prcision des classes obtenues avec la classification par voisinage (calcule partir du jaccard) 292 60,5% 20/27 (74%) Relations de souscatgorisation Relations de modification

76
63% 14/23 (61%)

582
49% 20/29 (69%)

Tableau 2 : Comparatif des mthodes employes

6 Conclusion
Les mthodes danalyse distributionnelle automatique appliques notre champ lexical napparaissent quen partie concluantes. Les voisins obtenus partir des distributions syntaxiques apparaissent valides 60% si lon tient compte de lensemble des relations syntaxiques. Nos rsultats sont cependant pratiquement toujours meilleurs que ceux que Grefenstette (1996) obtient avec lanalyse syntaxique en comparant ses rsultats laune du thsaurus Roget. Nos classes sont cependant plus lches. La prise en compte des seules relations de sous-catgorisation augmente la prcision (63%), mais le rappel est plus faible du fait du faible nombre de relations envisages. Les rsultats paraissent plus intressants pour les classes obtenues par voisinage laide du coefficient de proximit (jaccard), surtout si lon prend en compte lensemble des relations syntaxiques (sans privilgier les relations de sous-catgorisation ou les relations de modification). Les classes obtenues confirment souvent la classification manuelle, tout en proposant des regroupements plus fins, probablement trs utiles pour laccs onomasiologique que nous envisageons pour notre application daide la rdaction. Deux types de traitement linguistique pourraient probablement amliorer les rsultats. Tout dabord, il serait souhaitable de normaliser les relations syntaxiques et les ramener des relations plus smantiques. Par exemple, il ny a pas lieu de distinguer la relation entre ladjectif pithte et le nom, et celle qui lie ladjectif attribut et le nom. En outre, pour pallier le manque de donnes, il pourrait tre utile de regrouper les relations par classes smantiques, en utilisant la mthode distributionnelle de faon incrmentale. Enfin, il apparat indispensable dexplorer dautres mesures de similarit, comme la mesure prox, qui prend en compte la productivit de la relation syntaxique, ce qui nest pas le cas de la mesure de jaccard. Pour une application linguistique comme la ntre, la mthode peut nanmoins apparatre utile, si les donnes obtenues sont valides manuellement. Le linguiste pourra ainsi partir des classifications obtenues automatiquement, observer les contextes partags dans le corpus et corriger les donnes. Comme en terminologie, la mthode distributionnelle sera ainsi conue comme une aide la dcision pour le lexicologue.

Agns TUTIN

Remerciements
Tout dabord, un trs grand merci Didier Bourigault qui ma fourni les rsultats de lanalyseur Syntex ainsi que les rsultats du systme danalyse Upery et a relu une premire version de ce papier. Merci galement Kjersti Flttum, de lUniversit de Bergen, qui ma permis dutiliser le corpus KIAP. Toute ma reconnaissance galement Christophe, le roi de Java, pour son aide. Merci aussi Ccile Frrot pour ses conseils et Olivier Kraif pour sa relecture dune premire version de ce papier.

Rfrences
BOURIGAULT D. (2002). Upery : un outil d'analyse distributionnelle tendue pour la construction dontologies partir de corpus. Actes de la 9me confrence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, 2002, 75-84. BOURIGAULT D., FABRE C., FRROT C., JACQUES M.-P. & OZDOWSKA S. (2005), Syntex, analyseur syntaxique de corpus. Actes des 12mes journes sur le Traitement Automatique des Langues Naturelles, Dourdan, France. BOURIGAULT D., LAME G. (2002). Analyse distributionnelle et structuration de terminologie. Application la construction d'une ontologie documentaire du Droit, in TAL, 43-1. CRUSE D.A. (1986). Lexical Semantics. Cambridge, London : Cambridge University Press (Cambridge Textbooks in Linguistics). GALY E., BOURIGAULT D. ( paratre). Analyse distributionnelle de corpus de langue gnrale et synonymie. Actes JLC 2005. Lorient. GREFENSTETTE G. (1996). Evaluation techniques for automatic semantic extraction : Comparing syntactic and window based approaches. In Boguraev, B. and Pustejovsky, J., editors, Corpus Processing for Lexical Acquisition. Cambridge, Massachusset : MIT Press, 205-216. GROSS G. (1994). Classes d'objets et description des verbes. Langages 115 , 15-30. HABERT, B. AND ZWEIGENBAUM, P. (2003). Classer les mots : smantique gros grain et mthodologie harrissienne. Revue de Smantique et Pragmatique, (12), 101119. HARRIS Z., GOTTFRIED M., RYCKMAN T. (1989). The Form of Information in Science, Analysis of Immunology Sublanguage. Kluwer Academic Publisher, Dordrecht, The Netherlands, 1989. KRAIF O., TUTIN A. (2006). Des corpus bilingues aligns annots smantiquement pour l'aide la rdaction: application aux collocations de la langue scientifique gnrale. Aide la rdaction - Apports du Traitement Automatique des Langues, Journe d'tude l'ATALA, Paris. NAZARENKO A., ZWEIGENBAUM P. , HABERT B, BOUAUD J. (2001). Corpus-based Extension of a Terminological Semantic Lexicon. Recent Advances in Computational Terminology. Amtserdam : John Benjamins, 327-351. PECMAN M. (2004). Phrasologie contrastive anglais-franais : analyse et traitement en vue de laide la rdaction scientifique, Thse de doctorat, Universit de Nice Sophia Antipolis, dcembre 2004. PHAL A. (1971). Vocabulaire gnral d'orientation scientifique (V.G.O.S.) - Part du lexique commun dans l'expression scientifique. Paris : Didier, Crdif.