Vous êtes sur la page 1sur 11

TALN 2006, Leuven, 10-13 avril 2006

Traitement de la polysmie lexicale dans un but de traduction


Marianna Apidianaki Lattice - CNRS / ENS / Universit Paris 7 - Denis Diderot Ecole Normale Suprieure, 1, rue Maurice Arnoux, F-92120 Montrouge Marianna.Apidianaki@linguist.jussieu.fr

La dsambigusation lexicale a une place centrale dans les applications de Traitement Automatique des Langues relatives la traduction. Le travail prsent ici fait partie dune tude sur les recouvrements et les divergences entre les espaces smantiques occups par des units polysmiques de deux langues. Les correspondances entre ces units sont rarement biunivoques et ltude de ces correspondances aide tirer des conclusions sur les possibilits et les limites dutilisation dune autre langue pour la dsambigusation des units dune langue source. Le but de ce travail est ltablissement de correspondances dune granularit optimale entre les units de deux langues entretenant des relations de traduction. Ces correspondances seraient utilisables pour la prdiction des quivalents de traduction les plus adquats de nouvelles occurrences des lments polysmiques.

Rsum

Abstract

Word Sense Disambiguation has a central role in NLP applications relevant to translation. The work presented in this article is a part of a study on the overlaps and divergences existing between the semantic spaces occupied by the polysemous items of two languages. Correspondences between those items are rarely biunivocal and their study gives us insights on the possibilities and limits of using a second language for the disambiguation of polysemous items of a source language. The aim of this work is the establishment of correspondences of an optimal granularity between the items of two languages being in relation of translation that could be used for the prediction of the most adequate translation equivalents for new occurrences of the polysemous source language items. polysmie, cooccurrences, correspondances de traduction, prdiction de

Mots-cls:
traduction

Keywords: polysemy, cooccurrences, translation correspondences, translation prediction

Apidianaki Marianna

1 La polysmie dans un contexte bilingue


La notion du sens peut tre apprhende de diffrentes manires et la diversit des reprsentations smantiques existantes dmontre la difficult de trouver un consensus concernant la nature du sens et sa description optimale dans le cadre du traitement automatique. Une mthode de dsambigusation smantique assez largement utilise consiste en lutilisation de traductions en tant que ressource pour le reprage et la distinction des sens des units polysmiques dune langue. On retrouve cette ide dans des travaux importants visant non seulement la dsambigusation mais aussi lannotation smantique et la slection dquivalents de traduction pour la Traduction Automatique (Gale et al., 1992, 1993 ; Dagan et al., 1991 ; Teubert, 2002 ; Dyvik, 2003). Les langues divisent leur espace smantique de manires varies et mme les rgions smantiques occupes par des units lexicales considres comme quivalentes du point de vue de la traduction peuvent tre trs diffrentes. Altenberg et Granger (2002) caractrisent les cas o les units de deux langues qui se trouvent en relation de traduction ont des extensions de sens diffrentes comme des cas de polysmie divergente (divergent polysemy) en les distinguant des cas de polysmie avec recouvrement de sens (overlapping polysemy), o les units ont approximativement les mmes extensions de sens. Dautre part, Salkie (1997) et Viberg (2002) soulignent que les quivalents de traduction dcrits dans les dictionnaires ont rarement la mme distribution dans des textes rels et que leur degr de correspondance mutuelle est trs bas. Dans les cas de polysmie avec recouvrement de sens, la polysmie lexicale est prserve dans la langue cible (LC). Ceci signifie que les units polysmiques de la langue source (LS) sont traduites par des units polysmiques quivalentes dans la LC. Daprs Salkie (2002), ces units ne sont pas considres polysmiques ou ambigus du point de vue de la traduction et les quivalents nindiquent pas des distinctions de sens dans la LS. De tels cas sont souvent observs parmi des langues proches. Dans ces cas, le traducteur (ou la machine) na pas besoin de rsoudre la polysmie lexicale pour traduire. Si la dsambigusation de ces units tait souhaite, il faudrait recourir une troisime (ou quatrime) langue. Dans cet article, nous allons proposer une mthode dexploration des relations existantes entre les units polysmiques de deux langues. La prsentation de cette mthode sera illustre par des exemples extraits dun corpus parallle sur lequel nos expriences ont t menes.

2 Prtraitement du corpus
Le corpus utilis dans ce travail est un corpus parallle anglais-grec de 4 000 000 de mots, lemmatis, morpho-syntaxiquement tiquet et align au niveau des phrases (Gavrilidou et al., 2004). Lalignement a t effectu par loutil dalignement de phrases intgr dans le systme de Mmoire de Traduction TrAid (Triantafyllou et al., 2000) et valid la main. La source des textes est le Journal de lUnion Europenne. Ces textes relvent de cinq domaines : droit, ducation, environnement, sant et tourisme. Le corpus a t trait par loutil Syntex et les rsultats sont consultables via linterface TermOnto (Bourigault et al., 2004). Des sous-corpus sont crs correspondant aux mots polysmiques et contenant les contextes lexicaux (ou co-textes) dans lesquels ils apparaissent. La taille du contexte concide avec la taille des segments de traduction, qui contiennent de 0 2 phrases par langue. Par exemple, un alignement 2:1 met en correspondance 2 phrases du texte de la LS avec 1 phrase du texte

TALN 2006, Leuven, 10-13 avril 2006 de la LC, lintrieur dun segment, et un alignement 1:0 indique quune phrase du texte de la LS na pas de correspondance dans le texte de la LC. La mise en correspondance de 2 phrases de la LS et de 2 phrases de la LC permet de capter les correspondances croises, cest--dire les cas o lordre de 2 phrases dans le texte de la LS est renvers dans la LC. Le choix des segments de traduction en tant que contexte est dict par notre objectif dexploration de linfluence du co-texte proche des units de la LS sur la slection des quivalents de traduction. A partir des contextes de chaque mot polysmique on construit une liste de frquence. Pour le moment, nous nous sommes intresss seulement aux mots de certaines catgories grammaticales : les noms et les adjectifs. Les noms et les adjectifs qui cooccurrent dans les segments de traduction avec le mot polysmique que nous voulons dsambiguser sont dabord ramens leur lemme. Ensuite on construit la liste des frquences cumules associes aux lemmes. La frquence cumule dun lemme correspond la somme des frquences des occurrences (ou formes flchies) associes ce lemme et trouves dans les contextes. Par exemple, si dans les textes on a les occurrences teacher et teachers avec les frquences 5 et 6 respectivement, la frquence du lemme teacher dans la liste sera 11. Les frquences utilises dans nos calculs sont les frquences des formes (types) auxquelles les occurrences (tokens) sont ramenes. Le calcul bas sur les occurrences peut introduire dans le rseau de cooccurrences smantiques des liens faux, qui peuvent tre dus des idiomes particulaires et non la similarit smantique authentique, comme il est soulign dans (Widdows, Dorow, 2002). La lemmatisation a aussi une grande importance pour les langues morphologie riche, comme le grec. Il faut ajouter que lordre syntaxique et les informations positionnelles des mots ne sont pas pris en compte.

3 La dsambigusation dans un contexte monolingue


Les principes thoriques sous-jacents ce travail sont ceux de lapproche contextuelle du sens (Firth, 1957 : 11). Suivant cette approche, le sens des mots correspond leur usage dans les textes. Ainsi, pour les lments polysmiques on fait lhypothse que leurs sens peuvent tre distingus en regroupant leurs usages et que leurs contextes peuvent servir distinguer leurs usages. Dans un premier temps, on procde la dsambigusation des units polysmiques de la LS laide dune mthode de cooccurrence proche de celle prsente dans (Vronis, 2003). Les listes de frquence construites pendant le prtraitement du corpus seront utilises ici. De la liste de frquence correspondante un mot polysmique on ne retient que les formes qui ont une frquence suprieure 2. Tout dabord on choisit le mot avec la plus grande frquence dans la liste par exemple, le mot school pour le mot polysmique class. On considre lensemble des contextes o ce mot apparat et on en construit une matrice de cooccurrence. Les lments de la matrice sont les lemmes auxquels sont ramens les noms et les adjectifs qui cooccurrent avec school dans les textes. Chaque case [i,j] de la matrice de cooccurrence construite pour school contient la frquence de cooccurrence des formes flchies associes au lemme i et des formes flchies associes au lemme j dans lensemble des contextes du mot school. De cette matrice on ne retient que les cooccurrents qui ont une frquence suprieure 1. Les seuils de frquence et de cooccurrence sont bas cause de la petite taille de notre corpus.

Apidianaki Marianna A partir de la liste de frquence du mot polysmique et de la matrice de cooccurrence du mot school on construit un graphe correspondant ce dernier. Les nuds de ce graphe sont les mots retenus aprs le filtrage des contextes o school apparat. Les arcs reliant les nuds sont pondrs par la formule suivante : wA, B = 1 max[ p( A B ), p(B A)] o p( A B ) est la probabilit conditionnelle dobserver llment A dans un contexte o llment B apparat et inversement pour p(B A) . Cette mesure reflte la distance smantique entre les mots ; quand elle vaut 0, les mots sont toujours associs tandis que quand elle vaut 1, ils ne le sont jamais. Les arcs qui ont un poids >0.9 sont limins. Ainsi les arcs dans le graphe final relient les nuds qui se trouvent en relation de cooccurrence significative. Une fois le premier graphe construit, on limine de la liste de frquence du mot polysmique le mot school ainsi que tous ses voisins dans le graphe. De la liste qui en rsulte on choisit le mot le plus frquent dans notre exemple cest le mot number et on continue de la mme manire. On retient lensemble des contextes o number apparat dans le corpus du mot polysmique class, on construit la matrice de cooccurrence, on cre le graphe correspondant et on limine de la liste de frquence le mot number ainsi que ses voisins. On itre ce processus tant que le mot le plus frquent dans la liste de frquence a au moins 6 voisins propres. Lhypothse sous-jacente ce processus est que les sens-usages diffrents du mot polysmique que lon veut dsambiguser sont dcrits par les petits graphes qui lui correspondent. Lutilisation de graphes diffrents nexclut pas quil peut y avoir des liens entre les sens diffrents. Ceux-ci peuvent tre facilement trouvs partir des contextes. Le tableau 1 contient des informations quantitatives sur les mots polysmiques tudis. Chaque sens est dcrit laide du mot le plus frquent qui dclenche la construction du graphe correspondant. Le mot le plus frquent est aussi le nud avec le plus grand degr dans le graphe.
Mots polysmiques Equivalents en grec 1 Corpus dentranement2 Corpus de test Sens-usages Nombre de nuds Nombre darcs Densit du graphe

class

(201), (20), (9), (3), (2), (1) (118), (88), (4), (4),(3) (2), (1) (251), (38), (28), (19), (11), (6)

236

59

school number device lesson member skill qualification free freedom relation restriction

125 23 17 11 143 29 12 245 95 23 14

467 30 40 21 617 54 19 2177 447 113 23

0.06 0.11 0.29 0.38 0.06 0.13 0.28 0.07 0.1 0.44 0.25

competence

220

55

movement

353

88

Tableau 1 : Informations quantitatives sur les mots polysmiques tudis

4 Correspondances entre sens et quivalents


Pour chacune des units polysmiques anglaises retenues, on procde au reprage de leurs quivalents en grec. Les correspondances de traduction sont releves la main. Cette phase
1 2

Ordonns en fonction de leur frquence dans le corpus dentranement. Dcrit en nombre de segments. De mme pour le corpus de test.

TALN 2006, Leuven, 10-13 avril 2006 pourrait tre automatise en utilisant un outil dalignement de mots ou un outil de reprage de traduction (Vronis, Langlais, 2000 ; Simard, 2003). Pour le moment, on a choisi le reprage manuel afin dtudier minutieusement les relations entre les units des deux langues, de reprer mme les quivalents trs rares et dtudier des cas comme les omissions, les ajouts et les reformulations dans la LC. Une fois les graphes de la LS construits et les quivalents grecs trouvs, la prochaine tape consiste mettre en relation les graphes de la LS avec les quivalents de traduction reprs. Pour cela, on utilise le contexte des quivalents. Le contexte dun quivalent est compos du contexte lexical de lunit de la LS (dans le mme segment de traduction) quand elle est traduite par cet quivalent prcis. On construit alors, au sein de notre corpus correspondant au mot polysmique, des ensembles de segments correspondant chacun des quivalents. Pour chaque quivalent, on procde au mme calcul de cooccurrents que dans la LS. Dabord, on construit une matrice de cooccurrence partir des segments qui lui correspondent. Ensuite, en utilisant cette matrice et la liste de frquence du mot polysmique, on calcule le poids wA,B entre les cooccurrents dans les segments retenus. Ainsi, les mots qui ont une relation de cooccurrence significative avec lquivalent sont-ils retenus. De cette manire, on arrive construire pour chacun des quivalents de la LC un graphe de cooccurrences qui comprend ses cooccurrents dans la LS. A partir des graphes de la LS et de la LC, on peut tablir des correspondances entre les quivalents de traduction et les sens reprs dans la LS en estimant leur similarit en termes de partage de traits (Tversky, 1977). Pour cela, on calcule le taux de recouvrement entre le graphe correspondant chaque quivalent et les graphes construits pour le mot polysmique. Les traits sur lesquels porte ce calcul ne sont pas les cooccurrents individuels des quivalents et du mot polysmique qui correspondent aux nuds du graphe mais les paires de nuds qui reprsentent des relations significatives entre eux. Si, par exemple, dans le graphe dun quivalent, nous avons les associations school--timetable et primary--education, nous allons dabord chercher dans le graphe de la LS les nuds correspondant aux mots school, timetable etc., et sils existent nous allons voir sil y a des arcs qui les relient ; si ce nest pas le cas, on ne les retient pas. Le calcul de recouvrement entre les cooccurrents individuels introduit de faux liens entre les quivalents et les composantes, cause de la polysmie qui est assez frquente parmi les cooccurrents individuels. Par contre, la prise en compte des relations que ces lments entretiennent avec leurs cooccurrents restreint leur ambigut. Les liens proposs de cette manire sont beaucoup plus pertinents. Lalgorithme utilis pour calculer le recouvrement entre, dune part, le graphe dun quivalent et, dautre part, un graphe de la LS est dcrit ci-dessous :
recouvrement (G_LC, G_LS){ G_LC : graphe de lquivalent G_LS: un des graphes du mot polysmique E_LC liste des arcs dans G_LC E_LS liste des arcs dans G_LS I foreach e1 E_LC{ foreach e2 E_LS { if (e1 = e2) then { I } } } return I }

e1

Apidianaki Marianna

Dans le tableau 2, on dcrit les correspondances entre les sens-usages des mots polysmiques et leurs quivalents en grec. Dans la deuxime colonne, les sens-usages dun mot polysmique sont dcrits par le mot le plus frquent dans le graphe correspondant. La troisime colonne contient quelques voisins directs de ce mot pour illustrer ces diffrents usages. Par exemple, les voisins du mot device qui dcrit un usage de class montrent quil est question dans les textes de classes dappareils mdicaux. Dans la colonne droite du tableau, on trouve les quivalents grecs correspondant chaque sens comme cela a t dmontr par le calcul de recouvrement. On remarque que lon peut avoir plusieurs quivalents mis en relation avec un sens, ou, au contraire, un quivalent mis en relation avec plusieurs sens. Ceci sexplique ainsi : le calcul de recouvrement tablit souvent des correspondances entre des sous-ensembles dun graphe de la LS et des graphes correspondant des quivalents diffrents ou entre des sous-ensembles du graphe dun quivalent et des graphes de sens diffrents. La correspondance entre un sens et un quivalent est dcrite par lensemble contenant les traits qui leur sont communs.
Mot polysmique Sens-usages Voisins Equivalents en grec

class

school number device lesson member

classroom, teacher, pupil, elementary minimum, maximum, total, high, average implant, breast, instruction, practice, medical orientation, written, second, basis state, sphere, infringement, power, exercise personal, lifelong, language, mathematics recognition, development, partner, trust student, goods, worker, barrier, citizen border, residence, territory, immigration Sweden, Finland, Belgium, Italy, Spain animal, disease, trade, health, risk...

competence

skill qualification free

movement

freedom relation restriction

, , , , , , , , , , , , , , , , , ,, , , ,

Tableau 2 : Correspondances entre sens et quivalents des mots polysmiques

Une autre remarque qui simpose : les sens dtects seraient plus facilement caractriss comme usages. Ceci constitue une des caractristiques des mthodes de dsambigusation bases sur les cooccurrences. Pour arriver des sens, il faut souvent fusionner des usages qui ont t dtects partir du corpus. Il ne faut pas aussi sous-estimer le rle de la nature des textes sur le reprage de sens. Le corpus utilis dans cette tude est constitu par des textes communautaires, ce qui induit lutilisation dune terminologie plus ou moins uniforme, mme si ces textes relvent de sous-domaines diffrents. Cette donne a t conserve, car nous souhaitions appliquer notre mthode en utilisant un minimum de connaissances linguistiques. Il reste explorer si la rptitivit observe dans les textes dguise des distinctions smantiques plus pertinentes. Nanmoins, les usages proposs peuvent tre utiliss pour une premire tentative de validation de nos hypothses.

5 Prdiction de traduction
Dans le paragraphe 4, on a dcrit comment les correspondances entre sens et quivalents sont tablies. Ces correspondances ou, plus concrtement, les ensembles de traits qui les dcrivent peuvent tre utilises dans le processus de prdiction des quivalents de traduction les plus adquats pour de nouvelles occurrences des mots polysmiques. Si lon avait tabli

TALN 2006, Leuven, 10-13 avril 2006 des correspondances au niveau des mots, celles-ci seraient trs grossires ; competence, par exemple, serait mis en relation avec 7 quivalents en grec. Le calcul de recouvrement entre sens et quivalents permet de restreindre les choix parmi les quivalents, laide de correspondances de granularit plus fine. Lutilisation des correspondances tablies pendant la phase prcdente permet, dune part, de dsambiguser la nouvelle occurrence du mot polysmique dans la LS et, dautre part, de la traduire correctement dans la LC. Dans le cas dune nouvelle occurrence dun mot polysmique, cest le contexte lexical du mot qui va nous guider dans le choix de lquivalent le plus correct. De ce contexte on garde les noms et les adjectifs et lon construit une liste contenant des associations entre eux, qui montrent leur relation de cooccurrence dans ce segment de texte. Si lon a, par exemple, la phrase dentre The resource teacher prepares materials, which the class teacher can use if necessary , on construit les associations: resource -- teacher, resource -- material, class -- material, necessary -- material, class teacher, etc. Cet ensemble dassociations dcrit le contexte de la nouvelle occurrence. Lensemble dassociations construit est par la suite compar aux rsultats de ltape prcdente, cest--dire aux ensembles de traits qui dcrivent les correspondances entre les sens et les quivalents et qui ont t constitus partir du corpus dentranement. Des ensembles prcdemment tablies on ne retient que celui/ceux qui partage/partagent des traits avec lensemble construit partir du nouveau contexte. Il sagit alors, encore une fois, dun calcul de similarit en termes de partage de traits. Pour la phrase dentre cite plus haut, lensemble qui a t retenu est celui qui dcrit la correspondance entre le sens school du mot polysmique class et lquivalent . De cette manire, on trouve, dune part, le sens avec lequel le mot polysmique de la LS est utilis dans ce nouveau contexte (school) et, dautre part, la traduction la plus adquate pour cette nouvelle occurrence (). Il arrive parfois que lon trouve des relations entre le contexte de la nouvelle occurrence et plusieurs des ensembles prtablis. Ces relations ne sont pas trs nombreuses (de 2 jusqu 4). Alors, mme si lon narrive pas avoir une proposition de traduction unique pour la nouvelle occurrence, on arrive restreindre les choix de traduction. Dans ces cas, il est aussi possible dattribuer une prfrence un quivalent et un sens en fonction de la quantit et des poids des associations communes, en nexcluant pas les autres. Nanmoins, si notre but rside seulement dans la prdiction de lquivalent de traduction correct et non pas la dsambigusation de la nouvelle occurrence on peut utiliser uniquement les graphes correspondant aux quivalents. Les ensembles dassociations des graphes sont compars lensemble dassociations construit partir du nouveau contexte et celui/ceux qui partagent le plus de traits avec celui-ci est/sont retenu(s).

6 Evaluation
Afin dvaluer les mthodes de prdiction dcrites dans le paragraphe 5, nous avons utilis une partie (20 %) du corpus correspondant chaque mot polysmique, que nous avions mise part ds le dbut. La frquence dutilisation des quivalents de traduction dans notre corpus tant trs variable, nous avons essay dinclure dans le corpus dvaluation des segments correspondant tous les quivalents. Les rsultats que lon pourrait considrer comme bons sont des cas o :

Apidianaki Marianna 1. 2. 3. une seule proposition de traduction est faite et elle est correcte ; plusieurs propositions sont faites et la premire (aprs la classification en fonction de leur poids respectif) est la correcte ; plusieurs propositions sont faites et la correcte nest pas la premire mais une autre dans la liste des rsultats.

Pour la premire mthode de prdiction, o lon utilise les ensembles de traits qui dcrivent les correspondances entre sens et quivalents, si lon considre comme corrects les rsultats des catgories (1) et (2), le rappel obtenu est de 59 % (ce qui signifie que des traductions correctes sont proposes pour 59 % des nouvelles occurrences) et la prcision est de 83 % (83 % des propositions faites sont correctes). Si lon considre comme corrects galement les cas de la catgorie (3), on obtient un rappel de 66 % et une prcision de 92 %. Dans la deuxime mthode de prdiction, o lon nutilise que les graphes correspondant aux quivalents, les rsultats sont meilleurs. Si lon considre comme bons les rsultats dcrits par (1) et (2), le rappel obtenu est de 71 % et la prcision est de 74 %. Si lon inclut dans les rsultats corrects les cas dcrits par (3), on obtient un rappel de 91 % et une prcision de 94 %. Ces rsultats divergents selon la mthode adopte sexpliquent par les diffrents ensembles dlments auxquels le nouveau contexte est compar. Dans la premire mthode, le contexte des nouvelles occurrences est compar aux ensembles dlments qui dcrivent les correspondances sens-quivalents. Cet ensemble contient une sous-partie des lments des graphes mis en relation, cest--dire leurs lments communs. Il peut arriver que les associations du contexte de la nouvelle occurrence ne soient pas trouves dans cet ensemble. En revanche, avec la deuxime mthode, le contexte des nouvelles occurrences est compar toutes les associations dans les graphes des quivalents. Ces ensembles sont beaucoup plus grands que ceux utiliss dans la premire mthode, alors, il ny a que peu de nouvelles occurrences pour lesquelles une correspondance nest pas trouve. On remarque que des propositions errones sont faites surtout dans les cas dquivalents trs rares, o la quantit de segments correspondants dans le corpus dentranement sont trs peu nombreux (de 1 jusqu 3). Ce problme est li la petite taille de notre corpus. Avec un corpus plus grand, o lon aurait plus doccurrences des quivalents rares, la performance de la mthode serait meilleure.

7 Discussion et perspectives
Les recouvrements et les divergences entre les contextes correspondant aux quivalents de traduction et aux sens des units polysmiques reprs dans la LS soulvent des questions concernant les relations qui peuvent exister entre les lments de deux langues. La correspondance de plusieurs quivalents un sens dtect dans la LS signifie-t-elle que lon pourrait reprer des sous-sens au sein de ce sens, qui ntaient pas mis en vidence pendant le processus de dsambigusation des units de la LS ? Ou plutt, dans le cas o lon parle dusages dans la LS et pas de sens, la correspondance dun quivalent plusieurs usages pourrait-elle servir dindice pour fusionner ces usages en un seul sens ? Ce sujet doit tre trait avec beaucoup de prcautions. Il peut arriver que, dans la LC, il existe plus de distinctions smantiques que dans la LS, surtout pour les mots ayant une porte smantique vague au sein de celle-ci. Les distinctions mises en vidence par le calcul des

TALN 2006, Leuven, 10-13 avril 2006 cooccurrents des units de la LS et des quivalents peuvent ne pas toujours correspondre des sens diffrents mais des nuances de sens moins saillantes. Mme si, parfois, on arrive reprer des sens dans une langue par le biais dune autre langue sens qui ntaient pas mis en vidence par le processus de dsambigusation au sein de la premire la projection du dcoupage de lespace smantique dune langue dans une autre ne conduit pas toujours des distinctions pertinentes dans celle-ci. Cependant, ceci pourrait tre dune grande utilit pour les applications de TAL relatives la traduction. Le reprage dans la LS des distributions contextuelles correspondant aux distinctions de sens propres la LC et dcrites par les quivalents diffrents peut faciliter la slection des quivalents corrects pendant le processus de traduction. Dans ce cas-l, on est alors en qute des lments discriminants du ct de la LS qui pourraient tre lis aux variations de sens plus ou moins grandes dans la LC. Le travail prsent dans cet article fait partie dune tude plus vaste sur les questions de recouvrement et de divergences entre les lments polysmiques de deux langues et des problmes qui relvent dune entreprise de mise en correspondance de ceux-ci. Dans le travail venir, nous envisageons dincorporer une petite quantit dinformations linguistiques dans la mthode afin dexplorer les possibilits damlioration de nos rsultats. Ces informations linguistiques peuvent concerner le reprage de termes complexes. On pourrait aussi rpter les expriences en liminant les termes inhrents la nature de notre corpus, cest--dire les termes juridiques. Llimination de ces termes laissera probablement apparatre des indices plus pertinents pour la distinction des sens diffrents des units polysmiques ; les sens qui seront alors proposs correspondront bien plus des sens qu des usages. Comme amlioration de la mthode nous projetons galement la prise en compte des informations positionnelles des mots. Une autre piste explorer rside aussi dans ltude de la similarit smantique des quivalents diffrents dun mot polysmique qui permettrait darriver des conclusions concernant les distinctions de sens et le reprage de nuances de sens du ct de la LS. Les conclusions sur la similarit smantique des quivalents pourraient aussi savrer utiles dans le processus de fusionnement des usages reprs en sens. Nous allons essayer de valider les sens et les soussens proposs en utilisant diffrentes mesures de similarit ou en ayant recours des questionnaires auprs de locuteurs natifs des langues impliques. En outre, une application de cette mthode dautres mots polysmiques nous permettra de dgager lavenir une valuation plus globale.

Apidianaki Marianna

Rfrences
ALTENBERG B., GRANGER S. (2002). Recent trends in cross-linguistic lexical ALTENBERG B., GRANGER S. (eds.), Lexis in Contrast, Corpus-based approaches

studies, dans (Amsterdam /

Philadelphia: John Benjamins Publishing Company), 3-48.


APIDIANAKI M. (2005). Translation prediction using word cooccurrence graphs. Actes de Corpus Linguistics 2005, Birmingham, 14-17 juillet 2005 (http://www.corpus.bham.ac.uk/PCLC, paratre).

(2004). Construction de ressources terminologiques ou ontologiques partir de textes : un cadre unificateur pour trois tudes de cas. Revue d'Intelligence Artificielle (RIA), " Techniques Informatiques et structuration de terminologiques, dans PIERREL J.-M., SLODZIAN M., (eds.), Paris : Herms. Vol. 18, n1/2004, 87-110.
DAGAN I., ITAI A., SCHWALL U.,

BOURIGAULT D.,

AUSSENAC-GILLES N.,

CHARLET J.

(1991). Two languages are more informative than one. Actes de 29th Annual Meeting of the Association for Computational Linguistics (ACL), Berkeley, California, 1991, 130-137. Source, Draft 2003.

DYVIK H. (2003). Translations as a Semantic Knowledge (http://www.hf.uib.no/i/LiLi/SLF/ans/Dyvik/transknow.pdf). FIRTH J.R.

(1957). A Synopsis of Linguistic Theory, 1930-1955, dans Studies in Linguistic Analysis, Special Volume of the Philological Society (Oxford : Basil Blackwell), 1-32.

GALE W.A., CHURCH K.W., YAROWSKY D., (1993). A Method for Disambiguating Word Senses in a Large Corpus. Computers and the Humanities 26(5), 415-439. GAVRILIDOU M., LABROPOULOU P., DESIPRI E., GIOULI V., ANTONOPOULOS V.

and PIPERIDIS S., (2004) Building parallel corpora for eContent professionals. Actes de MLR 2004, PostCOLING Workshop on Multilingual Linguistic Resources, Geneva, 28 August 2004.
SALKIE R. (1997). Naturalness and contrastive linguistics, dans LEWANDOWSKA-TOMASZCZYK and P.J. MELIA (eds.) Actes de PALC 97: Practical Applications in Language Corpora

(Lodz : Lodz University Press), 297-312.


SALKIE R. (2002). Two types of translation equivalence, dans ALTENBERG B., GRANGER S. (eds.) Lexis in contrast: Corpus-based (Amsterdam / Philadelphia : John Benjamins Publishing Company), 51-71. SIMARD M.

(2003). Translation Spotting for Translation Memories. Actes de NAACL 2003 Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond, Edmonton, Canada, 2003, 65-72.

translation and multilingual lexicography, in contrast: Corpus-based approaches (Amsterdam / Philadelphia : John Benjamins Publishing Company), 189-214.

TEUBERT W. (2002). The role of parallel corpora in dans ALTENBERG B., GRANGER S. (eds.), Lexis

TALN 2006, Leuven, 10-13 avril 2006


TRIANTAFYLLOU I., DEMIROS I., MALAVAZOS C., PIPERIDIS S. (2000). An alignment architecture for Translation Memory bootstrapping. Actes de MT 2000, Exeter, November 2000, 3.1-3.8. TVERSKY A. (1977). Features

of Similarity. Psychological Review, 84(4), 327-352. Evaluation of parallel text alignment systems The ARCADE Parallel Text Processing (Dordrecht: Kluwer Academic

VERONIS J., LANGLAIS P. (2000). project, dans VRONIS J. (ed.)

Publishers), 369-388.
VERONIS J.

(2003). Hyperlex: cartographie lexicale pour la recherche dinformations. Actes de TALN 2003, Batz-sur-mer, 11-14 juin 2003, 265-274.

(2002). Polysemy and disambiguation cues across languages: the case of Swedish f and English get, dans ALTENBERG B., GRANGER S. (eds.), Lexis in Contrast, Corpus-based approaches, (Amsterdam / Philadelphia: John Benjamins Publishing Company), 191-150.
WIDDOWS D., DOROW B.
th

VIBERG .

(2002). A Graph Model for Unsupervised Lexical Acquisition, Actes de 19 International Conference on Computational Linguistics (COLING 19), Taipei, August 2002, 1093-1099.

Vous aimerez peut-être aussi