Vous êtes sur la page 1sur 15

CORIA 05 France - Grenoble - 9-11 mars 2005

Identication derreurs de traduction dans un dictionnaire de recherche dinformations translingue et traduction de mots composs laide du World Wide Web
Hubert Naets Gregory Grefenstette
Laboratoire dIngnierie de la Connaissance Multimdia Multilingue (LIC2M) Commissariat lnergie Atomique Bat. 38-1 ; 18, rue du Panorama ; BP 6 92265 Fontenay aux Roses Cedex ; France naetsh@zoe.cea.fr gregory.grefenstette@cea.fr
RSUM.

La recherche dinformations translingue sur des textes non parallles ncessite une phase de traduction entre une requte dans une langue source et un document dans une langue cible. An dobtenir les mmes performances que dans le cas dune requte monolingue sur un document dans la mme langue que cette requte, il est ncessaire de trouver les bonnes traductions pour tous les termes de la requte en langue source. Malheureusement, les dictionnaires de traduction disponibles ne contiennent pas les traductions exactes dun grand nombre de mots composs qui peuvent tre prsents dans une requte. Les systmes de recherche translingues utilisent des dictionnaires de traduction construits statistiquement ou manuellement. An de traduire un mot compos, beaucoup de ces systmes gnrent toutes les traductions possibles mot mot et vrient la prsence de ces traductions dans la base de donne cible. La qualit de la recherche augmente lorsque il est possible dutiliser des traductions de mots composs pralablement valides. Il reste cependant deux problmes encore non rsolus avec cette mthode consistant gnrer et valider toutes les traductions : (1) Si la traduction exacte dun lment dun mot compos ne gure pas dans le dictionnaire de traduction, la traduction qui sera valide par cette mthode ne sera pas la meilleure traduction. (2) Si la bonne traduction ne comprend pas le mme nombre dlments que le mot compos source, la meilleure traduction ne sera pas non plus gnre. Dans cet article, nous proposons deux mthodes pour identier ces situations.
ABSTRACT. Cross-language information retrieval over non parallel text requires a translation phase between a source language query and a target language document. In order to achieve the same performance as a monolingual target language query, good translations for all terms

CORIA 05 France - Grenoble - 9-11 mars 2005


2 CORIA05.

in a source language query must be found. Unfortunately, available translation dictionaries do not contain exact translations for many multiword terms that can be found in a query. Cross language retrieval systems use statistically or manually built translation dictionaries to perform translation, and in order to translate a multiword term, many systems generate possible word-to-word translations and verify the existence of the translations in the target database. When validated translations of multiword structures are used, retrieval improves. But there are two unsolved problems with the generate-and-validate method: (1) if the proper translation for one word in the multiword term is not in the translation dictionary the translation that will be validated by the method will not be the best translation, and (2) if the multiword term in the source is not translated by the same number of nonstop words in the target language, then the best translation will not be generated. In this paper, we present two methods for recognizing when these situations arise.
MOTS-CLS : Recherche dinformation translingue, traduction de requtes, dictionnaires bilingues, mots composs. KEYWORDS: Cross-language information retrieval, query translation, bilingual dictionaries, compound words, multiword terms.

CORIA 05 France - Grenoble - 9-11 mars 2005


Erreurs de traduction 3

1. Introduction Un problme rcurrent et toujours non rsolu de la reformulation multilingue est celui des mots composs ne se traduisant pas par le mme nombre de mots dans une langue cible que dans une langue source. Ainsi une personne utilisant un moteur de recherche translingue devrait trouver des documents anglais dans lesquels gure par exemple le mot plunge sil lance comme requte chute brutale des cours du ptrole . Il devrait aussi trouver des documents en anglais parlant de blacklist en rponse une requte sur liste noire . De la mme faon, vie prive devrait correspondre privacy et clair de lune moonlight . Toutefois, beaucoup de systmes de recherche dinformation translingue utilisent une technique consistant combiner toutes les traductions de chaque lment dun mot compos an de constituer un ensemble de traductions candidates pour ce mot compos [QU 02], mthode qui fonctionne dailleurs relativement bien dans les cas de traductions compositionnelles [GRE 99]. Ces systmes utilisent pour ce faire des dictionnaires lectroniques multilingues raliss manuellement ou drivs de corpus bilingues aligns. Cest la raison pour laquelle un petit djeuner ( breakfast ) peut devenir, au cours dune reformulation en anglais, entre autres traductions, un light lunch et la pleine nuit ( middle of the night ) se transformer en une full night . Cette technique de combinaison des traductions des parties dun mot compos pose galement le problme de la validation ou de linvalidation des traductions des mots composs. En combinant toutes les traductions possibles pour chaque partie dun mot compos, un moteur de recherche translingue est en effet amen gnrer des requtes cibles qui nintressent pas lutilisateur ou qui ramnent des informations non dsires. Ainsi, une personne mettant une requte propos de recettes scales prfrera trouver des scal revenues plutt que des scal recipes . Sil est bien connu que la base de donnes laquelle la requte est applique contribuera pour une grande part dsambiguser la requte dans la mesure o si lon poursuit sur notre exemple , il semble moins probable de trouver scal dans une recette de cuisine et recipes dans un document comptable, une telle chose nest nanmoins pas exclure. Par ailleurs, la multiplication de requtes non motives (comme scal recipes par exemple) contribue ralentir inutilement les recherches de documents dans une base de donnes. Le problme dee la traduction de mots composs dans le domaine de la recherche dinformation a dj t trait, entre autres, au moyen dapproches bases sur des exemples laide de patrons bilingues [KAT 94], au sein de systmes de traduction automatique base sur des grammaires dunication [BOU 92] ou encore laide de modles de traduction statistiques ([FUJ 99b] et [FUJ 01]).Nous en proposons ici une approche assez simple utilisant le World Wide Web comme un immense corpus dexemples attests. dfaut de pouvoir systmatiquement dterminer la traduction correcte dun mot compos dans les cas qui nous occupent quil sagisse dune reformulation multilingue ne comportant pas le mme nombre dlments que lunit linguistique source,

CORIA 05 France - Grenoble - 9-11 mars 2005


4 CORIA05.

ou que la traduction correcte dun des lments ne gure pas dans le dictionnaire de reformulation multilingue , nous traitons ici ici de deux mthodes permettant didentier ces situations. Le but des exprimentations prsentes ci-aprs est donc de savoir si une traduction correcte existe parmi lensemble des traductions candidates pour un mot compos et, si elle existe, quelle est-elle. Dans la suite, nous prsentons successivement ces deux mthodes et le rsultat de leur combinaison, avant den discuter les avantages et les inconvnients.

2. La mthode des proportions 2.1. Lhypothse de dpart Lhypothse de dpart est la suivante : il est possible de valider ou dinvalider un certain nombre de traductions candidates de mots composs en prenant en compte le rapport existant entre la frquence dun mot compos source et la frquence de chacune de ses traductions candidates sur le Web. Intuitivement, on sattend ce que les traductions correctes aient, vis--vis de leur mot compos source, le mme rapport que le nombre total de pages web de la langue cible vis--vis du nombre total de pages web de la langue source. En dautres termes, le rapport entre le nombre de pages en franais et en anglais devrait tre le mme quentre un mot compos en franais et sa traduction correcte en anglais. En mars 2004, le nombre de mots en franais prsents sur le Web tait de 13 648 627 000 contre 145 959 354 000 en anglais, ce qui correspond un ratio de 10,691 (en fvrier 2000, ce ratio tait de 21,4 [GRE 00]). Il est ainsi possible destimer quun moteur de recherche devrait trouver approximativement, lors dune requte, 10 20 fois moins de pages pour un mot compos en franais que pour sa traduction correcte en anglais, sauf en ce qui concerne certains faits de socit, certaines ralits culturelles ou gographiques propres aux mondes francophone ou anglophone. titre dexemple, dans Google, la requte dchets radioactifs renvoie 75 000 pages, tandis que sa traduction, radioactive waste, en renvoie 1 060 000, ce qui correspond un ratio anglais franais de 14,1.

2.2. Lexprimentation Nous avons test cette hypothse sur des mots composs en franais et sur leurs traductions candidates en anglais.

1. http ://www.infonortics.com/searchengines/sh04/slides/greffen.pdf

CORIA 05 France - Grenoble - 9-11 mars 2005


Erreurs de traduction 5

2.2.1. La slection des mots composs en franais Nous avons pris pour point de dpart un corpus darticles provenant du journal franais Le Monde de 1995 et comprenant un peu plus de 2 800 000 tokens. laide du systme LIMA (LIC2M Multilingual Analyzer) dvelopp au LIC2M, nous avons tiquet et dsambigus morphosyntaxiquement le corpus et en avons extrait toutes les successions nom adjectif et adjectif nom . E XEMPLES : despote clair dessein europen dessin anim deuxime autorit premier accident Nous avons ensuite calcul linformation mutuelle (mutual information) de chacune de ces squences en nous basant sur leur frquence au sein du corpus an dtablir une liste de cooccurrences nom adjectif et adjectif nom . Nous navons conserv que les squences apparaissant frquemment dans le corpus darticles (plus de 5 fois) et ayant une information mutuelle leve (cf. gure 1).
6 $   ' % 1 !   0"  $ $ 9    5 $   ( 0   &    B  )    2"  1  )  9 1   """ % '  3  1   @  " A" $     % %  8   3 !  $   7 % 9 1 "8( %  2 %       % $ 1  1 "8 %  ' % % $    "% $  1 (   """8%   7  %  )  3 $ $  ) $ 0 6$"0        $  5 "4 !    & % 3  1   1    "2" "  % 3 1 ! 1  0(  & 1  )   % '   $    $ " #"! # "!  & %   $          

Figure 1. Squences adjectif nom et nom adjectif Si deux mots, m1 et m2 ont respectivement une probabilit P (m1) et P (m2) dans un corpus, leur information mutuelle M I(m1, m2) peut tre dnie de la faon suivante [CHU 90] : M I(m1, m2) = log2 P (m1, m2) P (m1) P (m2)

Lutilisation de linformation mutuelle a en outre permis dliminer un certain nombre de squences contenant des adjectifs numraux ainsi que quelques squences mal tiquetes morphosyntaxiquement.

CORIA 05 France - Grenoble - 9-11 mars 2005


6 CORIA05.

La mthode employe nest pas dpendante du type de mots composs ; dans le cadre de cette premire exprimentation, nous nous sommes limits aux squences nom adjectif et adjectif nom : des squences nom prposition nom ou verbe prposition nom auraient galement pu tre prises en compte. De mme que le recours linformation mutuelle nest pas indispensable ; il permet disoler plus facilement les mots composs propres un ou plusieurs domaines du corpus ou de la base de donnes. 2.2.2. La traduction en anglais des mots composs Un dictionnaire de reformulation bilingue franais anglais a ensuite t utilis pour gnrer toutes les combinaisons possibles de traductions candidates pour chaque mot compos. Ce dictionnaire, ralis au CEA/LIC2M, comporte 116 819 traductions de mots simples et de mots composs tiquets morphosyntaxiquement. Pour chaque squence nom adjectif ou adjectif nom , toutes les traductions du nom prsentes dans le dictionnaire de reformulation ont t combines avec toutes celles de ladjectif (cf. gure 2).
 $  3   9 1   1  #""7"" 1   1  $  3   ""8 #9 " 1 (  1 1   1 "#"" 1   1 " 1 (  "A#"1  !      

Figure 2. Gnration de toutes les traductions de puissance conomique laide du dictionnaire de reformulation Nous avons slectionn alatoirement 170 squences sources (ainsi que toutes leurs traductions) parmi lesquelles nous avons limin manuellement une squence mal tiquete morpho-syntaxiquement en franais (ce qui posait des problmes de traduction), pour nen garder que 169. Le nombre moyen de traductions candidates pour chacun de ces 169 mots composs en franais est de 39,9 , avec un minimum de 2 traductions et un maximum de 728.

$ %  5 1   1 "" 1   1 $ % "# 5  $  1   1 " #"" 1   1 $  "#   $  3 1   1  #"7"" 1   1  $  ""8 #3 " 1   3 1   1 " "7"" 1   1 " 1   "A#" 3 !   % "  3 1   1 "7"" 1   1 !   % "  "A3  9 ( 1   1 7"" 1   1 ""8 " 9 ( 7""  9 ( 1   1 1""0 "   1 9 ( "" #""   1   1 1 "8"   1 "    $ 3 1   1 #"" 1   1 ""8 $ 3

CORIA 05 France - Grenoble - 9-11 mars 2005


Erreurs de traduction 7

La moiti de ces 169 mots composs en franais (84 exactement) possde au moins une traduction correcte parmi lensemble des traductions gnres, alors que lautre moiti (85) nen possde aucune. 2.2.3. Les traductions de rfrence An dtablir les traductions servant de rfrence au cours de notre valuation (que nous considrons au long de ce document comme tant les traductions correctes ), nous avons demand un locuteur natif anglophone de produire ce quil lui semblait tre la meilleure traduction pour chaque mot compos en franais, sans que ce locuteur ait pris connaissance au pralable des traductions candidates gnres partir du dictionnaire de reformulation. Par la suite, nous lui avons demand de reprciser la traduction de 12 mots composs qui semblaient admettre plusieurs traductions correctes ( faible marge admet ainsi deux traductions correctes dans notre jeu de tests : slight margin et low margin ). 2.2.4. Linterrogation du moteur de recherche Ltape suivante a consist interroger le moteur de recherche Google avec chacun des mots composs sources et chacune des traductions candidates successivement et de rcuprer, pour chaque requte, le nombre de pages dans lesquelles gure lexpression (source et cible) recherche. Par exemple, puissance conomique (gure 3) est prsent dans 26 000 pages indexes par Google. Si lon prend sa premire traduction potentielle, cogency economic , on constate quelle napparat que dans une seule page et que le rapport entre cette seule page et le nombre de pages ramenes par puissance conomique est de 0,000038. Au contraire, avec 300 000 pages, economic power a une frquence 11,538462 fois suprieure celle du mot compos source, ce qui le positionne comme meilleure traduction possible, compte tenu de notre hypothse de dpart (rapport de 10 20 entre langlais et le franais). 2.2.5. Rvision de lhypothse de dpart Il est trs vite apparu ncessaire de rviser lhypothse de dpart dans la mesure o elle savre trop restrictive : en effet, la majorit des traductions correctes ramnent plus ou moins de pages web que lhypothse ne le prdit. Ainsi, par exemple, long way renvoie 165 fois plus de pages que long chemin ; loppos, communist candidate nest que 1,45 fois plus prolixe que candidat communiste , tandis qu ofcial announcement se contente de retourner 6,29 fois plus de pages qu annonce ofcielle . Plus gnralement, seules 18,75 % des traductions correctes sont comprises dans un intervalle allant de 10 20. Le tableau 1 montre que la plupart des traductions correctes se situent au-dea ou au-del de cet intervalle. Lexprimentation a montr que dans le cas de notre chantillon de test, il fallait prendre un intervalle allant de 3 linni an dobtenir les meilleurs rsultats, la proportion de mauvaises traductions augmentant nettement en-dessous de 3.

CORIA 05 France - Grenoble - 9-11 mars 2005

Le test a port sur la capacit de cette premire mthode identier dune part les cas o aucune traduction correcte ne gurait parmi lensemble des traductions gnres et dterminer dautre part quelle tait la meilleure des traductions correctes si au moins une traduction correcte avait t produite. Compte tenu de la modication de lhypothse, la meilleure traduction a t rednie comme tant la traduction renvoyant le plus de pages, condition que ce nombre de pages soit au moins trois fois Tableau 1. Rpartition du ratio anglais franais sur lensemble des rsultats corrects et pour les rsultats incorrects renvoyant le plus de pages pour une traduction donne Figure 3. Rapport entre la frquence de puissance conomique et celle de ses traductions potentielles
1( $ ( 1 $   !    &')#    0)! " #   1 " # $ ( & #  & "  % $ # && & (! $ #'  #        # ( $   1 $ !    # (  ( #  '3                  #&31 5 % " !   (2 & $  ! " !')  # (    (  & #    $ $     0)  &3  % !    % 1  & (  '3 4 "3   " & #  $  $             % 1  $   '3  " ! 1    0)  % 1  & 1 # '32 $ $ 1 %   0)  !  # ( !   #  & %    $  $     " !           
 $  3   9 1   1  #" 1   1  $  3   "8#"9 " 1 (  1 1   1 #A" 1   " 1 (  1 A#" 1  !       #   1 $ !  "  $ % 5 1   1 " 2" 1   1 $ % "# 5  $  1   1  A" 1   1  $  ""0  $  3 1   1  #" 1   1  $  "8#3 " 1   3 1   1 # " 1   " 1   1 A#"3 !   % "  3 1   1 " 1   !   "  1 A% 3  9 ( 1   1 "" 1   1  9 ( "8" """  9 ( 1   1 1"0 "   1  9 ( " A"   1   1 1 ""A" "  1    $ 3 1   1 A" 1   1  $ 3 "8 % (  (   A )

2.3. Les rsultats


CORIA05.

<1 13 35 5 10 10 20 20 50 50 ratio

pourcentage de traductions correctes 18,75 % 16,7 % 11,45 % 18,75 % 18,75 % 8,3 % 7,3 %

pourcentage de traductions incorrectes les plus probables 56,38 % 17,02 % 4,25 % 2,12 % 6,38 % 4,26 % 9,57 %

CORIA 05 France - Grenoble - 9-11 mars 2005


Erreurs de traduction 9

suprieur au nombre de pages renvoyes par le mot compos source. Le tableau 2 se lit de la faon suivante : Si la mthode indique avoir trouv une bonne traduction ou aucune traduction (verticalement), alors cette afrmation est correcte ou fausse (horizontalement) dans X % des cas . La dernire ligne ( prcision globale ) correspond la performance gnrale de la mthode, que celle-ci atteste de la dcouverte dune traduction correcte ou quelle dclare quil nen existe aucune.

la bonne traduction aucune bonne traduction prcision globale

correct 69,1 % 76,4 % 72,9 %

faux 30,9 % 23,6 % 27,1 %

Tableau 2. Prcison de la mthode des proportions

On constate ainsi que dans prs des trois quarts des cas, la mthode des proportions permet ou bien de dterminer correctement la bonne traduction ou bien dtablir quil nen existe aucune parmi celles qui sont proposes. Si lon sintresse plus particulirement au cas o cette mthode afrme ne pas trouver de bonne traduction (52,4 % des cas), on remarque quelle ne se trompe que dans 23,6 % des cas. Les performances sont un peu moins bonnes si lon sarrte sur les cas o la mthode dit avoir trouv la bonne solution (47,6 % des cas) puisque cela nest vrai qu 69,1 %. La mthode prouve ainsi sa capacit identier un grand nombre de cas o aucune traduction correcte nexiste parmi lensemble des traductions dun mot compos gnres laide dun dictionnaire de reformulation. Toutes les traductions ne comprenant pas le mme nombre dlments que dans le mot compos source (cf. gure 4) se retrouvent ainsi dans cette catgorie.

Figure 4. Mots composs en franais et traductions non terme terme correspondantes

" 1 5  # 3 92A#" ( 9  )  % ! !  )     '   % % 1 '  ' ) ) $  !    ) (   $ % ( 3 ! 9  A4    9   1 $ !  " 

5  3  "5  $ % "2"3  $  !   " A"3 " %    &%4   3  1   1 !     "0   !   %   % #1    (   % %  $ '    1  $ 9  '    1  $    3  1   A4"

CORIA 05 France - Grenoble - 9-11 mars 2005


10 CORIA05.

3. La mthode de la coprsence 3.1. Lhypothse de dpart Il existe sur le World Wide Web un certain nombre de textes multilingues dont une partie est la traduction ou le rsum de lautre, ou encore qui traitent du mme sujet (par exemple les forums de discussion). Il serait donc possible dutiliser ces pages comme autant de bitextes ou de multitextes et de valider ou dinvalider ainsi les diffrentes traductions dun mot compos. Au lieu de calculer le rapport entre le nombre de pages renvoyes par un mot compos et par ses traductions, on cre une requte o gurent la fois le mot compos source et un des mots composs candidats. la requte "dchets radioactifs" + "radioactive waste" , le moteur de recherche Google renvoie ainsi 5 100 pages. On peut supposer que la traduction gurant dans la requte qui renvoie le plus grand nombre de pages est la meilleure traduction ; de mme quon peut mettre lhypothse quune traduction lie une requte ne renvoyant aucune page est fausse. Cette mthode est fortement tributaire du nombre de pages bilingues ou multilingues prsentes sur le web pour les deux langues considres et est donc peu exploitable dans le cas de langues faiblement reprsentes sur internet.

3.2. Lexprimentation Nous sommes partis du mme corpus de 169 mots composs et de leurs traductions candidates que celui que nous avons utilis dans le but de tester la mthode des proportions. Pour chaque traduction candidate, nous avons cr une requte "mot compos" + "traduction potentielle" dont nous nous sommes servi pour interroger Google. Ainsi, si lon reprend lexemple de puissance conomique (gure 5), on constate que le moteur de recherche renvoie des pages dans deux cas seulement : economic might (5 pages) et economic power (94 pages), ce dernier constituant ainsi la meilleure traduction et correspondant la traduction de rfrence.

3.3. Les rsultats La difcult principale de cette seconde mthode tient au fait que, pour chaque requte, le moteur de recherche utilis renvoie peu de pages y compris pour les meilleures traductions par rapport la premire mthode que nous avons propose. Il savre ainsi impossible, dans un certain nombre de cas, de slectionner la meilleure traduction, dans la mesure o une requte constitue dune traduction moins bonne renvoie parfois une ou deux pages de plus que la meilleure traduction. Ceci explique les assez mauvais rsultats de la mthode de la coprsence lorsquil sagit de dterminer la meilleure traduction (cf. tableau 3) : le taux derreur est en effet

CORIA 05 France - Grenoble - 9-11 mars 2005


Erreurs de traduction
% (   (  # )   1 $ !  " 

11

Figure 5. Nombre de pages renvoyes par Google lors dune requte "puissance conomique" + "traduction candidate" de 43,2 %. Les rsultats sont meilleurs si lon ne considre pas la traduction ramenant le plus de pages mais les n traductions ramenant au moins une page. La meilleure traduction gure parmi celles-ci dans 69,6 % des cas. Il est noter que parmi les 30,4 % derreurs, se trouvent souvent des mots composs devant normalement gurer sous lintitul aucune bonne traduction . Si lon se penche sur les cas o cette seconde mthode nidentie aucune bonne traduction, on constate que si ces cas sont peu nombreux (seulement 26,5 %), le taux derreur est faible (8,9 %). correct 56,8 % 91,1 % 65,9 % faux 43,2 % 8,9 % 34,1 %

la bonne traduction aucune bonne traduction prcison globale

Tableau 3. Prcison de la mthode de la coprsence

4. La combinaison des deux mthodes Nous avons enn voulu savoir si le fait de combiner la premire et la seconde mthode prsentait un avantage par rapport chaque mthode prise isolment. Nous

    % ( 

              

 $  3    #""9 " 1   1 1   1  $  3   ""A#"9 " 1 (  1 1   1 "0" 1   " 1 (  1 A#" 1  !      # $ %  5 1   1 7" 1   1 $ % "# 5  $  1   1 " 0" 1   1  $  "2  $   #"3 " 1   1 1   1  $  "8#3 " 1   1   1 " "3 " 1   " 1   1 A#"3 !   % "  "3 " 1   1 1   !   "  1 A% 3  9 (  " 1   1 1   1  9 ( "8"  "  9 ( 1   1 1""2 "   1  9 ( "" 0"   1   1 1 "#" "  1    $ 3 1   1 0" 1   1  $ 3 "8

CORIA 05 France - Grenoble - 9-11 mars 2005


12 CORIA05.

navons retenu que les cas o les deux mthodes valident ou invalident conjointement une mme traduction. Le tableau 4 montre que les rsultats sont lgrement meilleurs, essentiellement lorsquaucune traduction correcte nest trouve. correct 68,5 % 94,7 % 74,5 % faux 31,5 % 5,3 % 25,5 %

la bonne traduction aucune bonne traduction prcision globale

Tableau 4. Prcison de la combinaison des deux mthodes Ces rsultats doivent toutefois tre relativiss dans la mesure o ils ne concernent que les cas o les deux mthodes fournissent la mme bonne traduction (43,2 % des cas) ou saccordent indiquer quil nen existe aucune parmi lensemble des traductions candidates pour un mot compos source (22,5 % des cas), ce qui correspond 65,7 % des mots composs sources. Dans les autres cas (34,3 %), les rsultats des deux mthodes divergent : il nest pas possible de privilgier les rsultats dune mthode par rapport lautre si ce nest lorsquon peut tablir quune des traductions candidates possde exactement la mme forme que le mot compos source, lexception des accents, auquel cas il faut choisir la mthode des proportions. Nous parlerons plus en dtail de ce cas dans la section suivante.

5. Discussion Quels sont les avantages de ces mthodes consistant utiliser le Web pour valider ou invalider des traductions candidates lors de la reformulation multilingue de mots composs ? Ces techniques permettent en premier lieu didentier les erreurs dans un dictionnaire de traduction multilingue. Ainsi que tous les rsultats lont montr, chaque mthode permet, avec un plus ou moins grand taux de russite (76,4 % pour la mthode des proportions et 91,1 % pour la mthode de la coprsence), de dterminer sil nexiste aucune traduction correcte pour un mot compos dans une langue source. Il est ainsi possible de complter trs facilement le dictionnaire multilingue de mots simples an de suppler ses carences. De la mme faon, il devient ais de dtecter les traductions ne comportant pas le mme nombre dunits que le mot compos source ou dont un lment a chang de catgorie morphosyntaxique ( allocations familiales (adjectif nom) devient family benets (nom nom)). Les deux techniques offrent ensuite la possibilit de crer semi-automatiquement voire automatiquement condition daccepter des erreurs des dictionnaires multilingues de mots composs. Il est par exemple possible dextraire une liste de mots composs dans un corpus particulier, de gnrer lensemble des traductions candidates

CORIA 05 France - Grenoble - 9-11 mars 2005


Erreurs de traduction 13

pour chaque mot compos et, partant, dutiliser lune des mthodes dcrites ci-dessus pour slectionner les traductions correctes. Cela permet de limiter le nombre ou la taille des requtes adresses une base de donnes (pour rappel, lun des 169 mots composs utiliss dans notre test possdait 728 traductions candidates). Dans le domaine de la veille, ces techniques peuvent assister lutilisateur dans la cration dun prol multilingue en slectionnant les meilleures traductions pour chaque mot compos. En outre, cette approche peut facilement tre combine dautres : il est ainsi possible de lutiliser conjointement avec un modle de traduction statistique intgrant les mots composs. Ces mthodes ne sont nanmoins pas exemptes de problmes. La premire difcult est lie la morphologie exionnelle. Si la gnration de traductions candidates ne pose aucun problme en chinois vu que cette langue ne connat pas proprement parler de morphologie, il nen va dj plus de mme dans des langues faible morphologie comme langlais ; la situation devient assez dlicate dans le cas de langues synthtiques. Car, contrairement un corpus strictement dni, le Web prsente cet inconvnient de ne pouvoir tre lemmatis dans sa totalit, du moins jusque dans un futur plus ou moins proche. Il devient ainsi ncessaire de chir chaque traduction candidate. Un second problme concerne les faits de socit, les ralits culturelles, gographiques, environnementales propres chaque langue ou certaines rgions employant une langue particulire. Ainsi, si la cranberry est bien connue en Amrique du Nord, la canneberge est nettement moins rpandue dans le monde francophone (except pour 6,5 millions de locuteurs francophones canadiens), ce qui se traduit sur le Web par 3 530 000 pages pour le mot anglais contre 14 600 pour son quivalent franais, sous Google. Enn, une difcult mineure lie la proximit des formes entre deux langues survient dans le cas de la mthode de la coprsence. Parmi les traductions candidates du mot compos consquence immdiate , on trouve consequence immediate . La plupart des moteurs de recherche sur le Web (dont Google) ne sont pas sensibles la casse ou aux accents. La requte "consquence immdiate" + "consequence immediate" se ramne une simple requte "consequence immediate" , ce qui a pour effet de renvoyer un nombre important de pages web (17 200 ici). Il convient de dtecter ces cas an de les traiter sparment, par exemple en utilisant la premire technique qui permet de se rendre compte que le rapport est de 1 entre le mot compos source et sa traduction candidate.

6. Conclusion Nous avons montr dans cet article que lutilisation conjugue du World Wide Web et dun dictionnaire de reformulation multilingue permettait didentier les erreurs

CORIA 05 France - Grenoble - 9-11 mars 2005


14 CORIA05.

de traduction de mots composs dans ce dictionnaire. Les deux techniques que nous avons prsentes permettent en outre de dterminer les cas o une traduction terme terme savre impossible. Dans prs de 70 % des cas pour la mthode des proportions et 56 % des cas pour la mthode de la coprsence, ces techniques permettent en outre de slectionner automatiquement la meilleure traduction pour peu que celle-ci ait t gnre et fasse partie de la liste des traductions candidates. lexception des langues plus ou moins exionnelles o il est ncessaire de faire appel un logiciel de exion, ces deux mthodes sont trs faciles mettre en uvre dans le cadre de la recherche dinformation translingue.

7. Bibliographie
[ALJ 01] A LJLAYL M., F RIEDER O., Effective Arabic-English Cross-Language Information Retrieval via Machine Readable Dictionaries and Machine Translation , ACM Tenth Conference on Information and Knowledge Managemen (CIKM), Atlanta, Georgia, Novembre 2001. [BAL 97] BALLESTEROS L., C ROFT W. B., Phrasal translation and query expansion techniques for cross-language information retrieval , Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1997, p. 8491. [BOU 92] B OUILLON P., B OESEFELDT K., RUSSELL G., Compound nouns in a unicationbased MT system , Proceedings of the third conference on Applied natural language processing, Trento, Italie, 1992, p. 209-215. [CHU 90] C HURCH K. W., H ANKS P., Word Association Norms, Mutual Information, and Lexicography , Computational Linguistics, vol. 16, no 1, 1990. [FED 02] F EDERICO M., B ERTOLDI N., Statistical Cross-Language Information Retrieval using N-best Query Translations , Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, Tampere, Finland, aot 2002, p. 167-174. [FUJ 99a] F UJII A., I SHIKAWA T., Cross-Language Information Retrieval for Technical Documents , Proceedings of the Joint ACL SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 1999, p. 29-37. [FUJ 99b] F UJII A., I SHIKAWA T., Cross-Language Information Retrieval using Compound Word Translation , Proceedings of the 18th International Conference on Computer Processing of Oriental Languages (ICCPOL99), mars 1999, p. 105-110. [FUJ 01] F UJII A., I SHIKAWA T., Japanese/English Cross-Language Information Retrieval : Exploration of Query Translation and Transliteration , Computers and the Humanities, vol. 35, no 4, 2001, p. 389-420. [GRE 98] G REFENSTETTE G., Evaluating the adequacy of a multilingual transfer dictionary for the cross language information retrieval , First International Conference on Language Resources and Evaluation, Mai 1998, p. 755758. [GRE 99] G REFENSTETTE G., The WWW as a resource for example-based MT tasks , Proceedings of ASLIB99 Translating and the Computer, vol. 21, 1999.

CORIA 05 France - Grenoble - 9-11 mars 2005


Erreurs de traduction 15

[GRE 00] G REFENSTETTE G., N IOCHE J., Estimation of English and non-English Language Use on the WWW , Proceedings of RIAO2000, Content-Based Multimedia Information Access, Paris, 1214 2000, p. 237246. [KAD 04] K ADRI Y., N IE J.-Y., Traduction de requtes pour la recherche dinformation translingue anglais-arabe , JEP-TALN, Fs, avril 2004. [KAT 94] K ATOH N., A IZAWA T., Machine Translation of Sentences with Fixed Expressions , Proceedings of the fourth conference on Applied natural language processing, Stuttgart, Germany, 1994, p. 28 - 33. [LEV 99] L EVOW G.-A., OARD D. W., Evaluating lexicon coverage for cross-language information retrieval , Workshop on Multilingual Information Processing and Asian Language Processing, Novembre 1999, p. 6974. [QU 02] Q U Y., G REFENSTETTE G., E VANS D. A., Resolving Translation Ambiguity using Monolingual Corpora , Working Notes for the CLEF 2002 Workshop, 2002, p. 115126. [SAT 90] S ATO S., NAGAO M., Toward Memory-based Translation , COLING-90, vol. 3, 1990, p. 247252.

Vous aimerez peut-être aussi