Vous êtes sur la page 1sur 10

Yvan Lebrun

Polysmie et machines traduire


In: Revue belge de philologie et d'histoire. Tome 40 fasc. 3, 1962. pp. 789-797.

Citer ce document / Cite this document : Lebrun Yvan. Polysmie et machines traduire. In: Revue belge de philologie et d'histoire. Tome 40 fasc. 3, 1962. pp. 789-797. doi : 10.3406/rbph.1962.2425 http://www.persee.fr/web/revues/home/prescript/article/rbph_0035-0818_1962_num_40_3_2425

MLANGES

POLYSMIE ET MACHINES A TRADUIRE From the inception of projects for mechanical translation, cri vent Booth, Cleave et Brandwood dans leur ouvrage sur la rsolution mcanique des problmes linguistiques (x), it was realized that ambiguity would be a major problem . Cette opinion est partage par l'ensemble des chercheurs qui travaillent la construction de machines traduire. Tout rcemment encore, Craft, Goldman et Strohm affirmaient : The method of resolving multiple meaning (...) is probably the most difficult (2). Comment, en effet, programmer un calculateur lectronique pour que, rencontrant dans la langue-source le terme A', il puisse le dis tinguer de son homographe A" et sache que, dans ce contexte parti culier, A' se rend, dans la langue-cible, par 2 et non par Y? En d'autres termes, et en guise d'illustration, comment programmer une machine traduisant du franais en anglais, pour qu'elle sache quand le mot temps est rendre par weather plutt que par time, et pour qu'elle dcouvre quand vers est un substantif et non une prposition? Avant d'examiner les principaux procds qui ont t suggrs pour surmonter la difficult de polysmie, il convient de remarquer que pour le programmateur de machines traduire, aucun problme ne se pose lorsque les deux langues dont il s'occupe prsentent la mme ambigut lexicographique. Ainsi, pour une machine tradui sant de l'anglais en franais, il importe peu que le mot operation puisse dsigner une intervention chirurgicale, des mouvements et des combats militaires et une combinaison mathmatique, puisque le mot franais opration a les mmes signifiants. Il n'y a de difficult (1) Booth, Cleave et Brandwood, Mechanical Resolution of Linguistic Problems, Londres, 1958, p. 74. (2) IBM-Journal, juillet 1961, p. 193. 50

790

Y.

LEBRUN

que lorsqu'un terme de la langue de dpart ne peut pas toujours tre rendu par le terme T' de la langue d'arrive. Les lments linguistiques dont la traduction est ainsi malaise peuvent tre diviss en trois groupes: les idiotismes, les homographes et les termes plurivoques. I. Les idiotismes. Comment programmer une machine tra duisant de l'allemand en franais pour qu'elle rende l'expression idi omatique weit und breit non par loin et large mais par partout^ Un premier procd consiste munir la machine de deux dictionnaires : un lexique gnral et un rpertoire d'idiotismes. Chaque terme du dictionnaire gnral susceptible d'tre le noyau d'un idiotisme, est suivi d'un indice renvoyant au dictionnaire idiomatique. Ce dernier contient deux sortes d'idiotismes : ceux, dits intgraux, dont les constituants sont toujours les mmes, se suivent dans un ordre immuable et ne sont jamais spars par des lments adventices (exemple : de plus en plus), et ceux dont les constituants sont variables. Les idiotismes non-intgraux sont reprsents dans le dictionnaire par des formules (exemple : aussi + adjectif/ adv erbe -fque). La machine commence par identifier les termes composant la premire phrase traduire en les comparant avec le contenu de son dictionnaire gnral et transfre les informations recueillies dans la partie operative ou buffer , Puis elle s'assure qu'aucun des lments ainsi transfrs n'est suivi d'un indice idiomatique. Si un terme est accompagn d'un tel indice, la machine parcourt le dictionnaire d'idiotismes, s'arrtant l'expression dont le numro d'ordre est fourni par l'indice. Cette expression est la premire et la plus longue de celles dont le terme rencontr dans le buffer est le noyau. La machine compare la locution laquelle elle s'est arrte au contexte qui, dans le buffer , entoure le terme-noyau. En cas d'identit, tous les mots intresss sont remplacs, dans le buffer , par l'quivalent tranger de la locution. En cas de nonidentit, la machine examine les idiotismes suivants. Le nombre d'expressions passer en revue est fix par l'indice idiomatique et correspond au nombre de locutions dont le terme du buffer est le noyau. Les idiotismes qui ont un mme noyau sont classs en ordre de longueur dcroissante. Si aucun des idiotismes passs en revue ne

POLYSEMIE ET MACHINES A TRADUIRE

791

correspond au contexte du buffer , le terme extrait du dictionnaire gnral est maintenu et l'quivalent tranger qui lui est attach sera reproduit la sortie. Un autre procd consiste inclure les idiotismes intgraux dans le dictionnaire gnral et disposer les termes de ce lexique de telle sorte qu'une expression comme weit und breit soit identifie et traduite gl obalement au lieu d'tre dcompose en ses divers lments. Quant aux idiotismes non-intgraux, ils seront traduits grce aux rgles opra tionnelles qui prsident aux modifications subies par le texte brut dans le buffer. 2. Les homographes. Pour la traduction mcanique, le mot nerlandais wijl, qui signifie moment et parce que, se distingue du sub stantif plurivoque kolf, qui peut dsigner une crosse, une massue ou une cornue, en ce que chacune de ses significations est lie une cat gorie grammaticale distincte : le sens moment est li la catgorie Substantif et le sens parce que la catgorie Conjonction de subordi nation. La distribution des catgories grammaticales dans le discours obissant des rgles, il est possible de dterminer les conditions contextuelles d'apparition de wijl substantif et de wijl conjonction et de donner la machine des instructions lui permettant de choisir, dans chaque cas, la traduction qui convient. Voici, titre d'illustra tion, comment une machine traduisant de l'anglais en allemand pourrait distinguer la terminaison -s, indice habituel du pluriel des substantifs en anglais, de la dsinence -s, caractristique de la troisime personne du singulier au prsent de l'indicatif. Dans un dictionnaire automatique, les substantifs apparaissent, d'une manire gnrale, sous la forme qu'ils ont au singulier et les verbes sont reprsents, dans la plupart des cas, par leurs diffrents radicaux. Les articles du dic tionnaire ont thoriquement la forme suivante : || Dbut d'article AAA... Terme de la langue-source / BBB... Terme de la langue-cible || Fin d'article

Mais les substantifs susceptibles de prendre la marque du pluriel -s apparaissent sous la forme ../BBB...j

792

Y.

LEBRUN

et les radicaux verbaux auxquels on ajoute -s la troisime personne du singulier de l'indicatif prsent ont la forme ||../...|| Le dictionnaire contient, en outre, une srie d'articles ayant la forme ||pS /marque du pluriel dans la langue-cible|| et IjttS /terminaison de la 3e pers. sing. ind. prs.|| Supposons que la machine trouve dans son registre d'entre le mot SILLS. En comparant ce mot avec la contenu de son dictionnaire, elle dcouvrira || S ILL ipx/SLL|| L'lment SLL sera envoy dans le buffer, , sous l'impulsion de i, sera transfr dans l'annexe du registre d'entre et les lettres SILL retires de ce mme registre. La machine est ainsi construite que lor sque l'annexe du registre d'entre contient un lment, elle considre cet lment comme un prfixe. Ce qui signifie qu'elle va, en une deu xime opration, tenter de rapprocher pxS d'un des articles de son dictionnaire. L'article correspondant sera videmment IIP* S /E H L'lment -E sera envoy dans le buffer o il sera ajout SLL. Semblablement, si le registre d'entre contient la f orme verbaleS/iVGS, la machine trouvera dans son dictionnaire, successivement : USING Mty/SINGH ||*yS /T || 3. On appelle termes plurivoques les mots de la langue-source qui ont, dans la langue-cible, plusieurs correspondants diffrents par le sens mais appartenant tous la mme catgorie grammaticale. Ainsi, par rapport l'allemand, le mot franais pouvoir est plurivoque parce qu'il se traduit, suivant les cas, par knnen, drfen ou mgen, tous trois auxiliaires de mode. Comment surmonter, en traduction automatique, la difficult cre par cette polysmie?

POLYSMIE ET MACHINES A TRADUIRE

793

Certaines catgories grammaticales peuvent tre traites par un systme d'indices doubls d'instructions pour l'analyse contextuelle. Voici, titre d'exemple, comment on pourrait traiter les prpositions. Dans le dictionnaire automatique, chaque prposition est suivie de tous ses correspondants trangers, chacun de ceux-ci sortant un numro d'ordre. De plus, tous les termes du dictionnaire susceptibles d'tre unis un complment par une prposition, sont suivis de cette prposi tion du numro d'ordre de son quivalent tranger. Si une prpos et ition unissant le terme un complment a plus d'un correspondant dans la langue-cible, des rgles d'analyse contextuelle sont ajoutes qui permettront une traduction correcte. Ainsi, dans le dictionnaire d'une machine traduisant de l'allemand en anglais, an sera suivi, entre autres, des correspondants anglais on (numro d'ordre x) et to (numro d'ordre y). Le verbe schreiben sera suivi, entre autres, de la prposition an accom pagne des numros d'ordre et y et des instructions : si plus nom de chose, alors ; si an plus nom de personne, alors y. Dans ces condi tions, la machine traduira An die Tafel schreiben par To write on the blackboard et An die Eltern schreiben par To write to one's parents. Si les prpositions se laissent assez facilement traiter, la plupart des verbes et des substantifs plurivoques posent, par contre, un problme qu'aucun chercheur n'a pu, jusqu'ici, rsoudre compltement. Diff rentes solutions partielles ont t suggres, dont l'amalgame constituera peut-tre un jour la solution finale. Un premier procd consiste imprimer, dans la langue d'arrive, tous les correspondants des termes plurivoques de la langue de dpart. Cette manire de faire prsente l'inconvnient de rendre la traduction difficile interprter. Oettinger, ayant soumis des lecteurs amricains la traduction grossire, en langue anglaise, d'un texte russe, constata que l'absence, dans la traduction, d'indication grammaticale et le maintien de l'ordre des mots russe ne gnaient que peu le lecteur, alors que le choix du correspondant appropri, chaque fois qu'une srie d'alterna tives fournie, se rvlait extrment difficile : The most frequent tait criticism was leveled at the excessive number of alternatives presented in some instances for a single Russian word (x). Il semble, en consquence, que ce procd ne soit applicable que lorsque les alternatives sont peu nombreuses et que le contexte permet (1) A. G. Obttinger, in Machine Translation of Languages, New York, 1955, p. 55.

794

Y. LEBRUN

un choix ais. Ainsi le mot russe Mnp peut, sans grand danger, tre rendu la fois par paix et monde, car dans la majorit des cas, le con texte indique clairement lequel des deux termes doit tre retenu. Un second procd consiste maintenir dans la traduction les termes trangers plurivoques ou les remplacer par X. On voit tout de suite ce que cette mthode a de primitif et les risques d'inintelligibilit ou d'erreur d'interprtation qu'elle comporte. Un troisime procd est le recours au microglossaire. Au lieu de constituer un dictionnaire gnral contenant tous les sens que peuvent avoir les termes plurivoques, on construit des dictionnaires spcialiss dits micro- ou idio-glossaires, qui ne retiennent de chaque terme poly smique que le sens intressant la discipline laquelle ils se rapportent. Ainsi, le mot allemand Anfall sera traduit par : 1. production (ou produit) secondaire dans un microglossaire nomique ; 2. assaut dans un glossaire militaire ; 3. accs dans un glossaire mdical ; 4. hritage (ou dvolution) dans un glossaire juridique. Cette solution, plus raffine que les deux prcdentes, n'en comporte par moins certains inconvnients : (a) Elle n'limine pas les termes plurivoques qui appartiennent la catgorie des mots-outils et qui, en tant que tels, apparaissent dans toute espce de texte. Ainsi, les auxiliaires anglais can et may sont uti liss, avec leurs sens multiples, par les mdecins comme par les ingnieurs, par les conomistes comme par les gnraux ; (b) Le vocabulaire de certains ouvrages, tels les manuels d'histoire gnrale et les romans, ne se laisse pas rduire aux dimensions d'un microglossaire ; (c) II faut construire autant de microglossaires que l'on veut tra duire d'ouvrages relevant de disciplines diffrentes. Cet inconvnient peut toutefois tre limin si l'on construit un dictionnaire gnral dans lequel les sens techniques des termes plurivoques sont munis d'indices de slection, chaque indice dsignant une discipline particul ire.Avant d'introduire dans la machine un texte technique, par exemple un texte mathmatique, l'oprateur rgie la machine de telle sorte qu'en cas de polysmie, elle choisisse le sens dont l'indice de s lection dsigne les mathmatiques ;

POLYSEMIE ET MACHINES A TRADUIRE

795

(d) Un ornithologue anglais, dcrivant les rapaces europens et parmi eux le milan (kite), peut tre amen parler d'un cerf-volant (kite). Si son texte est traduit par une machine qui ne dispose que d'un microglossaire d'ornithologie ou qui obit un indice ornithologique, kite sera toujours rendu par milan mme lorsqu'il dsigne un cerf-volant. Un quatrime procd, celui du cover-word, est fond sur la fr quence relative des diffrents sens de chaque terme plurivoque. (1) Supposons qu'un terme soit amphibologique, sa premire signi fication ayant une frquence de 96 %, sa seconde de 4 %. Dans sem blable cas, il n'y a pas grand danger toujours accorder son premier sens : les erreurs qui en rsulteront seront fort peu nombreuses et pour ront, dans la plupart des cas, tre corriges la lecture. (2) Si les frquences relatives des diffrents sens sont trop leves pour tre ignores, on s'efforce d'tendre le sens le plus frquent ou le plus gnral, ou le sens de base, aux autres sens du terme, le critre de cette extension tant l'intelligibilit. Puis, on essaye d'inclure dans le dictionnaire idiomatique les sens rfractaires cette extension, l'intr oduction dans ce dictionnaire restant cependant limite aux sens qui s'inscrivent dans des expressions prsentant une certaine rigidit for melle. Quant aux significations rsiduelles, il faudra les distinguer du sens principal l'aide d'une autre mthode. A titre d'illustration, voici comment on pourrait traiter l'adjectif anglais strong en vue de sa traduction en franais. Une analyse sommaire du champ smantique de strong donne : 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. solide intime bien dfendu robuste bon puissant chaud convaincant grand vif accus ranee fort fort de strong cloth strong conviction strong fortress strong health strong eyes strong voice strong partisan strong evidence strong likeliness strong recollection strong features strong butter strong action company two hundred strong solide

solide

X Y idiotismes

796

Y. LEBRUN

Dans les deux premiers cas, la traduction par solide est pleinement justifie. Dans les huit cas suivants, solide reste intelligible quoique peu usuel. Pour les quatre derniers cas, l'extension n'est pas possible. Mais les sens 13 et 14 peuvent tre introduits dans le dictionnaire d'idiotismes (strong action manire forte ; numeral (+ substantive) + strong = fort de + numral -f- substantif). Il ne reste plus, en dfinitive, que trois correspondants, solide, accus et ronce, pour lesquels il faudra trou verdes rgles oprationnelles de choix. Le sens que l'on a ainsi tendu au maximum, ici solide, s'appelle le cover-word . La mthode du co\er-word entrane les inconvnients suivants : (a) La traduction comporte un certain nombre de tournures qui, si elles sont intelligibles, n'en sont pas moins peu usuelles ; (b) La frquence d'apparition des cover-words est souvent leve, ce qui rend le texte quelque peu monotone. Ces deux inconvnients sont toutefois ngligeables si l'on attend de la traduction non qu'elle soit lgante, mais qu'elle nous rvle le contenu d'un texte que nous ne pouvons lire sous sa forme originale. Il est une cinquime mthode, celle des catgories smantiques. Le vocabulaire de la langue-source est rparti en un certains nombre de classes et sous-classes du type de celles que Roget a tablies pour l'an glais et Wehrle pour l'allemand Q). Ces classes et leurs subdivisions sont numrotes et tous les termes du dictionnaire automatique sont nantis du numro d'ordre de la classe laquelle leur sens les rattache. Les termes plurivoques, tant videmment rattachs plusieurs cat gories, sont suivis d'une srie de numros d'ordre, chacun de ceux-ci correspondant un mot dtermin de la langue-cible. Lorsque la ma chine rencontre un terme plurivoque, elle choisit celle des traductions dont le numro d'ordre est le plus \oisin des numros d'ordre des mots univoques entourant, dans le texte traduire, le terme polyvalent. Voici deux exemples, qui montreront en mme temps les limites de cette mthode : 1) Soit traduire en russe l'anglais algebraic operation. Algebraic est univoque, son numro d'ordre dans Roget est 85. Par rapport au russe, operation est quivoque, et ses deux numros d'ordre sont 85 (corre spondant aeficTBHe) et 662 (correspondant onepamm). La machine choisira, en consquence, le premier sens et traduira, correctement, (1) Roget's Thesaurus of English Words and Phrases (nombreuses ditions) ; Wehrle-Eggers, Deutscher Wortschatz, Stuttgart, 1961.

POLYSMIE ET MACHINES A TRADUIRE

797

ajirepaimecKoe neftcTBHe. Mais qu'aurait fait la machine si elle avait d traduire une longue srie d'oprations*! Pour que la mthode puisse tre applique, il faut qu'il y ait, dans le voisinage immdiat du mot plurivoque, un terme spcifique monovalent permettant le choix ; 2) Supposons que la machine doive traduire en franais Der Verfasser dieses Aufsatzes, ein amerikanischer Reporter, ist ermordet worden. La classification de Wehrle fournit les numros d'ordre Verfasser Aufsatz amerikanisch Reporter ermorden 593 210 (dessus) 188 532 361 532 (article) 590 (rdaction) qui permettront la machine de traduire, correctement, L'auteur de cet article, un reporter amricain, a t assassin. Mais si le texte de dpart avait t simplement Der Verfasser dieses Aufsatzes ist ermordet worden, la machine aurait traduit L'auteur de cette rdaction a t assas sin, traduction qui peut tre errone. Un sixime procd consiste tudier les contextes dans lesquels apparaissent les termes plurivoques afin de voir s'ils ne prsentent pas des caractristiques formelles dont la machine pourrait se servir pour choisir la traduction qui convient. En analysant la graphie, la nature et la fonction grammaticales, la classe smantique et l'ordre de succes sion des mots entourant les termes polyvalents, on s'efforce de fixer en les opposant les conditions contextuelles d'apparition des diff rents sens de chaque mot plurivoque. Puis on essaye de traduire ces conditions en instructions susceptibles d'tre suivies par un calculateur lectronique. Cette tche est longue et difficile. Elle implique l'ex amen attentif de trs nombreux contextes et une analyse approfondie du champ smantique des termes polysmiques. Elle oblige en outre le linguiste dtailler en termes univoques et clairs des tats de langue saisis jusqu'ici intuitivement. Mais, lorsqu'il est men bonne fin, ce travail permet l'introduction dans la machine de rgles oprationnelles sres, et, en mme temps, largit considrablement le champ des con naissances lexicographiques. La mthode d'analyse contextuelle appar atdonc comme la plus complique, mais aussi comme la plus efficace de celle que nous avons envisages et c'est sans doute vers elle que les programmateurs de demain se tourneront chaque fois que les autres procds, plus simples, auront chou ou comporteront de trop gros risques d'erreur. yvan Lebrun. Aspirant au F.N.R.S.