Vous êtes sur la page 1sur 9

Courrier du Savoir N08, Juin 2007, pp.

59-67

UNE APPROCHE CONNEXIONNISTE POUR LA TRADUCTION AUTOMATIQUE DES TEXTES ARABE EN FRANAIS
K. REZEG 1, M. T. LASKRI2
1 Dpartement dInformatique - Universit Mohamed KHIDER Biskra BP 145, 07000 Biskra, Email rezeg_khaled@yahoo.fr 2 Dpartement dinformatique - Universit BADJI Mokhtar Annaba BP 12, 23000 Annaba, Email : mtlaskri@wissal.dz , laskri@yahoo.com

RESUME La traduction automatique des textes dorigine humaine est une application fort complexe appele apprhender les univers textuels ouverts, sans aucune contrainte quant leur nature ou leur diversit. Pour rsoudre cette problmatique, plusieurs tentatives ont t entames ayant chaque fois pour objectif lobtention dune meilleure qualit de traduction. Mais devant les diverses ambiguts de la langue naturelle, ce problme de traduction est loin dtre simple rsoudre. En effet, en absence de la matrise du contexte la plupart des phrases sont ambigus. Cest pour cette raison, que les recherches actuelles dans ce domaine se sont orientes dabord vers la matrise du sens vhicul par les phrases avant de procder au processus mme de la traduction. En effet, traduire sans comprendre mne directement vers un chec. Pour ce faire, et dans le but daugmenter la qualit de traduction, nous proposons une approche neuronale pour la gnration des diffrents cas smantiques relatifs aux diffrents composants de la phrase pour cerner dabord le sens et de gnrer ensuite la traduction dans la langue cible. Ce qui nous a permis dobtenir des rsultats satisfaisants, comparativement des travaux similaires utilisant dautres techniques. Effectivement, Les techniques connexionnistes sont robustes, elles ont la rputation doffrir des bonnes capacits, elles sont parallles et elles sappuient sur les notions de calcul rparti et de raisonnement distribu. Dans notre approche, nous avons utilis un apprentissage supervis par un rseau simplement rcurrent dELMAN (SRN) pour apprendre les techniques de traduction avec une performance similaire celle des humains, ce qui constitue une premire phase de notre systme, celle de lapprentissage. Une deuxime phase du systme constitue la partie test et gnralisation pour mesurer le degr de gnralisation du rseau par rapport ce quil appris durant la phase dapprentissage. Le rseau de neurones utilise, tient compte de la reprsentation approfondie en utilisant les cas smantiques et la reprsentation surfacique en utilisant les lments qui indiquent la forme de la phrase. MOT CLES : Traduction automatique, Apprentissage, gnralisation, rseau de neurone, cas smantique.

: . . . (1968 ) . . :

Universit Mohamed Khider Biskra, Algrie, 2007

K. Rezeg & al.

INTRODUCTION

connaissances sur le monde ou linterlocuteur [Tai-97].

Comprendre une langue trangre, traduire un texte, apprendre parler sont des exemples de tches effectues par ltre humain dune manire instantane, alors que lordinateur le plus puissant en est totalement incapable. Pour tudier ce type de tches on fait appel lapproche cognitive. Cette dernire est pluridisciplinaire. En effet, on voit linguistes, informaticiens et psychologues essayer de travailler cte cte. Elle est utilise face aux problmes complexes, mal ou peu spcifis qui ncessitent dans leur traitement une masse dinformations norme de nature diffrente. Pour leur traitement automatique une premire approche reprsente par les systmes base de rgles est utilise, mais elle a montr son inadquation avec ce type de problme. Une autre approche savoir lapproche neuronale est devenue ces dernires annes, la plus approprie ce type de problme. Les techniques connexionnistes sont gnralement associes des mcanismes dapprentissage et de gnralisation, elles sont capables de gnraliser les connaissances apprises de nouveaux exemples non appris. Contrairement un systme symbolique, le systme connexionniste se construit lui mme, ce qui reprsente son point fort et son utilisation dans les domaines mal ou peu spcifis, sa robustesse et sa rputation doffrir des bonnes capacits dapprentissage et de gnralisation .Il est parallle et sappuie sur les notions de calcul rparti et le raisonnement distribu. Dans cet article nous allons faire un survol sur le traitement automatique du langage naturel dune manire gnrale et sur la traduction automatique dune manire particulire. Puis nous passons la description de notre modle bas sur une approche connexionniste de la traduction automatique des langues naturelles. Enfin nous prsentons nos rsultats exprimentaux et nous terminons par une conclusion en spcifiant nos rsultats et en dgageant les perspectives ouvertes par le prsent travail.

LA TRADUCTION AUTOMATIQUE

Depuis 50 ans, linformatique a normment volu, mais aucune machine nest aujourdhui capable de traduire un texte avec une qualit acceptable. Les connaissances en linguistique ncessaires la traduction sont encore insuffisantes [Gro-97]. La traduction automatique est une application fort complexe qui est appele apprhender les univers textuels ouverts, sans aucune contrainte quant leur nature ou leur diversit.

3.1

La traduction

Ce domaine implique la comprhension dune langue, le transfert dans une autre langue et la gnration dans cette dernire. La complexit de la traduction automatique est due la langue qui est considre comme un organisme vivant non un simple lexique, et le degr disomorphisme entre les langues varie considrablement [Nao-02]. Il sagit dun systme dexpression et de communication commune un groupe social, possdant une culture et une civilisation donne. Les diffrentes langues ne rfrent pas un mme espace de sens mais plusieurs espaces, diffrents par leur culture et leur civilisation. Chaque langue a sa perception de la ralit dcrite et son propre dcoupage de la ralit. Ces diffrents dcoupages font que la correspondance de langue langue est gnralement imparfaite, du point de vue sens, et bien souvent divergente de la structure de surface [Gen-94]. Tout texte crit dans une langue naturelle comporte une part dambigut. On dit quun nonc est ambigu sil a plusieurs sens plausibles. Ils existent cinq types dambigut : Lambigut lexicale ; Lambigut de structure de surface ; Lambigut de structure profonde ; Lambigut smantique ; Lambigut Intrinsque.

LE TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL (T.A.L.N.)

Le T.A.L.N est le domaine de linformatique linguistique applique concernant le traitement du langage naturel par ordinateur. Les applications T.A.L.N tournent autour de la communication Homme-Machine et celles relatives la comprhension automatique des textes [Arc-95]. Un systme de Traitement Automatique du Langage Naturel est compos de trois modules essentiels savoir [Las-95] [Mef-00] Le module de comprhension (analyseur) ; Le module dinterprtation ; Le module de gnration

La traduction dun texte nest pas limite une transposition de langue langue mais aussi culturelle. Donc toute prtention une traduction totale et exacte est davance voue lchec et que la traduction est approximative.

3.2

La traduction automatique

Vu la complexit des connaissances ncessaires un systme de comprhension automatique du langage naturel. On parle usuellement dlments morphologiques, syntaxiques, smantiques, pragmatiques, contextuels,

La traduction automatique est lapplication de linformatique la traduction de textes en langage naturel. Les systmes de la traduction automatique sont traits suivant plusieurs mthodes savoir : 1. La mthode directe : chaque mot, syntagme de la langue

60

Une approche connexionniste pour la traduction automatique des textes Arabe en Franais source, est li directement lunit correspondante de la langue cible [Int-01]. 2. La mthode par transfert : dans cette mthode nous devons passer par lanalyse qui dcrit de manire linguistique le document source; puis nous appliquons les rgles de transfert qui dcrivent les quivalences linguistiques et structurelles entre les langues. Enfin nous passons la gnration qui utilise les donnes linguistiques de la langue cible et produit un document en langage naturel cible [Int-01]. 3. La mthode inter langue par langage pivot : dans cette mthode il y deux tapes : Le texte source est analys et reprsent dans les termes conformes aux rgles du langage pivot qui est un langage neutre, artificiel, ou commun plusieurs langues; la gnration du texte en langue cible sopre partir de cette reprsentation "pivot"[Int-01].

DESCRIPTION DU SYSTEME

Lide de base de notre modle est la suivante : Toute phrase a : 7. Une reprsentation interne ou bien approfondie qui dsigne le sens ; cette reprsentation est assure par un formalisme de reprsentation interne universel pouvant dcrire nimporte quelle ide indpendamment de sa structure surfacique. Dans notre cas ce formalisme est bas sur la thorie des cas smantiques. 8. Une reprsentation surfacique : le sens est indpendant de toute structure de surface dune phrase mais cette dernire est trs indispensable pour lexprimer. Cette reprsentation indique la forme de la phrase qui est dtermine par un ensemble dlments comme par exemple : le genre du nom : fminin/masculin, le temps du verbe : Prsent /pass / futur.. Notre objectif vise dvelopper un systme de traduction automatique qui conserve le sens et donne une reprsentation surfacique similaire celle de la phrase en entre avec performance. Pour atteindre cet objectif, nous avons mis en uvre un Traducteur Automatique des Langues Naturelles par une Approche Connexionniste (T.A.L.N.A.C.) bas sur les cas smantiques pour la gnration du sens et en faire une gnration dans une langue cible. Nous utilisons un apprentissage supervis par un rseau simplement rcurrent (SRN) pour apprendre les techniques de traduction avec une performance similaire celle des humains. Notre systme sert traduire une phrase en langue source (arabe) la langue cible (franaise) avec une approche neuronale.

3.3

Les logiciels de traduction

Un logiciel de traduction est une application informatique qui permet d'obtenir de faon automatique une traduction de tout type de textes (lettres, rapports, articles, sites web) d'une langue (source) vers une autre langue (cible). Un logiciel de traduction est compos de : 4. Rgles linguistiques : le moteur de traduction est le cur technologique du logiciel de traduction. Les tapes de traduction automatique sont les suivantes : analyse du texte source application de rgles linguistiques transformation et de dsambigusation gnration de la traduction de

4.1

Architecture du systme
Phrase en entre en langue source

Le systme T.A.L.N.A.C a larchitecture suivante :


Mot + Code dentre+ code de sortie

Plus ces rgles sont fines plus la traduction obtenue est prcise [Int-02]. 5. Dictionnaires : les dictionnaires intgrs aux logiciels de traduction ne sont pas seulement une liste de mots ou d'expressions avec leur traduction. Chaque mot ou expression doit tre dfini avec des informations linguistiques (morphologie, smantique, syntaxe) dans la langue source puis dans la langue cible. Ces informations sont ensuite gres par le moteur de traduction. Plus les dictionnaires sont riches, plus la traduction obtenue est prcise [Int-02]. 6. L'interface : l'interface des logiciels de traduction a un rle important, puisque c'est elle qui facilite la ralisation et l'exploitation de la traduction. En effet, une fois que le texte est traduit l'utilisateur a besoin de le relire, de le rviser et de le personnaliser pour l'adapter son style, son activit, ses besoins. Ce besoin de rvision et d'adaptation dpend de l'utilisation finale de la traduction (comprhension, diffusion en interne, publication externe) [Int-02].

Module de construction de Corpus dapprentissage

Module de construction de frames et de prtraitement

Rgles morphologiques

Apprentissage Module de test

Dictionnaire + Primitives + Rgles de Normalisation

Rseau de neurone Module dinterprtation du code de sortie Ss systme dapprentissage


Ss systme de test Et de gnralisation

La phrase en langue cible

Figure 1 : Architecture du T.A.L.N.A.C

4.2

Topologie du rseau

Dans notre modle nous avons utilis un rseau simplement rcurrent dELMAN qui a t utilis pour les nombreuses

61

K. Rezeg & al. applications du traitement automatique du langage naturel [Tou-92], [Elm-90], [JW-90], [Berg-92], [Jod-93] avec un apprentissage supervis en utilisant lalgorithme de rtropropagation et une reprsentation semi distribue manuelle dfinie comme suit :
4.2.1 La couche dentre

d). Les neurones reprsentant la position du mot dans la phrase dentre : Nous avons utilis 08 positions Indice Position 34 Premire 35 Deuxime 36 Troisime 37 Quatrime 38 Cinquime 39 Sixime 40 Septime 7 Septime 14 Futur 41 Huitime 8 Huitime 15 Impratif

La couche dentre comporte les neurones suivants : a). Les neurones reprsentant les cas smantiques : le tableau suivant contient le rle et lindice du neurone correspondant Rle Action Agent Objet Instrument Manire Patient Lieu Temps Etat Source Destination Fournisseur Bnficiaire But Indice 1 2 3 4 5 6 7 8 9 10 11 12 13 14

e) Un neurone indiquant la forme de la phrase : Une phrase est soit passive (0) ou active (1). Donc Cette couche contient 42 neurones.
4.2.2 La couche de sortie

Cette couche contient les neurones suivants : a). Les neurones reprsentant la position du mot : On avons utilis 08 positions Indice Position 1 Premire 2 Deuxime 3 Troisime 4 Quatrime 5 Cinquime 12 Pass 6 Sixime 13 Prsent

b). Les neurones reprsentant laspect surfacique de la phrase : le tableau suivant prsente lindice du neurone et laspect surfacique associ. Indice Aspect 9 Nombre 10 Genre 11 Dfini

b). Les neurones reprsentant les primitives des verbes selon la classification de Shanck : cet ensemble de primitives sera utilis dans lopration de translation du verbe de la langue source (arabe) la langue cible (franaise) (ces primitives seront utiliss dans la structure du dictionnaire). Le tableau suivant prsente lindice du neurone et la primitive associe : c). Les neurones reprsentant laspect surfacique de la phrase. Le tableau suivant prsente lindice du neurone et laspect surfacique associ. Indice Aspect 27 Nombre 28 Genre 29 Dfini 230 31 32 33

Donc Cette couche contient 15 neurones. Notre tche consiste lire une phrase mot par mot et le rseau dcide la position et les lments spcifiant laspect surfacique du mot. Par exemple la phrase : sera traduite comme suit : Lenfant mange un gteau. Notre rseau possde la topologie suivante :

62

Une approche connexionniste pour la traduction automatique des textes Arabe en Franais
La position et les lments spcifiant laspect surfacique du mot

Sj : Sortie du neurone j 4-Formule de calcul de lerreur commise de la couche de cache :

Couche de sortie

Sens de la propagation

Couche Cache

Copie de la couche Cache de ltat i

Couche dentre

Couche Contexte

ai =wij*a j* f(Ii)
j =1

. (5)

j = 1..nombre de neurone de la couche de sortie


Mot I+1 Mot I-1 Mot i Initialisation du contexte chaque dbut de phrase

i = 1..nombre de neurone de la couche cache b.2. Les paramtres dapprentissage : Pour effectuer la phase dapprentissage nous avons utilis un ensemble de paramtres qui seront choisis dune manire exprimentale. Ces paramtres sont : 1. Pas dapprentissage = 0.6 ; 2. Nombre de neurones de la couche cache = 25 ; 3. Lerreur dsire : Elle est variable, Tant quil y a stagnation du taux de reconnaissance sur le corpus dapprentissage nous devons la diminuer.

Mettre le mot I Dans lentre

Pointeur sur le mot i

Figure 2 : Topologie et fonctionnement du rseau

Nous avons une fonction de propagation de type sigmode f(x)=1/(1+e-x) .(1)

4.3

Sous systme dapprentissage

Ce sous systme sert mettre jour des poids des connexions partir dun ensemble de donnes dentranement jusqu lobtention du comportement dsir. Il est compose de : a). Le module de construction de corpus dapprentissage : Ce dernier sert assurer la cohrence du corpus dapprentissage en appliquant un ensemble de rgles par exemple : Un argument ne peut porter quun cas et une phrase simple ne peut contenir un mme cas quune fois au plus b). Le module dapprentissage : lapprentissage est effectu en utilisant les fonctions suivantes : 1- Formule de calcul de lerreur en sortie: Permet de calculer lerreur entre la sortie dsire (cible) et la sortie calcule.

4.4

Sous systme de test ou de gnralisation

A travers ce sous systme nous valuons notre rseau qui dpend de sa capacit de gnralisation de nouvelles phrases et nous enrichirons notre corpus dapprentissage. Il est compos des modules suivants : a). Module de construction de Frames et de pr traitement : ce module sert : 1. introduire la phrase sous forme de frame dont les slots ayant les noms des cas smantiques sont remplir par les diffrents constituants de la phrase ; 2. effectuer un ensemble de traitement pour dduire le code dentre dune manire automatique. b). Module de test : ce module sert activer le rseau pour trouver le code de sortie en exploitant le code dentre.

Erreur

( Si Yi)
i =1

(2) N :nombre de neurone en sortie 2- Formule de calcul de lerreur commise sur le neurone i : ai = 2*(Si-Yi)f(Ii) . (3) i = 1..nombre de neurone de la couche de sortie c). Module dinterprtation : ce module sert interprter les rsultats du module de test. Linterprtation est effectue travers :

1. La recherche de la racine du mot : Pour trouver la racine du mot nous appliquons un ensemble doprations (enlvement de prfixe, enlvement de suffixe,). Ce dernier doit exister dans le dictionnaire pour faire la 3- Formule dajustement des valeurs des poids : Permet dajuster translation dans la langue cible. les valeurs des poids synaptiques entre les neurones. 2. La prsentation de la phrase en langue cible : cette (4) Wij = * ai * Sj opration reprsente le rsultat final de la traduction. Elle est assure travers lapplication des rgles : pas dapprentissage propres la langue cible sur des informations tires du ai : Erreur commise sur le neurone i dictionnaire. 63

K. Rezeg & al. 4.5 Le dictionnaire 5.1 Rsultats des test de lapprentissage

Pour assurer une translation des mots dune manire correcte (acceptable) on doit utiliser un dictionnaire bas sur le principe des racines trilitres dont la structure nous donne la possibilit de bien choisir lquivalent convenable dans la langue cible. Notre dictionnaire a la structure suivante : 1. Racine du mot : ce champ doit contenir la racine du mot ou bien du verbe dans la langue source. 2. Le schme du mot : ce champ doit contenir le schme du mot ou bien du verbe dans la langue source. 3. Le mot en langue source : ce champ doit contenir le mot ou bien le verbe dans la langue source. 4. Le rle smantique : ce champ a un rle important dans la validit de lopration de translation du mot de la langue source la langue cible, mais comme notre travail concerne les phrases qui contient un seul verbe nous remplaons le rle smantique pour les mots dont le rle smantique est une action par leur primitive. 5. Le type : ce champ contient le type du mot en langue source par exemple : Verbe, nom fminin, nom masculin, 6. Groupe du verbe : indique le groupe de verbe en langue cible, cette information est trs importante pour bien conjuguer le verbe par exemple : premier groupe / deuxime groupe ; 7. Auxiliaire du verbe : indique lauxiliaire du verbe en langue cible, cette information est trs importante pour bien conjuguer le verbe par exemple : tre / Avoir; 8. Lquivalent : ce champ contient le mot quivalent du mot en langue source dans la langue cible. 9. Le pluriel de lquivalent : ce champ contient le pluriel du mot quivalent du mot en langue source dans la langue cible.

Les rsultats de test du processus dapprentissage sont prsents dans le tableau suivant dont les colonnes sont : Erreur Favoris : seuil derreur dapprentissage permit ; Erreur de corpus : erreur dapprentissage calcule Temps en Seconde : temps ncessaire pour complter lapprentissage ; Nombre de chargement de corpus (NB) : Indique le nombre de fois de chargement des corpus dapprentissage pour complter lapprentissage. Taux dapprentissage : reprsente le rsultat dapprentissage.

Dans notre cas nous voyons que le facteur temps est lie la vitesse de la machine, pour cette raison nous ajoutons un autre paramtre dvaluation de notre apprentissage savoir le nombre de fois de chargement du corpus dapprentissage. (Ltape de Chargement des phrases partir du fichier de corpus dapprentissage est correspondante ltape 2 de lalgorithme de la rtropropagation (Prsentation dun couple (entre, sortie dsire)). Les rsultats obtenus pour notre propre corpus sont indiqus dans le tableau 1.

5.2

Interprtation des rsultats dapprentissage

Daprs les rsultats de processus dapprentissage des diffrents corpus utiliss nous pouvons tirer les conclusions suivantes : 1. Vu que les sorties de notre systme sont de natures diffrentes (position, nombre, genre, dfini, temps), nous jugeons que les taux dapprentissage sont acceptables pour tous les types de corpus dapprentissage (Plus de 90 %). Notre rseau converge gnralement pour des intervalles de temps acceptables.

2.

RESULTATS EXPERIMENTAUX
5.3

Dans un systme neuronal les rsultats exprimentaux reprsentent un lment primordial pour tester sa validit. Pour effectuer le test, nous avons procd comme suit : 1. construction de notre propres corpus : Cette phase reprsente la plus lente phase, elle ncessite une coordination entre linguistes et informaticiens pour arriver former un corpus complet ; adaptation du corpus dapprentissage exploit dans le systme de la gnration dune reprsentation du sens en langue arabe base sur les cas smantique [Mef-00] le lancement de lapprentissage : Pour notre cas cette phase ncessite peu de temps. Test et gnralisation : Durant cette phase nous avons utilis des corpus de gnralisation de diffrentes natures (02 mots, 03 mots,).

Rsultats des test de la gnralisation

2.

3. 4.

Dans le but de tester les rsultats de la phase de lapprentissage, nous avons effectu une srie de test avec des corpus de diffrentes tailles (02 mots, 03 mots, 04 mots, de tailles variables) dont le nombre de phrases de chaque corpus gale 60 phrases sauf dans le cas de phrases de corpus de tailles variantes nous avons utilis le corpus du systme du rseau simplement rcurrent pour la gnration dune reprsentation du sens dune phrase en langue arabe base sur les cas smantiques [Mef-00] (80 phrases). Les rsultats obtenus dans les tests de la gnralisation sont indiqus dans le tableau 2.

64

Une approche connexionniste pour la traduction automatique des textes Arabe en Franais

Tableau 1 : Tableau rcapitulatif du processus dapprentissage en variant la taille de corpus

Erreur Favoris 0.20 0.19 0.18 0.17 0.16 0.15 0.14 0.13 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05

Corpus de 60 phrases Erreur 0.1948 0.1897 0.1799 0.1613 0.1560 0.1468 0.1399 0.1294 0.1138 0.1097 0.0960 0.0897 0.0755 0.0687 0.0596 0.0497 Temps 1.71 2.30 2.42 3.51 2.86 3.13 4.12 6.59 5.71 5.88 12.47 11.04 9.34 9.28 11.20 67.56 NB 12 16 17 25 20 22 29 46 40 41 87 77 65 65 78 Taux

Corpus de 70 phrases Erreur Temps 1.98 3.24 3.74 3.51 4.62 2.85 4.94 6.43 9.17 5.28 10.54 6.98 11.97 20.05 18.07 118.97 NB 12 19 22 21 27 17 29 38 54 31 62 41 70 Taux 89.34 0.1934 89.34 0.1889 87.30 0.1799 89.84 0.1657 91.37 0.1589 90.86 0.1474 90.86 0.1338 92.38 0.1297 92.89 0.1198 91.37 0.1099 94.92 0.0938 95.43 0.870 92.38 0.0797 93.90 0.0684 93.90 0.0596

Corpus de 80 phrases Erreur Temps 2.69 3.13 4.12 4.83 5.66 6.81 6.59 7.85 9.62 15.98 24.06 25.59 40.48 35.92 75.58 71.79 NB 14 16 21 25 29 35 34 40 49 82 Taux 87.23 0.1989 91.06 0.1896 86.38 0.1791 91.48 0.1671 91.91 0.1591 88.51 0.1489 91.06 0.1399 90.21 0.1294 91.06 0.1199 91.91 0.1098 92.34 0.0996 91.06 0.0898 92.34 0.0785

Corpus de plus 90 phrases Erreur Temps 3.46 3.85 4.67 4.39 5.60 7.31 9.55 11.04 17.03 22.14 21.42 53.93 87.39 84.04 58.11 87.93 NB 14 16 19 18 23 30 29 45 69 90 87 Taux 89.73 88.56 88.56 88.85 82.99 90.61 90.90 91.20 93.54 93.54 94.13 88.88 0.1979 88.51 0.1888 90.00 0.1797 90.74 0.1685 91.74 0.1573 91.85 0.1499 88.14 0.1390 91.48 0.1295 92.22 0.1199 94.07 0.1100

123 93.70 0.1000 131 94.44 0.0895 207 97.40 0.0798 184 95.92 0.0699 387 94.81 0.0580 368 97.03 0.0495

219 94.72 354 95.30 342 95.89 237 96.18 359 95.30

117 94.89 0.0699 106 95.74 0.0599 695 96.59 0.0453

469 97.46 0.0497

Tableau 2 : Tableau des rsultats des tests de la gnralisation en variant les tailles des phrases

Nature du corpus Taux de reconnaissances

Phrases Phrases Phrases 02 mots 03 mots 04 mots 96.66 93.33 88.33

Phrases de taille variable 87.50

lalgorithme de la rtropropagation sur les donnes de corpus dapprentissage est effectue travers la fiche suivante :

5.4

Interprtation des rsultats de gnralisation

Dune manire gnrale les rsultats de la phase de gnralisation sont satisfaisants de telle manire que les positions des diffrents mots de la phrase traduite sont bien calcules et dans la majorit des cas nous avons obtenu des reprsentations surfaciques justes.

IMPLEMENTATION

Dans la phase dimplmentation du notre modle nous avons utiliss exploits le langage de programmation DELPHI 05 et son module de bases de donnes (paradox) sous Windows. Notre modle est exploit travers une interface principale assurant les fonctionnalits de base comme lapprentissage et la gnralisation ainsi que les autres fonctionnalits secondaires comme la mise jour du dictionnaire, le help,..

Figure 3 : Fiche dapprentissage

Dans notre travail nous avons exploit de lalgorithme de la rtropropagation sur les donnes de corpus dapprentissage comme suit : Pour chaque erreur (de 0.2 0.05) faire 1. 2. Initialisation du rseau ; Chargement des phrases partir du fichier de corpus dapprentissage ;

6.1

Fiche dapprentissage

Aprs la construction du corpus dapprentissage, lopration dapprentissage qui consiste lapplication de 65

K. Rezeg & al. 3. 4. 5. Application de lalgorithme de la rtropropagation sur les donnes de corpus Calcul de taux de reconnaissance Si ((lerreur de corpus est suprieur lerreur (celle favoris)) ou (le nombre de chargement a partir du fichier du corpus <=5000)) aller 2.

CONCLUSION

A travers cet article nous avons propos un systme de traduction automatique bas sur les cas smantiques en utilisant un apprentissage supervis par un rseau simplement rcurrent (SRN). Nous pouvons dire que la ralisation de systme est fortement lie aux points suivants : 1. Il faut bien choisir un corpus dapprentissage complet qui permet davoir un rseau adquat ; Il faut arriver un taux de reconnaissance soit dans la phase dapprentissage ou dans la phase de gnralisation trs lev, dans le cas contraire il faut faire recours soit aux lments surfaciques, soit au corpus dapprentissage.

6.2

Fiche de la gnralisation (traduction des phrases) 2.

A travers cette fiche nous effectuons lintroduction des constituants de la phrase chacun dans le slot du cas smantique correspondant, la traduction de la phrase et lamliorer la qualit de la traduction. Les rsultats peuvent tres affichs sous forme de texte comme il est indiqu dans la figure 05.

Les perspectives de notre travail se rsument en la ralisation dun systme de traduction automatique universel en dveloppant : 1. 2. 3. Un rseau de neurone universel ou nous prenons les lments de laspect surfacique comme paramtres ; Des modules de pr traitement propres aux langues ; et dinterprtation

Un module de transformation des phrases complexes qui contiennent plus quun verbe) des phrases simples.

REFERENCES
[1] [Arc-95] Dominique ARCHAMBAULT, Proposition de rseaux neuromimtiques par le traitement du langage naturel Thse de Doctorat 3eme Cycle 1995
Figure 4 : Fiche de gnralisation

[2] [Beg-92] Geroge BERG , A connexionist parser with recursive sentence structure and lexical disambiguisation AAAI-92 American Association for artifical intelligence [3] [Elm-90] Jeffry ELMAN , Finding Time Cognitive science 14/179-211 1990 Structure in

[4] [Gen-94] G.GENELEX, Rapport sur la couche smantique. Projet Eureka Genelex. Copyright ASSTRIL, GSI-Erli , IBM France, Sema Group 1994 [5] [Gro-97] M.GROSS, La traduction automatique, dans les langues du monde , dossier hors srie pp. 126130 1997 [6] [Int-01] Traduction - Terminotique - Lexicographie sur le site de l'Observatoire Wallon de l'Info route & du Traitement Informatique des Langues http://www.owil.org/traduc.htm#TA [7] [Int-02] Livre Blanc Traduction, http://www.softissimo.com/products/infotrad.htm
Figure 5 : Fiche daffichage des rsultats sous forme de texte

[8] [Jod-93] Jean Franois JODUIN , Rseaux de neurones et traitement de langage naturel : Etude des rseaux de neurones rcurrents et de leurs reprsentations, Thse de Doctorat de luniversit PARIS XI ORSAY 1993

66

Une approche connexionniste pour la traduction automatique des textes Arabe en Franais
[9] [Las-95] Mohamed Tayeb LASKRI et R. MAHDJOUBI, Traitement automatique de la langue arabe en vue dune traduction automatique des textes vers la langue franaise. Proc. 3mes Journes Internationales de traitement de donnes textuelles JADT95. Rome, Italie, 11-13 Dcembre 1995. [10] [Mef-00] Karima MEFTOUH, Un rseau simplement rcurrent pour la gnration dune reprsentation interne du sens en langue arabe base sur les cas smantiques Mmoire de Magister, Universit de Annaba 2000 [11] [Nao-02] NAOUI Oum El Kheir, Analyse automatique avec dun groupe nominal (application la traduction automatique) Mmoire de Magister, Universit Es-senia , Oran 2002 [12] [Tou-92] Clause TOUZET, Les rseaux de Neurones artificiels, Introduction au connexionnisme. Cours, Exercices et travaux pratiques Juillet 1992 [13] [Tai-97] Nacera TAIBI Ne MELLITI, Contribution ltude du traitement automatique des erreurs dans un texte crit en arabe Mmoire de magister ENSLSH 1997

67