Vous êtes sur la page 1sur 12

21me Traitement Automatique des Langues Naturelles, Marseille, 2014

[O-T.2]

Etude de limpact de la translittration de noms propres sur la qualit de


lalignement de mots partir de corpus parallles franais-arabe

Nasredine Semmar1 Houda Saadane2


(1) Institut CEA LIST, DIASI, Laboratoire Vision et Ingnierie des Contenus, CEA Saclay Nano-INNOV,
91191 Gif-sur-Yvette Cedex
(2) LIDILEM, Universit Stendhal-Grenoble III, Domaine Universitaire, 1180, avenue centrale, 38400 Saint
Martin d'Hres
nasredine.semmar@cea.fr, houda.saadane@e.u-grenoble3.fr

Rsum. Les lexiques bilingues jouent un rle important en recherche d'information interlingue et en traduction

automatique. La construction manuelle de ces lexiques est lente et coteuse. Les techniques dalignement de mots sont
gnralement utilises pour automatiser le processus de construction de ces lexiques partir de corpus de textes
parallles. Lalignement de formes simples et de syntagmes nominaux partir de corpus parallles est une tche
relativement bien matrise pour les langues criture latine, mais demeure une opration complexe pour lappariement
de textes nutilisant pas la mme criture. Dans la perspective dutiliser la translittration de noms propres de larabe
vers lcriture latine en alignement de mots et dtudier son impact sur la qualit dun lexique bilingue franais-arabe
construit automatiquement, cet article prsente, dune part, un systme de translittration de noms propres de larabe
vers lcriture latine, et dautre part, un outil dalignement de mots simples et composs partir de corpus de textes
parallles franais-arabe. Le lexique bilingue produit par loutil d'alignement de mots intgrant la translittration a t
valu en utilisant deux approches : une valuation de la qualit dalignement laide dun alignement de rfrence
construit manuellement et une valuation de limpact de ce lexique bilingue sur la qualit de traduction du systme de
traduction automatique statistique Moses. Les rsultats obtenus montrent que la translittration amliore aussi bien la
qualit de lalignement de mots que celle de la traduction.

Abstract. Bilingual lexicons play a vital role in cross-language information retrieval and machine translation. The
manual construction of these lexicons is often costly and time consuming. Word alignment techniques are generally used
to construct bilingual lexicons from parallel texts. Aligning single words and nominal syntagms from parallel texts is
relatively a well controlled task for languages using Latin script but it is complex when the source and target languages
do not share the same written script. A solution to this issue consists in writing the proper names present in the parallel
corpus in the same written script. This paper presents, on the one hand, a system for automatic transliteration of proper
names from Arabic to Latin script, and on the other hand, a tool to align single and compound words from FrenchArabic parallel text corpora. We have evaluated the word alignment tool integrating transliteration using two methods: A
manual evaluation of the alignment quality and an evaluation of the impact of this alignment on the translation quality by
using the statistical machine translation system Moses. The obtained results show that transliteration of proper names
from Arabic to Latin improves the quality of both alignment and translation.
Mots-cls : Lexique bilingue, translittration, alignement de mots, traduction automatique statistique, valuation.
Keywords: Bilingual lexicon, transliteration, word alignment, statistical machine translation, evaluation.
1

Introduction

Les lexiques bilingues jouent un rle important dans les applications de Traitement Automatique des Langues (TAL)
telles que la Recherche d'Information Interlingue (RII) et la Traduction Automatique (TA). La construction manuelle de
ces lexiques est lente et coteuse. C'est la raison pour laquelle depuis quelques annes de nombreux travaux ont fait
appel aux techniques dalignement pour automatiser le processus de construction de lexiques bilingues. Ces travaux ont
montr que lalignement de formes simples et de syntagmes nominaux partir de corpus parallles est une tche
relativement bien matrise pour les langues criture latine. En revanche, lappariement de textes parallles nutilisant
pas la mme criture demeure une opration complexe. Ce qui a conduit plusieurs chercheurs exploiter la transcription

268

NASREDINE SEMMAR ET HOUDA SAADANE

[O-T.2]

ou la translittration de certains mots des textes parallles comme points dancrage pour amliorer la mise en
correspondance bilingue. La transcription consiste substituer chaque son ou chaque phonme dun systme
phonologique, un graphme ou un groupe de graphmes dun systme dcriture, tandis que la translittration consiste
substituer chaque graphme dun systme dcriture un autre graphme ou un groupe de graphmes dun autre systme
dcriture, indpendamment de la prononciation.
Dans la perspective dvaluer limpact de lutilisation de la translittration de noms propres sur la qualit dun lexique
bilingue franais-arabe construit automatiquement, nous prsentons dans cet article, dune part, un systme de
translittration de noms propres de larabe vers lcriture latine et un outil dalignement de mots simples et composs
partir de corpus de textes parallles franais-arabe, et dautre part, les rsultats dvaluation de ce lexique bilingue selon
deux approches (intrinsque et extrinsque) et utilisant deux corpus diffrents (ARCADE II et OPUS).
La suite de l'article est organise comme suit : dans la section 2, nous prsentons l'approche de la translittration des
noms propres crits en arabe vers l'criture latine. Puis nous dcrivons dans la section 3, l'outil dalignement de mots
partir dun corpus de textes parallles franais-arabe en nous focalisant plus particulirement sur ltape dappariement
de cognats qui exploite la translittration. La section 4 sera consacre aux exprimentations effectues ainsi que la
prsentation des rsultats obtenus et la section 5 conclut notre tude et prsente nos travaux futurs.

Translittration

Les volutions rapides des nouvelles technologies dinformation et de communication sont accompagnes d'un essor
important de la quantit et la diversit dinformation gnre et manipule notamment celle disponible sur le web. Cette
dernire, tant destine un public large et vari, est transcrite dans diffrentes langues ce qui a fait merger la ncessit
dinternationaliser les contenus afin de permettre un partage de donnes le plus large possible, entre des utilisateurs
manipulant des langues diffrentes. Ainsi, les techniques de translittration trouvent tout leur intrt afin de rendre cette
perspective de partage possible.

2.1

Etat de lart

Plusieurs travaux de recherche sur la transcription et la translittration ont t mens ces dernires annes. Nous citons
titre dexemple les travaux de (Jiang et al., 2007) pour la translittration des entits nommes (ENs) du chinois vers
l'anglais, qui utilisent un modle d'entropie maximale pour dterminer la translittration candidate, en se basant sur la
similarit phontique avec l'EN dans la langue source. Ces mthodes fonctionnent bien avec les entits nommes qui
sont traduites phontiquement, mais ce n'est pas toujours le cas. Pour ce type dENs, il est plus recommand d'explorer
les similitudes smantiques entre les ENs dans les diffrentes langues. Ce constat a t approuv dans les travaux de
(Huang et al., 2004) qui combine les similitudes smantiques et phontiques. Les exprimentations effectues montrent
que cette approche ralise une prcision de 67%. Par ailleurs, (Huang et al., 2003) ont travaill sur l'extraction des
paires d'ENs hindi-anglais grce l'alignement d'un corpus parallle. Des paires chinois-anglais sont d'abord extraites
l'aide d'une programmation dynamique. Ce modle chinois-anglais est alors adapt l'hindi-anglais de manire itrative,
en utilisant les paires hindi-anglais d'entits nommes dj extraites pour l'amorage du modle. On trouve aussi des
propositions de systmes visant attribuer une seule translittration un nom donn : cest le cas du modle gnratif
propos pour les noms dorigine anglaise crits en japonais vers le systme dcriture latin (Knight, Graehl, 1997). Cette
approche a t adapte par (Stalls, Knight, 1998) la faon dont un nom anglais crit en arabe est transcrit en anglais.
Le systme de gnration de translittrations sappuie sur un dictionnaire dapprentissage et ne prend pas en compte les
prononciations non rpertories ou inconnues du dictionnaire. Pour pallier cette limitation, certains travaux utilisent un
modle non supervis. Cest le cas du systme de translittration des noms anglais vers larabe propos par (Abduljaleel,
Larkey, 2003). Ce systme est fond sur le calcul de la forme la plus probable, cense tre la forme correcte. Or cette
hypothse nest pas vrifie pour tous les pays arabes ni pour tous les dialectes. (Alghamdi, 2005) a propos un systme
de translittration en criture anglaise des noms arabes voyells pour contourner la difficult de la prononciation et le
problme des variantes dialectales. Ce systme est bas sur un dictionnaire de noms arabes dans lequel la prononciation
est rgle au moyen de voyelles ajoutes aux noms rpertoris, avec indication en vis vis de leur quivalent en criture
anglaise. Cependant, cette approche, non seulement ne prend pas en compte les prononciations non rpertories dans le
dictionnaire, mais, de plus, elle est normative par le fait quelle ne propose quune seule translittration pour un nom
donn.
En conclusion, la plupart des travaux actuels ne prennent pas en compte la complexit du problme de la transcription et
de la translittration qui concerne aussi bien loralit que le modle scriptural des systmes linguistiques impliqus. En
effet, trs peu de travaux prennent en considration le lien entre phonologie compare et transcription interlingue, entre

269

[O-T.2]

ETUDE DE LIMPACT DE LA TRANSLITTERATION DE NOMS PROPRES SUR LA QUALITE DE LALIGNEMENT DE MOTS

graphmatique compare et translittration multilingue et entre dialectologie arabe et systmes de translittration latins.
Les rares tudes qui proposent une solution prenant en compte partiellement lune de ces problmatiques sont ddies
lidentification automatique de lorigine du locuteur partir de son dialecte (Guidre, 2004) (Barkat-Defradas et al.,
2004). Dans le cadre de cette tude, notre objectif est de proposer un systme automatique de translittration qui tient
compte du lien entre phonologie, graphmatique et dialectologie, dans la transcription des noms et des prnoms arabes
vers lcriture latine et plus particulirement pour le franais et l'anglais (Pouliquen, Steinberger, 2007).

2.2

Approche propose pour la translittration de noms propres de larabe vers lcriture latine

Afin de renvoyer la totalit des cas possibles de la translittration d'un nom arabe en criture latine, nous nous sommes
intresss aux questions et aux problmes lis la translittration base sur le systme phontique de l'arabe littraire
ainsi que sur la majorit des familles de dialectes, en prenant en compte des nombreuses variantes rgionales et locales.
Nous avons commenc par recenser les translittrations existantes pour chaque lettre de lalphabet arabe standard depuis
les normes et usages observs sur le Web et sur les dictionnaires de lieux gographiques de GeoNames. Nous avons
constat qu'au sein du mme dictionnaire gographique un nom propre peut avoir plusieurs translittrations diffrentes.
Cette investigation empirique est base sur un corpus de textes qui a t recueilli dans les diffrentes langues cibles
vises par le translittrateur. Elle a permis de constituer une librairie des quivalents graphmatiques utiliss dans les
crits utilisant lalphabet latin. Ci-dessous quelques quivalences graphmatiques tablies partir de cette tude sur
diffrents corpus :
La lettre  est transcrite en S dans DIN-31635, Sh selon UN, EI & ALA-LC, suivant ISO/R 233 et (ch) dans
le corpus d'apprentissage.
La lettre est transcrite en dans les diffrentes normes de translittration et en z, dh et d dans le corpus
d'apprentissage.
Nous avons dfini un certain nombre de rgles syntaxiques et contextuelles afin de recenser les diffrentes
translittrations. Parmi les rgles syntaxiques que nous avons considres dans notre translittration, le fait que le nom
arabe ne prend pas en compte la dernire voyelle courte ou tanwin (marqueur du cas) la fin du mot. Par exemple :

, le prnom
est transcrit par Mohammed et non pas Mohammedan. Le module de translittration de
lcriture arabe vers lcriture latine tient compte du lien entre la phonologie, la graphmatique et la dialectologie en
utilisant un certain nombre de rgles issues dune tude exprimentale. Il est fond sur les automates tats finis
pondrs de type transducteurs. Nous avons utilis loutil HTFST qui est constitu d'une interface base sur la librairie
open-source OpenFst (Reley et al., 2009). Cet outil sert crer les automates de rgles morphologiques, syntaxiques, et
autres, et les appliquer ensuite des textes. HTFST possde aussi une syntaxe propre aux rgles de replacements
parallles et contextuelles offrant les mmes possibilits que celles de XFST (Xerox Finite State Tool) (Beesley,
Karttunen, 2003) implmentes en utilisant la librairie FOMA (Hulden, 2009). Le fonctionnement de notre approche de
translittration est dtermin par la nature du mot fourni en entre : lautomate passe dtat en tat suivant les transitions,
la lecture de chaque lettre arabe de lentre. La Figure 1 dcrit l'organigramme de notre module de translittration:

FIGURE 1: Organigramme du fonctionnement du translittrateur de larabe vers le latin

270

NASREDINE SEMMAR ET HOUDA SAADANE

[O-T.2]

A lissue de la lecture, un premier automate traite lentre de la manire suivante: si l'entre est voyelle, il supprime les
voyelles avant de translittrer le nom; si l'entre est non-voyelle, il procde directement la translittration du nom.
Nous supprimons les voyelles afin de gnrer toutes les translittrations franaises et anglaises possibles. Ceci est d
l'influence des dialectes sur les voyelles o les translittrations des mots issus du dialecte du Macherek sont orientes
vers la translittration anglaise et ceux du dialecte du Maghreb sont plus orientes vers la translittration franaise.
Enfin, le module produit en sortie une liste trie de noms arabes crits en caractres latins.
Le cur du systme de translittration est constitu de rgles contextuelles qui permettent le remplacement des lettres
arabes en lettres latines ainsi que l'ajout des voyelles latines, en prenant en compte les lettres situes devant et/ou
derrire la lettre ajouter ou remplacer. Ces rgles visent aussi rendre compte de la manire la plus prcise possible
des formes observes en entre : Sagit-il dune kunya ? Dun nom prcd dun article ? Ou bien dun prnom seul ?
Selon la forme d'entre, nous appliquons d'abord des rgles adquates pour transcrire la partie qui ne constitue pas le
nom proprement parler (particules). Ainsi, des noms propres (spciaux) comme (Ibn) , (Abd) , (Taha) , etc.
seront transcrits directement. Prenons, par exemple, le prnom  qui peut tre translittr de plusieurs faons
diffrentes. Nous attribuons un poids pour chaque translittration, sachant que le poids le plus bas indique la solution la
plus probable. La rgle ci-dessous indique que, lorsqu'un mot dbute par , il est transcrit le plus souvent par Abd
, ou bien moins souvent par Abed . Plus rarement, il sera transcrit 3abd ou 3Abd , et dans quelques cas il sera
transcrit par Abd .
R = (( ) .x. (((\` A b d <3000>) | A b d | (A b e d <1000>) | (3 (a|A) b d <2000>)))).*;
Aprs avoir trait la partie (spciale) du nom propre, nous appliquons les rgles pour la translittration des noms euxmmes. Les rgles pour la translittration des noms sappliquent leur tour selon le nombre de consonnes du nom
considr, et dans un ordre de priorit dtermin.
Par exemple, pour translittrer en criture latine le nom propre arabe !"#$  qui est compos par Abd () + Al ( )+
Nom (!"), le systme procde de la manire suivante :
Translittration de la particule  Abd;
Translittration de larticle Al;
Concatnation de la particule Abd et de larticle Al en les reliant au nom par un trait dunion ou en insrant
un blanc entre les deux : Abd Al Rachid (!"#$;)
Gnration de toutes les formes de translittration possibles pour ces trois lments (Table 1):
Nom propre arabe
!"#$

Translittrations
Abd Al-Rachid
Abdul Rashid
abd al-Rashid
3abd El Rachid
abd Al Rashid
Abdar-Rashid
Abdel Rachid

TABLE 1 : Quelques translittrations pour le nom propre compos !"#$


Normalisation de la liste des noms en criture latine en supprimant les caractres spciaux (diacritiques et
chiffres) et en ajoutant la majuscule au dbut de chaque nom propre;
Pondration de la liste des noms en criture latine en attribuant un poids aux rgles qui ont servi la gnration
de la liste. Cette pondration est ralise en utilisant divers moteurs de recherche en notant chaque fois le nombre
doccurrences pour chaque forme gnre du nom propre.

Alignement de mots

Lalignement de mots ou lextraction de lexiques bilingues partir de corpus de textes parallles peut se dcomposer
conceptuellement en deux aspects: il sagit de reprer les mots du texte source et du texte cible, puis de les mettre en
correspondance.

271

[O-T.2]

ETUDE DE LIMPACT DE LA TRANSLITTERATION DE NOMS PROPRES SUR LA QUALITE DE LALIGNEMENT DE MOTS

3.1

Etat de lart

Il existe principalement trois approches pour lalignement de mots partir de corpus de textes parallles aligns phrase
phrase:
Les approches dominante statistique qui sappuient sur les modles IBM (Brown et al., 1993). Loutil
dalignement GIZA++ (Och, Ney, 2000) implmente notamment ce type dapproche. Cet outil implmente
divers modles de traduction (IBM 1, 2, 3, 4, 5 et HMM). GIZA++ est un outil efficace pour aligner les mots
simples, mais il est moins performant, dune part, lorsque les langues source et cible ont des morphologies et
des structures syntaxiques diffrentes, et dautre part, pour aligner les expressions multimots (Allauzen,
Wisniewski, 2009) (Abdulhay, 2012).
Les approches linguistiques qui utilisent gnralement des dictionnaires bilingues dj disponibles mais aussi
les rsultats de lanalyse morpho-syntaxique des phrases source et cible (Debili, Zribi, 1996). Les mthodes
proposes par (Debili, Zribi, 1996) utilisent des ressources linguistiques externes (lexiques, rgles, etc.) pour
apparier les mots des textes parallles aligns au niveau de la phrase. Ces mthodes font lhypothse que pour
que des phrases soient en correspondance de traduction, il faut que les mots qui les composent soient
galement en correspondance. Elles nutilisent quune information interne, cest--dire que toute linformation
ncessaire (et en particulier les correspondances lexicales) est drive des textes aligner eux-mmes (ancrage
lexical).
Une combinaison des mthodes statistiques avec diffrentes sources dinformation linguistique (Daille et al.,
1994) (Gaussier, Lang, 1995) (Ozdowska, Claveau, 2006) (Semmar et al., 2010). La mthode propose par
Gaussier (1995) est fonde sur des modles statistiques pour tablir les associations entre mots anglais et mots
franais, et ce en exploitant la proprit de dpendance entre les mots et leurs traductions respectives. La prise
en compte des positions des mots dans les phrases permet de constituer un modle de distorsion qui aide la
construction des associations. Ensuite, les structures morpho-syntaxiques reprsentant les squences
admissibles dtiquettes grammaticales et de mots ont t recenses. Les correspondances et noncorrespondances entre les structures anglaises et franaises sont utilises pour laborer les modles statistiques
permettant de retrouver les quivalences entre termes anglais et termes franais. Quant l'approche dveloppe
par Ozdowska et Claveau (2006), elle consiste dabord apparier les mots un niveau global grce au calcul
des frquences de cooccurrence dans des phrases alignes. Ensuite, ces mots constituent les couples amorces
qui servent de point de dpart la propagation des liens dappariement laide des diffrentes relations de
dpendance identifies par un analyseur syntaxique dans chacune des deux langues.
Contrairement lalignement de mots simples qui est dsormais une tche bien matrise plus particulirement pour les
langues criture latine, lalignement dexpressions multimots continue susciter de nombreux travaux de recherche
(Ozdowska, Claveau, 2006) (Lefever et al., 2009) (Bouamor et al., 2012). La plupart de ces travaux commencent tout
dabord par identifier les expressions multimots dans chaque partie du corpus parallle, ensuite, utilisent diffrentes
approches dalignement pour les apparier. Les approches pour lextraction monolingue dexpressions multimots peuvent
tre: (1) symboliques en reposant sur des patrons morpho-syntaxtiques (Okita et al., 2010), (2) statistiques en utilisant
des mesures dassociation pour classer les expressions multimots candidates (Vintar, Fisier, 2008), et (3) hybrides
combinant (1) et (2) (Seretan, Wehrli, 2007). Pour identifier les correspondances entre expressions multimots dans
diffrentes langues, plusieurs travaux font appel des outils dalignement de mots simples pour guider lalignement
dexpressions multimots. Dautres se basent sur des algorithmes dapprentissage statistique. Une hypothse largement
suivie pour acqurir des expressions multimots bilingues est quune expression multimots dans une langue source garde
la mme structure syntaxique que son quivalente dans une langue cible donne (Seretan, Wehrli, 2007) (Tufis, Ion,
2007). Or, cette hypothse nest pas toujours vrifie puisque certaines expressions multimots ne se traduisent pas
forcment par des expressions ayant la mme structure syntaxique. De mme, certaines expressions ne se traduisent pas
systmatiquement par une expression de mme longueur.
Pour les langues nutilisant pas lcriture latine, de nombreux travaux ont t raliss pour aligner automatiquement les
translittrations partir de corpus de textes multilingues en vue de lenrichissement de lexiques bilingues. Citons
notamment les travaux de (Yaser, Knight, 2002) et (Sherif, Kondrak, 2007) sur lalignement arabe-anglais, (Tao et al.,
2006) sur lutilisation de la translittration pour lextraction dentits nommes partir de corpus comparables ainsi que
(Shao, Ng, 2004) qui utilisent linformation apporte par les translittrations sur la base de leur prononciation. Ils
combinent linformation apporte par le contexte des traductions avec linformation apporte par les translittrations
entre langlais et le chinois. Lintrt de ce travail rside dans le fait quil permet lalignement de mots trs spcifiques
mais rares.
Nous dcrivons, dans la section suivante, notre dmarche pour extraire un lexique bilingue de mots simples et de mots
composs partir dun corpus parallle franais-arabe align au niveau de la phrase.

272

[O-T.2]

NASREDINE SEMMAR ET HOUDA SAADANE

3.2

Approche propose pour lalignement de mots partir de corpus de textes parallles franaisarabe

La dmarche que nous proposons pour la construction de lexiques bilingues partir de corpus de textes parallles, est
compose des trois tapes suivantes:
alignement de mots simples,
alignement de mots composs se traduisant mot mot,
alignement dexpressions multimots.
Notre approche pour lalignement de mots est base, dune part, sur un modle linguistique utilisant un dictionnaire
bilingue, les caractristiques des cognats, les catgories grammaticales, les relations de dpendance syntaxique et les
rgles de reformulation pour lalignement de mots simples et composs, et dautre part, sur un modle hybride
combinant patrons morpho-syntaxiques et mthodes statistiques pour lalignement dexpressions multimots. Les entres
de loutil dalignement, implmentant notre approche, sont les sorties normalises dune analyse morpho-syntaxique
effectue laide de la plate-forme danalyse linguistique LIMA (Besanon et al., 2010) sur le corpus de textes
parallles. Cette plate-forme fournit pour chaque couple de phrases source et cible :
la liste des lemmes et des formes flchies des mots ainsi que leur position dans la phrase,
les catgories grammaticales des mots,
les relations de dpendance syntaxique entre les mots et les mots composs.
Le processus de normalisation consiste supprimer les mots vides de la liste des lemmes des mots retourns par la plateforme LIMA. Les mots vides sont identifis partir de leur catgorie grammaticale (prpositions, articles, ponctuations
et certains adverbes). Nous considrons les mots restants comme des mots significatifs (pleins).
Nous dcrivons ci-dessous uniquement les principaux modules composant laligneur de mots simples et nous nous
focalisations sur ltape qui concerne lalignement de mots utilisant la dtection de cognats et dentits nommes dans
les phrases source et cible. Cest cette tape qui utilise la translittration des noms propres de larabe vers lcriture
latine. Les modules dalignement de mots composs et dexpressions multimots sont dcrits respectivement dans
(Semmar et al., 2010) et (Bouamor et al., 2012). Lalignement de mots simples se droule selon les trois tapes
suivantes:
alignement utilisant le dictionnaire bilingue prexistant,
alignement utilisant la dtection de cognats et dentits nommes dans les phrases source et cible,
alignement utilisant les catgories grammaticales des mots des phrases source et cible.
Lalignement en utilisant le dictionnaire bilingue prexistant consiste, dune part, extraire les traductions des lemmes
significatifs des phrases de la langue source en interrogeant le dictionnaire bilingue, et dautre part, rechercher la
traduction dans la phrase cible et en comparant sa position avec celle du lemme aligner. Si les positions des deux
lemmes source et cible sont dans une mme fentre de taille n respectivement dans les phrases source et cible, alors ils
seront considrs traduction lun de lautre. Nous avons fix exprimentalement la valeur de n 6. Ainsi, le mot de la
phrase source Motsource est considr comme traduction du mot de la phrase cible Motcible si les conditions [1] et [2] sont
vrifies :
Position (Motsource) 3 <= Position (Motcible)

[1]

Position (Motcible) <= Position (Motsource) + 3

[2]

Nous avons constat aussi que beaucoup de noms arabes ne sont pas reconnus comme entits nommes par la plateforme LIMA. Cela vient du fait que cette plateforme utilise des listes ainsi que des rgles de dclencheurs pour
reconnatre des entits telles que les noms de personnes, dorganisations, de lieux mais ces listes sont limites et plus
particulirement pour les langues peu dotes comme larabe. Cest pour cette raison que nous avons ajout une tape
supplmentaire notre outil dalignement de mots simples. Cette tape est utilise pour permettre lappariement des
cognats prsents dans les phrases source et cible. En linguistique, les cognats sont des paires de mots de langues
diffrentes qui partagent des proprits phonologiques, orthographiques et smantiques. Nous pouvons tendre cette
dfinition aux noms propres et aux expressions numriques puisquils varient en gnral lgrement dune langue une
autre. Plusieurs travaux ont montr que la dtection et la mise en correspondance des cognats dans les textes source et
cible permettent damliorer les rsultats dalignement au niveau des phrases (Simard et al., 1993) mais aussi des mots
(Al-Onaizan, Knight, 2002) (Kondrak, 2005) (Kraif, 2001). Rcemment, Frunza et Inkpen (2009) ont valu une

273

[O-T.2]

ETUDE DE LIMPACT DE LA TRANSLITTERATION DE NOMS PROPRES SUR LA QUALITE DE LALIGNEMENT DE MOTS

mthode qui utilise 13 mesures de similarit orthographique pour identifier les cognats et les faux amis . Nous
considrons dans une premire tape comme cognats les mots dont les quatre premiers caractres sont identiques. Cette
tape est simple implmenter lorsque les phrases source et cible sont crites avec le mme script ou dans deux scripts
proches. Dans notre tude, lalignement de mots est ralis partir de corpus de textes parallles franais-arabe. Or ces
deux langues sont crites avec deux scripts diffrents. Pour dtecter les cognats prsents dans ces textes, nous avons
utilis le systme de translittration dcrit prcdemment pour transformer les noms propres crits en arabe vers
lcriture latine. Cette premire tape a permis de dtecter que les noms propres Garner et Irak et leur
translittration respective en criture latine garnir (du nom propre #% ) '&et irak (du nom propre #)$ )sont
des cognats. En revanche, cette tape ne permet pas daligner des couples de mots comme Algrie et aljezeyr
(translittration du nom propre #*+,$) . Pour ce faire, nous avons utilis la distance JaroWinkler (Winkler, 1990),
une mesure de similarit base sur le nombre de lettres en commun entre le mot de la langue source ms et le mot de la
langue cible mc.

O:
m est le nombre de caractres correspondants. Deux caractres identiques des mots ms et mc sont considrs
comme correspondants si leur loignement (la diffrence entre leurs positions dans leurs chanes respectives) ne
dpasse pas :

t est le nombre de transpositions. Ce nombre est obtenu en comparant le ime caractre correspondant du mot ms
avec le ime caractre correspondant du mot mc. Le nombre de fois o ces caractres sont diffrents, divis par deux,
donne le nombre de transpositions.
|ms|, |mc| correspondent aux longueurs en nombre de caractres des mots ms et mc.
La mesure de similarit JaroWinkler est une variante de la distance Jaro DJ (Jaro, 1989).

O l est la longueur du prfixe commun et p est un coefficient qui permet de favoriser les chanes avec un prfixe
commun.
Pour fixer les valeurs de l et p ainsi que le seuil pour lequel deux mots sont considrs comme cognats, nous avons
utilis un chantillon de 100 noms propres arabes translittrs en criture latine. Dans cet chantillon, un nombre propre
crit en arabe peut avoir en moyenne 37 translittrations en criture latine mais il existe des noms propres qui peuvent
dpasser les 1 000 translittrations comme cest le cas du mot #*+,$( Algrie) qui en a 1 120. Nous avons constat
que les valeurs de l et p qui permettent daccepter le plus grand nombre de translittrations pour un nom propre sont
respectivement 2 et 0,1 pour un seuil de cognats gal 0,9. Ces paramtres fixs empiriquement permettent certes
didentifier comme cognats le mot Algrie et la translittration aljezeyr mais gnrent aussi des erreurs puisque cet
aligneur considre par exemple que les mots mohamed et la translittration mahmoud du nom propre arabe -

sont des cognats. Pour rduire ce type derreurs, nous vrifions les conditions [1] et [2] relatives aux positions des mots
respectivement dans les phrases source et cible.
Certes, la dtection de cognats amliore significativement les rsultats de lalignement mais a concerne uniquement les
corpus de textes ayant une forte prsence de noms propres. Pour dtecter de nouvelles correspondances, nous prenons en
compte les paires de mots des langues source et cible qui ont les mmes catgories grammaticales et dont les positions
vrifient les conditions [1] et [2] dcrites prcdemment. Cette tape est particulirement performante pour identifier les
traductions des mots entours par des mots dj traduits.
Le tableau ci-dessous (Table 2) prsente le rsultat de lalignement de mots simples et de mots composs se traduisant
mot mot de la phrase source Le gnral Garner a laiss entendre que l'occupation de l'Irak ne serait pas ternelle. et
de sa traduction en langue cible .1 .$ 4 $ #)$ 56 .$ #% '&#/,$ "& .

274

[O-T.2]

NASREDINE SEMMAR ET HOUDA SAADANE


Lemmes des mots de la
phrase en langue source
gnral

Lemmes des mots de la


phrase en langue cible
#/ :

Etape dalignement utilise


Appariement de catgories grammaticales

Garner
laisser
occupation
Irak
gnral_garner
occupation_Irak

#%'&
"&
5 6
#) $
#%_'&#/ :

#) $ _5 6

Appariement de cognats
Appariement de catgories grammaticales
Dictionnaire bilingue
Appariement de cognats
Mise en correspondance de mots composs
Mise en correspondance de mots composs

TABLE 2 : Rsultat de lalignement de mots simples et composs


Ce tableau montre, dune part, que les lemmes entendre , tre et ternel de la phrase source nont pas t
aligns, et dautre part, que lalignement du lemme laisser nest pas correct. En vrifiant dans le dictionnaire
bilingue, nous avons trouv plusieurs traductions pour ces lemmes, mais ils nont pas t aligns car ces traductions ne
sont pas prsentes dans la phrase cible. Cet exemple montre bien lintrt des alignements n:m (dans notre exemple il
sagit dun alignement 2:1 pour le lemme laisser entendre qui aurait du tre align avec le lemme )"&mme sils
ne sont pas aussi frquents que les alignements 1:1. Notons que le lexique bilingue construit lissue du processus
dalignement de mots contient les alignements corrects et incorrects, mais, les lemmes qui nont pas t aligns ne seront
pas pris en compte. Les symboles _ sparant les lemmes des mots composs seront remplacs par des espaces.

Rsultats exprimentaux et discussion

Pour illustrer lapport de la translittration sur la qualit du lexique bilingue produit par lalignement de mots simples et
composs, nous avons valu les rsultats de lalignement selon deux approches diffrentes :
une valuation manuelle comparant les rsultats de notre aligneur de mots par rapport un alignement de
rfrence,
une valuation automatique en intgrant les rsultats de notre aligneur de mots dans le corpus dapprentissage du
modle de traduction du systme de traduction statistique libre Moses (Koehn et al., 2007).
Lvaluation manuelle de laligneur de mots a t ralise sur une partie compose de 1 000 phrases du corpus MD
(Monde Diplomatique) franais-arabe de la campagne ARCADE II (Vronis et al., 2008). Cet alignement de rfrence
au niveau des mots simples et composs a t construit manuellement laide de loutil Yawat (Germann, 2008). Pour
les mtriques dvaluation, nous avons utilis celles du protocole dfini lors de la confrence HLT/NAACL 2003
(Mihalcea, Pedersen, 2003). La table 3 rsume nos rsultats en termes de prcision et de rappel selon que laligneur de
mots utilise ou non lappariement de cognats avec la translittration de noms propres. Ces rsultats montrent que
lutilisation de la translittration arabe permet daugmenter aussi bien la prcision que le rappel et confirment les
rsultats que nous avons obtenus prcdemment sur un petit corpus de 283 phrases (Saadane, Semmar, 2012) ainsi que
ceux de (Kondrak et al., 2003) qui ont pu rduire de 10% le taux derreurs de lalignement de mots en utilisant
lappariement de cognats. Le lexique bilingue extrait partir des 1 000 paires de phrases en utilisant notre outil
dalignement de mots contient 16 291 entres dont 2 023 noms propres. Lanalyse de ce lexique montre quil contient un
nombre important de doublons plus particulirement pour les noms propres mais aussi quelques traductions de mots
polysmiques. En outre, environ 53% des mots aligns se trouvaient dans le dictionnaire bilingue et 12% ont t aligns
laide du module dappariement de cognats qui utilise la translittration.
Alignement de mots
sans lappariement de cognats (sans translittration)
avec lappariement de cognats (avec translittration)

Prcision

Rappel

F-Mesure

0,82

0,86

0,83

0,87

0,88

0,87

TABLE 3 : Rsultats de lvaluation de lalignement de mots


Lvaluation automatique de notre aligneur de mots a t ralise en utilisant le corpus OPUS (Tiedemann, 2009) pour
la paire de langues franais-arabe. Ce corpus regroupe 74 067 paires de phrases parallles extraites des rsolutions des

275

[O-T.2]

ETUDE DE LIMPACT DE LA TRANSLITTERATION DE NOMS PROPRES SUR LA QUALITE DE LALIGNEMENT DE MOTS

Nations Unies. Ces rsolutions citent certains noms de dirigeants, et beaucoup de noms de pays et dorganisations. Nous
avons divis ce corpus en trois parties : 70 067 paires de phrases pour lapprentissage du modle de traduction, 3 500
paires de phrases pour la construction du lexique bilingue en utilisant notre aligneur de mots et 500 paires de phrases
pour lvaluation du systme de traduction Moses. Pour estimer le modle de traduction du systme de rfrence, nous
avons construit un corpus dapprentissage contenant 70 067 paires de phrases auquel nous avons ajout les 3 500 paires
de phrases utilises pour lalignement de mots. Pour tudier limpact du lexique bilingue produit par loutil dalignement
de mots intgrant la translittration sur le modle de traduction du systme Moses, nous avons ajout ce lexique bilingue
construit partir des 3 500 paires de phrases au corpus dapprentissage. Le modle de traduction utilis est appris sur les
lemmes des mots composant le corpus parallle dapprentissage et les lemmes des mots produits par notre aligneur.
Nous avons aussi entran un modle de langue (tri-grammes) sur la totalit du corpus OPUS en langue arabe (74 067
phrases) en utilisant la boite outils IRSTLM (Federico et al., 2008). Deux types de corpus de test ont t utiliss pour
mener nos exprimentations : Tout-Corpus-Test et Noms-propres-Corpus-Test. Le premier corpus de test Tout-CorpusTest est constitu de 500 paires de phrases parallles extraites alatoirement du corpus OPUS. Pour mesurer lapport
rel du lexique bilingue des noms propres translittrs, nous avons constitu un corpus de test not Noms-propresCorpus-Test o nous ne conservons que les phrases du corpus Tout-Corpus-Test contenant au moins un nom propre. Ce
corpus contient 173 paires de phrases parallles. La qualit de traduction du systme de rfrence (celui qui nintgre
pas les translittrations) ainsi que celui intgrant les translittrations est value sur les deux corpus de test sur la base de
la mtrique BLEU (Papineni et al., 2002). Nous avons prfr utiliser la mtrique BLEU car elle est la plus approprie
pour valuer les systmes de traduction statistique base de squences (n-grammes) tels que Moses. Nous avons
considr qu chaque phrase source correspond une seule phrase de rfrence en langue cible. Les rsultats de
traduction obtenus pour les deux configurations sont regroups dans la table 4.
Corpus dapprentissage

Tout-Corpus-Test

Noms-propres-Corpus-Test

sans les rsultats de lappariement de cognats (sans


translittration)
avec les rsultats de lappariement de cognats (avec
translittration)

15,79

17,67

16,49

19.52

TABLE 4 : Rsultats de traduction selon le score BLEU


Tout dabord, nous constatons que le score BLEU obtenu est satisfaisant compte tenu de la taille du corpus
dapprentissage et du modle de traduction utilis et qui a t estim sur des lemmes plutt que sur des formes de
surface (Sadat, Habash, 2006). Ce score varie en fonction du type du jeu de test. Le corpus de test Noms-propresCorpus-Test qui ne considre que les phrases contenant des noms propres du lexique bilingue rapporte des scores BLEU
plus levs que le corpus de test Tout-Corpus-Test dans les deux configurations (corpus dapprentissage sans lajout de
translittration ou avec translittration). Les rsultats obtenus montrent que lintgration dans le corpus dapprentissage
du modle de traduction des alignements obtenus par le module dappariement de cognats utilisant la translittration a
permis dobtenir un gain de +0,70 points BLEU pour le corpus de test Tout-Corpus-Test et un gain de +1,85 pour le
corpus de test Noms-propres-Corpus-Test. Ces rsultats confirment ceux de (Huang et al., 2003) qui ont obtenu une FMesure de 81% pour lalignement dentits nommes partir dun corpus parallle chinois-anglais et un gain de +0,06
en score NIST pour la traduction.
Pour valuer la significativit statistique des rsultats obtenus, nous utilisons la mthode par r-chantillonnage par
amorce dcrite par (Koehn, 2004). Cette mthode estime la probabilit (p-valeur) quune diffrence mesure entre les
scores BLEU surgit par hasard et ce par la cration plusieurs reprises (10 fois) dchantillons uniformes avec remise
partir des corpus de tests. Nous exploitons cette mthode pour comparer les deux configurations (corpus dapprentissage
sans lajout de translittration ou avec translittration) selon le corpus de test utilis. Sur un intervalle de confiance (IC)
de 95%, les rsultats varient de non significatifs (quant p > 0.05) hautement significatifs. Les p-valeurs obtenues sur
les corpus de test Tout-Corpus-Test et Noms-propres-Corpus-Test sont respectivement de 0,02 et 0,01. Par consquent,
les amliorations apportes par lutilisation de la translittration sont significatives dans les deux configurations de test.

Conclusion et travaux futurs

Nous avons dcrit dans cet article, dune part, un systme de translittration des noms propres de lcriture arabe vers
lcriture latine, et dautre part, un outil dalignement de mots simples et composs partir de corpus de textes parallles
franais-arabe. Nous nous sommes particulirement intresss ltude de limpact de lutilisation de la translittration
sur la qualit du lexique bilingue produit par loutil dalignement de mots. Pour raliser cette tude, nous avons valu
loutil d'alignement de mots intgrant la translittration en utilisant deux approches : une valuation de la qualit

276

NASREDINE SEMMAR ET HOUDA SAADANE

[O-T.2]

dalignement laide dun alignement de rfrence construit manuellement et une valuation de limpact de cet
alignement sur la qualit de traduction du systme de traduction automatique statistique Moses. Les rsultats obtenus
montrent que la translittration amliore aussi bien la qualit de lalignement de mots que celle de la traduction. Dans
nos exprimentations sur loutil dalignement de mots, le modle de traduction a t estim sur des lemmes plutt que
sur des formes de surface qui gnralement diminue la qualit de traduction plus particulirement pour une langue
morphologiquement riche comme larabe. De mme, les traductions du lexique bilingue produit par loutil dalignement
de mots ne sont pas pondres, ce qui nous prive dintgrer ce lexique directement dans la table de traduction. Nos
travaux futurs sur lalignement de mots sorientent, dune part, vers lutilisation dun modle de gnration pour
produire les formes de surface adquates partir des rsultats de traduction prsents en lemmes dans cette tude, et
dautre part, vers une amlioration des rsultats de notre outil dalignement en lui intgrant lappariement dexpressions
multimots et en pondrant les traductions du lexique bilingue quil produit. Par ailleurs, nos exprimentations sur le
systme de translittration ont montr que les corpus tudis contenaient aussi des noms propres latins et que la
prcision de lalignement de mots est trs leve lorsque des noms propres arabes sont prsents dans les phrases source
et cible. Nos travaux futurs en translittration sorientent vers une prise en compte plus large des noms propres latins.

Rfrences
ABDULHAY A. (2012). Constitution dune ressource smantique arabe partir dun corpus multilingue align. Thse de
Doctorat de lUniversit Stendhal Grenoble III.
ABDULJALEEL N., LARKEY L. (2003). Statistical transliteration for English-Arabic Cross Language Information
Retrieval. Proceedings of the Twelfth ACM International Conference on Information and Knowledge Management,
New Orleans, Louisiana, 139-146.
ALGHAMDI M. (2005). Alghorithms for Romanizing Arabic names. Journal of King Saud University - Computer and
Information Sciences,Volume 17, Riyadh, 105-128.
ALLAUZEN A., WISNIEWSKI G. (2009). Modles discriminants pour lalignement mot mot. TAL Volume 50 n
3/2009, 173 203.
AL-ONAIZAN Y., KNIGHT K. (2002). Translating named entities using monolingual and bilingual resources. Proceedings
of the 40th ACL Conference, USA.
BARKAT-DEFRADAS M., HAMDI R., PELLEGRINO F. (2004). De la caractrisation linguistique lidentification
automatique des dialectes arabes. Proceedings of MIDL 2004, 51-56.
BEESLEY K. R., KARTTUNEN L. (2003). Finite State Morphology. Stanford, CA: CSLI Publications.
BESANON R., DE CHALENDAR G., FERRET O., GARA F., LAIB M., MESNARD O., SEMMAR N. (2010). LIMA: A
Multilingual Framework of Linguistic Analysis and Linguistic Resources Development and Evaluation. Proceedings of
LREC 2010, 3697-3704.
BOUAMOR D., SEMMAR N., ZWEIGENBAUM P. (2012). Identifying bilingual Multi-Word Expressions for Statistical
Machine. Proceedings of the Eighth international conference on Language Resources and Evaluation (LREC), Turkey.
BROWN P. F., PIETRA S. A. D., PIETRA V. J. D., MERCER R. L. (1993). The mathematics of statistical machine
translation : parameter estimation. Computational Linguistics, Volume 19, Number 2, 263-311.
DAILLE B., GAUSSIER E., LANGE J.-M. (1994). Towards automatic extraction of monolingual and bilingual terminology.
Proceedings of the 15th International Conference on Computational Linguistics (COLING'94), 515-521.
DEBILI F., ZRIBI A. (1996). Les dpendances syntaxiques au service de lappariement des mots. Actes du 10me Congrs
Reconnaissance des Formes et Intelligence Artificielle (RFIA96).
FEDERICO M., BERTOLDI N., CETTOLO M. (2008). IRSTLM: an Open Source Toolkit for Handling Large Scale
Language Models. Proceedings of Interspeech, Australia, 2008.
FRUNZA O., INKPEN D. (2009). Identification and Disambiguation of Cognates, False Friends, and Partial Cognates
Using Machine Learning Techniques. International Journal of Linguistics, Vol. 1.

277

[O-T.2]

ETUDE DE LIMPACT DE LA TRANSLITTERATION DE NOMS PROPRES SUR LA QUALITE DE LALIGNEMENT DE MOTS

GAUSSIER E., LANGE J. M. (1995). Modles statistiques pour lextraction de lexiques bilingues. Traitement Automatique
des Langues, Volume 36. ATALA, 133-155.
GERMANN U. (2008). Yawat: Yet Another Word Alignment Tool. Proceedings of ACL 2008, Columbus, 20-23
GUIDERE M. (2004). Le traitement de la parole et la dtection des dialectes arabes. Langues stratgiques et dfense
nationale, Publications du CREC, Saint-Cyr, 5375.
HUANG F., VOGEL S., WAIBEL A. (2004). Improving named entity translation combining phonetic and semantic
similarities. Proceedings of HLT-NAACL 2004, 281-288.
HUANG F., VOGEL S., WAIBEL A. (2003). Automatic Extraction of Named Entity Translingual Equivalence Based on
Multi-feature Cost Minimization. Proceedings of the 41st Annual Conference of the Association for Computational
Linguistics (ACL'03), Workshop on Multilingual and Mixed-language Named Entity Recognition, Sapporo, Japan.
HULDEN M. (2009). Foma: a Finite-State Compiler and Library. Proceedings of: EACL 2009, 12th Conference of the
European Chapter of the Association for Computational Linguistics, Athens, Greece, 29-32.
JARO M. A. (1989). Advances in record linkage methodology as applied to the 1985 census of Tampa Florida. Journal of
the American Statistical Association 84, 414420.
JIANG L., ZHOU M., CHIEN L. F., NIU C. (2007). Named entity translation with web mining and transliteration.
Proceedings of the 20th International Joint Conference on Artif cial Intelligence, 1629-1634.
KOEHN P., HOANG H., BIRCH A., CALLISON-BURCH C., FEDERICO M., BERTOLDI N., COWAN B., SHEN W., MORGAN C.,
ZENS R., DYER C., BOJAR O., CONSTANTIN A., HERBST E. (2007). Moses: Open source toolkit for statistical machine
translation. Proceedings of ACL 2007, 177-180.
KOEHN P. (2004). Statistical significance tests for machine translation evaluation. Proceedings of EMNLP 2004.
KNIGHT K., GRAEHL J. (1997). Machine transliteration. Journal version Computational linguistics, 24(4), 599-612.
KONDRAK G. (2005). Cognates and Word Alignment in Bitexts. Proceedings of the Tenth Machine Translation Summit
(MT Summit X), Thailand.
KONDRAK G., MARCU D., KNIGHT K. (2003). Cognates Can Improve Statistical Translation Models. Proceedings of
HLT-NAACL 2003, 46-48.
KRAIF O. (2001). Exploitation des cognats dans les systmes d'alignement bi-textuel: architecture et valuation. TAL,
42(3), 833-867.
LEFEVER E., MACKEN L., HOSTE V. (2009). Language-independent bilingual terminology extraction from a multilingual
parallel corpus. Proceedings of the 12th Conference of the European Chapter of the Association for Computational
Linguistics, Greece.
MIHALCEA R., PEDERSEN T. (2003). An evaluation exercise for word alignment. Proceedings of The HLT-NAACL 2003
Workshop on Building and using parallel texts: data driven machine translation and beyond, 1-10.
OZDOWSKA S., CLAVEAU V. (2006), Infrence de rgles de propagation syntaxique pour lalignement de mots. TAL,
Volume 47, n1 ATALA, 167-186.
OCH F. J., NEY H. (2000). Improved Statistical Alignment Models. Proceedings of the 38th Annual Meeting of the
Association for Computational Linguistics, 440-447.
OKITA T., GUERRA M., ALFREDO GRAHAM Y., WAY A. (2010). Multi-word expression sensitive word alignment.
Proceedings of the 4th International Workshop on Cross Lingual Information Access at COLING 2010, 2634.
PAPINENI K., ROUKOS S., WARD T., ZHU W. J. (2002). Bleu: a method for automatic evaluation of machine translation.
Proceedings of the 40th Annual meeting of the Association for Computational Linguistics, 311318.

278

NASREDINE SEMMAR ET HOUDA SAADANE

[O-T.2]

RILEY M., ALLAUZEN C., MARTIN J. (2009). OpenFst: An Open-Source, Weighted Finite-State Transducer Library and
its Applications to Speech and Language. Proceedings of NAACL HLT 2009: Tutorials, 910.
POULIQUEN B., STEINBERGER R. (2007). Acquisition and Use of Multilingual Name Dictionaries. Proceedings of the
Workshop Acquisition and Management of Multilingual Lexicons (AMML'2007) - RANLP'2007, Bulgaria.
SADANE H., SEMMAR N. (2012). Utilisation de la translittration arabe pour lamlioration de lalignement de mots
partir de corpus parallles franais-arabe. Actes TALN 2012, 127-140.
SADAT F., HABASH N. (2006). Combination of Arabic Preprocessing Schemes for Statistical Machine Translation.
Proceedings of ACL 2006, 1-8.
SEMMAR N., SERVAN C., DE CHALENDAR G., LE NY B. (2010). A Hybrid Word Alignment Approach to Improve
Translation Lexicons with Compound Words and Idiomatic Expressions. Proceedings of the 32nd Translating and the
Computer conference, England.
SERETAN V., WEHRLI E. (2007). Collocation translation based on sentence alignment and parsing. Actes de TALN 2007.
SHAO L., NG H. T. (2004). Mining new word translations from comparable corpora. Proceedings of the 20th
International Conference on Computational Linguistics (COLING04), 618-624.
SHERIF T., KONDRAK G. (2007). Bootstrapping a stochastic transducer for Arabic-English transliteration extraction.
Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (ACL 2007), 864-871.
SIMARD M., FOSTER G. F., ISABELLE P. (1993). Using cognates to align sentences in bilingual corpora. Proceedings of
the Conference of the Centre for Advanced Studies on Collaborative Research, 1071-1082.
STALLS B., KNIGHT K. (1998). Translating names and technical terms in Arabic text. Proceedings of the COLING/ACL
Workshop on Computational Approaches to Semitic Languages, Montreal, Qubec, 34-41.
TAO T., YOON S. Y., FISTER A., SPROAT R., ZHAI C. (2006). Unsupervised named entity transliteration using temporal
and phonetic correlation. Proceedings of the Conference on Empirical Methods in Natural Language Processing
(EMNLP06), 250-257.
TIEDEMANN J. (2009). News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and Interfaces. N.
Nicolov and K. Bontcheva and G. Angelova and R. Mitkov (eds.) Recent Advances in Natural Language Processing,
Volume V, 237-248.
TUFIS I., ION R. (2007). Parallel corpora, alignment technologies and further prospects in multilingual resources and
technology infrastructure. Proceedings of the 4th International Conference on Speech and Dialogue Systems, 183195.
VERONIS J., HAMON O., AYACHE C., BELMOUHOUB R., KRAIF O., LAURENT D., NGUYEN T. M. H., SEMMAR N., STUCK
F., ZAGHOUANI W. (2008). Arcade II Action de recherche concerte sur l'alignement de documents et son valuation.
Chapitre 2, Editions Herms.
VINTAR S., FISIER D. (2008). Harvesting multi-word expressions from parallel corpora. Proceedings of LREC, Morocco.
WINKLER W. E. (1990). String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record
Linkage. Section on Survey Research Methods, American Statistical Association, 354359.
YASER A. O., KNIGHT K. (2002). Translating named entities using monolingual and bilingual resources. Proceedings of
the 40th Annual Meeting of the Association of Computational Linguistics (ACL02), 400-408.

279