Vous êtes sur la page 1sur 158

AIX-MARSEILLE UNIVERSIT

ED 356 COGNITION, LANGAGE, DUCATION


LABORATOIRE DINFORMATIQUE FONDAMENTALE
CNRS-UMR-7279

Thse prsente pour obtenir le grade universitaire de


docteur

Discipline : Sciences du langage


Spcialit : Traitement automatique des langues

Ahmed HAMDI

Traitement automatique du dialecte tunisien laide doutils et de


ressources de larabe standard : application ltiquetage
morphosyntaxique

Soutenue le 04/12/2015 devant le jury :

Nabil HATHOUT Universit de Toulouse 2 Rapporteur


Imed ZITOUNI Microsoft Rapporteur
Alexis NASR Aix-Marseille Universit Directeur de thse
Nria GALA Aix-Marseille Universit Co-directrice de thse
Cette oeuvre est mise disposition selon les termes de la Licence Creative
Commons Attribution - Pas dUtilisation Commerciale - Pas de Modification 3.0
France.
Rsum

Le dveloppement doutils de traitement automatique pour les dialectes de


larabe se heurte labsence de ressources pour ces derniers. Comme cons-
quence dune situation de diglossie, il existe une variante de larabe, larabe mo-
derne standard, pour laquelle de nombreuses ressources ont t dveloppes et
ont permis de construire des outils de traitement automatique de la langue. tant
donn la proximit des dialectes de larabe, avec larabe moderne standard, une
voie consiste raliser une conversion surfacique du dialecte vers larabe mo-
derne standard afin de pouvoir utiliser les outils existants pour larabe standard.
Dans ce travail, nous nous intressons particulirement au traitement du dia-
lecte tunisien. Nous proposons un systme de conversion du tunisien vers une
forme approximative de larabe standard pour laquelle lapplication des outils
conus pour ce dernier permet dobtenir de bons rsultats.
Afin de valider cette approche, nous avons eu recours un tiqueteur morpho-
syntaxique conu pour ltiquetage de larabe standard. Ce dernier permet das-
signer des tiquettes morphosyntaxiques la sortie de notre systme de conver-
sion. Ces tiquettes sont finalement projetes sur le tunisien.
Notre systme atteint une prcision de 89% suite la conversion qui repr-
sente une augmentation absolue de 20% par rapport ltiquetage davant la
conversion.

Mots cls : traitement automatique des langues, tiqueteur en parties de dis-


cours, outils, ressources, conversion, arabe moderne standard, dialecte tunisien.

3
Abstract

Developing natural language processing tools usually requires a large number


of resources (lexica, annotated corpora, . . . ), which often do not exist for less-
resourced languages. One way to overcome the problem of lack of resources is
to devote substantial efforts to build new ones from scratch. Another approach
is to exploit existing resources of closely related languages.
Taking advantage of the closeness of standard Arabic and its dialects, one way
to solve the problem of limited resources, consists in performing a conversion of
Arabic dialects into standard Arabic in order to use the tools developed to handle
the latter.
In this work, we focus especially on processing Tunisian Arabic dialect. We
propose a conversion system of Tunisian into a closely form of standard Arabic
for which the application of natural language processing tools designed for the
latter provides good results.
In order to validate our approach, we focused on part-of-speech tagging. Our
system achieved an accuracy of 89% which presents 20% of absolute improve-
ment over a standard Arabic tagger baseline.

Keywords : natural langage processing, part-of-speech tagger, resources, tools,


conversion, modern standard Arabic, Tunisian dialect.

4
Table des matires

Rsum 3

Abstract 4

Liste des figures 8

Liste des tableaux 10

Introduction 20

1 Systmes phonologique et morphosyntaxique de larabe 21


1.1 Systme dcriture de larabe 21
1.1.1 Alphabet 22
1.1.2 Voyelles 24
1.2 Phnomnes morphologiques de la langue arabe 27
1.2.1 Morphologie agglutinante 27
1.2.2 Morphologie flexionnelle 30
1.2.3 Morphologie drivationnelle 33
1.3 Catgories grammaticales 35
1.3.1 Particules 36
1.3.2 Verbes 36
1.3.3 Noms 39
1.4 Dialectes arabes : variations lexicales et morphologiques 42
1.4.1 Variations phonologiques 42
1.4.2 Variations lexicales 42
1.4.3 Variations morphologiques 43
1.4.4 Variations syntaxiques 44
1.5 Dialecte tunisien 44
1.5.1 Agglutination 44
1.5.2 Flexion 45
1.5.3 Drivation 46

2 Traitement automatique de la morphologie arabe 47


2.1 Traitement morphologique arabe : processus de base 47
2.1.1 Segmentation 49

5
2.1.2 Analyse flexionnelle 50
2.1.3 Analyse drivationnelle 52
2.1.4 Analyse et gnration morphologique 53
2.2 Morphologie deux-niveaux 55
2.2.1 Modle deux niveaux 64
2.2.2 Modle multi-bande 67
2.2.3 Analyse de verbes 68
2.2.4 Analyse des noms 70
2.3 Principaux analyseurs morphologiques de larabe 73
2.3.1 Buckwalter Arabic Morphological Analyzer (bama) 73
2.3.2 Arabic Lexeme-based Morphological Generation and Ana-
lysis (almor) 74
2.3.3 Xerox Finite State Machine (xfsm) 75
2.3.4 Lanalyseur (elixirfm) 75

3 Outils et ressources 77
3.1 Systme danalyse et gnration morphologique du msa et de ses
dialectes 77
3.1.1 Analyse et gnration morphologique 78
3.1.2 Architecture de magead 84
3.1.3 Adaptaion de magead au tun 86
3.2 Lexiques de transferts tunmsa 88
3.2.1 Lexique des verbes 88
3.2.2 Lexique des noms dverbaux 94
3.2.3 Lexique des particules 100
3.3 tiqueteur en parties de discours 101
3.4 Corpus dvaluation tunisien 102
3.4.1 Conventions de transcription 104
3.4.2 Conventions de segmentation 104
3.4.3 Conventions dannotation 106

4 Exprimentation et valuation 108


4.1 Architecture gnrale 108
4.2 Conversion du dialecte tunisien en arabe moderne standard 111
4.2.1 Transfert limit aux mbcs 113
4.2.2 transfert de mbcs et de racines dune manire indpendante115
4.2.3 Transfert de couples (racine, mbc) 116
4.2.4 transfert de couples (racine, mbc) avec repli 117
4.3 Dsambigusation 118
4.4 tiquetage en parties de discours 120
4.4.1 tiquetage sans conversion 120
4.4.2 tiquetage aprs dsambigusation laide de modles de
langage 122

6
4.4.3 tiquetage en parties de discours sans dsambigusation 124

Conclusion gnrale et perspectives 128

Bibliographie 129

ANNEXES 137
A Rgles morphologiques du tunisien 137
B Liste des verbes issus de racines tun 153
C Table de dverbaux tun-msa 156

Mes publications 158

7
Liste des figures

0.1 Monde arabe : rpartition des arabophones 15

1.1 Processus de drivation dans larabe 33


1.2 classification des verbes selon la racine 38

2.1 Reprsentation de la morphologie concatnative laide dune ma-


chine tats finis 51
2.2 Gnration des formes flchies du verbe aTam 51
2.3 Morphologie deux-niveaux 55
2.4 Reprsentation graphique dun automate 57
2.5 Automate fini dterministe 59
2.6 Reprsentation du mot slym laide dun automate fini 60
2.7 Lexique des noms fminins reprsent sous la forme dun automate 60
2.8 Reprsentation graphique dun transducteur 61
2.9 Flexion nominale en genre laide dun transducteur 62
2.10 Processus de drivation laide dun automate multibande 63
2.11 Gnration de radicaux laide dun automate multibande 63
2.12 Reprsentation dune rgle deux-niveau par un transducteur 65
2.13 Exemples de gnration de noms base sur des syllabes 73
2.14 Lexique de bama 74

3.1 Reprsentation simplifie de magead 78


3.2 Hirarchie de classes de comportement morphologique 80
3.3 Architecture de magead 85
3.4 Ambigut maximale entre verbes TUN et MSA 92
3.5 Gnration de paires de dverbaux nominaux tun-msa en utilisant
les verbes 96

4.1 Reprsentation de la sortie de la conversion laide dun automate


acyclique 109
4.2 tiquetage en partie de discours dune phrase en tun : architecture
gnrale 110
4.3 Passage du dialecte tunisien larabe standard 112
4.4 processus de conversion dune forme verbale source vers une forme
verbale cible en utilisant une table de correspondance de MBCs 114

8
4.5 Processus de conversion dun verbe source vers un verbe cible
laide du lexique de racines et de la matrice de correspondance de
MBCs 115
4.6 Conversion dun verbe source vers une forme cible par le lexique de
racines et MBCs 116
4.7 Processus de conversion dun verbe source vers une forme cible en
utilisant un lexique de racines et MBCs avec repli 118
4.8 tiquetage en parties de discours du tun avant la conversion 123
4.9 tiquetage en parties de discours des lemmes et des LMMs en pseudo-
MSA 124

9
Liste des tableaux

1.1 Alphabet arabe 23


1.2 Diacritiques arabes 25
1.3 Voyelles longues arabes 25
1.4 Liste de proclitiques 28
1.5 Liste denclitiques 29
1.6 Affixes des verbes pour laspect accompli 31
1.7 Affixes nominaux de larabe 32
1.8 schmes verbaux arabes 34
1.9 schmes nominaux arabes 35
1.10 Exemples de verbes malsains 38
1.11 classification des verbes selon leur schme 39
1.12 Noms dverbaux arabes 41
1.13 Exemple de dverbaux dans larabe 42
1.14 Exemples de variations lexicales entre le msa et ses dialectes 43
1.15 Affixes des verbes tunisiens dans laspect accompli 45
1.16 Correspondance des schmes msa et tun 46

2.1 Niveaux de reprsentation dun mot arabe 48


2.2 Matrice de compatibilit entre racines et schmes 53
2.3 Traits morphologiques dun mot arabe 54

3.1 tat des bandes de lautomate avant application des rgles 82


3.2 Etat des bandes de lautomate aprs application des rgles morpho-
phonmiques 83
3.3 Etat des bandes de lautomate aprs application des rgles orthogra-
phiques 84
3.4 Conjugaison dun verbe sain tun dans laspect accompli 88
3.5 Deux exemples dentres du lexique des verbes 89
3.6 chantillon du lexique des verbes TUN-MSA 90
3.7 Ambigut dans le lexique des verbes 91
3.8 Matrice de correspondance de MBC s 93
3.9 Table de schmes nominaux msa-tun 95
3.10 Couverture du lexique de dverbaux sur lensemble de test 98
3.11 Couverture du lexique de dverbaux sur lensemble de dveloppement 98

10
3.12 Rsultats sur lensemble de dveloppement aprs lenrichissement
du lexique des verbes 99
3.13 Rsultats sur lensemble de test aprs lenrichissement du lexique
des verbes 99
3.14 Exemples de particules TUN et MSA 100
3.15 Ambigut du lexique de particules TUN-MSA 101
3.16 Performances de ltiquetage en parties de discours du MSA 102
3.17 Statistiques sur le corpus dvaluation tunisien 103
3.18 chantillon du corpus dvaluation tunisien 105

4.1 Rappel et ambigut dans lensemble de test en utilisant la matrice


de correspondance de MBCs 114
4.2 Rsultats sur lensemble de test en utilisant les deux MBCs cibles les
plus frquentes dans la matrice de correspondance de MBCs 115
4.3 Rappel et ambigut sur le corpus de test pour la conversion par le
lexique de racines et la matrice de correspondance de mbcs 115
4.4 Rappel et ambigut sur le corpus de test de la conversion en utilisant
le lexique de racines et la table de correspondance de mbcs 116
4.5 Rappel et ambigut sur lensemble de test de la conversion par un
lexique de racines et MBCs 117
4.6 Rappel et ambigut sur lensemble de test en utilisant le lexique de
racines et MBCs avec repli 118
4.7 Comptes sur les corpus des modles de langage 119
4.8 valuation des modles de langage 120
4.9 Rsultats dtiquetage avant la conversion 121
4.10 Rsultats dtiquetage du TUN 122
4.11 Rsultats de ltiquetage du pseudo-msa aprs dsambigusation 123
4.12 Rsultats de ltiquetage du pseudo-MSA sans dsambigusation 124
4.13 Analyse derreurs dtiquetage du pseudo-msa 125
.14 Flexion des verbes parfaitement sains 148
.15 Flexion des verbes dfectifs 149
.16 Flexion des verbes creux 150
.17 Flexion des verbes assimils 150
.18 Flexion des verbes contenant une hamza dans la premire radicale 151
.19 Flexion des verbes contenant une hamza dans la troisime radicale 151
.20 Flexion des verbes redoubls 152
.21 Flexion des verbes de la forme IX 152

11
Introduction

Cette thse sinscrit dans le cadre gnral du traitement automatique du lan-


gage naturel (not TAL dornavant) et plus particulirement dans celui du trai-
tement automatique de larabe. Nous nous intressons plus prcisment une
variante de larabe, qui est larabe tunisien (not par moments TUN dans le reste
de ce document) et la relation quil entretient avec larabe moderne standard,
plus connu sous son acronyme anglais MSA (Modern Standard Arabic), que nous
utiliserons ici.
Les applications phares du TAL, telles que la traduction automatique, la trans-
cription automatique de la parole ou lextraction dinformations partir de textes,
ncessitent toutes des ressources linguistiques importantes pour atteindre un ni-
veau de qualit raisonnable. Ces ressources prennent des formes diverses, telles
que des corpus bruts ou annots, des lexiques ou des grammaires. Les connais-
sances quelles reclent concernent des niveaux linguistiques varis, allant de
la phontique la smantique, en passant par la morphologie et la syntaxe. Le
dveloppement de telles ressources est un processus lent et coteux et suppose
des moyens humains, financiers et institutionnels importants. La consquence de
tout cela est que peu de langues possdent de telles ressources. Les autres ont
t ranges dans la catgorie des langues peu dotes, parmi lesquelles on trouve
le tunisien. Le MSA, en revanche appartient lautre catgorie, celle des langues
dotes.
Lide gnrale sous-jacente cette thse est de mettre profit la proximit
du tunisien et du MSA pour dvelopper des outils de TAL pour le tunisien. Plus
prcisment, nous proposons de convertir le tunisien en une approximation du
MSA qui est assez proche de ce dernier pour pouvoir utiliser des outils existant
pour le traitement automatique du MSA. Le processus de conversion que nous
proposons repose principalement sur la morphologie et le lexique. Sa mise en
uvre nous a amen nous intresser de prs la morphologie de larabe, tant
du MSA que du tunisien, ainsi quaux outils informatiques pour le traitement de
la morphologie. Du point de vue du lexique, nous nous sommes intress au
dveloppement de lexiques "bilingues", tunisien, MSA en proposant notamment
des moyens semi-automatiques pour les dvelopper.
Une particularit de notre travail est davoir cherch raliser une analyse
morphologique fine et profonde du tunisien, allant jusqu lextraction de ra-
cines et de schmes, dans le but de simplifier le processus de conversion du

12
tunisien vers le MSA. Le traitement automatique de la morphologie de larabe du
fait de sa richesse et de sa complexit est un dfi pour TAL. Les outils standard
de traitement automatique de la morphologie, dvelopps gnralement pour le
traitement automatique des langues indo-europennes ne sont souvent pas ad-
quats pour traiter les langues smitiques. Nous avons collabor, dans le cadre de
cette thse, avec des spcialistes du traitement automatique de la morphologie
de larabe pour dvelopper notamment un analyseur morphologique du tunisien,
qui constitue une brique importante du systme que nous proposons.
Dans le but de valider notre approche, nous avons choisi un outil de TAL stan-
dard : un tiqueteur morphosyntaxique. Lide est dutiliser un tiqueteur mor-
phosyntaxique pour le MSA sur la sortie de notre outil de conversion et den
tudier les performances. Dautres outils auraient pu tre utiliss dans ce but,
notamment un analyseur syntaxique. Nous avons prfr avoir recours un ti-
queteur morphosyntaxique car il sagit la fois dun outil simple et trs utilis en
TAL .
Lvaluation dun tiqueteur morphosyntaxique du tunisien est confront
labsence de corpus tiquet en parties de discours pour le tunisien. Nous nous
sommes donc attels au dveloppement dun tel corpus, dans un but dvalua-
tion. Ce dveloppement est lui mme confront au problme de labsence de
conventions orthographiques pour les dialectes de larabe en gnral et le tuni-
sien en particulier (Habash, 2010), contrairement au MSA pour lequel un systme
orthographique standard a t tabli. Habash et al. (2012) fait partie des rares
travaux qui se sont intresss ltablissement des conventions orthographiques
pour les dialectes arabes. Il propose des conventions a communes qui peuvent
tre partages pour tous les dialectes du monde arabe.
La mthodologie que nous proposons dans ce travail pour traiter le tunisien
laide doutil dvelopps pour le MSA peut tre appliqu tous les dialectes de
larabe et mme dautres dialectes qui se trouvent dans la mme situation,
savoir lexistence dune variante pour laquelle de nombreuses ressources ont t
dveloppes.
Ce document est compos de cinq chapitres regroups en deux parties prin-
cipales : une premire partie compos de trois chapitres (incluant cette intro-
duction) constitue ltat de lart de notre travail. Cette partie se focalise sur la
description des caractristiques morphosyntaxiques de larabe ainsi que les dif-
frentes mthodes et techniques informatiques pour raliser le traitement auto-
matique de la morphologie complexe de larabe. Dans la deuxime partie, qui
se compose de deux chapitres, nous dcrivons en dtail notre mthode et nous
lvaluons sur ltiquetage en partie de discours du TUN.
Le chapitre 1 aborde quelques notions lies la langue arabe. Dans ce chapitre,
nous mettons en relief les phnomnes dagglutination, de flexion et de driva-
tion en arabe et nous illustrons les problmes qui y sont lis. Nous donnons,
a. Ce travail rentre dans le cadre du projet coda (Conventional Orthography for Dialectal
Arabic (Habash et al., 2012)).

13
galement, un aperu sur les deux variantes de larabe qui nous intressent dans
ce travail savoir le MSA et larabe dialectal et plus particulirement le dialecte
tunisien. Nous effectuons une tude profonde pour distinguer les diffrences et
les similarits morphosyntaxiques du MSA et du TUN.
Le chapitre 2 porte sur le traitement automatique de la morphologie en gnral
en insistant sur les outils spcifiques au traitement des langues gabaritiques. Ce
chapitre prsente galement les analyseurs morphosyntaxiques les plus connus
pour le traitement de larabe.
Le chapitre 3 est consacr la description des outils et des ressources auxquels
nous avons eu recours pour la ralisation de la mthode que nous proposons pour
rpondre notre problmatique.
Enfin, le chapitre 4 porte sur lvaluation. Nous donnons dans ce chapitre tous
les rsultats obtenus lissue des diffrentes expriences que nous avons effec-
tues.
Le reste de ce chapitre est compos de deux sections. La premire propose un
rapide survol des variantes de la langue arabe et la seconde aborde la problma-
tique du traitement automatique des langues peu dotes.

Survol des variantes de la langue arabe


La langue arabe tait la langue de quelques tribus nomades (Holes, 2004).
Actuellement, elle est la langue de plus que 300 million darabophones vivant
dans 23 pays arabes (cf. figure 0.1). Cependant, la langue arabe prsente dune
part des variantes stables partages par tous les arabophones et couvre, dautre
part, une diversit de dialectes changeant dun pays un autre.

14
Figure 0.1.: Monde arabe : rpartition des arabophones

lpoque pr-islamique, larabe tait la langue de communication de quelques


peuplades vivant principalement dans la pninsule arabe. Depuis lapparition de
lIslam au septime sicle, larabe a connu une expansion gographique consid-
rable. Suite la propagation de lIslam, larabe sest diffus sur un grand empire
qui couvre la pninsule arabique, le moyen-orient, lAfrique du nord et le sud de
lEspagne. On distingue trois registres principaux de larabe, larabe classique, le
MSA et larabe dialectal.
Larabe classique constitue la variante la plus ancienne de la langue. Cest la
langue employe dans le Coran, le livre sacr des musulmans. Actuellement,
grce aux textes religieux et ltude de la posie ancienne, larabe classique est
encore prsent dans les systmes ducatifs des pays arabes quoiquil reste gn-
ralement trs lcart de larabe utilis dans nos jours.
Le MSA est la langue officielle de tous les pays arabes. Il constitue la ver-
sion modernise et standardise de larabe classique. En effet, avec le temps,
des termes anciens ont disparu ou bien ont t remplacs par dautres et des
termes nouveaux sont apparus pour rpondre notamment aux volutions de la

socit. Citons comme exemple de substitution le terme k. X dj~ "obscurit" qui
a disparu avec larabe classique et dont le sens est exprim en MSA par
 Dlm~.

On peut citer comme exemple de termes nouveaux J J
mknn~ "mcanique" et
J
J  K tqny~ "technologie" lis au progrs scientifique. En dpit de ces changements
lexicaux entre larabe classique et le MSA , ce dernier a maintenu les systmes

15
morphologique, grammatical et syntaxique de larabe classique.
Le MSA est employ dans les domaines administratifs et ducatifs ainsi que
dans la communication formelle crite et orale des pays arabes. Bien que le MSA
reprsente la langue commune de toute la population arabe du golfe locan, il
ne constitue la langue maternelle daucun arabophone. En effet, les arabophones
acquirent ds leur petite enfance un dialecte arabe en fonction de leur lieu de
naissance.
Les dialectes arabes reprsentent ainsi les langues vernaculaires. Ils sont uti-
liss dans les conversations quotidiennes des arabophones. Ces dialectes sont
le rsultat de linterfrence linguistique entre la langue arabe et les langues lo-
cales ou voisines, lissue dune influence culturelle due principalement la
colonisation, aux mouvements migratoires, et rcemment aux mdias (Bassiou-
ney, 2009). Ils sont en perptuelle volution, incluant constamment de nouveaux
mots emprunts la plupart du temps des langues occidentales gographique-
ment proches comme le franais, lespagnol, litalien ou langlais. Ce sont les
dialectes qui sont utiliss pour la communication de tous les jours dans les pays
concerns. Rcemment, depuis quelques annes, lemploi des dialectes nest plus
restreint loral, ils commencent tre utiliss pour la communication crite
informelle dans le web (forums, blogs, rseaux sociaux. . . ).
Les arabophones ne considrent pas que le MSA et larabe dialectal sont deux
langues spares. Cette perception conduit une situation particulire de co-
existence de deux formes dune mme langue. Cette situation est appele diglos-
sie (Ferguson, 1959) : "Diglossia is likely to come into being when the following
three conditions hold in a given speech community : (1) There is a sizable body of
litterature in a language closely related to the natural language of the community,
and this litterature embodies, whether as source or reinforcement, some of the fon-
damental values of the community. (2) Literacy in the community is limited to a
small elite. (3) A suitabe period of time, of the order of several centuries, passes
from the establishment of (1) and (2)".
Bien que ces deux variantes sont clairement prdominantes dans deux do-
maines diffrents, lcrit formel (MSA) et loral informel (dialectes), il existe ga-
lement une forme qui combine les deux variantes (Bassiouney, 2009) utilise
dans les rseaux sociaux, les forums et les dbats tlviss. En effet, cette forme
assemble, dans une mme phrase, des termes de larabe standard et dautres
termes de larabe dialectal. Les termes eux-mmes peuvent tre drivs dun mot
dune variante et subissent lagglutination ou la flexion de lautre variante.
La classification des dialectes arabes dpend principalement de deux facteurs
distincts : un facteur gographique et un autre sociologique.

Distinction sociologique Cette distinction est lie principalement des fac-


teurs religieux et sociaux. Au niveau religieux, plusieurs variations sont distin-
gues selon la religion, la secte et la doctrine. Du point de vue social, deux va-
riantes majeures existent dans un dialecte : un dialecte citadin qui est parl par

16
les habitants des cits et considr comme tant plus prestigieux et un dialecte
bdouin qui est moins bien considr. La diffrence entre ces variantes concerne
gnralement les aspects phonologiques et lexicaux, les systmes morphologique
et syntaxique restant globalement invariables.

Distinction gographique Du point de vue gographique, chaque pays arabe


utilise son propre dialecte. Des variations linguistiques existent galement entre
les rgions dun mme pays. Dautres classifications regroupent les dialectes des
pays voisins. Ce regroupement est fond sur le partage de la majorit du lexique.
Brustad (2000) et Bassiouney (2009) par exemple proposent la classification b
suivante :
dialecte gyptien (EGY) : couvre le dialecte de lgypte et du Soudan
dialecte levantin (LEV) : parl au Liban, en Syrie, en Jordanie et en Palestine
dialectes du Golfe (GLF) : inclut les dialectes des pays du Golfe
dialectes du Maghreb (MAG) : couvre les dialectes tunisien, libyen, algrien
et marocain

Le dialecte arabe qui nous intresse dans ce travail est le dialecte tunisien. Ce
dernier est parl par 12 millions de personnes habitant gnralement en Tunisie.
Cette variante de larabe est sous linfluence constante dautres langues. Ceci est
lie gnralement lhistoire du pays. En effet, toutes les nations qui ont transit
par la Tunisie ont laiss des traces dans le dialecte des tunisiens linstar des
phniciens, des grecs, des romains, des vandales, des byzantins, des arabes, des
turcs et des franais, pour ne citer que les plus marquants. Cette diversit a fourni
au dialecte tunisien de nouveaux termes et la rendu riche et varie.

Traitement automatique des langues peu dotes


Deux approches principales soffrent celle ou celui qui sintresse au traite-
ment automatique dune langue peu dote. La premire consiste changer son
statut de langue peu dote en dveloppant des ressources pour cette langue.
Cest dans cette optique que Al-Sabbagh et Girju (2012) et Mohamed et al.
(2012) ont annot des corpus gyptiens extraits des rseaux sociaux pour en-
trainer des modles de segmentation et dtiquetage en parties de discours pour
lgyptien.
La deuxime approche, qui est moins coteuse, se base sur lutilisation de
ressources et doutils dune langue proche. Plusieurs mthodes ont t proposes
dans ce cadre pour traiter une langue (L1 ) avec des outils dvelopps pour une
langue (L2 ).

b. Cette classification est une parmi plusieurs et ne signifie pas que chaque dialecte est enti-
rement homogne dun point de vue linguistique.

17
La premire mthode consiste adapter un outil existant pour L2 . Cette adap-
tation peut prendre plusieurs formes. Bernhard et al. (2013), par exemple, ont
adopot une telle approche pour adapter un tiqueteur de lallemand lalsacien.
Ils montrent que lannotation manuelle dune petite liste de mots provoque une
amlioration significative de la prcision de ltiquetage. Dans le mme esprit,
Feldman et al. (2006) ont adapt un un tiqueteur morphosyntaxique de les-
pagnol au portuguais et au catalan. Selon une mthode lgrement diffrente,
Garrette et Baldridge (2013) ont montr lefficacit de cette approche en adap-
tant des outils de traitement automatique de L2 grce lannotation de corpus
de taille limite pour L1 .
Une deuxime mthode consiste traduire des corpus annots de L2 vers L1
et de se servir de cette traduction comme corpus dapprentissage pour des ou-
tils de L1 . Scherrer et al. (2009) par exemple, sest intress la traduction
depuis lallemand vers diffrents dialectes suisses allemands. Ce systme repose
sur une analyse syntaxique de lallemand et cest lissue de lanalyse syntaxique
quun mcanisme de transfert permet de gnrer une traduction en dialecte. Plus
proche de nou dun point de vue linguistique, Shaalan et al. (2007) ont dcrit
un systme de transfert de lgyptien vers le MSA. Dans ce cas, le transfert est
effectu au niveau des lemmes.
Une troisime mthode consiste rapprocher L1 de L2 afin de pouvoir y appli-
quer des outils dvelopps pour L2 . Le cas extrme consiste traduire automa-
tiquement L1 en L2 , comme le proposent Yarowsky et al. (2001), Das et Petrov
(2011) et Duong et al. (2013). Une telle approche nest, bien entendu possible
que sil existe des corpus parallles L1 , L2 . Certains travaux se sont servis de dic-
tionnaires au lieu des corpus parallles (Li et al., 2012) et dautres ont combin
les deux ressources (Tckstrm et al., 2013). Vergez-Couret (2013) ont montr
que de bons rsultats peuvent tre atteints en se limitant la traduction des 300
mots les plus frquents. Ce travail a t test sur loccitan avec le franais dune
part, et loccitan avec le castillan dautre part.
Nos travaux se situent dans la troisime approche. Lide que nous explorons
consiste convertir le TUN vers le MSA afin de pouvoir y appliquer des outils
conus pour le MSA. Nous avons utilis dessein le verbe convertir et non le verbe
traduire. La raison est que nous ne cherchons pas une traduction de notre entre
en TUN vers une version en MSA qui soit intelligible pour un lecteur humain. Nous
souhaitons nous approcher suffisamment du MSA afin que des outils dvelopps
pour ce dernier puissent donner de bons rsultats sur cette approximation, que
nous appellerons dornavant pseudo-MSA. Nous verrons dans le chapitre 4 des
sorties du systme de conversion qui ne constituent pas des formes acceptables
du MSA, mais sur lesquelles un tiqueteur morphosyntaxique permet de prdire
la squence dtiquettes correcte.
De faon plus prcise, la conversion que nous proposons repose largement sur
la morphologie et le lexique. Cest en effet ces deux niveaux que se manifestent
la majorit des diffrences entre les varits de larabe. Le systme propos relve

18
dune architecture transfert. Un mot en TUN est analys sous la forme dune
racine, dun schme et de traits morphologiques. Un lexique bilingue permet
alors de convertir la racine et le schme source vers une racine et un schme
cible (MSA). La racine et le schme cible, ainsi que les traits morphologiques
vont alors permettre de gnrer un ou plusieurs mots cibles. Un tiqueteur en
parties de discours entran sur des corpus MSA existant sera ainsi appliqu sur
les mots cibles pour assigner les parties de discours adquates aux mots MSA
cibles. Ces tiquettes seront enfin projetes sur le texte tunisien.
Notre systme ralise une analyse morphologique profonde, de manire
identifier la racine du mot cible plutt, et non une analyse surfacique, qui aurait
gnr son lemme. La raison de ce choix est double : dune part, la morphologie
drivationnelle de larabe est trs rgulire, lidentification de la racine peut tre
ralise, de manire fiable et conomique, laide de rgles. Dautre part, le fait
de raliser le transfert au niveau des racines permet de minimiser la taille du
dictionnaire bilingue. On estime en effet 7502 le nombre total de racines de
larabe et 2900 celui des racines frquemment utilises (Altabbaa et al., 2010),
ce qui permet de dfinir une borne suprieure de notre dictionnaire.
Le systme que nous proposons est bi-directionnel : tous les modules qui le
composent sont rversibles, ce qui permet de raliser la traduction depuis le TUN
vers le MSA et vice-versa. Notre systme de conversion peut donc tre utilis dans
le cadre de la deuxime approche que nous avons voqu ci-dessus.
c

Peu de travaux se sont intresss au traitement morphosyntaxique du tuni-


sien : Zribi et al. (2013), par exemple, ont tendu la couverture dun analy-
seur morphologique existant du MSA pour couvrir le TUN. Ils se sont servi dun
lexique MSA/TUN pour alimenter lanalyseur avec des racines spcifiques au TUN.
Le mme lexique a t ensuite exploit par Boujelbane et al. (2014) pour traduire
des corpus dapprentissage volumineux du MSA vers le TUN. Le corpus dduit a
t utilis pour entrainer un tiqueteur morphosyntaxique du dialecte tunisien.
Contrairement Boujelbane et al. (2014) qui traduit des corpus annots en
MSA vers le TUN , notre systme convertit le TUN vers le MSA . La raison principale
pour laquelle nous avons choisi ce sens de conversion est que le processus de
conversion est gnralement ambigu et que les sorties du systme de conversion
doivent tre dsambiguses. Or la dsambigusation laide dun modle de lan-
gage, par exemple, peut tre ralis du ct MSA, pour lequel de grands corpus
existent. En revanche, elle est beaucoup plus difficile raliser du ct tunisien.
Une autre diffrence importante entre notre travail et ceux de Boujelbane et al.
(2014) et Zribi et al. (2013) est que notre systme de conversion peut tre limit
la gnration de lemmes. Nous verrons dans le chapitre 4 que certains traite-
ments, notamment ltiquetage morphosyntaxique donne de meilleurs rsultats

c. La traduction du msa vers le tun peut tre intressante dans une application de trans-
cription automatique de la parole : on traduit en dialecte un corpus msa afin de construire un
modle de langage pour le dialecte.

19
sur les lemmes.

20
1. Systmes phonologique et
morphosyntaxique de larabe

La langue arabe prsente des phnomnes phonologiques et morphologiques


spcifiques. Nous introduisons, dans ce chapitre, tous les termes linguistiques
spcifiques la langue arabe qui sont ncessaires pour bien apprhender le
contexte linguistique de ce travail. Ces termes sont les suivants : diacritique, cli-
tique, radical, racine, schme. La terminologie que nous adoptons suit les deux
rfrences (Al-Dahdah, 1996) a et (Al-Ghulayaini, 2006) b . La prsentation que
nous faisons de ces concepts est inspire par le TAL. Nous nous focalisons no-
tamment sur la description des ambiguts auxquelles le traitement morphosyn-
taxique est confront. Pour bien dcrire ces ambiguts, nous avons slectionn
des exemples qui illustrent les ambiguts dans les diffrentes tapes du traite-
ment.
Dans la section 1.1, nous prsentons le systme phonologique du MSA. La sec-
tion 1.2 donne une description dtaille des phnomnes morphosyntaxiques de
larabe qui sont lagglutination, la flexion et la drivation. Un aperu sur les cat-
gories grammaticales utilises dans la langue arabe est donn dans la section 1.3.
Nous dcrivons galement la morphologie de larabe dialectal dans la section 1.4
et plus particulirement le dialecte tunisien (TUN) dans la section 1.5. Afin de
bien prsenter les diffrences et les similarits entre le MSA et le TUN, nous avons
eu recours une analyse en profondeur de la morphologie.

1.1. Systme dcriture de larabe


Lcriture arabe est constitue dun ensemble de symboles crits de droite
gauche. Deux types de symboles existent : des consonnes qui constituent lal-
phabet et des voyelles. Afin de faciliter la lecture aux non-arabophones, nous
reprsentons les symboles arabes avec des caractres latins, cette opration est

a. (Al-Dahdah, 1996) expose les paradigmes verbaux et nominaux de larabe dans des ta-
bleaux. Il dcrit dune manire simple les systmes de conjugaison verbale et de dclinaison
nominale de cette langue riche par ses termes et complexe dans sa grammaire.
b. (Al-Ghulayaini, 2006) prsente les diffrentes catgories grammaticales de larabe et donne
les caractristiques morphologiques et syntaxiques de chaque catgorie.

21
appele translittration c . Dans tout ce document, nous suivons la translittration
propose par Habash et al. (2007).

1.1.1. Alphabet
Lalphabet arabe est compos de 28 consonnes (lettres). Ces dernires pos-
sdent plusieurs formes qui dpendent principalement de leurs positions dans le
mot. Le tableau 1.1.1 fournit la liste des consonnes, leurs noms, leurs formes et
leurs translittrations.

Hormis les cinq consonnes ( X d, X , P r, P z, w) qui ne se lient pas avec
les consonnes qui les suivent dans le sens de lcriture ( gauche), toutes les
consonnes arabes sattachent avec les consonnes voisines. Les consonnes w et

y sont dites des semi-consonnes tant donn quelles peuvent tre utilises
comme des voyelles (cf. section 1.1.2).
La premire lettre de lalphabet arabe (hamza) est particulire, elle scrit sou-
vent laide dun support. Ce dernier peut tre un alif ( @), un waw () ou un ya
( ), sa forme dpend des voyelles qui lentourent. Bien que la hamza possde

plusieurs formes @, , , elle se prononce toujours de la mme faon //. Dans

les crits arabes la hamza @ crite laide du support alif est optionnelle. On

retrouve gnralement un alif simple @ la place de @. La translittration de la
hamza voque la forme de son support. Par exemple, un accent circonflexe est

ajout aux @ A, w, y pour marquer leurs formes respectives avec la hamza @ ,

w, y.
Dautres particularits existent dans le systme dcriture arabe telles que :

le symbole ta marbuTa ~ qui marque gnralement le genre fminin des
noms. Il apparait uniquement la fin des noms et ne peut tre suivi que dune
voyelle courte. Ce symbole est prononc comme /t/ dans larabe moderne stan-
dard et reste souvent muet dans les dialectes arabes. galement, le symbole alif
maqSura apparait uniquement la fin des mots et nest prcd que de la
voyelle courte /a/. Ce symbole marque des verbes dfectifs (cf. section 1.3.2) et
des noms fminins (cf. section 1.3.3).
Les lettres de lalphabet sont classes en lettres lunaires et lettres solaires.
Lidentification du type de lettre est ralise laide de larticle dfini @ Al, qui est
invariant en genre et en nombre. En effet, la lettre initiale dun mot dtermin est
dite lunaire si la lettre l du dterminant est prononce. Cette lettre est muette
quand le mot commence par une lettre solaire. La lettre  q, par exemple, est
c. contrairement lcriture arabe, la translittration est lue de gauche droite.

22
lettre nom forme translittration
(forme isole) initiale mdiale finale

Z hamza @ @ @ A  J @  Z
H. ba K. J. I. b
H ta K J 
I t
H ta K J 
I

h. gm k. j. i. j
h h.a k j i H
p ha k j q x

X dal X Y Y d
X dal
X Y Y

P ra P Q Q r
P zay P Q Q z
sin    s
 n    
s.ad    S
d.ad    D
t.a    T
z.a   
ayn   
gayn
  
fa    f
 qaf    q
kaf    k
lam    l
lm    m
nun K J  n
ha    h
waw   w

ya K
J

 y

Table 1.1.: Alphabet arabe

23

lunaire car la lettre de larticle dfini du mot Q@ Alqamar /alqamar/ "la lune"
est prononce. En revanche, la lettre l est muette dans le mot  /aams/
@
Alms "le soleil". Par consquent, la lettre  est dite solaire. Les mots cits
comme exemples "la lune" et "le soleil" expliquent la classification des lettres en
lunaires et solaires.

1.1.2. Voyelles
Toutes les consonnes prsentes dans la section 1.1.1 saccompagnent de voyelles.
Deux types de voyelles existent en arabe : voyelles courtes et voyelles longues.

Voyelles courtes
Les voyelles courtes ou diacritiques sont des symboles situs au-dessus ou au-
dessous des consonnes auxquelles ils sont affects. Les diacritiques se regroupent
en trois catgories :
(i) Diacritiques simples : ce sont des petits sons que lon ajoute aux consonnes.
On distingue quatre diacritiques simples :  a,  u,  i et 
 qui indique
labsence de tout son.
(ii) Diacritiques doubles : ce sont des diacritiques situs la fin des noms arabes
indfinis d . Ces diacritiques se prononcent de la mme manire que leurs
homologues simples, sauf quon y ajoute le son /n/.
(iii) Chadda : elle se situe au dessus dune consonne et a pour effet le double-
ment de cette dernire. Le symbole "chadda"  est toujours accompagn
dun diacritique simple.
(iv) Alif madda : cest un diacritique qui permet de prononcer plus longuement

la hamza @ . La madda @ A est utilise toujours avec le support alif @ A.
Le tableau 1.2 donne la liste des diacritiques arabes, leurs translittrations et
les sons quils produisent.

d. Contrairement au franais, le caractre dfini ou indfini des noms arabes est distingu par
deux moyens diffrents : un article marque le dfini et un diacritique marque lindfini.

24
type diacritique nom translittration transcription
  J
j a /a/
fatHa~

  u /u/
Diacritique am~
simple  Q i /i/
kasra~

. pas
sukuwn de son
 iJ K
J K /an/
tanwiyn fatH
Diacritique   K
J K u /un/
double tanwiyn am
 Q K
J K /in/
tanwiyn kasr
Chadda   Y  doublement
ada~ de la consonne
 
 Y
madda @ A long //
mada~

Table 1.2.: Diacritiques arabes

Voyelles longues
Les voyelles longues sont au nombre de trois. Elles permettent de prononcer
plus longuement la vocalisation utilise. La voyelle longue est compose dune
voyelle courte  a,  u ou  i suivie respectivement dun support @ A, w ou y.
Le tableau 1.3 prsente la liste des voyelles longues de larabe, leurs translittra-
tions et leurs transcriptions.

voyelle longue translittration transcription


A aA /a/ long a
 uw /u/ long u

 iy /i/ long i

Table 1.3.: Voyelles longues arabes

Tandis que les lettres prsentes dans la section 1.1.1 sont obligatoires dans
lcriture, les diacritiques sont optionnels e . En effet, les textes arabes peuvent
e. Hormis les textes religieux qui sont entirement diacrits, les textes arabes sont gnrale-
ment non-diacrits.

25
tre non-diacrits, partiellement diacrits ou entirement diacrits. Labsence des
diacritiques dans les crits arabes pose des problmes dambiguts pour le lec-
teur. La proportion des mots ambigus dans le lexique arabe (qui possdent plus
quune diacritisation potentielle) est estime 90.5% (Debili et Achour, 1998).
Les diacritiques jouent un rle important dans la morphologie et la syntaxe de
larabe (Hamdi, 2012). En morphologie, par exemple, la voix dun verbe arabe
est parfois rendue par des diacritiques. Les verbes I  
. J katab "il a crit" et I.J
kutib "il a t crit" reprsentent respectivement la voix active et passive du verbe
I.J ktb "crire" et possdent la mme forme non-diacrite. En syntaxe, dautre
part, les diacritiques peuvent dterminer la fonction syntaxique dun mot. Pre-

nons comme exemple la phrase extraite du coran ZA@ <@ m
' f yx Allh
AllmA. Au niveau syntaxique, cette phrase non-diacrite est ambige, elle pos-
sde deux interprtations diffrentes :

ZA@ <@ m '

yx Allha AllmAu
Les savants craignent Dieu


ZA@ <@ m '

yx Allhu AllmAa
Dieu craint les savants

Bien que lordre des mots dans ces deux interprtations soit le mme, la phrase
peut tre lue de deux faons diffrentes. Seules les voyelles (mises en gras dans

lexemple) situes la fin des mots <@ All h et ZA@ AllmA permettent de distin-
guer le sujet de lobjet dans cette phrase g . Ces voyelles sont appeles voyelles ca-
suelles. Dautres voyelles situes en dbut et en milieu de mot sont dites voyelles
lexicales, leur apport se situe au niveau morphologique et lexical.
La diacritisation, dite aussi voyellation, est lopration qui consiste placer
automatiquement des diacritiques dans un mot arabe nen contenant pas. Le
nombre de diacritiques dun mot est gal au nombre de ses consonnes. Plusieurs
travaux tels que (Vergyri et Kirchhoff, 2004), (Nelken et Shieber, 2005) et (Zi-
touni et al., 2006) ont propos des systmes de diacritisation automatique des
textes arabes. Cette opration est troitement lie la dsambigusation mor-
phosyntaxique. En effet, Hamdi (2012) a montr que, en restituant les diacri-
tiques, les performances dun analyseur morphosyntaxique passent de 84.91%
95.59%. Nous revenons sur les diffrents processus de traitement morphosyn-
taxique de larabe dans le chapitre suivant.
@
X AJ . 
f. cette phrase est extraite du verset coranique ZA <@ m'
wayaxa Allha
min ibAdihi AlulamAu
g. Linterprtation correcte de cette phrase prsente dans le coran est bien entendu la pre-
mire.

26
Pour mieux illustrer lambigut lie labsence des diacritiques dans les textes
arabes et leur impact sur les applications de traitement automatique, nous don-

K. bkyn mn Al.hzn "elles
nons lexemple de traduction de la phrase Qm '@
ont pleur de tristesse". Labsence des diacritiques dans cette phrase a conduit
la fausse traduction propose par Google "Beijing de tristesse". En effet, la forme
non-diacrite du mot 
K. bkyn est ambige, elle peut correspondre aux mots
 
K . bikiyn "Beijing" ou 
 K . bakayna "elles ont pleur".

1.2. Phnomnes morphologiques de la langue


arabe
La morphologie est ltude de la structure interne des mots (Habash, 2010).
Elle sintresse la dcomposition dun mot en plusieurs units. Ces units sont
appeles morphmes (ou encore units morphologiques) qui sont les plus petites
units porteuses du sens.
La langue arabe dispose de trois moyens pour dterminer les units morpho-
logiques dun mot. Ces moyens sont lagglutination, la flexion et la drivation.

1.2.1. Morphologie agglutinante


Lagglutination concerne essentiellement le rattachement des clitiques aux mots
dans un ordre bien prcis. Les clitiques sont des morphmes qui possdent les
mmes proprits que les affixes (cf. section 1.2.2) mais ils peuvent tre raliss
comme des lments autonomes puisquils possdent des fonctions syntaxiques
indpendantes. Ils sont invariants, optionnels et ne changent pas la signification
de base du mot auquel ils se rattachent. Des multiples clitiques peuvent appa-
raitre dans un mme mot. Le mot qui contient des clitiques est nomm un mot
agglutin alors que le mot qui na aucun clitique est appel mot simple. Le mot

agglutin KJ
h wasayuTimuwnakum "et ils vous nourriront", par exemple
est compos du mot simple
yuTimuwna "ils nourrissent" augment par

les clitiques wa "et", sa "particule de futur" et kum "vous".
On distingue deux types de clitiques : des proclitiques qui se rattachent au
dbut du mot et des enclitiques situs la fin de ce dernier. Les proclitiques
sont regroups en plusieurs classes selon leurs fonctions grammaticales. Dans
les tableaux 1.4, nous donnons la liste des proclitiques prsents selon leurs
positions, du plus loign au plus proche du mot.

h. linstar de la majorit des crits arabes, tous les mots arabes donns dans ce manuscrit
sont non-diacrits. Par contre, nous remettons les diacritiques dans la translittration.

27
classe catgorie proclitique glossaire

QST particule interrogative + @ + est-ce que
CNJ conjonction + wa+ et

+  fa+ puis, alors
PRP prposition + K. bi+ par, avec
+  ka+ comme
+  li+ pour,
PRT particule de futur +  sa+ "particule de futur"
particule de ngation + B lA+ ne ... pas
+ A mA+
DET dterminant + @ Al+ le, la, les

Table 1.4.: Liste de proclitiques

Le mot arabe connait un seul enclitique, le pronom, qui peut tre soit un com-
plment dobjet pour le cas des verbes et des particules, soit un pronom possessif
pour les noms. Lenclitique varie en genre et en nombre. Nous prsentons les
diffrents enclitiques arabes selon la personne, le genre et le nombre dans le
tableau 1.5.
Les clitiques ne sont pas toujours compatibles avec un mot donn, leur com-
patibilit dpend de la catgorie grammaticale du mot. Prenons comme exemple
trois catgories grammaticales nom, verbe et particule, leurs structures peuvent
tre dcrites respectivement par les expressions rgulires suivantes :

QST ? CNJ ? PRP ? nom POSS ?

QST ? CNJ ? (PRP ?|PRT ?) verbe OBJ ?

QST ? CNJ ? particule OBJ ?

Le symbole ? dans ces expressions indique que les clitiques sont optionnels
contrairement la forme simple qui constitue le cur dun mot arabe.

Lagglutination pose des problmes dambigut pour le lecteur arabophone et


par consquent pour les processus de traitement automatique de la morphologie
arabe. En effet, dans certains cas, plusieurs lectures sont possibles, comme dans
le cas du verbe Y wd qui peut tre reconnu comme forme simple wd "pro-
mettre" ou bien compose en w+d "et compter". linstar de Y wd, les mots
arabes qui commencent ou se terminent par des lettres qui peuvent reprsen-
ter des clitiques sont potentiellement ambigus. titre dexemple, la forme @

28
personne genre nombre enclitique
1 masculin singulier + +iy /  + +niy

fminin pluriel AJ + +nA


2 masculin singulier + +ka
duel A+ +kumA
pluriel + +kum
fminin singulier + +ki
duel A+ +kumA
pluriel
 + +kunna

3 masculin singulier + +hu
duel A+ +humA
pluriel + +hum
fminin singulier A+ +hA
duel A+ +humA
pluriel
 + +hunna

Table 1.5.: Liste denclitiques

Almhm commence par @ Al qui peut tre larticle dfini. Elle se termine par
hm qui peut tre galement un clitique leur. Par consquent, deux dcoupages
sont possibles pour cette forme :
+@ Al+ mhm "limportant"
+ @ Alm +hm "leur douleur"
Le dcoupage + +@ Al+ m +hm nest pas possible car le morphme m
nexiste pas dans le lexique de larabe.
Le mot @ wAly qui peut tre reconnu comme un mot simple "gouverneur"

commence et se termine par des lettres qui peuvent tre des clitiques. La lettre
w reprsente la conjonction "et" alors que est le pronom possessif "mon".

Ainsi, dautres dcoupages possibles se rajoutent la forme simple


@ wAly
"gouverneur" :
@ + w+ Aly "et automatique"


+ @ + w+ Al +y "et mon clan" autres que la forme simple
Lambigut est plus importante lorsque les diacritiques ne sont pas reprsen-
ts. Labsence de diacritiques et lagglutination prsentent deux problmes mu-
tuels. En effet, la restitution des diacritiques permet de rduire le nombre de

29
dcoupages possibles dun mot. De la mme faon, le dcoupage dun mot peut
contribuer lever lambigut vocalique du mot.

1.2.2. Morphologie flexionnelle


La flexion dun mot repose sur la concatnation daffixes un radical pour
construire une forme flchie. Le radical, obligatoire dans le mot, porte le sens
de base du mot. Les affixes possdent trois types : les prfixes, qui se situent
avant le radical, les suffixes, qui se situent aprs le radical et les circonfixes
qui lentourent. La dtermination des affixes repose sur les valeurs des traits
morphologiques. Au niveau flexionnel, seules les particules restent invariables et
ne possdent pas de formes flchies. Elles possdent, en revanche, des formes
agglutines comme nous lavons voqu dans la section 1.2.1.

Traits morphologiques du verbe


Les traits morphologiques associs un verbe sont :
@ Al-
laspect : larabe distingue trois aspects diffrents. Laccompli ( A

mADy) dit aussi le perfectif, utilis quand laction est accomplie. Cest las-
pect le plus simple dun point de vue morphologique. Utilis avec la troi-
sime personne du singulier, il reprsente la forme canonique dun verbe,
@ AlmDAr) appel
linstar de linfinitif en franais. Linaccompli ( PA
aussi limperfectif indique que laction est en train de se raliser, sans tre
acheve. Il exprime le prsent, et permet dexprimer le pass et le futur

laide de particules. Limpratif (Q B@ Almr) indique linjonction. Il ne peut
tre conjugu qu la deuxime personne.

le mode : trois modes sont dfinis en arabe. Lindicatif ( Q @ Almrfw)
employ dans une proposition principale. Le subjonctif ( H
. J @ AlmnSwb)
. @ Almjzwm)
employ dans une proposition subordonne. Lapocop ( Qj
dit aussi le jussif exprime la ngation, linterdiction ou le conditionnel. Le
mode sapplique uniquement laspect imperfectif.
la personne, le genre et le nombre du sujet : comme le franais, larabe dis-

tingue trois personnes et deux genres, le masculin (QY @ Almkr) et le

 K @ Almwn). En revanche, larabe distingue trois valeurs pour
fminin ( I

le nombre le singulier ( XQ @ Almfrd), le duel ( J @ Almn) et le pluriel
( m. '@ Aljm).
Le tableau 1.6 donne la liste des diffrents affixes des verbes dans laspect ac-
compli selon les valeurs des traits morphologiques : personne, nombre et genre.
Nous illustrons la flexion verbale sur le verbe aTam "nourrir".

30
personne nombre genre affixe Exemple [aTam]
1 singulier - +tu aTamtu
pluriel - +nA aTamnA
2 singulier masculin +ta aTamta
fminin +ti aTamti
duel masculin +tumA aTamtumA
fminin +tumA aTamtumA
pluriel masculin +tum aTamtum
fminin +tunna aTamtunna
3 singulier masculin +a aTama
fminin +at aTamat
duel masculin +A aTamA
fminin +tA aTamtA
pluriel masculin +uwA aTamuwA
fminin +na aTamna

Table 1.6.: Affixes des verbes pour laspect accompli

Le signe + utilis dans le tableau 1.6 indique la position du radical par


rapport laffixe. Avec laspect accompli, uniquement des suffixes sont utiliss,
contrairement laspect inaccompli et impratif o des circonfixes sont possibles.

La forme flchie du verbe @ aTam dans le mode indicatif de laspect inac-
compli avec la troisime personne du masculin pluriel est
yTmwn "ils

nourrissent".

Traits morphologiques du nom


limage de la flexion verbale, la flexion nominale se base sur la dtermination
des affixes lis au radical selon les valeurs des traits morphologiques suivants :
 mrf ) laide dun article ou dune
ltat : un nom peut tre dfini ( Q

construction possessive ou indfini ( QK nkr~). Comme nous lavons in-
diqu dans la section 1.1.2, ltat indfini est marqu par un diacritique
double.
le cas : ce trait est fondamental pour distinguer la fonction syntaxique du
nom. On dnombre trois valeurs diffrentes pour ce trait. Laccusatif ( H
. J

mnSwb), le nominatif ( Q mrfw) et le gnitif (PQm. mjrwr).
le genre et le nombre : limage des verbes, les noms arabes possdent deux
genres et trois nombres.
Le tableau 1.7 prsente les diffrents affixes des noms indfinis selon les va-
leurs des traits morphologiques avec lexemple du nom muTim "nourris-

31
seur". Nous donnons entre parenthses les affixes des noms dfinis.

genre nombre cas affixe exemple muTim


msaculin singulier nominatif +un (+u) muTimun
accusatif +an (+a) muTiman
gnitif +in (+i) muTimin
duel nominatif +Ani (+Ani) muTimAni
accusatif +Ani (+Ani) muTimAni
gnitif +Ani (+Ani) muTimAni
pluriel nominatif +uwna (+uwna) muTimuwna
accusatif +iyna (+iyna) muTimiyna
gnitif +iyna (+iyna) muTimiyna
fminin singulier nominatif +~un (+~u) muTim~un
accusatif +~an (+~a) muTim~an
gnitif +~in (+~i) muTim~in
duel nominatif +atAni (+atAni) muTimatAni
accusatif +atAni (+atAni) muTimatAni
gnitif +atAni (+atAni) muTimatAni
pluriel nominatif +Atun (+Atu) muTimAtun
accusatif +Atan (+Atan) muTimAtan
gnitif +Atin (+Atin) muTimAtin

Table 1.7.: Affixes nominaux de larabe

Contrairement la flexion verbale qui est rgulire, la flexion nominale ne



lest pas toujours. Le suffixe + +~ par exemple, qui marque souvent le genre
fminin peut apparatre dans des noms masculins tel que J
g xaliyfa~ "ca-
life". Dautre part, le passage du singulier au pluriel peut tre effectu laide
de schmes au lieu daffixes. Nous revenons sur cette irrgularit dans la sec-
tion 1.2.3.
linstar de lagglutination, la flexion provoque de lambigut essentiellement
quand le radical commence ou se termine par un affixe potentiel. Le mot k. @QK
trAj, par exemple est ambigu car sa premire lettre K t peut tre ralise comme
un affixe ou faire partie du radical. Dans le premier cas, le verbe est conjugu
laccompli actif avec la troisime personne du masculin singulier qui nest autre
que le radical k. @QK trAj "il a diminu". Dans la deuxime situation, le verbe
k. @QK trAj "elle/tu rvise(s)" reprsente la concatnation du prfixe K t au radical
k. @P rAj "rviser". Laffixe K t est utilis pour la troisime personne du fminin
singulier et la deuxime personne du masculin singulier.

32
1.2.3. Morphologie drivationnelle
Le processus de drivation est base sur la combinaison dune racine (P Yg. jr)

et dun schme ( P
wzn) pour former un radical. La racine est une squence de
trois, quatre ou cinq lettres qui dfinit une notion abstraite. La racine H. H k
t b, par exemple, est associe la notion dcriture alors que la racine P X d r
s et lie la notion dtude. Le schme, appel aussi gabarit ou patron, dfinit le
format du radical. Un schme peut tre reprsente par une squence compose
de chiffres et de lettres tel que 1A2a3, ma12a3 i . Le processus de drivation
(cf. figure 1.1) consiste remplacer chaque chiffre du schme par les lettres
de la racine dans lordre. Reprenons lexemple de la racine H . H k t b, en
remplaant les chiffres 1,2 et 3 des schmes 1A2a3 et ma12a3 par les lettres
correspondantes de la racine, donne naissance aux mots I 
. KA kAtab "correspondre
avec" et I.J maktab "bureau" respectivement.
racine k t b
schme 1 A 2 a 3
radical k A t a b

racine kt b
schme m a 1 2 a 3
radical m a k t a b

Figure 1.1.: Processus de drivation dans larabe

Un schme est porteur dun sens gnral, tel que le factitif, le nom prototypique
de la personne qui effectue laction, le rsultat de laction. . . Le sens dun mot
driv dune racine et un schme est gnralement la combinaison de la notion
dfinie par la racine et le sens vhicul par le schme.
Les schmes verbaux marquent laspect et la voix (on distingue lactif et le
passif sans agent). Le schme prend des formes diffrentes selon les valeurs de
laspect et de la voix du verbe. Larabe dfinit dix schmes (I j , II, X) pour les
verbes trilitres k et deux schmes (QI, QII) pour les verbes quadrilitres (Ha-

i. Il existe dautres manires pour reprsenter les schmes dans la littrature. La lettre C peut
tre utilises la place des chiffres pour indiquer la position des lettres de la racine. laide de
cette reprsentation, nos exemples deviennent CACaC et maCCaC respectivement.
j. Pour reprsenter les schmes verbaux, les linguistes ont eu recours aux chiffres romains au
lieu dcrire explicitement la forme de schme. Le schme 1a2a3, par exemple, est reprsente
par I alors que 1a22a3 est reprsent par II. . . Nous prsentons cette correspondance dans le
tableau 1.8
k. les verbes trilitres sont les verbes dont la racine est composs de trois lettres alors que les

33
bash, 2010).
Le tableau 1.8 prsente les schmes des verbes arabes pour laspect accompli
et linaccompli ainsi que leurs significations. Nous indiquons entre parenthse
les schmes de la voix passive. Nous donnons galement les verbes trilitres
rsultant de la combinaison des schmes avec la racine H . H k t b et les verbes
quadrilatres rsultant de la combinaison des schmes avec la racine P H H.
b r.
accompli inaccompli signification verbe
I 1a2a3 a12a3 sens katab
(1u2i3) (u12a3) de base crire
II 1a22a3 u1a22i3 intensification kattab
(1u22i3) (u1a22a3) faire crire
III 1A2a3 u1A2i3 interaction kAtab
(1uw2i3) (u1A2a3) correspondre avec
IV a12a3 u12i3 causalit ktab
(u12i3) (u12a3)
V ta1a22a3 ata1a22a3 forme takattab
(tu1u22i3) (uta1a22a3) rflexive de II
VI ta1A2a3 ata1A2a3 forme takAtab
(tu1uw2i3) (uta1A2a3) rflexive de III
VII Ain1a2a3 an1a2i3 forme Ainkatab
(un1u2i3) (un1a2a3) passive de I
VIII Ai1ta2a3 a1ta2i3 exagration Aiktatab
(u1tu2i3) (u1ta2a3)
IX Ai12a33 a12a33 transformation Aiktabb
(u12u33) (u12a33)
X Aista12a3 asta12a3 exigence Aistaktab
(ustu12i3) (usta12a3)
QI 1a23a4 u1a23i4 sens baar
(1u23i4) (u1a23a4) de base
QII ta1a23a4 ata1a23a4 forme tabaar
(tu1u23i4) (uta1a23a4) rflexive de Q

Table 1.8.: schmes verbaux arabes

Comme les schmes verbaux, les schmes nominaux vhiculent un sens gn-
ral li laction, tel que le nom de la personne qui effectue laction (participe
actif), la personne qui subit laction (participe passif) ou le nom du lieu o lac-
. H k t b, dans cet ordre, peut se croiser avec
tion est ralise . . . La racine H
divers schmes. Les diffrents mots gnrs suite la combinaison dune racine
verbes quadrilatres possdent quatre lettres dans la racine. Dans certains ouvrages, les termes
tri-consonantiques et quadri-consonantiques sont utiliss

34
avec des diffrents schmes constituent une famille smantique. Le tableau 1.9
prsente quelques noms drivs de la racine H. H k t b. Comme nous lavons
voqu prcdemment, dans certains cas le passage du singulier au pluriel ne
repose pas sur les affixes mais sur les schmes. Le pluriel bti sur un schme est
appel pluriel bris ( Q
J@ g. jm Altksyr).

schme signification nom glose


1A2i3 participe actif kAtib crivain
ma12uw3 participe actif ma12uw3 crit
1i2A3a~ forme infinitive kitAba~ criture
ma12a3 nom du lieu maktab bureau
ma12a3a~ nom du lieu maktaba~ bibliothque

Table 1.9.: schmes nominaux arabes

Le processus de drivation de larabe nest pas systmatique. Cest dire quune


racine ne sapplique pas tous les schmes. En effet, tant donn que lensemble
de racines arabes est compos par n racines r1 , r2 , r3 . . . rn et lensemble de
schmes est composs de m schmes sch1 , sch2 , sch3 . . . schn , les diverses com-
binaisons entre les deux ensembles dfinissent la totalit du lexique potentiel de
larabe dont le lexique rel ne constitue quune partie.
Lambigut produite par la drivation est parfois produite par lambigut en-
gendre apr la flexion. Lambigut flexionnelle du mot k. @QK trAj conduit
une ambigut drivationnelle. La forme qui correspond la glose "elle rvise" se
drive de la racine h. P r j et le schme 1A2a3. Alors que lautre forme cor-
respond au croisement de cette mme racine avec le schme ta1A2a3. De plus,
lambigut peut provenir des lettres qui peuvent appartenir potentiellement la

racine ou au schme. titre dexemple, le mot Q@ Astrq possde deux driva-
tions diffrentes qui dpendent de la lettre s. Cette lettre peut faire partie de
la racine ou du schme :
racine s r q et schme Ai1ta2a3 "espionner"
racine r q q et schme Aista12a3 "asservir"

1.3. Catgories grammaticales


Dans la grammaire classique de larabe, on distingue trois catgories gram-

maticales qui sont la particule ( Qk Hrf ), le verbe ( fl) et le nom ( @
Asm) (Al-Dahdah, 1996; Al-Ghulayaini, 2006). Ce jeu de catgories, bien que ru-
dimentaire, regroupe entirement toutes les catgories qui partagent les mmes

35
proprits. Ladjectif par exemple est considr comme nom dans cette classifi-
cation. En effet, ladjectif possde les mmes traits morphologiques que le nom
Y@ Alwld AlSyr "le petit enfant", ladjec-
tel que ltat. Dans lexpression Q
@
AlSyr est dfini "le petit" laide de larticle @ Al. Nous nous focalisons
tif Q
@
dans cette section sur la description de ces trois catgories.

1.3.1. Particules
Les particules sont des mots (parfois des clitiques) qui nont pas de sens auto-
nome (Al-Ghulayaini, 2006). Elles ne possdent pas de formes flchies et sont en
nombre limit. La classification des particules arabes est une tche complexe. En
effet, il nexiste pas une classification commune tous les grammairiens arabi-
sants. Dans ce mmoire, nous citons les principales catgories proposes par (Al-
Dahdah, 1996) :
adverbes : certains adverbes (pas tous) sont considrs comme des parti-

cules tels que faqaT "seulement", A
@ ayA "aussi", @YK. @ abadA "ja-
mais". . .

conjonctions : wa et,  fa "alors", ' um "puis". . .
prpositions : an " propos", ala "sur",
min "de", @ Aila "",

fiy "dans". . .
particules de conditions : law "si", @ Ain "si". . .


particules dinterrogation : hal "est-ce que", A mA "quest ce que". . .
particules de ngation : A mA, B lA "ne .. pas".


particules de futur : sawfa.
proclitiques : K. bi "avec",  ka "comme",  sa. . .

1.3.2. Verbes
Le systme verbal de larabe est la fois simple et complexe : il est simple dans
le sens o sa flexion est rgulire (Larcher, 2012). Il est complexe du fait que les
variations entre ses groupes sont multiples, ce qui rend sa classification difficile.
Les verbes arabes peuvent tre regroups selon la racine ou selon le schme.

Classification des verbes selon la racine


Les verbes peuvent tre classs selon le nombre de lettres dans la racine, on
distingue :

A B@ AlfAl AllAy~) qui possdent
(i) les verbes trilitres ( J
KCJ@ trois
lettres dans la racine tels que I 
. J ktb "crire" et PX drs "tudier".

36

A B@ AlfAl AlrbAy~) qui contiennent
(ii) les verbes quadrilitres ( J
AK. Q@
quatre lettres dans leurs racines, linstar des verbes h. QkX dHrj "rouler" et
 rql "entraver".
Q
En outre, les verbes arabes peuvent tre regroups selon la nature des lettres

de leurs racines. On distingue les verbes sains ( jJ
j@ A B@ AlfAl AlSHyH~)

A B@ AlfAl Almtl~). Ces derniers contiennent
et les verbes malsains ( J @
une lettre dfective ( w ou y) dans leurs racines.

(i) verbes sains : ces verbes peuvent tre "hamzs", redoubls ou parfaitement
sains. Le verbe parfaitement sain na aucune particularit, il suit la d-
rivation et la flexion rgulires utilises dans larabe. Le verbe "hamz"
Alfl Almhmwz) est un verbe qui contient la lettre hamza dans
@ @
(P
sa racine. Cette lettre peut figurer dans la premire, la deuxime ou la

troisime position de la racine tels que Yg @ x "prendre", A saal "ques-

tionner", @YK. bada "commencer" respectivement. Leur particularit rside
dans la forme de la hamza qui dpend de la position et les voyelles voi-
@ @
sines. Le verbe redoubl ( A
Alfl AlmDAf ) se caractrise par
une racine dont la deuxime et la troisime lettres sont identiques, lins-

tar de XP rad "rendre" et mal "sennuyer". Sa spcificit provient de sa
drivation qui consiste liminer la deuxime voyelle du schme partir
duquel le verbe se drive.
(ii) verbes malsains : ces verbes contiennent une lettre dfective dans leur ra-
cine. On distingue trois groupes de verbes malsains selon la position de la
lettre dfective dans la racine. Cette lettre est situe en premire position

de la racine pour le verbe assimil ( AJ @ @ Alfl AlmAl). La lettre d-
fectueuse occupe respectivement la deuxime lettre de la racine du verbe

creux ( k. B@ @ Alfl Aljwf ) et la troisime lettre du verbe dfectueux

( AJ@
Alfl AlnAqS).
@
Morphologiquement, les verbes malsains se distinguent des verbes sains au
niveau de la drivation. En effet, leurs schmes subissent des transformations
radicales selon la valeur de laspect auquel le verbe est conjugu. Nous reve-
nons en dtail sur les transformations subies par les schmes suivant le type du
verbe dans lannexe. Nous donnons quelques exemples de verbes malsains dans
le tableau 1.10.

37
position de la type racine verbe
lettre dfectueuse
AJ
1 miAl wSl wSl
assimil arriver
@
k  A
.
2 jwaf qwl qAl
creux dire
A K
 
3 nAqiS m y maa
dfectueux marcher

Table 1.10.: Exemples de verbes malsains

Deux autres classes se rajoutent ces six catgories, les verbes possdant deux
lettres dfectueuses dans les lettres de la racine. Le verbe li Q
 maqruwn

comptant deux gildes successifs et le verbe spar
 mafruwq. Un rcapitu-
Q
latif des catgories des verbes arabes qui dpendent de la racine est donn dans
la figure 1.2.

Figure 1.2.: classification des verbes selon la racine

Classification des verbes selon leur schme



 . @
Le systme verbal distingue les verbes simples ou non-augments ( XQj A B@

AlfAl Almjrd~) des verbes augments ( YK
Q @ A B@ AlfAl Almzyd~) :
(i) verbes simples : ce sont les verbes qui suivent le schme trilitre I et le
schme quadrilitre Q. Les trilitres possdent trois formes diffrentes 1a2a3,
1a2u3 et 1a2i3. Les verbes 1a2a3 sont des verbes dactions, les verbes

38
1a2u3 sont des verbes dtats et les verbes 1a2i3 sont lun ou lautre (Lar-
cher, 2012). Quant aux quadrilitres, ils possdent une seule forme 1a23a4.
(ii) verbes augments : ils sont au nombre de neuf pour les schmes trilitres.
Les schmes possdant quatre radicaux ont une seule forme augmente.
Le tableau 1.11 rsume la classification des verbes arabes selon leurs schmes :

non-augment trilitre I 1a2a3I.J katab crire


I 1a2u3

H. Q qarub se rapprocher
I 1a2i3 I.P rakib monter
quadrilitre Q 1a23a4

Q rql entraver

augment trilitre II 1a2 a3 iK nqH rviser
III 1A2a3 YA sAd aider

IV 12a3 Q @ sra se dpcher

V ta1a2 a3 K taalam apprendre
VI ta1A2a3 k. @QK tarAja dcrotre
 
VII Ain1a2a3 JK@ Aintaqal se dplacer
VIII Ai1ta2a3 J@ Aistama couter
IX Ai12a3  g
Q @ AiHmar se rougir

X Aista12a3 J.J@ Aistaqbal acceuillir

quadrilitre IQ ta1a23a4 QJ.K tabaar sparpiller

Table 1.11.: classification des verbes selon leur schme

1.3.3. Noms
Les noms arabes sont regroups en deux catgories principales : les noms so-

lides ( YAm. '@ ZA B@ AlsmA AljAmd~) qui chappent gnralement toute d-
 
rivation et les noms dverbaux ( J
 @ ZA B@ AlsmA Almtq~) qui drivent
dune racine verbale (Al-Dahdah, 1996; Al-Ghulayaini, 2006).

Noms solides
La morphologie nominale arabe classe les noms solides en plusieurs sous-
catgories, parmi lesquelles les pronoms, les nombres, les noms interrogatifs,
les adverbes, les noms propres et les noms communs.

noms interrogatifs : utiliss dans les phrases interrogatives tels que J
kyf

"comment",  mt "quand", K
@ yn "o". . .

39
noms numratifs et quantitatifs : les numratifs concernent les nombres
 
simples tels que les units de zro (Q Sfr) neuf (  ts~), les dizaines
 
 tswn), les centaines etc, et
de dix ( Q r~) quatre-vingt-dix (
les nombres composs comme  Yg@ wAHd wrwn "vingt-et-un" et
Q
KCK Yg@ wAHd wlAwn "trente-et-un". . . les quantitatifs comme 
kl

"tout", kl "tout". . .
pronoms (QKA DamAyr) : ce sont les pronoms personnels (
 J QKA

DamAyr mnfSl~), titre dexemple pour la premire personne il y a AK @

nA "je" et m ' nHn "nous", les pronoms dmonstratifs ( PAB
  @ ZA @ s-


mA AlAAr~) tels que @ Y hA "ce", ZB hwlA "ces". . . Les pronoms rela-
 
tifs comme Y@ Aly "celui" et @ Alty "celle". . . Cette sous-catgorie

regroupe galement les clitiques pronoms dobjets pour les verbes et les pro-
noms possessifs pour les noms.
noms propres : cest un nom qui rfre une entit unique de personne

comme Ym Mohammed, de lieux tels que 
PAK. Paris, etc.
noms communs : ce sont des noms employs pour dsigner tous les l-
ments dun mme ensemble, il dispose dune dfinition et dune significa-

tion (Goosse et Grevisse, 1993). Parmi ceux-ci il y a des noms bilitres fm

"bouche", trilitres comme K @ nf nez, I. klb chien, quadrilitres, etc.
Les trois premires sous-catgories sont non-drivationnelles. En revanche,
contrairement aux pronoms qui sont conjugables, les noms interrogatifs, num-
ratifs et quantitatifs nadmettent pas de formes flchies, morphologiquement ils
sont similares aux particules. Les noms communs sont galement non-drivationnels
mais conjugables. Leur flexion est gnralement irrgulire et ne dpend pas des
affixes. Des schmes sont utiliss pour distinguer le singulier et le pluriel. Bien
que les noms communs soient drivs de schmes arabes, ils sont considrs
comme non-drivationnels puisque les racines que lon en dduit ne dfinissent
pas une notion. Prenons comme exemple les noms I @ rnb"lapin" et XCK. blAd
KP
.
"pays" qui possdent respectivement les schmes a12a3 et 1i2A3. Les racines
dduites de lquation racineschmes = nom_commun, sont H
. P r n b et
X H. b l d, elles nexistent pas dans le lexique arabe. Concernant les noms
propres, hormis les noms de personnes, ils sont la fois non-conjugables et non-
drivationnels. En effet, les noms de personnes sont drivs dune racine et dun
schme et admettent gnralement une signification lie la notion dfinie par
la racine comme '
Q krym "gnreux" et A sAlm "sain". Cette particularit rend

40
le nom propre arabe ambigu, le mot Hsn par exemple peut tre un nom
k
propre "Hasan", un adjectif "bon" ou un verbe "bonifier".

Dverbaux
Contrairement aux noms solides, les dverbaux connaissent une flexion et une
drivation rgulires. Ils sont drivs de verbes ; en effet, chaque verbe fournit
neuf catgories de dverbaux (Al-Ghulayaini, 2006). Chacun deux correspond
une relation smantique entre le verbe et le dverbal (cf. table 1.12).

1 A@ @ participe actif

2 @ @ participe passif
3 PY forme infinitive

4 A @ @ nom du lieu
5 A Q@ @ nom du temps

6  B@ @ nom de linstrument
  
7 D.
adjectif analogue

8 J
J@ @ adjectif comparatif
 @ J forme exagre
9 AJ .

Table 1.12.: Noms dverbaux arabes

Du verbe (1) Q  naDar "observer" et (2) Q JK@ AintaDar "attendre", plusieurs


noms dverbaux peuvent tre drivs, tels que, QA K nADir "observateur", P J manDuwr
"observ" de (1) et Q JJ
muntaDir "la personne en attente", Q JJ muntaDar "at-
tendu" de (2). Ces dverbaux reprsentent respectivement les participes actifs
et passifs de ces verbes. Ils sont drivs de la mme racine que le verbe et des
diffrents schmes nominaux qui dpendent des schmes verbaux. La table 1.13
donne les schmes de quelques dverbaux drivs partir des deux premiers
schmes verbaux.

41
schme verbal dverbal schme nominal msa exemple
1a2a3 1 1A2i3 kAtib "crivain"
2 ma12uw3 maktuwb "crit"
3 1i2A3a~ kitAba~ "criture"
4 ma12a3 maktab "bureau"
1a22a3 1 mu1a22i3 mudarris "instituteur"
2 mu1a22a3 mudarras "tudi"
3 1i2A3a~ dirAsa~ "tude"
4 ma12a3a~ madrasa~ "institut"

Table 1.13.: Exemple de dverbaux dans larabe

La table 1.13 reprsente un chantillon dune grande table des dverbaux qui
dfinit pour chaque schme verbal tous les dverbaux qui drivent deux. G-
nralement, un schme nominal unique est dfini pour chaque dverbal. En re-
vanche, dans quelques cas, tels que les noms des lieux et des instruments, on
peut retrouver plusieurs schmes nominaux.

1.4. Dialectes arabes : variations lexicales et


morphologiques
Les dialectes arabes prsentent plusieurs similarits linguistiques avec le MSA.
En revanche, ils se diffrent un degr variable aux niveaux phonologique, lexi-
cal, morphologique et syntaxique.

1.4.1. Variations phonologiques


Le systme phonologique varie entre le MSA et ses dialectes dune part et entre
les dialectes eux-mmes dautre part. Parmi ces variations on peut citer :
 // et X // sont ralises comme /t/ et /z/ respectivement
les consonnes H
en LEV et EGY. Par contre leurs prononciations originelles sont maintenus en
MAG .
la consonne h. /j/ est prononce comme /g/ en EGY et /y/ en GLF.
le consonne  /q/ est ralise comme // en EGY et en LEV alors quen GLF,
elle est prononce /g/.
la consonne de MSA /D/ est ralise comme /Z/ en EGY et en LEV .

1.4.2. Variations lexicales


Le nombre de variations lexicales entre larabe standard et ses dialectes est
significatif. Le tableau 1.14 illustre ces variations avec des exemples en MSA,

42
MRC (dialecte marocain), TUN , EGY , LEV et IRQ (dialecte irakien) :

msa tun mrc egy lev irq glossaire



k
AK. K
P

 iJ
J k  bien
Hasan bAhy zwiyn kwayis mniyH xuw

Z@ Yg AJ.  AJ. 
Qk. 
AJ. PYJ chaussure
HiA SabAT SabAT jazma~ SabAT kindra~
Jm . J. J. J
J. Jm .
J.k fou
majnuwn mahbuwl mahbuwl abiyT majnuwn xibil
PAJ JQ JK JK Q PAJ PAJ voiture

.
.
.

sayAra~ karahba~ Tuwmuwbiyl arabiya~ sayAra~ sayAra~



A YJ YJ Q K Q 
A Q
 table



.
TAwila~ miyda~ miyda~ Tarabiyza~ TAwla~ miyz

Table 1.14.: Exemples de variations lexicales entre le msa et ses dialectes

Deux traits principaux marquent les variations lexicales entre le MSA et les
dialectes. Premirement, les dialectes maintiennent parfois la mme racine. Le
changement, dans ce cas, est restreint sur le schme. Deuximement, les varia-
tions proviennent de lemprunt de nouveaux termes langues voisines.

1.4.3. Variations morphologiques


Les dialectes arabes sinspirent beaucoup de larabe standard. En effet, on re-
trouve des phnomnes morphosyntaxiques partags par toutes les variantes de
larabe. Morphologiquement, les dialectes arabes sont moins riches que le MSA.
Au niveau flexionnel, certains traits morphologiques utiliss dans larabe stan-
dard nexistent pas en arabe dialectal tels que le cas et le mode. Dautre part, les
dialectes ne distinguent pas le duel et le pluriel ni le genre fminin et masculin
au pluriel des formes verbales. Quant la drivation, ils utilisent des schmes
qui nexistent pas dans le MSA tel que 1i2i3. En effet, le verbe katab du MSA de-
vient kitib en EGY et LEV. Au niveau de lagglutination, une particule progressive
qui na pas danalogue en MSA est utilise dans certains dialectes. Elle apparait
comme + K. b+ en EGY et en LEV, comme + X d+ en IRQ et + k+ en MRC. Quant
la particule de futur +  s+, elle devient + k H+ en EGY et LEV et apparait

comme +  en MRC . Au niveau des noms, les dialectes arabes utilisent un cli-
tique dmonstratif +  h+ employ toujours strictement avant larticle dfini
+ @ Al+. Les dialectes utilisent aussi les proclitiques +  + et +  m+ qui re-
prsentent des formes rduites des prpositions min "de"
ala "sur" et
respectivement.

43
1.4.4. Variations syntaxiques
Les diffrences syntaxiques entre les dialectes arabes et le MSA sont gnrale-
ment rparties : les mmes phnomnes existent dans des conditions diffrentes
la fois en MSA et dans les dialectes. Au niveau de lordre des mots de la phrase,
on retrouve les deux modles SVO et VSO dans les deux variantes avec relative-
ment plus de frquence de lordre VSO en MSA. Lordre de mots en MSA possde
plus de flexibilit par rapport aux dialectes puisquil utilise des marqueurs de cas
qui sont absents dans les dialectes.

1.5. Dialecte tunisien


Le dialecte tunisien est le fruit de diffrentes cultures dveloppes sur le terri-
toire tunisien. Plusieurs linguistes ont tudi la situation linguistique en Tunisie,
par exemple, Mejri et al. (2009) ont dcrit les systmes phonologiques, morpho-
logiques et syntaxiques du tunisien. Ouerhani (2009) ont tudi les phnomnes
dinterfrence entre la morphologie verbale du tunisien et celle de larabe stan-
dard dune part, et la relation entre les verbes tunisiens et franais (le cas de
lemprunt) dautre part.
La diversit des peuples qui ont vcu en Tunisie particulirement les berbres,
les arabes, les turcs et les franais a marqu le systme phonologique et lexical du
dialecte tunisien. Au niveau phonologique, le tunisien prsente trois phonmes
supplmentaires par rapport larabe standard savoir /p/, /v/ et /g/. Au ni-
veau lexical, il existe des multiples mots dorigines diffrentes qui ont enrichi
le lexique tunisien. Nous trouvons ainsi des mots dorigine berbre Q kar-
muws "figue", franais PAJ
. sbiyTAr "hpital", turc PK. AK. bAbuwr "bateau", italien
  
K. buwsTa~ "bureau de poste", maltais qaTuws "chat", anglais J.Q

karhba~ "voiture", espagnol AJ. SabAT "chaussure", arabe classique m @ a-
kHil "noir". . .
Bien que ces mots proviennent de plusieurs origines, ils suivent les rgles mor-
phologiques de larabe standard. En effet, la morphologie du TUN se base sur
celle du MSA, on retrouve ainsi les phnomnes dagglutination de flexion et de
drivation dcrits dans la section 1.2 mais avec quelques diffrences que nous
dcrivons ci-dessous.

1.5.1. Agglutination
Au niveau de lagglutination, deux phnomnes distinguent le tunisien du
MSA . Dune part, certains clitiques MSA sont raliss sous la forme de particules
indpendantes en tunisien et vice-versa. La prposition +  li+ pour et le pro-
clitique de futur ne sont plus rattachs aux verbes. Tous deux se traduisent par

44
la particule indpendante  . bA qui se situe avant le verbe : les formes I.JJ
AK
litaktuba "pour que tu crives" et I  
. JJ sataktubu "tu criras" sont exprimes en
tunisien par I    . bA tiktib. Inversement, des particules indpendantes en
. JK AK
MSA telles que ala "sur" et min "de" sont ralises respectivement comme
des clitiques +  + et +  m+ quand elles sont suivies par des noms dfinis par
larticle @ Al. Dautre part, la forme de certains clitiques change. Le proclitique

dinterrogation MSA + @ + "est-ce que", par exemple, devient en tunisien lencli-
tique  + +. La forme verbale MSA I  . J @ katabta "est-ce que tu as crit" se

traduit en tunisien par  J.J ktibti.

1.5.2. Flexion
De manire gnrale, la flexion en TUN est plus pauvre que celle du MSA. Au
niveau des verbes, le mode nest plus marqu alors que le cas nest plus distingu
pour les noms. Les valeurs du nombre qui taient trois en MSA (singulier, duel et
pluriel) sont rduites deux (singulier et pluriel). Quant au genre, il nest spcifi
que lorsquil sagit de la troisime personne du singulier. La liste des affixes sujet
des verbes tunisiens dans laspect accompli est donne dans le tableau 1.15. Ce
dernier peut tre mis en regard du tableau 1.6.

personne nombre genre affixe Exemple [ktib]


1 singulier - +t ktibt
pluriel - +nA ktibnA
2 singulier masculin +t ktibt
fminin +ti ktibti
pluriel masculin +tuwA ktibtuwA
3 singulier masculin - ktib
fminin +it kitbit
pluriel masculin +uwA kitbuwA

Table 1.15.: Affixes des verbes tunisiens dans laspect accompli

Dautre part, contrairement au MSA qui marque la voix dans le schme verbal,
le tunisien marque la voix passive sous la forme du prfixe K t l . La forme MSA
passive I.J kutiba "il est crit" devient en tunisien I.JK tiktib.

l. le passif dans le dialecte tunisien peut tre aussi exprim avec les schmes, en ajoutant un
/t/ au dbut de chaque schme de la voix active.

45
1.5.3. Drivation
Hormis les emprunts, les radicaux tunisiens drivent dune racine arabe et dun
schme, comme pour le MSA. Il y a en gnral correspondance bi-univoque entre
un schme MSA et un schme TUN sauf dans certains cas o un schme MSA peut
correspondre deux schmes TUN ou bien aucun schme TUN. Les schmes TUN
se caractrisent gnralement par la chute de la voyelle affecte la premire
lettre de la racine. On retrouve, en effet, les schmes TUN 12A3, 12iy3 et 12a3
qui correspondent respectivement aux schmes MSA 1i2A3, 1a2iy3 et 1a2a3. Un
chantillon de la correspondance entre les schmes MSA (cf. section 1) et les
schmes TUN est donn dans le tableau 1.16.

accompli inaccompli
schme_MSA schme_TUN schme_MSA schme_TUN
1a2a3 12a3 a12a3 a12a3
1a22a3 1a22a3 u1a22i3 1a22a3
1A2a3 1A2a3 u1A2i3 1A2a3
ta1A2a3 t1A2a3 ata1A2a3 it1A2a3
1a23a4 1a23i4 u1a23i4 1a23i4
ta1a23a4 ta1a23i4 ata1a23i4 ta1a23i4

Table 1.16.: Correspondance des schmes msa et tun

Concernant les mots emprunts, grce leurs flexions rgulires, le radical


peut tre distingu aisment (en enlevant les affixes de la forme flchie). partir
du radical, une racine emprunte peut tre dduite de lquation :

racineschme = radical.

Conclusion
La structure interne des mots arabes dcrite dans ce chapitre, nous conduit
considrer la morphologie arabe comme tant la fois concatnative et ga-
baritique. Elle est concatnative dans le sens o les clitiques et les affixes sont
rattachs aux radicaux par une simple opration de concatnation et gabaritique
puis que le radical est le rsultat de la combinaison dune racine et un schme.
lissue de ce premier chapitre dcrivant les phnomnes morphologiques de
larabe, nous sommes en mesure de prsenter les diffrents travaux et approches
concernant le traitement automatique de la morphologie arabe.

46
2. Traitement automatique de la
morphologie arabe

Aprs avoir dcrit dans le chapitre prcdent les caractristiques morpholo-


giques de la langue arabe, nous prsentons, dans ce chapitre, diffrentes ap-
proches proposes dans la littrature pour en raliser lanalyse et la synthse
automatiques.
Dans la section 2.1, nous dcrivons les oprations lmentaires ralises par
les systmes de traitement de la morphologie. Cette section dcrit, galement,
les deux approches gabaritique et concatnative utilises dans lanalyse morpho-
logique. Nous prsentons, ensuite, dans la section 2.2 les principaux modles
computationnels utiliss pour raliser ces traitement savoir le modle deux-
niveaux et le modle multi-bande. Enfin, un survol des principaux analyseurs
morphologiques de larabe est propos dans la section 2.3.

2.1. Traitement morphologique arabe : processus


de base
Le traitement automatique de la morphologie arabe a fait lobjet de plusieurs
travaux de recherche. Ces travaux ont commenc dans les annes soixante avec
le premier analyseur morphologique propos par (Cohen, 1970). Suite ce tra-
vail, de multiples systmes danalyse et de gnration morphologiques de larabe
ont t construits. Ces systmes permettent didentifier les diffrents morphmes
dun mot et de leur associer des traits morphologiques.
Deux types de morphmes existent en arabe :
morphmes "concatntifs" : ils se dclinent en trois catgories : des clitiques,
des affixes et des radicaux. Ils se combinent entre-eux laide de lopra-
tion de concatnation pour produire des formes agglutines et des formes
flchies.
morphmes "gabaritiques" : ils se dclinent en deux catgories : les racines
et les schmes. Ils peuvent se combiner grce lopration de croisement
pour former des radicaux.

47
Un systme de traitement automatique de la morphologie est compos prin-
cipalement dun lexique et dun ensemble de rgles. Le lexique permet de sto-
cker les connaissances lexicales spcifiques, tel que les clitiques, les affixes, les
radicaux, les racines et les schmes. Les rgles, elles, dfinissent lordre des mor-
phmes dans le mot et permettent de raliser les ajustements phonologiques et
orthographiques ncessaires suite une opration de concatnation ou de croi-
sement de morphmes.
Plusieurs choix sont possibles pour rpartir la connaissance entre le lexique et
les rgles. Un choix extrme, que lon appellera choix de niveau 0, consiste tout
reprsenter dans le lexique. Dans ce cas, le lexique est compos de formes ag-
glutines et associe chacune dentre elles son analyse morphologique. Dans ce
cas le processus danalyse morphologique se limite un accs au lexique. Dans
la pratique, une telle approche nest pas viable pour la famille des langues smi-
tiques, elle conduit des lexiques de taille draisonnable et dont la maintenance
est quasiment impossible.
Trois autres choix sont possibles selon que lon stocke dans le lexique des cli-
tiques et des formes flchies (niveau 1) ou bien des clitiques, des affixes et des ra-
dicaux (niveau 2) ou encore des clitiques, des affixes, des racines et des schmes
(niveau 3).
Bien entendu, plus le niveau augmente plus le systme de rgles associ au
lexique est complexe. Aux niveaux 1 et 2, seules des rgles de concatnation
sont ncessaires. Dans le premier cas, elles vrifient la compatibilit entre formes
flchies et clitiques, dans le second, elles vrifient aussi la compatibilit entre
radicaux et affixes. La concatnation de morphmes ncessite, dans certains cas,
des ajustements orthographiques qui sont aussi modliss laide de rgles.
Au niveau 3, des rgles de croisement assurent la compatibilit dune racine
avec un schme et permettent de les combiner et de raliser les ajustements mor-
phologiques, phonologiques et orthographiques ncessaires la suite du croise-
ment.
La figure 2.1 dcrit lanalyse de la forme agglutine J
wasayuTimuwkum
"et ils vous nourriront" selon les diffrents niveaux.

niveau 0 forme agglutine


wasayuTimuwkum
niveau 1 proclitique + forme flchie + enclitique
wasa yuTimuwA kum
niveau 2 proclitique + prfixe + radical + suffixe + enclitique
wasa y uTim uwA kum
niveau 3 proclitique + prfixe + racine schme + suffixe + enclitique
wasa y T m u12i3 uwA kum

Table 2.1.: Niveaux de reprsentation dun mot arabe

48
Les systmes de traitement morphologiques de larabe peuvent tre classs
selon le niveau de reprsentation des morphmes dans le lexique. La taille du
lexique dpend fortement du choix du niveau de reprsentation. Afin de quan-
tifier son influence sur la taille du lexique, nous avons identifi dans lATB le
nombre de formes agglutines, de formes flchies, de radicaux et de racines dif-
frentes :
niveau 0, formes agglutines : 2M
niveau 1, formes flchies : 300K
niveau 2, radicaux : 25K
niveau 3, racines : 2517
Comme on peut lobserver, linfluence du niveau de reprsentation sur la taille
du lexique est trs importante, le rapport est de lordre de 800 entre les niveaux
extrmes.
Dans le reste de cette section, nous dcrivons les processus de base qui doivent
tre raliss pour passer dun niveau un autre.

2.1.1. Segmentation
La segmentation est lopration qui consiste dcomposer une forme agglu-
tine (dlimit par des espaces dans le texte) en clitiques et forme flchie (cf.
section 1.2.1). Une forme agglutine est compose gnralement dun nombre
variable de proclitiques, dune forme flchie et ventuellement dun enclitique.
La sparation des clitiques de la forme flchie est importante dans une pers-
pective de TAL puisquelle permet, comme nous lavons vu ci-dessus, de rduire
considrablement la taille du lexique. En outre, la segmentation est ncessaire
avant les oprations dtiquetages grammatical et danalyse syntaxique car les
clitiques possdent leurs propres parties de discours et fonctions syntaxiques.
Cette opration nest pas toujours dterministe puisquun mot peut avoir plu-
sieurs segmentations possibles comme nous lavons illustr dans le chapitre 1.
De plus, la concatnation des morphmes peut conduire des changements or-
thographiques. Une tape de normalisation orthographique peut ainsi simposer
suite la segmentation. Les principaux changements orthographiques en arabe
dus lagglutination sont au nombre de quatre :
1. larticle dfini @ Al subit des changements orthographiques qui consistent
omettre sa premire lettre quand il suit la prposition l "". Le mot
 @
PY
Almdrs~ "lcole" prcd par cette prposition devient

PY llmdrs~ "
lcole"
2. la lettre
 ~ la fin dun mot devient J t quand elle est suivie par un encli-
 et  est perdue. Le mot PY
tique. Ainsi, la distinction entre les lettres H

mdrs~ "cole", aprs sa concatnation lenclitique hm "leur"devient

49

DPY mdrsthm "leur cole".
3. de la mme manire, la lettre devient @ A.  
 mstf "hpital" avec

un enclitique se transforme en A  mstfAhm "leur hpital".
4. La lettre @ A du suffixe verbal @ wA disparait quand un clitique est li au
verbe. De cette manire, @J.J ktbwA "ils ont crit" change J.J ktbwh "ils
lont crit".
La normalisation pose galement des problmes dambigut. Le mot 
Dk
Hkmthm, par exemple, ne possde quune seule segmentation +Jk Hkmt+hm.
En dehors de tout contexte, ce mot peut tre normalis de deux faons diff-
rentes. En effet, la dernire lettre du premier segment Jk peut tre normalise
enH t ou bien en  ~. Deux interprtations diffrentes sont donc produites :

+ Ik 
Hkmt+hm "elle les a gouverns" et + k Hkm~+hm "leur sagesse".
Un systme de segmentation permet, tant donn une forme agglutine, de
gnrer tous ses dcoupages possibles et deffectuer la normalisation de la forme
simple aprs sa sparation avec les clitiques. Pour cela, un lexique de formes
flchies et une matrice de compatibilit des clitiques avec chaque forme flchie
sont ncessaires.

2.1.2. Analyse flexionnelle


Lanalyse flexionnelle consiste dcomposer une forme flchie en affixes et
radical (cf. section 1.2.2). Les affixes permettent de dterminer les valeurs mor-
phologiques du mot qui sont la personne, le genre, le nombre, le mode, le cas et
ltat. Certains traits morphologiques ne sont pas vhiculs par des morphmes,
ils font partie du radical. Cest le cas de la voix et de laspect pour le verbe et
parfois du nombre pour le nom.
Lidentification du radical permet de dduire aisment le lemme de la forme
flchie. Cette opration, appele lemmatisation, consiste assigner une forme
flchie le lemme qui lui correspond. Ce dernier reprsente la forme canonique
dun radical et correspond aux entres lexicales dans un dictionnaire. Gnra-
lement, en arabe, les lemmes verbaux sont reprsents par la forme flchie
laccompli de la troisime personne, masculin, singulier, et dans le cas des noms
et des adjectifs, ils prennent la forme indfinie du masculin singulier.
Les langues agglutinantes sont gnralement caractrises par une flexion
concatnative (Beesley, 1998). Ainsi, un systme morphologique, ce stade de
traitement, peut tre fond sur un processus de concatnations successives de
morphmes.
Lordre de combinaison des clitiques, affixes et radical peut tre reprsente
laide dune machines tats finis (cf. section 2.2) comme le montre la figure 2.1.

50
Figure 2.1.: Reprsentation de la morphologie concatnative laide dune machine
tats finis

Un exemple de machine tats finis qui permet de gnrer tout le para-


digme de flexion du verbe aTam "nourrir" conjugu dans laspect inaccompli
est donn dans la figure 2.2.

uTimu je nourris
nuTimu nous nourrissons
tuTimu tu nourris
tuTimiyna
tuTimA vous nourrissez
tuTimuwna
tuTimna
yuTimu il nourrit
tuTimu elle nourrit
yuTimAni ils nourrissent
yuTimuwna
yuTimna elles nourrissent

Ce paradigme prsente un chantillon de formes flchies du verbe aTam.


Toutes ces formes simples peuvent tre augmentes par des clitiques. La fi-
gure 2.2 prsente un exemple de machine qui permet de gnrer cet chantillon.

Figure 2.2.: Gnration des formes flchies du verbe aTam

51
Toutes les formes flchies du lemme verbal aTam acceptent des clitiques.
Ces derniers peuvent tre traduits simplement par des transitions dans la ma-
chine de la figure 2.2. La gnration des formes agglutines ncessite des tran-
sitions au dbut du mot qui correspondent aux proclitiques ordonns alors que
les enclitiques se rajoutent aprs les suffixes.
La machine prsente dans la figure 2.2 conduit une surgnration de formes,
elle produit des formes incorrectes telles que nuTimuwna et nuTimAni. Des
rgles morphologiques savrent, ainsi, ncessaires pour bloquer la gnration
des formes incorrectes rsultant de lincompatibilit entre les affixes. Ces rgles
peuvent tre elles-mmes reprsentes par des machines tats finis.

2.1.3. Analyse drivationnelle


Lanalyse drivationnelle consiste dcomposer un radical en une racine et
un schme (cf. section 1.2.3). Cette opration permet de passer au niveau de re-
prsentation des mots le plus profond. Dans lanalyse morphologique de larabe,
on retrouve des analyseurs qui ne ralisent pas ce niveau de traitement et se
limitent lanalyse de niveau 2.
Lextraction de la racine et du schme partir dun radical est elle aussi
confronte au problme de lambigut. titre dexemple, dans lATB (Maamouri
et al., 2004) 3250 radicaux possdent plus dune racine potentielle (Habash et al.,
2007).
Lensemble des racines de larabe est ouvert : une racine peut tre ajoute
pour des besoins de communication a ou encore emprunte pour combler une la-
cune dans le vocabulaire technique ou scientifique (Daniels, 2007). En revanche,
lensemble de schmes est clt.
La compatibilit entre racines et schmes peut tre reprsente par une ma-
trice deux dimensions valeurs boolennes (cf. tableau 2.2). Une telle matrice
indique les couples (racine, schmes) valides.
La gnration dun radical partir dune racine et dun schme ncessite, dans
certains cas, des ajustements que lon peut reprsenter laide de rgles phono-
logiques, morphologiques et orthographiques.
Voici, titre dexemple, deux rgles dajustement :
1. La combinaison de la racine gminative X X m d d et du schme verbal
Ai1ta2a3 gnre le radical X YJ@ Aimtadad. Une rgle spcifique au traite-
ment de racines gminatives assure la transformation de X YJ@ Aimtadad
Y J@ Aimtad "stendre".
a. Lanalyse morphologique au niveau des racines est avantageuse dans le traitement des
dialectes o lon voit frquemment des mots emprunts. En effet, laddition des racines qui pro-
viennent dorigines diffrentes de larabe dans le lexique est plus simple que lajout des radicaux
emprunts.

52
R1 R2 R3 R4 R5 . . . Rn
S1
S2
S3
S4
S5
...
Sk

Table 2.2.: Matrice de compatibilit entre racines et schmes

2. La combinaison de la racine  q w l et du schme 12a3 gnre le ra-



dical incorrect  @ aqwal "virer". Une rgle morphologique spcifique aux
racines creuses permet de remplacer la deuxime lettre de la racine par une
voyelle longue. Applique lexemple prcdent, elle permet de gnrer le

radical A @ qAl. Lapplication dune telle rgle peut tre problmatique.
En effet, elle sapplique au radical H. j.J@ Aistajwab et le transforme en
H. Aj.J@ AistajAb "accepter". Or le radical H. j.J@ Aistajwab "investiguer" est
valide mais il ne sera pas gnr.
Le systme de gnration de radicaux pose aussi des problmes de sur-gnration.
Les racines h H f t H et h m H y, par exemple, dfinissent respective-

ment les notions abstraites "ouverture" et "nettoyage". La combinaison de la racine


avec le schme mi12A3 qui reprsente le nom doutil dun verbe produit, respec-

tivement, les mots hAJ miftAH "cl" et Aj mimHA~ "gomme". En revanche,
la combinaison de ce schme avec la racine k t b qui dfinit la notion "criture"
gnre le mot H 
. AJ miktAb qui devrait tre, selon cette rgularit, le synonyme
de stylo/crayon cependant ce mot nappartient pas au lexique.
En conclusion, un systme de gnration de radicaux par croisement de racines
et de schmes permet de raliser des conomies sur la taille du lexique. Mais il
ncessite un systme de rgles complexe qui a tendance sous-gnrer et sur-
gnrer.

2.1.4. Analyse et gnration morphologique


Lanalyse morphologique consiste affecter chaque mot dun texte toutes
les informations morphologiques qui lui sont associes. Elle repose sur les op-
rations lmentaires dcrites ci-dessus. La table 2.3 dcrit les diffrents traits
morphologiques que chaque opration permet dexpliciter.

53
trait morph. valeurs possibles
conjonction wa, fa, 0
prposition bi, ka, li, 0
Segmentation particule sa, li, la, 0
dtermination Al, 0
enclitique 1S, 1P, 2MS, 2FS, 2D, 2MP, 2FP
3MS, 3FS, 3D, 3MP, 3FP, 0
mode indicatif, subjonctif, apocop, 0
personne 1, 2, 3, 0
Analyse flexionnelle genre masculin, fminin, 0
cas nominatif, accusatif, gnitif, 0
tat dfini, indfini, 0
nombre singulier, duel, pluriel, 0
nombre singulier, duel, pluriel, 0
Analyse drivationnelle aspect perfectif, imperfectif, impratif, 0
voix active, passive, 0

Table 2.3.: Traits morphologiques dun mot arabe

La table 2.3 est compose de trois parties (dlimits par un doublement de


lignes). La premire partie concerne les clitiques, lanalyseur morphologique in-
dique la prsence du clitique dans le mot. La deuxime partie concerne la dfi-
nition des informations morphologiques lies la flexion. Ces informations sont
traduites par des affixes. Enfin, les traits morphologiques de la troisime partie
permettent de dterminer la racine et le schme du mot. La valeur 0 dans la
premire partie indique labsence du clitique dans le mot alors que dans les deux
dernires parties indiquent que le trait morphologique concern ne sapplique
pas au mot. Le nom et ladjectif par exemple nadmettent pas de valeurs pour
laspect, le mode et la voix alors que le verbe ne possde pas de valeurs pour
ltat et le cas. Le nombre est prsent dans lanalyse flexionnelle et lanalyse dri-
vationnelle puisque dans certains cas les affixes distinguent le nombre dun nom
et dans dautres cas le schme dtermine le nombre dans le cas du pluriel bris
(cf. sectionnoms).
Lanalyse morphologique est indpendante gnralement du contexte du mot.
Une opration de dsambigusation permet de choisir parmi toutes les analyses
thoriques possibles dun mot, la plus adquate selon le contexte du mot. Cette
opration est dautant plus ambige que le niveau de reprsentation est profond.
Le problme rside dans la faon deffectuer le choix des analyses pertinentes
parmi toutes les configurations combinatoirement possibles. En arabe, le nombre
danalyses possibles dun mot en dehors de tout contexte est gal 300, 000 b ,
ce qui rend la tche plus difficile en comparant ce nombre celui de langlais
46 (Habash et Rambow, 2005).
b. Ce nombre est le rsultat de la multiplication de nombre de valeurs possibles des traits
morphologiques.

54
La gnration morphologique est le processus inverse de lanalyse morpholo-
gique. Cette opration consiste produire la forme surfacique dun mot partir
de sa reprsentation morphologique, compose par des paires (traits morpholo-
giques, valeurs). Cette opration nest pas ambige, une reprsentation mor-
phologique entirement spcifie correspond une forme surfacique au plus.

2.2. Morphologie deux-niveaux


Depuis son introduction par Koskenniemi (1983) dans les annes 80, la mor-
phologie deux niveaux est devenue le formalisme standard pour le traitement
automatique de la morphologie.
Ce formalisme dfinit deux niveaux de reprsentation, le niveau surfacique
et le niveau lexical. La correspondance entre les deux est ralise laide de
machines tats finis, comme lillustre la figure 2.3.

Figure 2.3.: Morphologie deux-niveaux

Ces dernires se trouvent au cur de nombreux systmes de TAL, notam-


ment pour le traitement automatique de la morphologie (Sproat, 1995; Roche et
Schabes, 1997) et de la phonologie.
Plusieurs caractristiques formelles ont contribu leur succs dans le do-
maine du TAL. Parmi ces caractristiques, nous pouvons citer :
La rversibilit Les machines tats finis sont rversibles. Une mme machine
peut servir effectuer lanalyse et la gnration.
La modularit Les machines tats finis peuvent tre combines entre elles par
plusieurs oprations, telles que lunion, la concatnation, la fermeture de
Kleene ou la composition. La combinaison de plusieurs machines ralisant
des traitements diffrents, sous la forme dune machine unique, permet de
raliser des traitements efficaces.
La rapidit Les machines tats finis, du moins les reconnaisseurs (voir la dis-
tinction ci-dessous) peuvent tre rendus dterministes et peuvent effectuer
la reconnaissance dun mot de manire trs efficace.
La compacit Lopration de minimisation permet de rduire autant que faire
ce peut la taille des machines tats finis. Il est ainsi possible de reprsenter
des objets importants, tel que des lexiques, de manire optimale.

55
Les machines tats finis se sont rvles particulirement adaptes au traite-
ment de la morphologie et de la phonologie. En effet, comme la montr (Karttu-
nen, 1995) les rgles morphologiques et phonologiques peuvent tre reprsen-
tes dune manire simple et directe sous la forme de machines tats finis.
De plus, comme nous le verrons ci-dessous, les machines tats finis per-
mettent dimplmenter des modles de la morphologie concatnative ainsi que
gabaritique.
tant donn le rle important que jouent les machines tats finis dans notre
travail, nous commenons par donner une brve description de ces dernires
et de leur utilisation pour la modlisation linguistique. Nous dcrivons ensuite
deux modles standard utiliss dans le traitement de la morphologie arabe qui
peuvent tre implments laide de machines tats finis : le modle deux
niveaux et le modle multibande. Ces deux modles permettent dimplmenter
respectivement les aspects concatnatifs et gabaritiques de la morphologie arabe.

Machines nombre fini dtats


De nombreuses dfinitions des machines finies ont t proposes dans la lit-
trature. Ces dfinitions sont gnralement quivalentes mais varient entre elles
notamment par la terminologie quelle adoptent. Les dfinitions et la termino-
logie que nous adoptons dans ce document est emprunte (Roche et Schabes,
1997; Jurafsky et Martin, 2000). Nous nous intresserons principalement deux
types de machines : les reconnaisseurs et les transducteurs. Avant de dfinir ces
deux types de machines, commenons par donner quelques dfinitions des objets
quelles manipulent.
Llment le plus simple manipul est le symbole qui est une entit indivisible.
Un ensemble fini de symbole est appel alphabet, not de manire convention-
nelle par le symbole . Des symboles dun alphabet combins laide de lop-
ration de la concatnation constituent un mot sur . La longueur dun mot m,
note |m| est gale au nombre de symboles qui le constituent. Le mot de longueur
zro est not conventionnellement .
Lensemble de tous les mots que lon peut former laide de lalphabet est
not . Un langage L sur lalphabet est un sous-ensemble de .
On appelle reconnaisseur un algorithme ou une machine abstraite qui, tant
donn un mot, dcide, aprs un certain nombre dtapes si ce mot est accept ou
pas. Un reconnaisseur dfinit ainsi un langage, qui est lensemble des mots quil
reconnat.

Automates On sintressera ici un type de reconnaisseur simple : les auto-


mates finis, que lon appellera simplement automates dans la suite de ce docu-
ment.
Un automate est un quintuplet (Q, , , q0 , F ), o :
Q est un ensemble fini dtats

56
est un alphabet, appel alphabet dentre
est une fonction de transition dfinie comme suit :
: Q {} P(Q)
o P(Q) est lensemble des parties de Q.
q0 Q est ltat initial
F Q est lensemble des tats dacceptation

Voici un exemple dautomate possdant trois tats et quatre transitions :


A = (Q, , , q0 , F ), avec :
Q = {0, 1, 2}
= {a, b}
(0, a) = {0, 1}, (1, b) = {1}, (2, b) = {2}
q0 = 0
F = {2}

Les automates sont souvent reprsents sous la forme de graphes orients dont
les sommets et les arcs sont tiquets. Les sommets du graphe correspondent aux
tats, et chaque transition est reprsente par un arc. Ltat initial est identifi
laide dune flche entrante et les tats dacceptation laide dun double cercle.
On trouvera, figure 2.4, une reprsentation graphique de A.

Figure 2.4.: Reprsentation graphique dun automate

Le processus de reconnaissance dun mot par un automate fait appel aux no-
tions de configuration et de mouvement.
Une configuration dcrit compltement ltat dun automate lors du processus
de reconnaissance dun mot. tant donne un automate A = (Q, , , q0 , F ), une
configuration est un couple (q, m) Q .
q reprsente ltat courant de A
m est la partie du mot reconnatre non encore lue. Le premier symbole
de m (le plus gauche) est le prochain symbole qui doit tre reconnu par
lautomate. Si m = alors tout le mot a t lu.

57
Un mouvement, not `, permet de passer dune configuration une autre. Un
mouvement entre une configuration (q, aw) et une configuration (q 0 , w) est valide
si la fonction de transition de lautomate permet de passer de (q, aw) (q 0 , w) :

(q, aw) ` (q 0 , w) si q 0 (q, a)


lors de ce mouvement, lautomate passe de ltat q ltat q 0 et le symbole a
est consomm.
Etant donn un automate A = (Q, , , q0 , F ) et un mot m on dfinit
de plus une configuration initiale : (q0 , m) qui est la configuration dans laquelle
se trouve lautomate avant de commencer lire le mot m et des configurations
dacceptation : (q, ) avec q F , qui sont les configuration dans lesquelles se
trouvent lautomate A si la reconnaissance a russi.
Nous sommes maintenant en mesure de dfinir le processus de reconnaissance
dun mot m par un automate A ainsi que le langage reconnu par A, not L(A).
m est reconnu par A, sil existe une squence de mouvements valides menant
de la configuration initiale (q0 , m) une configuration dacceptation (q, ).
Le langage reconnu par A (L(A)) est lensemble des mots reconnus par A :

L(A) = {m |(q0 , m) ` (q, ) avec q F }
Dans la reprsentation graphique de A, le processus de reconnaissance du mot
m correspond lexistence dune squence de transitions t1 . . . tk menant de ltat
initial de A un de ses tats dacceptation, tel que la concatnation des symboles
des transitions t1 . . . tk forme le mot m.
Lensemble des langages qui peuvent tre reconnus laide dun automate fini
est appel lensemble des langage reconnaissables.
Les automates tel que nous les avons dfini possdent une proprit qui est le
non dterminisme. Cette dernire provient de la dfinition de la fonction de tran-
sition qui peut associer un couple compos dun tat et dun symbole, plus dun
tat. Cette proprit a une consquence sur le processus de reconnaissance dun
mot. En effet, lors de la reconnaissance dun mot, lorsque lautomate se trouve
dans une configuration c = (q, am) et que la fonction de transition associe plus
dune image au couple (q, a) alors plusieurs mouvements sont possibles partir
de c, menant des configurations diffrentes. Le non dterminisme est illustr
dans la reprsentation graphique des automates, par lexistence de plusieurs che-
mins tiquets par le mme mot permettant de rejoindre un tat dacceptation
depuis ltat initial.
La consquence de tout cela est que la reconnaissance dun mot est un proces-
sus qui peut tre coteux. Il est, dans le pire des cas exponentiel en temps par
rapport la longueur du mot reconnatre.
On peut dfinir une variante dterministe des automates de la manire sui-
vante :
Un automate dterministe est un quintuplet (Q, , , q0 , F ), o :

58
Q est un ensemble fini dtats
est un alphabet, appel alphabet dentre
est une fonction de transition dfinie comme suit :
:QQ
q0 Q est ltat initial
F Q est lensemble des tats dacceptation
La diffrence entre les automates dterministes et les automates non dter-
ministes rside dans la fonction de transition. Dans un automate dterministe,
celle-ci associe un couple compos dun tat et dun symbole, au plus un tat.
Ainsi, partir dune configuration, il existe au plus un mouvement possible. Par
consquent, le processus de reconnaissance dun mot sera compos au plus dau-
tant de mouvements que le mot possde de symboles. Le processus de reconnais-
sance est donc linaire en fonction de la longueur du mot reconnatre.
Les automates dterministes et non dterministes reconnaissent la mme fa-
mille de langage, les langages reconnaissable. Pour tout langage reconnaissable,
il existe un automate dterministe qui reconnat le mme langage. Le thorme
de Rabin-Scott permet de construire, tant donn un automate non dterministe,
un automate dterministe reconnaissant le mme langage.
A titre dexemple, la figure 2.5 reprsente un automate dterministe recon-
naissant le mme langage que lautomate dterministe de la figure 2.4

Figure 2.5.: Automate fini dterministe

Le dterminisme des automates est une proprit importante pour les aspects
applicatifs en gnral et pour le traitement automatique de la langue en particu-
lier car il garantit un temps de reconnaissance linaire.

Application la morphologie flexionnelle Les noms rguliers arabes se fl-



chissent en genre par la concatnation du caractre ~ lors du passage du mascu-
lin au fminin. Un nom masculin peut tre reprsent par un automate linaire.
titre dexemple, le nom
slym "sain" :

59
Figure 2.6.: Reprsentation du mot slym laide dun automate fini

Le lexique de tous les noms masculins peut tre obtenu laide dun automate
noms-masculins, obtenu par union des automates correspondant aux diffrents
noms masculins.
Lobtention des noms fminins est ralise laide de la concatnation de ~
la fin des noms masculins. Dans certains cas, le passage du masculin au fminin
est irrgulier. Tous les noms fminins irrguliers peuvent tre reprsents par un
automate exceptions. La liste des noms fminins peuvent ainsi tre reprsente
par lopration suivante :
(noms-masculins.~) exceptions

Figure 2.7.: Lexique des noms fminins reprsent sous la forme dun automate

Transducteurs Nous avons vu ci-dessus que les automates permettent de re-


connatre des langages. Nous allons introduire maintenant un nouveau type de
machine, les transducteurs finis, que nous appellerons simplement transducteurs
dans la suite de ce document. Les transducteurs permettent de reconnatre des
couples de mots (u, v) 1 2 ou, en dautres termes, une relation sur 1 2 .
Un transducteur peut tre vu comme un reconnaisseur pour des couples de
mots ou comme une machine produisant une sortie pour une entre donne.
Un transducteur est dfini par un 6-uplet (Q, 1 , 2 , , q0 , F ) o :
Q est un ensemble fini dtats
1 est un alphabet, appel alphabet dentre
2 est un alphabet, appel alphabet de sortie
est la fonction de transition dfinie comme suit :
: Q 1 {} 2 {} P(Q)

60
q0 Q est ltat initial
F Q est lensemble des tats dacceptation
La reprsentation graphique des tranducteurs ressemble celle des automates
la diffrence que les transitions sont tiquets par des paires de symboles.

Un exemple de transducteur est reprsent dans la figure 2.8. Ce transducteur


permet de reconnatre la relation {(ab, df ), (ac, f e)}.

Figure 2.8.: Reprsentation graphique dun transducteur

Ltude des proprit des transducteurs dpasse le cadre de la brve introduc-


tion que nous faisons ici. Il est nanmoins important daborder trois aspects des
transducteurs important pour les applications en gnral et pour le traitement
de la langue en particulier.
Le premier est lopration de composition. Etant donn les transducteurs T1 et
T2 tel que lalphabet de sortie de T1 et lalphabet dentre de T2 sont gaux. On
note T1 T2 la composition de T1 et de T2 , qui consiste fournir en entre T2 ,
la sortie de T1 . Lalgorithme de composition permet de construire un transduc-
teur T3 qui ralise directement la composition T1 T2 . La possibilit de construire
le transducteur qui ralise la composition est une proprit importante pour le
traitement automatique des langues car il permet dadopter une dmarche mo-
dulaire dans la modlisation doprations complexes, tel que lanalyse morpho-
logique. Il est en effet possible de dcomposer un processus complexe en une
squence de processus lmentaires modlis chacun par un transducteur puis
de composer ces transducteurs entre eux pour obtenir, en fin de compte, un
transducteur unique.
Le second aspect est le caractre inversible des transducteurs qui permet duti-
liser ces derniers de manire bidirectionnelle. Il sagit l aussi dune proprit
importante car elle permet dutiliser un mme transducteur en analyse et en
gnration.

61
Le troisime aspect que nous aborderons ici est celui de lambigut. Un trans-
ducteur est dit ambigu si pour certaines entres, il associe plus dune sortie.
Le transducteur qui reconnat par exemple la relation {(ab, cd), (ab, de)} est un
transducteur ambigu car pour lentre ab il produira deux sorties. Lambigut a
un lien avec le dterminisme dans la mesure o un transducteur ambigu ne peut
tre rendu dterministe. Dans la pratique, les transducteurs utiliss pour mod-
liser la morphologie sont souvent ambigus car lanalyse morphologique est dans
certains cas ambige.

Exemple de la morphologie arabe Un exemple de transducteur fini simple est


donn dans la figure 2.9. Ce transducteur peut raliser lanalyse en genre dun
nom arabe singulier. Il permet de reconnaitre un lemme nominal au singulier et
de traduire son suffixe en valeur morphologique.

Figure 2.9.: Flexion nominale en genre laide dun transducteur

De la mme manire, la flexion en nombre peut tre ralise laide dun


transducteur. Dans ce cas, lapparition du suffixe wn ou du suffixe At sont traduits
par la valeur pluriel du nombre.

Les automates et les transducteurs sont parfaitement adapts la mise en


uvre de la segmentation et de la flexion. En revanche, ils ne sont pas adapts
la modlisation doprations non concatnatives mises en uvre dans la dri-
vation. Cette dernire ncessite un nouveau type de machine appel automates
multibande, dcrits ci-dessous.

Automates multibande Les automates multibande ont t introduits par Ra-


bin et Scott (1959) et Elgot et Mezei (1965). La dfinition que nous donnons ici
nous est propre, elle est adapte lusage qui est fait de ce type de machine pour
la morphologie gabaritique.
Les automates multibande font appel la notion de n-alphabet. Ces derniers
sont composs de n-symboles qui sont des n-uplets de symboles. Un automate

62
n bandes lit un n 1-symbole dont les n 1 symboles se trouvent sur n 1
bandes de lecture et crit un mot sur la bande dcriture.
Un automate n bandes est un 6-uplet (Q, , n , , q0 , F ) o
Q est lensemble fini dtats
= 1 , 2 . . . n1 est le n 1 alphabet dentre
n est lalphabet de sortie
est la fonction de transition dfinie comme suit :
: Q n Q
q0 Q est ltat initial
F Q est lensemble des tats dacceptation

Les automates multibande sont utiliss en morphologie gabaritique. En arabe,


par exemple, un automate 3-bande peut modliser la drivation dun radical
partir dune racine et dun schme. Dans ce cas, deux bandes dentre et une
bande de sortie sont utilises. Le schme et la racine occupent les bandes dentre
alors que le radical est gnr sur la bande de sortie.
Un exemple dautomate 3-bande est donn dans la figure 2.10. Cet automate
ralise la drivation des radicaux katab et daras.

Figure 2.10.: Processus de drivation laide dun automate multibande

Cet automate gnre les radicaux katab et daras partir du schme 1a2a3 et
des racines k t b et d r s respectivement. La gnration de ces radicaux est dcrite
dans la figure 2.11.

schme (entre) 1 a 2 a 3
racine (entre) r1 r2 r3
radical (sortie) r1 a r2 a r3

Figure 2.11.: Gnration de radicaux laide dun automate multibande

Les bandes sont reprsentes verticalement (de haut en bas). La gnration


du radical laide de cinq transitions reprsentes par des triplets. La premire
transition (1,r1 ,r1 ) lit le symbole 1 sur la premire bande, le symbole r1 {k, d}

63
sur la deuxime bande et crit r1 sur la troisime bande. La deuxime transition
consiste reproduire la voyelle de la premire bande la forme de surface. De
cette manire, le radical est gnr sur la bande dcriture horizontalement de
droite gauche.

2.2.1. Modle deux niveaux


Comme nous lavons voqu, ce modle dfinit deux niveaux de reprsen-
tation. Un niveau lexical qui reprsente un suite de morphmes et un niveau
surfacique reprsentant la forme de surface. Les deux niveaux sont mis en cor-
respondance laide de rgles, dites rgles deux niveaux.
Ces rgles se prsentent de la faon suivante

L:S OPERATEUR CG _ CD

o L est une forme lexicale et S une forme surfacique. CG et CD reprsentent


respectivement le contexte gauche et le contexte droit dans lequel lappariement
L:S apparat. Les contextes peuvent porter sur le niveau lexical, le niveau surfa-
cique ou les deux.
Il existe quatre types de rgles selon la valeur que prend OPERATEUR :
1. lappariement L:S nest possible que dans le contexte CG _ CD
2. le contexte CG _ CD force lappariement L:S
3. le contexte CG _ CD est ncessaire et suffisant pour observer lappariement
L:S
4. / lappariement L:S ne peut tre observ dans le contexte CG _ CD
Un exemple formel de rgle deux niveaux est donn ci-dessous :

a:b c: _ e:

Cette rgle associe la forme lexicale a la forme surfacique b si et seulement


si a est prcd de c suivi de e.

Plus concrtement, en arabe, la flexion du mot fminin singulier   mus-
tafa "hpital" au pluriel 
 
HAJ  mustafayAt "hpitaux" est ralise laide
des trois rgles deux niveaux suivantes :
(1) X:X _
(2) :y _ +: A: t:
(3) +:0 _

64
La premire rgle est indpendante du contexte, elle reprsente lidentit o
tout caractre lexical est reproduit sur la forme de surface (X est ici une variable).
La deuxime rgle permet de remplacer le caractre par le caractre y sil est
suivi par le suffixe /+At/. La troisime rgle, qui est indpendante du contexte,
ralise la suppression du caractre +. Lobtention de la forme surfacique est ra-
lise aprs la suppression du symbole nul 0.
Une rgle deux niveaux peut tre compile sous la forme dun transduc-
teur (Karttunen, 1995). Un ensemble de rgles peut aussi tre compil sous la
forme dun transducteur unique qui ralise la correspondance entre forme lexi-
cale et forme de surface comme lillustre la figure 2.12.

Figure 2.12.: Reprsentation dune rgle deux-niveau par un transducteur

Les rgles deux niveaux proposes par Koskenniemi (1983) ne permettent


dapparier que des caractres uniques (L et S ne sont composs que dun carac-
tre). Black et al. (1987) propose une extension permettant dapparier des s-
quences de caractres de longueur gale. Ruessink (1989) a introduit plus tard
des rgles qui relient des squences de longueurs diffrentes. Pulman et Hepple
(1993) a rajout les paires (traits morphologiques/valeurs) dans la reprsenta-
tion lexicale. Par la suite, les rgles sont reprsentes de la manire suivante :

CGS _ S _ CDS OPERATEUR CGL _ L _ CDS

CGS, CDS correspondent respectivement aux contextes gauche et droit de la


forme surfacique et CGL, CDL reprsentent les contextes gauche et droit de la
forme lexicale. La valeur de OPERATEUR est soit ou . Le premier indique que
si L apparait dans le contexte donn S apparait sur la forme de surface, alors
que le deuxime ajoute la condition que si L apparait dans le contexte donn la
forme de surface doit satisfaire S.

65
laide de ces rgles, la flexion du mot fminin singulier  
 mustafa
"hpital" au pluriel 
 
HAJ  mustafayAt "hpitaux" est ralise comme suit :
(1) * _ X _ * * _ X _ *
(2) * _ _ +At * y _ +At
(3) * _ + _ * * _ 0 _ *
Le symbole * indique un contexte vide qui reprsente une condition toujours
satisfaite. La premire et la troisime rgles sont indpendantes du contexte.
La deuxime rgle permet de remplacer le caractre par le caractre y sil est
suivi par le suffixe /At/ marqu par le signe +. Le symbole indique que si la
forme lexicale apparait alors la forme surfacique est gnre et inversement. Le
symbole autorise un seul sens.
Dans le modle deux niveaux, la forme surfacique dun mot est dcrite
comme une concatnation de morphmes. Le mot wasayutimuwkum "ils vous
nourriront" est le rsultat de la concatnation de utim "nourrir" avec les procli-
tiques wa+ "et", sa+ "futur", le circonfixe y+ +uwA qui correspond la troisime
personne du masculin pluriel et lenclitique kum "vous". La gnration de la forme
wasayutimuwkum est dcrite comme suit :

w a + s a + y + u T i m + u w A + k u m forme lexicale
1 1 3 11 3 1 3 1 1 11 1 3 1 1 2 3 1 1 1
w a 0 s a 0 y 0 u T i m 0 u w 0 0 k u m forme surfacique

Les rgles utilises pour raliser lappariement de la forme lexicale et la forme


surfacique sont :
1- identit * _ X _ * * _ X _ *
2- suppression du A * _ A _ * * _ 0 _ +
3- suppression du dlimiteur + * _ + _ * * _ 0 _ *
Les rgles (1) et (3) sont indpendantes du contexte. Comme voqu pr-
cdemment, (1) permet de reproduire les caractres de la forme lexicale sur
la forme surfacique et (3) assure la suppression du signe + qui spare les mor-
phmes de la forme lexicale. La rgle (2), en revanche, constitue une rgle dajus-
tement standard de larabe. Elle supprime la lettre A du suffixe +uwA sil est suivi
dun enclitique marqu par +
Bien que le modle deux niveaux soit bien adapt lagglutination et la
flexion de larabe, il ne permet pas de prendre en compte la drivation.
Pour surmonter ce problme, Kay (1987) propose un modle dans lequel les
morphmes peuvent tre reprsents sur plusieurs bandes et les symboles qui les
composent peuvent tre entrecroiss.

66
2.2.2. Modle multi-bande
Lutilisation de multiples bandes pour reprsenter des morphmes lmen-
taires apparait dans (Kay, 1987). Afin de prendre en compte les aspects conca-
tnatifs et gabaritiques de la morphologie arabe, Kiraz (1994) a fusionn le mo-
dle multibande et le modle deux niveaux. Le formalisme de Kiraz (1994) est
conu pour reprsenter tous les phnomnes morphologiques de larabe. Ce for-
malisme adopte exactement le modle deux niveaux dcrit ci-dessus et ltend
plusieurs bandes.
La forme lexicale est reprsente par un (n 1)-uplet de symboles alors que
la forme surfacique est reprsente par une squence unique de symboles. Pour
mieux expliquer ce formalisme, prenons comme exemple une forme lexicale re-
prsente sur trois bandes contenant respectivement des consonnes, des voyelles
et des chiffres. Soient (a), (b) deux rgles :
(a) * - CV - * * - (D,C,V) - *

(b) * - C - * * - (D,C,) - *

Les symboles C, V et D correspondent respectivement une consonne, une


voyelle et un chiffre. Le symbole * indique un contexte vide. La rgle (a) permet,
en lisant un chiffre D sur la premire bande, une consonne C sur la deuxime
bande et une voyelle D sur la troisime bande, de gnrer la forme surfacique CV.
La rgle (b) est identique la rgle (a) sauf que la troisime bande ne contient
pas de voyelles. Ces rgles permettent de gnrer le radical daras partir de 123,
drs et aa :

1 2 3 1re bande
d r s 2me bande
a a 3me bande
(a) (a) (b)
da ra s 4me bande

Lexemple prcdent relie la forme de surface daras la forme lexicale com-


pose de 123, drs et aa. Ces rgles permettent de gnrer tous les verbes de la
forme (I) tels que katab "crire" et rakib "monter". La bande de chiffres utilises
dans cet exemple indique lordre dinsertion de consonnes de la racine dans la
forme de surface.

Nous prsentons dans le reste de cette section deux systmes morphologiques


de larabe o on retrouve les deux modles deux-niveaux et multibande. Le pre-
mier systme ralise lanalyse des verbes (McCarthy, 1981) alors que le deuxime
a t implment pour lanalyse des noms (McCarthy, 1993).

67
2.2.3. Analyse de verbes
Pour dcrire la morphologie verbale de larabe, McCarthy (1981) a propos
un modle dans lequel un radical est reprsent par trois types de morphmes,
un schme sous sa forme non diacrite reprsent par des symboles C V qui
indiquent, respectivement, une consonne et une voyelle quelconques, une ra-
cine compose de trois consonnes et un vocalisme compos de voyelles. Chaque
morphme occupe une bande indpendante. Le radical uTim, par exemple, est
gnr partir des trois morphmes VCCVC, Tm et "ui".

V C C V C bande de schme
T m bande de racine
u i bande de vocalisme

La gnration de uTim partir de ces trois morphmes se ralise laide de


la projection des consonnes de la racine (deuxime bande) si la bande consacre
au schme contient C et des voyelles du vocalisme (troisime bande) quand le
schme contient le symbole V.
Ces rgles sont utilises dans la gnration de tous les radicaux des verbes
sains (cf. section 1.3.2).

Lexique Une forme flchie (ff) selon McCarthy (1981) est obtenue laide de
la formule :
ff = affixe + racineschmevocalisme + affixe
Le lexique utilis est compos de 4 lexiques :
(a) lexique de schmes : la forme du schme dpend des valeurs de laspect et
de la voix.

1 [CVCVC, accompli actif]


[CVCVC, accompli passif]
[VCCVC, inaccompli actif]
[VCCVC, inaccompli passif]
2 [CVCCVC, accompli actif]
[CVCCVC, accompli passif]
[CVCCVC, inaccompli actif]
[CVCCVC, inaccompli passif]
..
..
10 [CCVCCVC, accompli actif]
[CCVCCVC, accompli passif]
[CCVCCVC, inaccompli actif]
[CCVCCVC, inaccompli passif]

68
(b) lexique de racines : chaque racine est associe la liste de schmes.

1 ktb
2 drs

(c) lexique de vocalismes : le vocalisme dtermine les voyelles du schme, il


dpend galement de laspect et de la voix.

1 [aa, accompli actif]


[ai, accompli passif]
[au, inaccompli actif]
[ua, inaccompli passif]
2 [aa, accompli actif]
[ui, accompli passif]
[ui, inaccompli actif]
[ua, inaccompli passif]
..
..
10 [a, accompli actif]
[ui, accompli passif]
[a, inaccompli actif]
[ui, inaccompli passif]

(d) lexique daffixes : les affixes sont dtermins laide des traits morpholo-
giques.

1 [tu : personne=1, nombre=s, aspect=accompli]


2 [ta : personne=2, genre=m, nombre=s, aspect=accompli]
3 [ti : personne=2, genre=f, nombre=s, aspect=accompli]
4 [a : personne=3, genre=m, nombre=s, aspect=accompli]
5 [at : personne=3, genre=f, nombre=s, aspect=accompli]

Rgles Comme nous lavons voqu la forme lexicale selon McCarthy (1981)
est regroupe sur trois bandes. Les affixes sont crits sur la premire bande avec
le schme. McCarthy (1981) propose trois rgles principales pour le traitement
de verbes :

69
a- rgles de base
R1 * - X - * * - (X) - * o X
/ C, V
R2 * - X - * * - (C,X,) - *
R3 * - X - * * - (V, ,X) - *
b- rgle de borne
R4 * - - * * - + - *
c- rgle de propagation
R5 * - X - * (C,X,) ... - (C) - * o X 6= +
R5 * - X - * (VX) ... - (V) - * o X 6= +

Les rgles de base (a) sont indpendantes du contexte. R1 concerne les affixes,
elle permet de projeter tous les caractres des affixes sur la forme de surface.
Ces caractres sont prsents sur la premire bande et sont obligatoirement dif-
frents de C ou V. R2 et R3 permet de produire les consonnes de la racine et les
voyelles du vocalisme sur la forme de surface. La rgle de borne R4, indpen-
dante du contexte, permet de supprimer le dlimiteur + qui spare les affixes du
schme sur la premire bande.
Le nombre de symboles C dans le schme correspond gnralement au nombre
de consonnes de la racine. En revanche, dans certains cas, les schmes trilitres
gminatifs contiennent quatre symboles C. La rgle R5 assure la propagation
des consonnes sur la forme de surface. Pour mieux illustrer lapplication de ces
rgles, prenons comme exemple la gnration de la forme surfacique darrasnA
"nous avons enseign" :

C V C C V C + n A bande de schme
d r s bande de racine
a a bande de vocalisme
R2 R3 R2 R5 R3 R2 R4 R1 R1
d a r r a s n A forme surfacique

Dans cet exemple, tout symbole de schme qui nappartient pas lensemble
{C, V, +} est projet sur la forme de surface grce la rgle R1. Les symboles
C et V du schme sont traduits par la consonne et la voyelle de la deuxime
et la troisime bande respectivement laide de R2 et R3. La rgle R5 met en
correspondance la forme lexicale (C, , ) la dernire consonne de la racine
crite sur la forme surfacique. Enfin, R5 remplace le signe +, dlimitant le radical
du suffixe, par un caractre vide.

2.2.4. Analyse des noms


Dans cette section, nous dcrivons la mthodologie de McCarthy (1993) dans
lanalyse des noms. Cette analyse consiste reprsenter les noms arabes laide

70
de syllabes. McCarthy (1993) a eu recours trois syllabes gnriques pour re-
prsenter les schmes nominaux :
s1 : CV o C et V reprsentent respectivement une consonne et une voyelle
simple.
s2 : CVV o VV est une voyelle longue c .
s3 : CVC
McCarthy (1993) admet que tous les schmes nominaux peuvent tre obte-
nus laide de la combinaison dau plus deux syllabes lexception de s2 s1 et
s3 s1 . Il considre galement que les noms arabes se terminent toujours par une
consonne. Il a dfini une syllabe additionnelle, note s0 pour reprsenter la der-
nire consonne.
lissu de cette terminologie, lensemble de schmes nominaux est rduit
sept schmes syllabiques :
(1) s3 s0 : CVCC (ilm, "savoir")
(2) s1 s1 s0 : CVCVC (alam, "drapeau")
(3) s1 s2 s0 : CVCVVC (uluwm, "savoirs")
(4) s2 s1 s0 : CVVCVC (Amil, "exhaustif ")
(5) s2 s2 s0 : CVVCVVC (jAmuws, "taureau")
(6) s3 s1 s0 : CVCCVC (maSna, "usine")
(7) s3 s2 s0 : CVCCVVC (jumhuwr, "public")

Lexique Le lexique de noms est lunion de trois lexiques : racines, schmes


et vocalismes. tant le schme nominal vhicule le nombre (singulier, pluriel),
le lexique de schmes prcise pour chaque schme son nombre. Le lexique de
racines associe pour chaque racine les listes de schmes et de vocalismes compa-
tibles cette racine. Dans le lexique de vocalismes, chaque entre distingue les
voyelles du singulier et du pluriel.
(a) lexique de schmes

1 s3 s0 : CVCC
2 s1 s1 s0 : [CVCVC nombre=s]
3 s1 s2 s0 : [CVCVVC nombre=s]
4 s2 s1 s0 : [CVVCVC nombre=s]
5 s2 s2 s0 : [CVVCVVC nombre=s]
6 s3 s1 s0 : [CVCCVC nombre=s]
7 s3 s2 s0 : [CVCCVVC nombre=s]

c. McCarthy (1993) prsente les voyelles longues aA, uw et iy (cf. section 1.1.2) comme une
suite de deux voyelles courtes aa, uu et iy.

71
(b) lexique de racines

1 lm : [s3 s0 , sing_voyelle=i, plur_voyelle=u]


2 lm : [s1 s1 s0 , sing_voyelle=a, plur_voyelle=a]
3 jmhr : [s3 s2 s0 , sing_voyelle=uu, plur_voyelle=ai]

(c) lexique de vocalismes

1 a : [sing_voyelle=ai]
2 ai : [sing_voyelle=ai]
3 au : [sing_voyelle=au]

Rgles limage de verbes, chaque forme lexicale dans une rgle est repr-
sente sur trois bandes.

R1 * - X - * * - X - *
R2 * - C - * * - (s0 ,C,) - (+)
R3 * - CV - * * - (s1 ,C,V) - *
R4 * - C1 V C2 - * * - (s3 ,C1 C2 ,V) - (s3 ,*,*)
R5 * - CVV - * * - (s2 ,C,V) - (s2 ,*,*)
R6 * - C1 V C2 - * * - (s3 ,C1 C2 ,V) - (s0 ,*,)
R7 * - CVV - * (S,*,*) - (s2 ,C,V) - (s0 ,*,) o S{s1 , s2 , s3 }
R8 * - - * * - (+) - *
R9 * - CV - * (S,*,V) - (s1 ,*,V) - * o S{s1 , s2 , s3 }
R10 * - CVV - * (S,*,V) - (s2 ,*,V) - * o S{s1 , s2 , s3 }

La rgle R1 reprsente lidentit, elle projette tout caractre lexical dans la


premire bande sur la forme de surface. R2 permet, tant donn la syllabe s0
sur la premire bande et une consonne C sur la deuxime bande de reproduire
C sur la forme surfacique. Cette rgle est obligatoire, elle concerne la syllabe
finale du nom qui est toujours suivi dun (+) dans le contexte droit. R3 lit la
syllabe s1 sur la premire bande, C sur la deuxime bande et V sur la troisime
bande et crit CV dans la forme de surface. Dune manire similaire, R4 et R5
permettent dcrire CVC et CVV dans la forme de surface. Les contextes de droite
(s3 ,*,*) et (s2 ,*,*) indique que ces rgles sont appliques aux premires syllabes.
R6 et R7 sont analogues R4 et R5 mais appliques la deuxime syllabe.
Enfin, R8 permet de supprimer le signe +. R9 et R10 assurent la propagation
de consonnes et de voyelles.
titre dillustration, nous donnons des exemples de gnration des noms ilm
"savoir", alam "drapeau" et jumhuur "public" dans la figure 2.13.

72
s3 s3 + s1 s1 s0 + s3 s2 s0 +
l m l m jm h r
i a u h r
R4 R2 R8 R3 R9 R2 R8 R4 R10 R2 R8
il m a la m jum huu r

Figure 2.13.: Exemples de gnration de noms base sur des syllabes

2.3. Principaux analyseurs morphologiques de


larabe
Dans cette section, nous exposons les principaux travaux portant sur lanalyse
morphologique de la langue arabe. Le panorama danalyseurs morphologiques
de larabe dans cette section nest pas exhaustif, nanmoins il permet dtablir
les diffrentes mthodes et stratgies existantes. Afin de maintenir notre orien-
tation base sur une tude comparative entre lapproche concatnative et lap-
proche gabaritique, nous dcrivons deux systmes, parmi les plus rpandus, de
chaque approche. Chaque analyseur prsente des innovations et des techniques
plus sophistiques par rapport celui qui le prcde.

2.3.1. Buckwalter Arabic Morphological Analyzer (bama)


Lanalyseur morphologique BAMA (Buckwalter, 2002, 2004), est un systme
danalyse morphologique qui adopte lapproche concatnative. Cet analyseur d-
coupe un mot arabe en trois segments : un segment prfixal PREF (proclitiques et
prfixe de flexion), un radical et un segment suffixal SUFF (suffixe de flexion et
enclitique). BAMA dfinit un systme de translittration et il ralise le traitement
des mots translittrs.

Lexique BAMA contient trois lexiques : un lexique de radicaux, un lexique de


PREF et un troisime lexique de SUFF. Un mot est obtenue suite une concat-
nation dun PREF, un radical et un SUFF. PREF et SUFF peuvent tre nuls. Une
catgorie contenant toutes les informations morphologiques et une glose en an-
glais sont assignes chaque entre lexicale. Un chantillon du lexique de BAMA
est donne dans la figure 2.14

73
PREF
/wa Pref-Wa and
H./bi NPref-Bi by/with
H. /wabi NPref-Bi and + with/by
@/Al Pref-Al the
AK./biAl Pref-BiAl with/by + Al
AK. /wabiAl Pref-WabiAl and + with/by + Al
Radicaux

I.J/katab PV wrote


I.J/kotub IV write

I.J /kutib PV_Pass be written


I.J/ktab IV_PASS be written
PREF
/ap NSuff-ap [fem.sg]
 /At
HA NSuff-At [fem.pl]
A J/atAni NSuff-atAni two

Figure 2.14.: Lexique de bama

Au total, le lexique de BAMA contient 82158 radicaux, 299 PREF et 618 SUFF.

Tables de compatibilit BAMA dfinit trois tables pour vrifier la compatibi-


lit entre les morphmes. Une table est implmente pour chaque paire de mor-
phmes savoir PREF/radical, radical/SUFF et PREF/SUFF. La table PREF/radical
par exemple indique que larticle dfinie @ Al, nest compatible quavec les radi-
caux de valeurs nominales.
Dans le cas o la dcomposition dun mot est valide selon le lexique et les
tables de compatibilit, BAMA ralise leur concatnation et les ajustements nces-
saires. Toutes les rgles dajustement sont codes dans le lexique. Cet analyseur
associe une tiquette contenant toutes les informations ncessaires appropries
J
wasayutimuwnkum
au mot. titre dexemple, ltiquette assigne au mot
"et ils vous nourriront" laide de BAMA est wa/CONJ+sa/PART+y/3MP+uTim/IV+uwna/3MP.

2.3.2. Arabic Lexeme-based Morphological Generation and


Analysis (almor)
ALMOR est un analyseur morphologique fond sur les bases lexicales de BAMA
(Habash, 2004). En revanche, contrairement BAMA qui se focalise uniquement
sur lanalyse dune forme surfacique, ALMOR permet galement de gnrer la

74
reprsentation surfacique partir de son analyse morphologique compose dun
lexme et des traits morphologiques. Par consquent, ALMOR tend les tiquettes
morphologiques de BAMA avec les traits morphologiques qui sont utiliss dans
lanalyse et la gnration.
Lanalyse dans le systme ALMOR est similaire BAMA, le mot est dcompos
des triplets (PREF, lexme, SUFF). En revanche ALMOR rajoute une reprsentation
intermdiaire en morphmes abstraits qui relie la forme de surface ses traits
morphologiques.
ALMOR est utilis dans lanalyseur morphosyntaxique MADA (Roth et al., 2008;
Habash et al., 2009). Ce dernier ralise la segmentation, ltiquetage grammati-
cal, la diacritisation, la lemmatisation et lanalyse morphologique dans le mme
processus (Habash et Rambow, 2005). tant donn un mot MADA se sert de AL -
MOR pour gnrer toutes les analyses potentielles dun mot. Il associe ensuite des
scores ces analyses afin deffectuer la dsambigusation.

2.3.3. Xerox Finite State Machine (xfsm)


Contrairement BAMA et ALMOR, XFSM (Beesley, 2001) est un analyseur mor-
phologique bas sur des racines et des schmes. Cet analyseur est construit
laide de machines tats finis. XFSM produit environ 85000 radicaux partir
dun lexique de racines compos de 4930 racines et un ensemble de 400 schmes.
XFSM restitue les diacritiques de mots et leurs fournit des gloses en anglais. Ce
systme est bidirectionnel, il ralise lanalyse et la gnration. Toutefois, XFSM
limage des systmes adoptant lapproche gabaritique permet de rduire la taille
du lexique. En revanche, ce systme connait un taux lev dambigut, son sys-
tme de rgles complexe engendre beaucoup derreurs de sur-gnration.

2.3.4. Lanalyseur (elixirfm)


ELIXIRFM (Smr, 2007b,a) est bas sur des racines et des schmes limage
de XFSM. Lide matresse qui a contribu au dveloppement de ELIXIRFM, est
la rduction du nombre de rgles pour surmonter les problmes de drivation
voqus dans la section 2.1.3.
Smr (2007a) a eu recours la dfinition dun ensemble de schmes artificiels.
Ces derniers ne font pas partie de lensemble de schmes de larabe, ils per-
mettent de simplifier le processus de drivation irrgulire et servent rduire
considrablement le nombre de rgles. titre dexemple, le verbe creux AistaqAl
"dmissionner" est driv de la racine q w l et le schme Aista12a3. Nanmoins, le
croisement de telle racine et de tel schme gnre la forme Aistaqwal (1) qui est
diffrente la forme de surface cible AistaqAl (2). Les systmes morphologiques
ont recours une rgle morpho-phonmique pour passer de (1) (2). ELIXIRFM
par contre introduit un schme Aista1A3 qui dfinit parfaitement le format de
AistaqAl. laide de ce schme, le processus de drivation devient rgulier, il

75
est bas sur les substitutions des chiffres 1 et 3 du schme par la premire et la
troisime consonnes de la racine repectivement.
De la mme manire, les dverbaux qui drivent des verbes creux sont drivs
laide du schme artificiel. Le dverbal mustaqiyl, par exemple est driv du
schme musta1iy3.

Conclusion
Dans ce chapitre, nous avons prsent deux approches pour analyser la mor-
phologie non-linaire de larabe, lapproche concatnative qui se base sur la
concatnation des clitiques et des affixes au radicaux. Un grand lexique de radi-
caux est ainsi utilis avec moins de rgles. Lapproche gabritique se focalise sur
le croisement des racines et des schmes pour la gnration des radicaux. Cette
approche permet dutiliser un lexique rduit base sur les racines et une table
de schmes. Linconvnient de cette approche rside dans le nombre norme de
rgles qui devraient tre dfinies. Ensuite, nous avons dcrit les mthodes utili-
ses dans le traitement de la morphologie arabe plus particulirement au niveau
de la drivation savoir le formalisme de deux-niveau et le modle bas sur les
transducteurs multi-bande. Enfin, nous avons expos quelques analyseurs mor-
phologiques de larabe qui adoptent les diffrentes approches dcrites.

76
3. Outils et ressources

Comme nous lavons voqu dans lintroduction, la stratgie que nous suivons
pour raliser le traitement automatique du TUN consiste convertir ce dernier en
une forme approximative du MSA (que lon appelle pseudo-MSA). Le pseudo-MSA
na pas pour vocation dtre compris par un tre humain mais son traitement
laide dun outil de TAL destin au MSA fournit des rsultats satisfaisants.
Notre systme de conversion repose principalement sur les deux niveaux mor-
phologique et lexical. En effet, nous avons eu recours un analyseur morpholo-
gique du TUN, un lexique bilingue TUN-MSA et un gnrateur morphologique de
MSA . Ces ressources sont dcrites dans les sections 3.1 et 3.2.
Suite la conversion, nous avons utilis un tiqueteur en parties de discours
entran sur le MSA pour ltiquetage du pseudo-MSA. Cet outil est dcrit dans la
section 3.3. Enfin, le corpus TUN utilis dans lvaluation de notre mthode est
dcrit dans la section 3.4.

3.1. Systme danalyse et gnration


morphologique du msa et de ses dialectes
Pour raliser lanalyse morphologique du TUN et la gnration morphologique
du MSA, nous avons eu recours au systme MAGEAD a (Habash et al., 2005; Habash
et Rambow, 2006).
Trois raisons principales nous ont pouss utiliser ce systme. Premirement,
MAGEAD est conu pour le traitement morphologie de toutes les variantes de
larabe, le MSA aussi bien que les dialectes. Deuximement, ce systme ralise
une analyse sous la forme de racines et de schmes. Ce qui permet de dcrire
la conversion TUN MSA au niveau des racines et des schmes. Troisimement,
MAGEAD est bi-directionnel, cela est important dans la perspective de conversion
puisquil permet danalyser une variante et de gnrer une autre variante. Dans
notre cas, MAGEAD sert analyser du TUN et gnrer du MSA.

a. magead est lacronyme de Morphological Analyzer and Disambiguator for Arabic and its
Dialects.

77
3.1.1. Analyse et gnration morphologique
MAGEAD utilise un modle deux niveaux (cf section 2.2.1) qui relie une
forme lexicale compose dune racine, dun schme et dun ensemble de traits
morphologiques une forme surfacique travers un srie de transformations.
Ces transformations sont assures par un transducteur (cf. figure 3.1). La forme
Q
surfacique  
yaDTaruwna "ils sobligent", par exemple, est associe la
reprsentation profonde :

[ROOT:Drr][MBC:verb-VIII][ASP:i][MOD:i][VOX:a][PER:3][GEN:m][NUM:p]

Figure 3.1.: Reprsentation simplifie de magead

Dans le sens de la gnration, les traits morphologiques sont dabord tra-


duits en morphmes abstraits. Ces morphmes sont ensuite ordonns et tra-
duits en morphmes concrets. Ces derniers sont combins entre eux pour gnrer
une forme surfacique qui peut ventuellement subir des changements morpho-
phonmiques et des ajustements orthographiques grce un ensemble de rgles.
Pour relier la forme lexicale et la forme surfacique, MAGEAD dfinit quatre
niveaux de reprsentation. Nous les dcrivons ci-dessous dans le sens de la g-
Q
nration en nous appuyant sur lexemple prcdent :  
yaDTaruwna.

Reprsentation profonde : Ce niveau de reprsentation est identique pour


toutes les variantes de larabe. Une forme lexicale est reprsente sous la forme
dune racine (ROOT), dune catgorie, appele classe de comportement morpho-
logique, note MBC (pour Morphologic Behavioural Class) et de traits morpho-
logiques non ordonns. ce niveau, notre exemple se prsente sous la forme
suivante :

[ROOT:Drr][MBC:verb-VIII][ASP:i][MOD:i][VOX:a][PER:3][GEN:m][NUM:p]

78
Les traits morphologiques utiliss dans cet exemple indiquent dans lordre
les valeurs morphologiques de laspect (ASP), du mode (MOD), de la voix (VOX),
de la personne (PER), du genre (GEN) et du nombre (NUM). MAGEAD utilise en
outre quatre traits QST, CNJ, PRT et PRN pour la dtermination des clitiques. Ils
concernent respectivement les clitiques dinterrogation et de conjonction, les par-
ticules et les pronoms dobjet direct. Ils sont valeurs boolennes et indiquent la
prsence ou labsence dun clitique dans le verbe.
Pour lanalyse des noms, MAGEAD utilise 8 traits morphologiques : GEN, NUM,
STT, CAS, QST, CNJ, PRP et PRN. Les quatre premiers traits dfinissent respecti-
vement les valeurs du genre, du nombre, dtat et du cas (accusatif, nominatif,
gnitif). Alors que les quatre derniers traits dterminent les clitiques rattachs
une forme nominale (interrogation, conjonction, prposition et pronom posses-
sif).
MAGEAD dfinit 66 MBC s pour les verbes MSA parmi lesquelles 25 sont abs-
traites, utilises uniquement pour des raisons dorganisation de la hirarchie.
Contrairement lanalyse des verbes qui utilisent des systmes de flexion et de
drivation rguliers, lanalyse des noms prsentent de nombreuses irrgularits

parmi lesquelles le pluriel bris et les multiples pluriels. Le pluriel du mot hAJ

miftAH "clef ", par exemple, repose sur le schme ma1A2iy3 ( iJ
KA mafAtiyH). Le
mot I.KA kAtib "crivain" possde trois formes diffrentes au pluriel : une forme
. KA kAtibuwn "crivains" base sur le rattachement du suffixe uwn
rgulire J
 
la forme au singulier, deux pluriels briss J.J kataba~ "scribes" et H. AJ kutAb
"auteurs". MAGEAD dfinit 962 MBC s pour les noms.

Reprsentation en morphmes abstraits :


A ce niveau de reprsentation, une forme lexicale se prsente sous la forme
dune squence non ordonne de morphmes abstraits. Notre exemple se pr-
sente de la faon suivante :

[SUBJPREF_IV:3MP] [ROOT:Drr][PAT_IV:VIII][VOC_IV:VIII-act]
[SUBJSUF_IV:3MP_ind]

Le premier morphme ([SUBJPREF_IV:3MP]) correspond un prfixe vhicu-


lant la personne (3), le genre (M) et le nombre (P) du sujet. Les trois morphmes
qui suivent dcrivent la racine ([ROOT:Drr]), le schme dpourvu de diacritiques
([PAT_IV:VIII]) et le vocalisme ([VOC_IV:VIII-act]). Lensemble de ces trois
morphmes dfinissent un radical. Le dernier morphme ([SUBJSUF_IV:3MP_ind])
dcrit un suffixe indiquant le mode (indicatif) ainsi que le genre, le nombre et la
personne du sujet.
Le passage de la reprsentation profonde la reprsentation en morphmes
abstraits est ralise laide de rgles. Ces dernires permettent dassocier des

79
traits morphologiques des morphmes abstraits. On trouve, en partie gauche
de telles rgles un ou plusieurs traits et, en partie droite, un morphme abstrait.
titre dexemple, les traits morphologiques [MOD:i] [ASP:i] [PER:3] [GEN:m]
[NUM:p] donnent naissance aux deux morphmes abstraits [SUBJPREF_IV:3MP]
et [SUBJSUF_IV:3MP_ind] (le circonfixe de la troisime personne du masculin
pluriel) grce aux rgles suivantes :

[ASP:i][PER:3][GEN:m][NUM:p] [SUBJPREF_IV:3MP]
[MOD:i][ASP:i][PER:3][GEN:m][NUM:p] [SUBJSUF_IV:3MP_ind]

Les rgles appliquer une reprsentation profonde dpendent du MBC. Un


MBC peut donc tre vu comme un ensemble de rgles : les rgles appliquer
pour la conversion en morphmes abstraits.
Les MBCs sont organises sous la forme dune hirarchie, elles hritent de
leurs MBCs anctres un certain nombre de rgles. Cest cette reprsentation hi-
rarchique qui permet de factoriser des rgles communes plusieurs MBC. La
figure 3.2 donne une reprsentation simplifie de la hirarchie de classes mor-
phologiques.

Figure 3.2.: Hirarchie de classes de comportement morphologique

Le nud de plus haut niveau de la hirarchie est appel mot. Cest ce niveau
que sont reprsentes les rgles qui sont partages par tous les mots arabes.
On y trouve, par exemple, la rgle associe au trait morphologique [CONJ:w]. Ce
dernier correspond la conjonction + w+ "et". Ainsi, tous les mots des variantes
de larabe acceptent ce clitique.
Dune faon analogue, tous les verbes transitifs qui correspondent la MBC
Verbe-tr et quels que soient leurs schmes partagent les mmes enclitiques pro-
nominaux.
Dans notre cas, les 4 rgles dfinies au niveau de la MBC MBC:Verb-VIII sont :

80
[MBC:verb-VIII][ASP:i] [PAT_IV:VIII]
[MBC:verb-VIII][ASP:p] [PAT_PV:VIII]
[MBC:verb-VIII][ASP:i][VOX:a] [VOC_IV:VIII-act]
[MBC:verb-VIII][ASP:p][VOX:p] [VOC_PV:VIII-pas]

Reprsentation en morphmes concrets :


ce niveau de reprsentation, une forme lexicale se prsente comme une
squence ordonne de morphmes concrets. Notre exemple se reprsente de la
faon suivante :
y + [Drr, VCtVCVC, aaa] + uwna
le circonfixe y+ +uwna indique la personne, le genre et le nombre du sujet. Le tri-
plet [Drr, VCtVCVC, iaa] regroupe les trois composantes du radical : la racine,
le schme et le vocalisme. Ils vont permettre de gnrer le radical proprement
dit.
Le passage de la reprsentation morphmatique abstraite la reprsentation
morphmatique concrte est ralise par une grammaire hors-contexte qui per-
met dordonner les morphmes abstraits entre eux ainsi que par des rgles de
correspondance qui apparient morphmes abstraits et morphmes concrets.
La grammaire hors-contexte qui prcise lordre des morphmes abstraits est
commune toute les variantes de larabe de rares exceptions prs, comme on
le verra dans le section 3.1.3.
La structure dun mot selon MAGEAD est dfini par la rgle suivante :
[WORD] [CONJ]? ( [NOUN] | [VERB] )
o le morphme [CONJ] correspond une conjonction. Cette grammaire in-
dique quune conjonction peut tre rattache tous les mots et quelle se situe
en dbut de mot. La structure du verbe [VERB] et du nom [NOUN] sont dcrits
dans les rgles suivantes :
[NOUN] [PREP]? [ART]? [INFLECTED_NOUN] [POSS]?
[VERB] ( [PV_VERB] | [IV_VERB] | [CV_VERB] ) [OBJ]?
Les morphmes [PREP], [ART] et [POSS] dfinissent respectivement une pr-
position, larticle dfini et un pronom possessif qui peuvent tre concatn une
forme flchie dun nom ([INFLECTED_NOUN]). [PV_VERB], [IV_VERB] et [CV_VERB]
indiquent des verbes flchies dans laspect accompli, inaccompli et impratif. Ils
peuvent tous prendre un pronom dobjet [OBJ].
Les rgles de correspondance apparient morphmes abstraits et morphmes
concrets. Elles ont pour partie gauche un morphme abstrait et pour partie
droite un morphme concret. Ces rgles sont gnralement spcifiques une
variante de larabe. En MSA, par exemple, les morphmes [SUBJPREF_IV:3MP] et
[SUBJSUF_IV:3MP_IND] sont associs aux morphmes concrets y+ +uwna laide
des rgles suivantes :

81
[SUBJPREF_IV:3MP] y+
[SUBJSUF_IV:3MP_IND] +uwna

MAGEAD dfinit 92 rgles de correspondance pour les verbes MSA . Elles concernent
les clitiques et les affixes. Parmi ces rgles, 3 sont utilises pour les conjonctions,
6 pour les particules, 18 pour les suffixes sujet, 52 pour les prfixes sujet et 13
pour les pronoms objet. Concernant les noms, MAGEAD dfinit 359 rgles.

Reprsentation de surface : Il sagit de la reprsentation orthographique.


Notre exemple se reprsente maintenant sous la forme

yaDTaruwna

qui est la translittration de la forme arabe Q


 
. Le passage de la reprsen-
tation en morphmes concrets la reprsentation de surface met en jeu trois
types doprations. La combinaison dune racine, dun schme et dun vocalisme,
la concatnation des affixes et les rgles dajustement orthographiques. Ces op-
rations sont ralises par deux types de rgles, les rgles morpho-phonmiques
et le rgles orthographiques.
Ces rgles sont compiles sous la forme dun automate 5 bandes. Les trois
premires bandes sont des bandes de lecture, la quatrime bande est une bande
de lecture criture et la cinquime, une bande dcriture. Sur la premire bande
est crit le schme ainsi que les affixes et les clitiques. La deuxime bande est
rserve la racine et la troisime au vocalisme. La quatrime bande concerne
la reprsentation morpho-phonmique et la cinquime bande la reprsentation
orthographique.
La table 3.1 reprsente ltat des bandes avant application des rgles dans le
cas de notre exemple. Les bandes 4 et 5 sont ce stade garnies de 0.

schme y +V C t V C V C +u w n a
racine D r r
vocalisme a a a
forme 00000000000000
morpho-phonmique
forme 00000000000000
orthographique

Table 3.1.: tat des bandes de lautomate avant application des rgles

La premire tape consiste appliquer les rgles morpho-phonmiques. Ces


dernires lisent sur les bandes 1, 2 et 3 et crivent sur la bande 4. lissue
de cette tape, notre exemple y+ [Drr, VCtVCVC, aaa] + uwna est traduit en
y+aDTar0r+uwna laide des rgles suivantes :

82
(1) [X, , ,0] X, X
/ {C,V} ;
(2) [C,X, ,0] X ;
(3) [V, ,X,0] X ;
(4) [V, ,V,V] 0 / [2,%, ,X] _ [3+S,%, ,X+S] , S=[VOWEL] ;
(5) [t, , ,t] T / [1,M, ,M] _ , M
/ {STDZ} ;
La premire rgle consiste placer tous les symboles composant les affixes de
la bande du schme sur la bande de la forme morpho-phonmique. La deuxime
et la troisime rgles permettent de remplacer les symboles C et V du schme
par les consonnes de la racine et les voyelles du vocalisme. La quatrime rgle
est une rgle gminative b . Elle permet de supprimer la voyelle situe entre le
deuxime et le troisime radical si le suffixe commence par une voyelle. Enfin,
la cinquime rgle provoque le voisement du son /t/ en /T/. Cette rgle est
applique uniquement lorsque la premire lettre de la racine correspond /S/,
/D/, /Z/ ou /T/.
lissue de cette tape, les bandes de lautomate sont dans ltat reprsent
dans la table 3.2.

schme y +V C t V C V C +u w n a
racine D r r
vocalisme a a a
forme
morpho-phonmique y +a DT a r 0 r +u w n a
forme 00000000000000
orthographique

Table 3.2.: Etat des bandes de lautomate aprs application des rgles morpho-
phonmiques

lissue de lapplication des rgles morpho-phonmiques, les rgles ortho-


graphiques sont appliques. Ces dernires lisent sur les 4 premires bandes et
crivent sur la cinquime. Dans notre exemple, cette tape gnre yaDTaruwna
partir de y+aDtar0r+uwna laide des rgles suivantes :
(1) [X, , ,X,0] X, X
/ {C,V,+} ;
(2) [C,X, ,X,0] X ;
(3) [V, ,X,X,0] X ;
(4) [+, , ,+,0] X ;
(5) [V, ,V,0,0] ;

b. La gmination correspond au fait que la deuxime et la troisime lettres de la racine sont


identiques.

83
limage des rgles morpho-phonmiques, les trois premires rgles permettent
de projeter les caractres des quatre premires bandes sur la bande orthogra-
phiques. Les deux dernires permettent respectivement de supprimer le signe +
et de remplacer le symbole 0 entre deux consonnes identiques par le caractre .
Ainsi la forme la forme yaDTaruwna est finalement gnre. Ltat des bandes
de lautomate ce stade apparat dans la figure 3.3.

schme y +V C t V C V C +u w n a
racine D r r
vocalisme a a a
forme
morpho-phonmique y +a DT a r 0 r +u w n a
forme
orthographique y 0 a DT a r 0 0 u w n a

Table 3.3.: Etat des bandes de lautomate aprs application des rgles orthogra-
phiques

Les varits de larabe se distinguent par certaines rgles morpho-phonmiques


et orthographiques mais en partagent dautres. Pour le traitement des verbes
MSA , par exemple, MAGEAD dfinit 69 rgles morpho-phonmiques et 53 rgles
orthographiques. Au niveau des noms, 79 rgles morpho-phonmiques et 77
rgles orthographiques sont implmentes.

Dans la suite de cette section, nous dcrivons larchitecture de MAGEAD (cf.


section 3.1.2) et le processus dadaptation de MAGEAD au TUN (cf. section 3.1.3).

3.1.2. Architecture de magead


Pour raliser le traitement morphologique dune variante de larabe, MAGEAD
utilise des ressources (base lexicale et un ensemble de rgles), un compilateur et
un systme morphologique. Larchitecture gnrale de MAGEAD est donne dans
la figure 3.3. Cette figure est extraite de Altantawy et al. (2010).

84
Figure 3.3.: Architecture de magead

La construction dune instance de MAGEAD passe par deux phases principales.


La premire (encadre par une forme de L-renvers dans la figure 3.3) consiste
crer manuellement les ressources linguistiques utilises pour une instance
spcifique de MAGEAD. Ces ressources sont :
Un lexique de racines (Lexicon)
Une hirarchie de classes morphologiques (MBCH)
Une grammaire hors-contexte qui ordonne les morphmes abstraits (CFG)
Des rgles morpho-phonmiques et orthographiques ainsi que des rgles as-
sociant les morphmes abstraits aux morphmes concrets correspondants
(Rules)
La deuxime phase (reprsente dans la figure 3.3 dans un rectangle avec des
traits interrompus) est la compilation des ressources linguistiques dune instance
de MAGEAD pour produire deux transducteurs : un pour la gnration et un autre
(son inverse) pour lanalyse morphologique.
Ces transducteurs permettent de produire la reprsentation morphologique
profonde partir dune forme de surface ou linverse.
Plusieurs raisons ont pouss les dveloppeurs de MAGEAD utiliser cette archi-
tecture. Dabord, comme nous lavons voqu, MAGEAD est conu pour raliser
le traitement des morphologies du MSA et ses dialectes dans un mme systme.
Ainsi, cette architecture offre la possibilit dadapter MAGEAD sur une variante
arabe en se limitant uniquement la cration des ressources spcifiques cette
variante. En outre, larchitecture de MAGEAD permet dexploiter certaines rgu-
larits partages par les variantes de larabe.

85
Compilation de magead : La compilation dune instance spcifique de MA -
GEAD se droule en trois tapes successives. Premirement, la grammaire, les
MBC s et les rgles sont reprsentes dans le format morphtools Deuximement,
le format morphtools est compil pour gnrer un format lextools qui reprsente
une extension des outils AT&T (Mohri et al., 2000) pour les machines tats
finis (Sproat, 1995). Le format lextools est par la suite compil pour produire les
transducteurs dsirs.

3.1.3. Adaptaion de magead au tun


Ladaptation de MAGEAD une variante de larabe consiste crer manuel-
lement les ressources linguistiques ncessaires MAGEAD pour le traitement de
cette variante. Pour cela, nous avons dfini toutes les entits (traits, MBCs, mor-
phmes abstraits et concrets) spcifiques au TUN ainsi que les rgles qui mettent
en correspondance ces entits.

Hirarchie de classes de comportement morphologique MBCH :


Bien que les MBCs sont senses tre valables pour toutes les variantes de
larabe, nous avons d nanmoins tendre la hirarchie pour y inclure les mor-
phmes abstraits du TUN qui nexistent pas du ct MSA. Pour la hirarchie de
verbes TUN, seul le morphme abstrait [NEG:] a t ajout. Il correspond
lenclitique de ngation + +.
Au niveau de la hirarchie des noms, les morphmes abstraits qui corres-
pondent aux prpositions + +, + m+, + h+ et + l+ sont ajouts. Ces
prpositions sont ralises dune manire autonome en MSA .

Grammaire hors-contexte : Cette grammaire a t tendue suite lajout du


nouveau morphme abstrait. La position du morphme QST qui tait en dbut de
verbe MSA devient la fin dun verbe TUN. Lordre des morphmes abstraits dun
mot TUN, selon sa catgorie, est donn par les structures suivantes :

CNJ PRT PREF VERB SUFF OBJ NEG|QST


CNJ PREP PREF NOUN SUFF POS

Morphmes abstraits morphmes concrets : Nous avons construit les


rgles de correspondance des morphmes abstraits et des morphmes concrets
TUN . Lensemble des rgles peut tre considr comme une table de deux co-
lonnes o la premire colonne contient les morphmes abstraits et la deuxime
colonne concernent les morphmes concrets. Nous avons dit la table des mor-
phmes MSA. Mis part le nouveau morphme abstrait TUNque nous avons
ajout dans la table, nous avons maintenu tous les morphmes abstraits MSA

86
de la premire colonne du ct TUN. Les morphmes abstraits qui nexistent pas
en TUN sont mis en correspondance avec des symboles nuls.
La majorit des changements ont t raliss sur la deuxime colonne. En effet,
la plupart des morphmes concrets se ralisent diffremment de ceux du MSA.
Le prfixe sujet de la premire personne du singulier, par exemple, se ralise

comme + @ a+ en MSA et +K na+ en TUN.
Ainsi, 16 morphmes concrets ont t dits. Au total, une table de 28 rgles
est dfinie pour le TUN (cf. annexe A).

Rgles morpho-phonmiques et orthographiques : La flexion en TUN est


totalement diffrente de celle de MSA. Par consquent, nous avons implment
94 rgles morpho-phonmiques et 81 rgles orthographiques spcifiques au trai-
tement TUN. En TUN, par exemple, si la troisime lettre de la racine correspond

w ou y, elle est remplace par la voyelle longue @ A lorsque le suffixe sujet

commence par la voyelle ferme /u/ ou /i/ (ce qui est le cas pour la troisime
personne du singulier fminin et la troisime personne du pluriel). Le verbe 
ma conjugu la troisime personne du singulier fminin donne 
HA  mAt
alors qu la troisime personne du pluriel il donne  mAwA.
@ A
Dautres rgles dfinies en MSA sont dites. La rgle de gmination, par exemple,
permet dlaguer la voyelle entre la premire et la deuxime lettres dune racine
verbale du ct MSA sil est suivi par un suffixe qui commence par une voyelle. En
revanche, du ct TUN, la gmination est applique toujours indpendamment
 mad+iyt "jai tendu" et H Y

Y
du suffixe : IK
 mad+it "elle a tendu".
Une particularit qui caractrise les verbes sains TUN de la forme CVCVC consiste
laguer toujours une des deux voyelles du verbe. La voyelle lague dpend
du suffixe sujet du verbe. Dans le cas o le suffixe commence par une consonne
(premire et deuxime personne), la forme du schme devient CCVC. Ce der-
nier prend la forme CVCC dans le cas o le suffixe commence par une voyelle
(troisime personne). titre dillustration, la conjugaison du verbe TUN I 
. J ktib
"crire" est donn dans la table 3.4. Nous indiquons entre parenthses la forme
du schme.

87
singulier pluriel
masculin fminin masculin fminin
re
1 personne ktibt ktibnA
CCVC+t CCVC+nA
2me personne ktibt(iy) ktibtuwA
CCVC+t(iy) CCVC+tuwA
3me personne ktib kitbit kitbuwA
CCVC+0 CVCC+it CVCC+uwA

Table 3.4.: Conjugaison dun verbe sain tun dans laspect accompli

Des diverses autres rgles sont implmentes pour le TUN. Par exemple, le
premier radical est remplac par la voyelle longue @ A dans laspect inaccompli

quand il correspond Z (hamza). Ainsi, la forme ( AK
ykl devient AK
yAkl
"il mange". Dune manire similaire, les verbes qui terminent par la lettre Z se
comporte de la mme faon que les verbes pour lesquels le lettre finale de la
racine est y dans laspect accompli. Les racines des verbes TUN AJK
YK. bdynA

"nous avons commenc" et AJJ


P rmynA nous avons jet sont respectivement Z X H.
b d et
P r m y. Au total, nous avons dfini 89 rgles morpho-phonmiques
et orthographiques pour lanalyse des verbes et des noms TUN .

Nous dcrivons en dtail dans lannexe de ce manuscrit la hirarchie de MBCs,


la grammaire, les morphmes (abstraits et concrets) et les rgles (morpho-phonmiques
et orthographiques) que nous avons dfinis pour le traitement du TUN.

3.2. Lexiques de transferts tunmsa


Le transfert lexical du TUN vers le MSA est assur par trois ressources lexi-
cales : un lexique de verbes, un lexique de noms et un lexique de particules. Le
lexique des verbes ainsi que celui des particules sont construits de faon semi-
automatique alors que le lexique des noms a t entirement cr automatique-
ment. Il a t gnr partir du lexique des verbes et couvre uniquement des
noms dverbaux.

3.2.1. Lexique des verbes


Le lexique des verbes est compos de paires (PM SA , PT U N ) dont les lments
PM SA et PT U N sont des triplets (racine, MBC, lemme). Chaque entre lexicale
est enrichie de deux gloses, une en anglais et lautre en franais. Le lexique est
compos de 1638 entres et couvre 1478 lemmes verbaux distincts du ct MSA

88
et 920 lemmes diffrents TUN . Le tableau 3.5 donne deux exemples dentres
extraites du lexique.

tun msa ang fra


racine x l S s d d
mbc II-ii II to reimburse rembourser
lemme xalliS saddad
racine H l l f t H
mbc I-ai I-aa to open ouvrir
lemme Hall fataH

Table 3.5.: Deux exemples dentres du lexique des verbes

Le lexique a t construit partir du corpus ATB (Maamouri et al., 2004) qui


est compos de transcriptions dmissions dactualits en MSA diffuses par diff-
rentes chanes de tlvision arabes. Ce corpus comporte 29911 occurrences ver-
bales qui correspondent peu prs 1500 verbes diffrents. Ces occurrences sont
des formes flchies dont la racine et le schme ont t extraits afin de servir la
construction du lexique.
Lextraction des racines et des schmes partir des formes flchies, a t ra-
lise grce lanalyseur morphologique ELIXIRFM (cf. section 2.3.4) qui permet,
tant donn une forme flchie en MSA, den extraire le lemme, la racine et le
schme. Deux raisons principales nous ont conduit choisir ELIXIRFM. Dune
part, cet analyseur ralise des analyses profondes qui permettent de gnrer la
racine et le schme dun mot. Dautre part, contrairement MAGEAD, ELIXIRFM
produit explicitement des lemmes.
Suite aux analyses produites par ELIXIRFM, chaque occurrence dun lemme
MSA est traduite manuellement, en contexte, vers un lemme TUN . ce stade,
les entres du lexique sont composes du ct MSA dun lemme, dune racine
et dun schme et uniquement dun lemme du ct tunisien. Nous avons alors
remplac les schmes dELIXIRFM par les MBC de MAGEAD correspondantes. Cette
correspondance est gnralement immdiate. Du ct TUN, nous avons assign
chaque lemme un schme et une racine.
Lorsquun verbe tunisien ne correspond aucune racine MSA, ce qui arrive
dans 8, 5% des cas, une nouvelle racine TUN est cre. La cration de la nouvelle
racine TUN est ralise grce une mthode dductive. En effet, tant donn
lquation racine schme = lemme, lorsque nous disposons dun lemme et
dun schme, il est possible den dduire une racine. Une centaine de nouvelles
racines spcifiques au TUN ont ainsi t cres. La liste de ces racines est donne
dans lannexe B de ce manuscrit.

titre dexemple, le lemme TUN Q K naqiz "sauter" correspond au schme
TUN 1a2i3. Lquation dans ce cas est donc racine 1a2i3 = naqiz .
Cette quation admet une solution unique qui est racine = n q z .

89
Dans certains cas, lquation admet plusieurs solutions. Cest notamment le cas
du verbe TUN J@ Aistanna "attendre" auquel correspondent le quatre solutions
suivantes :
1. la racine
s n y et le schme Ai1ta2a3
2. la racine

n n y et le schme Aista12a3

3. la racine @ n y et le schme Aista12a3


4. la racine @ n n et le schme Aista12a3

Dans ces cas ambigus, la stratgie que nous avons suivie consiste privil-
gier la paire contenant une racine de MSA. Ainsi, la troisime alternative, dans
lexemple prcdent, est choisie. En effet, parmi les quatre racines s n y, n n y,
n y et n n, seule la racine n y existe en MSA, elle correspond la notion de
"circonspection".
Un chantillon du lexique apparat dans la table 3.6. Les exemples donns
illustrent les variations lexicales (racines) et celles morphologiques (schmes et
MBC ) entre le TUN et le MSA .

msa tun glose


racine mbc/Schme racine mbc/Schme franaise
Smt I-aa / 1a2a3 skt I-ii / 12i3 se taire
Hlq I-aa / 1a2a3 Hjm II-ii / 1a22i3 coiffer
rtb II / 1a22a3 nZm II-ii / 1a22i3 organiser
Hlq II / 1a22a3 Tyr I-a / 12a3 voler/dcoller
xSm III / 1A2a3 rk III-ii / 1A2i3 disputer
dhm III / 1A2a3 hjm I-ii / 12i3 attaquer
bhr IV / Aa12a3 jb I-ii / 12i3 tre admir
xfy IV / Aa12a3 xby II-ai / 1a22a3 cacher
rf V / ta1a22a3 rf V-ii / t1a22i3 dguster
jb V / ta1a22a3 bht I-ii / 12i3 stonner
jr VI / ta1A2a3 rk VI / t1A2i3 se disputer
fy VI / ta1A2a3 bry I-aa / 12a3 gurir
xfD VII / Ain1a2a3 nqS I-uu / 12u3 se rduire
sHb VII / Ain1a2a3 bTl II-ii / 1a22i3 dmissionner/tre limin
nhy VIII / Ai1ta2a3 kml I-ii / 12i3 finir
Hdn VIII / Ai1ta2a3 Hml II-ii / 1a22i3 porter
dy X / Aista12a3 dy X / Aista12a3 inviter
wfy X / Aista12a3 kml II-ii / 1a22i3 complter

Table 3.6.: chantillon du lexique des verbes TUN-MSA

90
Comme le montre la table 3.6, les verbes TUN et MSA du lexique peuvent tre

compltement diffrents comme le verbe MSA J@ Aistawfa "complter" et le
verbe TUN
 kamil. Ils peuvent partager une mme racine, une mme MBC

ou le couple entier comme le verbe YJ@ Aistada "inviter". La table montre,
en outre, quune MBC du ct MSA peut correspondre plusieurs MBC du ct
TUN et vice-versa. Les entres du lexique ont une racine identique du ct MSA
et du ct TUN dans plus de 300 cas. Elles partagent, dans 193 cas le mme LMM.
Ce dernier reprsente la forme non diacrite du lemme. En dautres termes, ces
entres possdent la mme racine et la forme non diacrite du schme. Enfin, 16
partagent le mme lemme cest dire la racine et le schme sont identiques des
deux cts.

Dans sa forme actuelle, le lexique est compos de 1638 entres. Du ct tuni-


sien, le lexique couvre 920 lemmes verbaux TUN distincts et 1478 du ct MSA.
Cette diffrence illustre lambigut lexicale que provoque le passage du TUN vers
le MSA. En moyenne, un lemme TUN correspond 1, 8 lemmes MSA et 1, 1 dans
le sens inverse. Lambigut est donc plus importante dans le sens TUN MSA.
Plus prcisment, dans 63, 8% de cas, un lemme TUN correspond un seul lemme
MSA . Ce taux slve 90, 9% dans le sens inverse. Le tableau 3.7 illustre la r-
partition de lambigut lexicale dans les deux sens. Nous donnons, pour chaque
sens, la proportion des verbes sources correspondant un nombre donn de
verbes cibles.

Nombre de verbes cibles 1 2 3 4 5


tun msa 48.2% 36.1% 9.2% 2.7% 3.4%
msa tun 66.9% 27.6% 5.3% 0.2% 0%

Table 3.7.: Ambigut dans le lexique des verbes

Les taux dambigut donns dans la table 3.7 confirment que le passage du
TUN vers le MSA est plus ambigu que le passage inverse. Environ 702 (66.9%)
verbes MSA correspondent un seul verbe du ct TUN. Dans le sens inverse, 31
(3.4%) verbes TUN admettent plus de cinq verbes cibles du ct MSA. Ce nombre
est gal 0 dans le sens MSA TUN.

Lambigut maximale est gale 16 dans le sens TUN MSA et 4 dans le sens
oppos. Comme le montre la figure 3.7, le lemme TUN mal, par exemple,
peut se traduire par 16 formes cibles du ct MSA . Le verbe MSA g. jama de
lautre ct correspond quatre lemmes TUN distincts.

91
Figure 3.4.: Ambigut maximale entre verbes TUN et MSA

Lors du processus de conversion du TUN vers le MSA, la traduction dun verbe


TUN peut chouer cause de labsence du couple (racine, MBC) TUN, dans le
lexique, bien que la racine existe soit prsente. Afin daugmenter la couverture
du lexique des verbes, nous en avons extrait deux ressources diffrentes : un
lexique de racines et une matrice de correspondance de MBCs.
Dans le cas o le couple TUN (racine, MBC) nexiste pas dans le lexique, la
racine et la MBC seront traduites sparment. Nous montrerons, dans le cha-
pitre suivant, que cette stratgie permet damliorer considrablement les per-
formances de la conversion.

Lexique de racines
Ce lexique est constitu de couples de la forme (rM SA , rT U N ), o rM SA est
une racine MSA et rT U N une racine TUN. Cette ressource contient 1329 entres
correspondant 1050 racines distinctes ct MSA et 646 ct TUN. Le lexique
comporte 519 entres composes dune racine identique des deux cts TUN et
MSA .

92
Ce lexique montre deux points importants : dune part, comme dans le lexique
des verbes, lambigut est plus leve dans le sens TUN MSA. Dautre part,
lambigut des racines est plus leve que celle des lemmes verbaux. En moyenne,
une racine TUN est relie 2, 1 racines MSA. Dans le sens oppos, le nombre est
gal 1, 3.
titre dexemple, les verbes TUN XQK. brid "se refroidir" et XQ.J@ Aistabrad "prendre
froid" partagent la mme racine X P H. b r d. Les verbes MSA qui correspondent
ces verbes sont respectivement XQK. barad et Q mari. Ces verbes possdent
deux racines diffrentes X P H
. b r d et P m r . Par consquent, les deux
racines MSA sont associes la seule racine TUN X P H . b r d.
Matrice de correspondance de mbcs
La matrice de correspondance de MBC indique, pour chaque MBC MSA ou TUN,
la liste des MBCs qui peuvent lui correspondre du ct oppos. La matrice indique
galement la frquence dapparition de la correspondance entre une MBC TUN et
une MBC MSA dans le lexique des verbes. La matrice de correspondance de MBC
est reprsente dans la table 3.8. Chaque ligne de la matrice correspond une
MBC MSA et chaque colonne une MBC TUN . La matrice indique, par exemple,
que la MBC MSA I correspond la MBC TUN I dans 434 cas et il correspond la
MBC TUN II dans 98 cas.

TUN
I II III IV V VI VII VIII IX X
I 434 98 10 15 2
II 39 298 2 2 2 2
III 24 19 56 2
M IV 69 118 4 6
S V 26 16 2 88 3
A VI 18 14 2 7 26
VII 13 7 2
VIII 41 24 5 16 4 18
IX
X 17 24 2 3 31

Table 3.8.: Matrice de correspondance de MBC s

Une astrisque en position dindice (X ) indique la frquence la plus leve


dans le sens TUN MSA, en position dexposant (X ) elle indique la frquence
la plus importante dans le sens oppos. La neuvime ligne de la matrice, par
exemple, indique que la correspondance (V IIIMSA , ITUN ) est la plus frquente

93
dans le sens MSATUN et la correspondance (V IIIMSA , V IIITUN ) est la plus pro-
bable dans le sens oppos.
La matrice prsente plusieurs caractristiques intressantes. Premirement, les
MBC s de deux cts MSA ou TUN ne sont pas tous prsentes dans notre lexique. Les
MBC s IV et V II, par exemple, sont absentes du ct TUN . En effet, les verbes TUN
qui suivent ces MBCs sont rares. Pour la mme raison, la MBC IX est absente des
deux cts. Deuximement, le lexique rvle une tendance gnrale maintenir
la mme MBC des deux cts source et cible dune entre lexicale. Ceci est traduit
par le fait que les cellules en gras sont souvent situes sur la diagonale. La cellules
qui prsentent la frquence la plus leve sur sa ligne et sa colonne la fois est
reprsente par X . Mis part la MBC V III, quand les MBCs sont prsentes des
deux cts lintersection des lignes et des colonnes contient la frquence la plus
leve. Troisimement, lorsquune MBC MSA ne correspond pas une MBC TUN
identique dans le lexique, elle est gnralement associe la MBC I.
Globalement, la matrice montre que la slection de la racine cible et celle
de la MBC cible ne sont pas deux processus indpendants. La dcomposition du
lexique de verbes en lexique de racines et en table de correspondance de MBCs
provoque une perte dinformations. Lapport quantitatif de la division du lexique
des verbes en deux ressources spares sera tudi dans le chapitre 4.
Lextraction dune table de correspondance de MBCs partir de la matrice est
simple : elle consiste slectionner pour chaque MBC de la langue source la
MBC la plus frquente dans la langue cible. Dans certains cas, la MBC la plus
frquente domine clairement les autres MBCs, comme le cas pour la MBC II MSA.
Dans dautres cas, la tendance nest pas aussi claire, linstar de la MBC MSA IV .

3.2.2. Lexique des noms dverbaux


Dans la langue arabe, les noms sont gnralement classs en noms dverbaux
(qui drivent dune racine et dun schme) et en noms solides (qui ne peuvent
tre analyss sous la forme dune racine et dun schme).
Les noms solides TUN sont gnalement proches des noms solides MSA,
quelques variations phonologiques prs. titre dexemple, lunique diffrence
entre les noms MSA Ak HiSAn "cheval", XCK. bilAd "pays" et leurs correspon-
dants TUN HSAn et blAd rside dans llimination de la premire voyelle.
En revanche, les diffrences entre noms dverbaux TUN et MSA sont plus nom-
breuses, mais elles ont tendance tre rgulires. De plus, les noms dverbaux
sont nombreux. Dans le lexique DIINAR (Dichy et al., 2002), par exemple, parmi
109801 entres nominales, 65% sont des dverbaux.
Ces raisons nous ont pouss nous intresser ces noms et les traiter dans
notre systme de manire analogue aux verbes : analyse morphologique pro-
fonde suivie dune phase de transfert au niveau des racines.
Notre lexique de dverbaux a t construit dune manire automatique partir
du lexique de verbes (Hamdi et al., 2014). La mthode consiste gnrer des

94
paires de dverbaux TUN et MSA dune faon simultane en nous servant du
lexique des verbes dcrit dans la section 3.2 et dune table de correspondance
de schmes nominaux TUN, MSA, dans le but de gnrer des paires de dverbaux
(N OU NM SA , N OU NT U N ).
Cette mthode sur-gnre et peut produire des erreurs du ct MSA ou du
ct TUN. Une tape de filtrage savre ainsi ncessaire pour liminer les paires
candidates errones. Nous utilisons pour cela une ressource du MSA existante.

Gnration de paires de dverbaux


Comme nous lavons vu dans le chapitre 1, neuf types de dverbaux peuvent
tre gnrs partir dun verbe arabe c . Ces dverbaux appartiennent au champ
smantique leur racine. Les schmes qui leurs correspondent sont lis au schmes
verbaux associs la racine.
Nous avons modlis cette correspondance dans deux tables de schmes de
dverbaux pour le TUN et le MSA. Ces tables associent un schme verbal des
schmes nominaux correspondant aux diffrents types de dverbaux. Ces tables
sont prsentes dans lannexe C. Un chantillon des schmes nominaux issus du
schme IX du ct MSA et TUN est donn dans la table 3.9.

schme verbal type de dverbal schme nominal


msa tun
participe actif mu12a33 mi12A3
IX adjectif analogue a12a3 a12a3
forme infinitive Ai12i3A3 12uw3iya~

Table 3.9.: Table de schmes nominaux msa-tun

La table 3.9 indique que les verbes correspondant au schme verbal IX (qui
correspond aux formes Ai12a33 en MSA et 12A3 en TUN) construisent leur forme
infinitive avec le shcme Ai12i3A3 du ct MSA et 12uw3iyy du ct TUN. Nous
avons dfini ainsi, pour tous les schmes verbaux, les schmes nominaux TUN
et MSA leur correspondant pour les neuf types de dverbaux. Au total, nous
avons obtenu 54 schmes nominaux pour MSA et 52 schmes pour le TUN.
laide du lexique des verbes, nous avons combin la racine, de chaque paire ver-
bale, avec tous les schmes nominaux correspondant au schme verbal du ct
TUN et MSA . Ce processus produit des paires de la forme (((racM SA , schemeM SA ),
(racT U N , schemeT U N ))). Le principe de la gnration des paires nominales est
dcrit dans la figure 3.5.
A ce niveau, environ 20 rgles morphologiques et orthographiques dvelop-
pes manuellement sont appliques sur les formes gnres pour produire fi-

c. Ces dverbaux sont : participe actif, participe passif, forme infinitive, adjectif qualificatif,
adjectif superlatif, nom doutil, nom du lieu, nom du temps, forme exagre (cf. section 1.3.3.)

95
ENTREE: SCH. VRB NOM DEV. SCH. MSA SCH. TUN SORTIE:
LEXIQUE DES VERBES LEXIQUE DE NOMS DEVERBAUX

MSA TUN MSA TUN

Figure 3.5.: Gnration de paires de dverbaux nominaux tun-msa en utilisant les


verbes

nalement des paires de lemmes. Citons comme exemple, la rgle qui permet
de changer le deuxime radical de la racine /y/ ou /w/ en /y/ pour les parti-
cipes actifs du ct MSA. De la mme manire, une rgle permet de changer la
deuxime radicale /w/ en /y/ dans le ct TUN. Nous pouvons citer galement
une deuxime rgle commune pour le MSA et le TUN qui ncessite de transformer
les /t/ du schme verbal Ai1ta2a3 (VIII) et tous les schmes nominaux qui en
drivent en /T/ si la premire lettre de la racine correspond /S/, /T/, /D/ ou
 @ AiDTirAb "trouble".
. @Q@ AiDtirAb devient H. @Q
/Z/ : e.g. la forme infinitive H
lissue de ltape de gnration, un lexique de 137199 entres nominales
(N omM SA , N omT U N ) est cr.
Le processus de drivation, mme sil est gnralement rgulier, admet des ex-
ceptions. Le processus que nous avons suivi gnre, par consquent, des formes
incorrectes. En effet, une racine ne peut pas se combiner tous les schmes no-
minaux ce qui engendre la cration dentres contenant des paires nominales qui
nexiste pas dans le lexique MSA ou dans le lexique TUN.

Filtrage du lexique
La mthode de gnration dcrite ci-dessus sur-gnre : elle produire des
paires correctes mais aussi des paires incorrectes. Quatre cas sont possibles :
1. les deux noms TUN et MSA sont corrects
2. le nom TUN est incorrect et le nom MSA est correct
3. le nom MSA est incorrect et le nom TUN est correct
4. les deux formes gnres sont incorrectes

g
Ainsi, la paire verbale du lexique ( iJ, ) (f ataHM SA , HallT U N ) "ouvrir", par
exemple, peut gnrer ces quatre situations :

1. participe passif : ( hJ, m) (maf tuwHM SA , maHluwlT U N ) "ouvert". Dans
ce cas, les deux mots gnrs sont corrects.
 
2. forme exagre : ( hAJ, Cg) (f attAHM SA, HallAlT U N ). Le nom TUN est
incorrect dans cette figure alors que le nom MSA est correct "conqurant".

96
3. nom du lieux : ( iJ,
m ) (maf taHM SA, mHallT U N ), dans ce cas le nom
TUN est correct "boutique" mais le dverbal MSA nexiste pas. Le mot tunisien
est obtenu aprs lapplication de la rgle de gmination.
Cm) (f tiyHM SA, miHlAlT U N ), les deux mots g-
4. adjectif analogue : ( iJ
J,
nrs dans ce cas sont incorrects.
Dans notre cas, les situations (2) et (4) ne sont pas prjudiciables dans la
mesure o nous nanalysons jamais une forme TUN incorrecte d . Les situations
(3) et (4) peuvent tre partiellement traites en filtrant la partie MSA laide
dune ressource existante. Pour cela, nous avons eu recours trois ressources
diffrentes :
un grand corpus compos de dpches de presse de lAFP (Agence franaise
de presse), qui contient environ 1, 5 million doccurrences. partir de ce
corpus, nous avons extraits 10595 types de lemmes nominaux laide de
lanalyseur morphologique de larabe standard MADA. Seules les paires dont
le nom MSA est attest dans le corpus ont t maintenues. Suite cette
opration, un lexique de 20130 entres a t obtenu. Ce lexique est compos
de 8441 noms MSA associs 2636 noms TUN.
le lexique du MSA large couverture SAMA (Graff et al., 2009) contenant
36935 lemmes nominaux. Le filtrage laide de ce lexique a donn naissance
un lexique de 26486 entres : 10647 dverbaux ct MSA et 4712 ct TUN.
lunion des deux ressources compose de 40172 lemmes nominaux. En utili-
sant cette ressource, le filtrage a gnr un lexique compos de 39793 paires
a t obtenu. Ce lexique comporte 14804 lemmes MSA et 5017 lemmes TUN.
Afin dvaluer ce lexique nous avons eu recours un corpus dvaluation TUN
(voir section 3.4) contenant environ six mille occurrences parmi lesquels 1295
sont des dverbaux. Ce corpus a t divis en deux parties gales, un corpus de
test et un corpus de dveloppement.
Deux mtriques ont t utilises pour lvaluation du lexique des dverbaux
gnr. La premire mtrique est la couverture (qui correspond au rappel) qui
mesure la portion des dverbaux du corpus prsents dans le lexique gnr.
La deuxime mtrique est lambigut qui constitue le nombre de dverbaux
cibles en moyenne pour un dverbal source. Nous navons pas utilis la prci-
sion comme mesure dvaluation car le corpus dvaluation est de petite taille.
Un mot figurant dans le lexique mais pas dans le corpus ne peut tre considr
comme incorrect.
Cette mthode prsente deux sources dambigut :
le lexique de verbes peut associer
un verbe source plusieurs verbes cibles
linstar du verbe TUN  m qui est associ aux deux verbes du MSA

I. X hb "aller" et  m "marcher".

d. Nous supposons ici que notre entre tun ne comporte pas derreurs !

97
la table de correspondance de schmes nominaux TUN-MSA peut dfinir plu-
sieurs schmes cibles pour un schme source.
Lvaluation du lexique de dverbaux sur le corpus de test est donne dans la
table 3.10.

ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 173407 67, 2% 7, 7 12, 6
afp 17896 60, 1% 2, 4 6, 9
sama 33271 63, 9% 3, 5 7, 2
afp sama 35792 65, 8% 2, 6 7, 4

Table 3.10.: Couverture du lexique de dverbaux sur lensemble de test

La table 3.10 montre que sans aucun filtrage la couverture du lexique at-
teint 67, 2%. Lambigut dans le sens TUNMSA est gale 12, 6, cest--dire,
en moyenne, pour un dverbal TUN, 12, 6 dverbaux MSA sont gnrs. Aprs le
filtrage, la couverture du lexique baisse lgrement. Cela est d au fait que la
mthode du filtrage limine dans certain cas des entres TUN correctes corres-
pondant des noms MSA incorrects, ce qui correspond au cas 3 de la classification
propose ci-dessus. laide du corpus AFP et du lexique SAMA, la couverture di-
minue 60, 1% et 62, 7% respectivement. Enfin, la mthode qui consiste filtrer
le lexique par la ressource AFP SAMA, offre une meilleure couverture qui atteint
65, 7% et une ambigut gale 7, 4.
La table 3.11 prsente les valeurs de la couverture du lexique sur le corpus
de dveloppement. On observe une situation trs proche de celle observe sur le
corpus de test.

ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 173407 66, 1% 7, 6 12, 6
afp 17896 59, 2% 2, 4 6, 9
sama 33271 62, 7% 3, 5 7, 2
afp sama 3579 64, 6% 2, 6 7, 4

Table 3.11.: Couverture du lexique de dverbaux sur lensemble de dveloppement

Une analyse derreurs de la gnration automatique des entres lexicales sur


lensemble de dveloppement a montr que les erreurs (absence dun nom TUN
dans le lexique) proviennent principalement de trois origines diffrentes :
1. absence du verbe correspondant dans le lexique des verbes : les noms qui
drivent dun verbe absent du lexique verbal ne sont pas gnrs dans le
lexique des dverbaux.

98
2. absence de correspondances dans la table de correspondance de schmes
nominaux TUN-MSA
3. absence de rgles morphologiques et orthographiques.
Dans le but destimer linfluence de la situation 1 sur la couverture, nous avons
enrichi le lexique des verbes de sorte couvrir tous les dverbaux du corpus de
dveloppement. lissue de ce processus, 92 entres verbales ont t rajoutes.
La table 3.12 montre la couverture du lexique sur lensemble de dveloppe-
ment. Bien quartificiel, ce rsultat permet destimer la borne suprieure que la
couverture peut atteindre dans le cas o le lexique des verbes est complet.

ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 195917 87, 3% 7, 9 12, 9
afp 20130 81, 5% 2, 2 7, 2
sama 36935 82, 9% 3, 7 8, 1
afp sama 39763 84, 2% 2, 9 8, 2

Table 3.12.: Rsultats sur lensemble de dveloppement aprs lenrichissement du


lexique des verbes

Comme lindique la table 3.12, aprs avoir garni le lexique des verbes, la cou-
verture du lexique est pass de 66, 2% 87, 3% avant ltape de filtrage et de
64, 6% 84, 2% aprs le filtrage par la ressource AFP SAMA, pour une lgre
augmentation du taux dambigut.
La table 3.13 prsente les rsultats obtenus sur le corpus de test.

ambigut
mthode de filtrage nombre dentres couverture msatun tunmsa
sans filtrage 195917 72, 9% 7, 9 12, 9
afp 20130 65, 9% 2, 2 7, 2
sama 36935 68, 4% 3, 7 8, 1
afp sama 39763 71, 2% 2, 9 8, 2

Table 3.13.: Rsultats sur lensemble de test aprs lenrichissement du lexique des
verbes

Le fait denrichir le lexique des verbes a contribu amliorer considrable-


ment la couverture du lexique de dverbaux sur le corpus de test. En effet, elle
passe de 67% 73% avant le filtrage et de 65% 71% aprs le filtrage par la
ressource AFP SAMA. Lambigut reste par contre stable.
Lexprience prcdente a montr quune large portion des erreurs provient du
manque de couverture du lexique des verbes. En ajoutant 92 entres verbales,
la couverture du lexique de dverbaux sest leve denviron 6%. Parmi ces 92

99
entres, la racine tait absente dans 28 cas. Dans les 64 autres cas, la racine tait
prsente, cest le couple (racine, schme) qui tait absent.

3.2.3. Lexique des particules


La catgorie des particules dans la langue arabe couvre de multiples catgo-
ries : conjonctions, prpositions, adverbes, particules, pronoms et clitiques. Notre
lexique de particules est compose de 200 entres environ. Ces entres se pr-
sentent sous a forme de paires (P RTM SA , P RTM SA ), elles couvrent toutes les ca-
tgories. De la mme manire que pour le lexique des verbes (cf. section 3.2.1),
les particules MSA ont t extraites de lATB puis elles ont t traduites manuel-
lement en contexte vers le TUN (Boujelbane et al., 2013).
Nous donnons dans la table 3.14 des exemples de particules MSA et TUN pour
illustrer la diffrence lexicale entre les deux variantes. Notons que dans 37, 5%
de cas, les entres du lexique apparient les mmes particules des deux cts.

msa tun glossaire


 cest tout
faqaT kahaw
X@P
A
@ aussi
yDA zAd~
J J
A comme
mila kiyf kimA

A @ mais
lakina amA
@ X@
A si

law kAn AiA

Table 3.14.: Exemples de particules TUN et MSA

Dans sa version actuelle, le lexique relie 187 particules TUN 143 particules
MSA . Contrairement aux verbes et aux noms, lambigut est moins leve dans
le sens TUN MSA. En effet, une particules TUN correspond en moyenne 1, 2
particules du ct MSA. En revanche, une particule MSA correspond, en moyenne,
1, 7 particules TUN. Nous donnons dans la table 3.15, lambigut moyenne pour
chaque catgorie de particules dans les deux sens TUN MSA et MSA TUN.

100
catgorie tun msa msa tun
conjonctions 1,1 1,2
prpositions 1,1 1,3
adverbes 1,2 2,8
particules 1,2 1,6
pronoms 1,5 1,1
clitiques 1,1 1,1

Table 3.15.: Ambigut du lexique de particules TUN-MSA

3.3. tiqueteur en parties de discours


Afin dvaluer notre mthode sur ltiquetage en parties de discours, nous
avons eu recours diffrents tiqueteurs entrans sur le MSA. Ces tiqueteurs re-
posent sur le modle des chanes de Markov caches que nous dsignerons dans
la suite de ce document par leur acronyme anglais HMM (pour Hidden Markov
Models). Nous avons choisi ce modle pour les raisons suivantes :
(1) lien avec les machines tats finis : tous les traitements mis en uvre dans le
cadre de ce travail reposent sur des machines finies. Or les HMM peuvent tre
implmentes sous la forme de telles machines. Choisir ce type de modle
permet daboutir une chane de traitement dune grande homognit.
(2) prise en compte naturelle dentres ambigus : un autre avantage des HMM
et de leur reprsentation sous la forme de machines finies est de pouvoir
prendre en entre de manire naturelle des hypothses multiples. Cette ca-
ractristique est particulirement importante dans notre cas puisque notre
processus de conversion est, comme nous lavons voqu, ambigu. Il propose
pour une entre TUN plusieurs sorties MSA.
(3) performances : bien que les HMM ne constituent pas le modle le plus perfor-
mant pour ltiquetage morphosyntaxique, les diffrences de performances
entre les HMM et dautres modles (tels que les CRF) pour ltiquetage sont
modestes.
Un tiqueteur HMM se prsente sous la forme dun transducteur P . Ce der-
nier est lui mme la composition dun transducteur pondr E et dun automate
pondr T (P = E T ). Le transducteur E associe un mot m en entre, ses dif-
frentes catgories possibles ci . Les pondrations sont des probabilits dmission
P (m|ci ). Lautomate T associe une probabilit une squence de catgories e . Le
calcul de la probabilit dune squence peut tre ralis par des modles dordres
variables. Nous avons eu recours des modles dordre 2 et 3 (2-gram et 3-gram),
ce qui est la pratique courante pour la tche dtiquetage morphosyntaxique.
e. limage dun modle de langage dans un systme de transcription automatique de la
parole

101
Lentre de ltiqueteur se prsente sous la forme dun automate acyclique M
qui reprsente la sortie de notre systme de conversion. Lautomate M peut tre
linaire, il correspond alors une squence unique de mots MSA. Il peut aussi
se prsenter sous la forme dune succession de faisceaux de transitions o les
transitions de chaque faisceau correspondent tous les mots MSA possibles pour
un mot TUN.
Ltiquetage en parties de discours de M est ralis par composition de ce der-
nier avec ltiqueteur P . Cette opration est suivie dune opration de recherche
du chemin de moindre cot dans le transducteur issu de la composition. Lti-
quetage correspond donc la squence doprations suivante :

BP (M E T )
o BP (A) est lopration de recherche du meilleur chemin dans lautomate
acyclique A.
Lorsque lautomate M correspond plusieurs hypothses de conversions, lti-
queteur P ralise simultanment ltiquetage morphosyntaxique et la dsambi-
gusation. Nous tudierons plus en dtails ce phnomne dans le chapitre 4.
Ltiqueteur est entran sur le corpus catib (Habash et Roth, 2009) qui cor-
respond la partie III de lATB. Le corpus est form de 24K phrases composes
de 330K occurrences et 30K types de mots en MSA. catib utilise un jeu dti-
quettes compos six catgories diffrentes : nom, nom propre, verbe, verbe pas-
sif, particule et ponctuation. Les tiquettes correspondantes ces catgories sont
respectivement : noun, prop, verb, verb-pass, part, pnx.
La table 3.16 montre les rsultats de ltiquetage en parties de discours du MSA
par un tiqueteur 2-gram et 3-gram fond sur le modle dcrit ci-dessus. Ces r-
sultats sont lgrement infrieurs aux rsultats obtenus par dautres tiqueteurs
du MSA existants. Pasha et al. (2014) arrive, par exemple, des rsultats lgre-
ment suprieur ( 96%) en utilisant le systme MADAMIRA sur les mmes donnes.
Nous navons pas utilis cet tiqueteur car il ne permet pas de traiter des entres
ambiges contrairement notre tiqueteur HMM.

2-gram 3-gram
94.52% 94.72%

Table 3.16.: Performances de ltiquetage en parties de discours du MSA

3.4. Corpus dvaluation tunisien


Lvaluation de notre mthode suppose davoir notre disposition un cor-
pus de rfrence en tunisien annot en parties de discours. Une telle ressource
nexiste pas, cest la raison pour laquelle nous avons transcrit manuellement un

102
corpus TUN compos denviron 800 phrases et de 11K mots. Il a t, par suite,
segment et annot manuellement. chaque mot du corpus, nous avons assign
son lemme et sa partie de discours.
Le corpus est compos de phrases extraites de quatre sources diffrentes :
des sries tlvises
des dbats politiques
une pice de thtre transcrite (Dhouib, 2007)
un corpus transcrit partir des enregistrements de discussions entre des
clients et un agent de la socit nationale des chemins de fer tunisiens. Ce
corpus a t enregistr pour entraner un systme TUN de reconnaissance de
la parole (Masmoudi et al., 2014).
Ces sous-corpus se distinguent sur diffrents points. Le premier est la varit
lexicale. Ces sous-corpus correspondent en effet des lexiques diffrents. Le
second est le niveau de spontanit.
La varit de ce corpus va permettre de tester notre modle sur des donnes
que nous pensons ralistes dun point de vue linguistique. En revanche, elles ne
sont pas ralistes par le fait que nous prenons en entre du tunisien transcrit
manuellement. Dans lidal il aurait t souhaitable dutiliser les sorties dun
systme de transcription automatique du tunisien.
La table 3.17 prsente quelques statistiques du corpus dvaluation.

statistiques sries dbats pice corpus total


tlvises politiques de thtre SNCFT
phrases 203 199 205 195 802
formes occurrences 3032 2886 3163 2670 11551
formes types 689 622 712 433 2456
lemmes 474 442 502 331 1749
lmms 431 407 466 360 1664

Table 3.17.: Statistiques sur le corpus dvaluation tunisien

Outre le degr de spontanit et le lexique, dautres particularits caractrisent


les diffrentes variantes qui composent le corpus dvaluation. Les dbats poli-
tiques, par exemple, constituent la variante la plus proche du MSA. En effet, les
politiciens ont gnralement une tendance utiliser des phrases de larabe stan-
dard. Ainsi, un mlange de phrases et mots TUN et MSA est obtenu. De plus, nous
retrouvons dans cette partie une combinaison de morphmes MSA et TUN dans

les mots. Le mot @QjJ K nnxrTwA, par exemple est compos dun circonfixe tuni-
sien + @+ n+ +wA et le verbe MSA Qm ' @ AnxrT qui correspond en TUN auxn+
verbes PA Ark "participer" ou YJ
 qayid "sinscrire".

103
3.4.1. Conventions de transcription
La transcription du corpus repose sur les conventions CODA. Ces conventions
visent dfinir un cadre commun de transcription pour tous les dialectes de
larabe. Contrairement dautres conventions et pour des raisons computation-
nelles, CODA dfinit une seule interprtation orthographique pour chaque mot.
Les conventions orthographiques sont fondes sur la similarit entre le MSA et
ses dialectes. Ce choix a pour objectif de dfinir une seule convention qui runit
tous les dialectes arabes.
Au niveau phontique, nous avons utilis les lettres et les diacritiques arabes
dans la transcription. Le TUN dfinit trois sons /g/, /p/ et /v/ qui ne sont pas
reprsents dans lalphabet arabe. Dans ce cas, nous avons eu recours aux lettres
du MSA qui produisent des sons proches phontiquement. Les sons /g/, /p/ et

/v/, sont transcrits ainsi par les lettres /q/, H

. /b/ et /f / respectivement.
Les mots /mung :ala/, /pArtiy/ et /viysta/ par exemple sont transcrits, respec-
  munqAla~ "horloge"/"montre", GPAK bArtiy "match" et J
tivement, par AJ .

fiysta~ "veste".
Contrairement larabe standard o la lettre
 ~ est toujours prononce, le
dialecte tunisien, linstar des autres dialectes arabes, ne la prononce pas. Cette
lettre marque les noms du genre fminin et elle est toujours prcde par le dia-
critique /a/ en MSA et en TUN. En tunisien, de nombreux mots se terminent par le
son /a/ tels que /bara/ beaucoup, /famma/ "il y a". Parmi ces mots, nous avons

rajout la lettre ~ aux mots de valeur nominale et de genre fminin. Suivant
cette convention, les transcriptions des mots /bara/ et /famma/ sont respecti-
  bara~ et  fama~. Cette convention est tablie pour maintenir
vement QK .
la similarit entre le MSA et ses dialectes.
Un chantillon du corpus TUN est donn dans la table 3.18. Ce texte est accom-
pagn par sa translittration, sa traduction en MSA et en franais. Cet exemple
illustre les variations et les similarits entre le TUN et le MSA.

3.4.2. Conventions de segmentation


Le corpus a t segment en tours de parole. Des signes de ponctuation ont
t utiliss pour marquer les tours de parole. Les virgules dsignent un temps de
silence marqu par un locuteur. Nous nous sommes servis des points dinterro-
gation et dexclamation pour dnoter respectivement les questions et les phrases
qui indiquent un sens dadmiration ou de surprise. Lespace blanc a t utilis,
limage de lcrit, pour sparer les mots.
Au niveau de lagglutination, le TUN partage la majorit des clitiques du MSA.
Dans ce cas, nous avons utilis la mme segmentation que le MSA. Le pronom
dobjet direct de la troisime personne du singulier est ralis comme + bien
que non prononc en TUN mais nous le maintenons pour tre similaire larabe

104

J
AJ @K K A @ QAK

 
@ m  B @
... B@ J
A JKB  '@ H@YK  . J

  

J.@ YK
A
k. AJ.@
l
Q X@P l'
QJAK. QY K AK @ B
 '  

K
@YJ.A
m' J
m ' AK @ YK. m
 '@ KP AD


.
 j. J K XCJ.@ AK .   BA
   

J Q QK
AD A
tun
mqwl mqwl yAsr mmA nkwnwA hnA mwDwyyiyn
wwlA wqtly bdAt AlHkwm~ AlAntqAlyy~ Alwl. . .
lA nA nkrk bAltSryH zAd~ fmm~ tSryH lsy AlbAjy qAyd Alsbsy
wqthA hw ryys AlHkwm~ wbd nA nxlyk tHky AlbdAy~
qAl wqthA ylzm r~ snyn Alqll bA AlblAd tnjjm tmy.

J
AJ
J
@ Yg   
.
  
... B@ J
A JKB@  m
'@ H @YK. A B @
 

J.@ YK
A
k. AJ.@ YJ
B l'
Q AJ A
@ l'
QJAK. QX @ AK @ B

K
@ YJ . @
 
m' Q K @ A K @ AYK  '@ KP @ Y K @
m
.

  
   
AYJ A
. YK @ J
 YJ.B B@ H@J Q QK
msa
mqwl mqwl jddA lkn lnkn hnA mwDwyyiyn
wwlA lmmA bdt AlHkwm~ AlAntqAlyy~ Alwl. . .
lA nA krk bAltSryH yD~ hnAk tSryH lAlsyd AlbAjy qAyd Alsbsy
nAk hw ryys AlHkwm~ wbdhA nA trkk tHky n AlbdAy~
qAl ndhA ylzm r snwAt l Alql lAlblAd ltstTy n ttqdm.
cest logique cest trs logique mais restons ici objectifs
premirement lorsque le premier gouvernement transitoire a entam. . .
Non, Moi je te rappelle aussi de la dclaration, il y a une dclaration
franais de M. El-bAji Qayid El-sibsi, cette poque, il tait chef du gouvernement
ensuite je te laisse parler du dbut, il disait lpoque
il faut au moins dix ans pour que ce pays puisse progresser.

Table 3.18.: chantillon du corpus dvaluation tunisien

105
standard. En effet le mot /ktibt :u/ en tunisien est exprim en /ktibtuh/ "je lai
crit".
En revanche, le TUN se distingue du MSA, en terme dagglutination, sur deux
points. Dune part, certains clitiques MSA sont raliss sous la forme de particules
indpendantes en tunisien et vice-versa. En particulier, la prposition +  li+
pour et le proclitique du futur ne sont plus rattachs aux verbes. Tous les deux
 . bA qui se situe avant le verbe :
se traduisent par la particule indpendante AK
les formes I.JJ litaktuba "pour que tu crives" et I.JJ sataktubu "tu criras"
 
sont exprims en tunisien par I . JK A K. bA tiktib. Nous sparons cette particule
du mot suivant tant donn que nous pouvons insrer un mot entre eux. Les
min "de" et ala "sur" ainsi que le pronom dmonstratif quels
prpositions
que soient son genre et son nombre sont raliss sous la forme de clitiques en
TUN . En effet, ils sont exprims respectivement en +  mi+, +  a+ et +  ha+
en tunisien.
Dautre part, la forme de certains clitiques change. Le proclitique dinterroga-

tion MSA + @ + "est-ce que", par exemple, devient en tunisien lenclitique +
+. La forme verbale MSA  . J @ katabta "est-ce que tu as crit" se traduit en
I
tunisien par  J . J ktibti.

3.4.3. Conventions dannotation


Dans ltiquetage en parties de discours du corpus, nous avons suivi les conven-
tions de catib. Ce corpus dfinit un jeu dtiquettes restreint compos de six
catgories grammaticales. Les tiquettes sont inspires de la grammaire tradi-

tionnelle de larabe qui classe les tous les mots en trois catgories @, et
nom, verbe et particule. La simplicit de cet ensemble dtiquettes a t
Qk
suivi pour acclrer le processus dannotation manuelle tout en gardant les dis-
tinctions importantes :
VRB dsigne toutes les formes verbales mises dans la voix active. Cette

  A B@
catgorie inclue lensemble des verbes incomplets ( AJ@ "AlfAl

AlnAqS~") linstar de A kAn "tre", 
lys "ne pas tre", PA SAr "devenir"
et mAzAl "demeurer".
@PA
VRB-PASS dsigne toutes les formes verbales de la voix passive.
NOM dsigne les noms, les adjectifs, les adverbes, les dverbaux, les pro-
noms (personnels, possessifs, relatifs et dmonstratifs), les numraux et

les interjections. Les pseudo-prpositions telles que @ Y quddAm "devant"

 ' taHt "sous" et les quantificateurs comme
et Im kul "tout"sont tous consi-

106
drs comme des noms. Tous ces mots peuvent tre dtermins avec larticle
dfini @ Al.
PROP dsigne les noms propres. Contrairement au franais qui marque les
noms propres par une majuscule au dbut des mots, cette distinction nexiste
pas en arabe. Le mot
slym, par exemple, est tiquet nom sil se traduit
par "sain" et comme nom propre sil se traduit par "Salim".
PRT est utilis pour toutes les particules. Cet ensemble inclut les prposi-
tions, les conjonctions, les particules de futures, de ngation, interrogatifs et
les pseudo-verbes.
PNX inclut tous les marqueurs de ponctuation.

Conclusion
Dans ce chapitre, nous avons prsent les diffrents outils et ressources dve-
lopps pour la mise en uvre de ltiquetage morphosyntaxique du TUN. Dans
le chapitre suivant, nous dcrirons les expriences qui permettent lapplication
de ces outils dans le but de raliser les pr-traitements ncessaires pour raliser
ltiquetage.

107
4. Exprimentation et valuation

Nous avons dcrit dans le chapitre prcdent les moyens ncessaires la mise
en uvre du dispositif que nous proposons pour raliser ltiquetage en parties
de discours du TUN. Nous prsentons dans ce chapitre larchitecture gnrale
de notre systme ainsi que son fonctionnement en dtaillant les trois processus
impliqus : la conversion, la dsambigusation et ltiquetage.
Dans la section 4.1, nous revenons sur lorganisation du processus entier
travers un exemple illustratif. La section 4.2 concerne la description du proces-
sus de conversion. La dsambigusation est dcrite dans la section 4.3. Enfin, la
section 4.4 dcrit les expriences dtiquetage.

4.1. Architecture gnrale


Comme nous lavons voqu au dbut de ce chapitre, la mthode que nous
proposons pour raliser ltiquetage en parties de discours du dialecte tunisien
est compose de trois tapes. Dans un premier temps, les diffrents mots dun
texte TUN sont convertis en un ou plusieurs mots en MSA. Plus prcisment,
tant donn la squence de mots TUN t1 , t2 , . . . tn , chaque mot ti est traduit
un ou plusieurs mots cibles mi,1 , mi,2 , . . . mi,ki en MSA. Cet ensemble peut tre
dcrit laide dun automate fini acyclique qui permet de reprsenter toutes les
squences m1 . . . mn avec m1 M1 et mn Mn o Mi est un ensemble de forme
{mi,1 . . . mi,ki }. Un tel automate est reprsent en figure 4.1.

108
Figure 4.1.: Reprsentation de la sortie de la conversion laide dun automate
acyclique

Dans un deuxime temps, une tape de dsambigusation permet de slec-


tionner une squence de mots M = m1 , m2 , . . . mn parmi toutes les squences
reconnues par lautomate. La dsambigusation ralise laide dun modle de
langage de type n-gram. Cette squence est celle laquelle le modle de langage
attribue la probabilit la plus leve.
Enfin, la squence M est tiquete en parties de discours par un tiqueteur
morpho-syntaxique. Cet tiqueteur produit une squences dtiquettes : e1 , e2 ,
. . . en . Ces tiquettes sont finalement projetes sur la phrase source t1 , t2 , . . . tn .
  Qm' ti-
titre dillustration, prenons comme exemple la phrase TUN YK
AK . ..
jbar bA yuqud "il a t oblig de rester". La squence de parties de discours
correspondant aux mots de cette phrase est verb-pass part verb.
  @ AiTara
Une traduction correcte en MSA de cette phrase est ZAJ.@ @ Q
Aila AlbaqA. Les tiquettes en parties de discours correspondant cette phrase
sont verb part nom. En effet, le verbe MSA AiTara est transitif indirect, son ob-
jet commence gnralement par la prposition Aila. Cette dernire est toujours
suivie dun nom ou dun nom propre.
Comme nous lavons mentionn prcdemment, lobjectif gnral de ce travail
nest pas de produire un systme de traduction du TUN vers le MSA mais de
gnrer partir dune phrase TUN une version de cette dernire sous une forme
approximative du MSA, de sorte que des outils de traitement automatique du
MSA , tel quun tiqueteur en parties de discours puissent tre utiliss sur cette
nouvelle forme du texte avec des rsultats satisfaisants. Suite la conversion
et la dsambigusation de notre exemple, le systme produit la phrase cible
Q
m.'
 @ AuTura sawfa yajlisu "il a t oblig il va sassoir". Bien que la
traduction de la phrase ne soit pas correcte, elle reoit la squence dtiquettes
verbe-pass particule verbe qui correspond aux mots de la phrase source.
Larchitecture gnrale de notre systme est dcrite dans la figure 4.2.

109
Figure 4.2.: tiquetage en partie de discours dune phrase en tun : architecture
gnrale

Le dispositif dtiquetage que nous proposons prsentent deux particularits


intressantes dans le cadre de ce travail. Dune part, la conversion dune s-
quence de formes TUN en pseudo-MSA peut produire des lemmes car la g-
nration des formes cibles est ralise partir dune analyse morphologique
profonde. Dautre part, le processus dsambigusation nest pas indispensable
car, comme nous lavons vu au chapitre prcdent, notre tiqueteur morpho-
syntaxique peut prendre en entre un ensemble dhypothses de conversion.
Dans ce cas, cest ltiqueteur qui ralise la dsambigusation et ltiquetage.
Comme indiqu en tte du chapitre, chacune des tapes du processus fait lob-

110
jet dune section.

4.2. Conversion du dialecte tunisien en arabe


moderne standard
Comme nous lavons vu au chapitre prcdent, le processus de conversion
dune forme source en TUN en une ou plusieurs formes cibles en MSA se d-
compose en trois tapes :
1. Lanalyse morphologique laide de loutil MAGEAD TUN dcrit dans la sec-
tion 3.1.3. MAGEAD TUN est compos de deux systmes : MAGEAD_N pour le
traitement des noms et MAGEAD_V pour le traitement des verbes. A lissue
de cette tape, des triplets (racine-source, MBC-source, traits morpholo-
giques) sont produits.
2. Le transfert lexical au niveau des racines et des MBCs grce des lexiques
MSA - TUN de verbes (cf. section 3.2.1) et de noms (cf. section 3.2.2).
De manire plus prcise, chaque paire (racine-source, MBC-source) permet
de faire un accs aux lexiques pour extraire un ou plusieurs couples (racine-
cible, MBC-cible). Les traits morphologiques sont quant eux conservs
tels quels. Les couples (racine-cible, MBC-cible) et les traits morphologiques
constituent lentre du gnrateur morphologique MSA.
Les formes sources TUN sont aussi utilise sans analyse pour faire un ac-
cs au lexique des particules. Dans le cas dun succs de laccs, une ou
plusieurs particules cibles sont gnres.
3. la gnration du mot cible en MSA grce loutil MAGEAD MSA. Ce processus
prend entre des triplets (racine-cible, MBC-cible, traits morphologiques) et
produit des formes MSA.
Rappelons que chacune de ces tapes est rversible et que lon peut symtri-
quement traduire un mot en MSA en un mot en TUN.
Le processus complet est dcrit dans la figure 4.3.

111
SEQUENCE TUN

ANALYSE
MORPHOLOGIQUE
MAGEAD_V MAGEAD_N

TRANSFERT
racine source LEXICAL
racine source
MBC source MBC source
traits morpho. traits morpho.

LEXIQUE_V LEXIQUE_N LEXIQUE_P

traits morpho. traits morpho.


MBC cible MBC cible
racine cible racine cible

MAGEAD_V MAGEAD_N GENERATION


MORPHOLOGIQUE

ENSEMBLE AMBIGU PSEUDOMSA

Figure 4.3.: Passage du dialecte tunisien larabe standard

Ce modle comporte deux sources dambigut :


morphologique : lanalyse morphologique peut proposer plusieurs analyses
pour un mot source. La gnration morphologique est galement ambige.
En effet, la morphologie du MSA est plus riche que celle du TUN, qui ne ra-
lise pas certains traits morphologiques, ou certaines valeurs de traits mor-
phologiques. La gnration peut ainsi produire plusieurs formes MSA partir
de lanalyse dune forme TUN.
ambigut lexicale : les lexiques de verbes et de noms peuvent mettre
en correspondance plus dun couple (racine-cible, MBC-cible) un couple
(racine-source, MBC-source). Le lexique de particules peut, lui aussi, propo-
ser plusieurs cibles pour une particule TUN.
Le processus de conversion admet quatre variantes
qui se distinguent par la manire dont est ralis le transfert lexical (Hamdi
et al., 2013a) :
1. transfert limit aux MBC s,
2. transfert de MBC s et de racines sparment,
3. transfert de couples (racine, MBC ),
4. transfert de couples (racine, MBC ) avec repli.
Afin de comparer ces mthodes, nous avons procd leur valuations sur
les verbes. Pour cela, nous avons extrait tous les verbes dune pice de thtre

112
transcrite en TUN (Dhouib, 2007). Environ 1500 occurrences de formes verbales
ont t identifies et traduites en contexte vers le MSA. lissue de ce processus,
un corpus contenant 1500 couples (verbeTUN , verbeMSA ). Les verbes TUN et MSA
du corpus sont prsents sous leurs formes flchies. Cet ensemble dvaluation
a t divis en deux parties gales. La premire constituant un ensemble de
dveloppement et la seconde un ensemble de test.
Deux mtriques ont t utilises pour valuer le processus : le rappel, qui
indique la proportion de cas pour lesquels la forme cible correcte a t produite,
lambigut, qui indique le nombre de formes cibles produites en moyenne.
Comme dans le chapitre prcdent, nous navons pas utilis le rappel et la
prcision pour lvaluation car la rfrence ne contient quun seul verbe MSA. De
plus, lobjectif de la conversion est plus de maximiser le rappel que de trouver
un compromis raisonnable entre rappel et prcision. En effet, la disponibilit de
nombreuses ressources pour la dsambigusation peut permettre de retrouver
une forme correcte parmi plusieurs formes proposes. En revanche, labsence de
la forme TUN correcte dans les sorties du processus de conversion est irrparable.
Les expriences ont t ralises dans le sens TUNMSA et dans le sens MSATUN.
Nous avons distingu les rsultats sur les occurrences et sur les types. Lensemble
de dveloppement a permis de combler quelques lacunes de lanalyseur et du g-
nrateur morphologique et denrichir le lexique de verbes.
Lvaluation a t ralise sur les formes non diacrites bien que nous dispo-
sions des diacritiques des formes verbales aussi bien pour le TUN que le MSA. La
raison pour cela est que les verbes dans la majorti des crits arabes ne sont pas
diacrits.
La premire valuation que nous avons faite consiste ne pas raliser de
conversion. Le rappel est gal, dans ce cas, 30, 93% sur les occurrences et
29, 44% sur les types pour une ambigut de 1, 0. Cette rfrence indique le taux
de formes flchies verbales non diacrites TUN qui sont identiques aux formes du
MSA dans lensemble de test.
Dans ce qui suit, nous prsentons une srie dexpriences avec des faons dif-
frentes de ralisation de transfert comme voque prcdemment.

4.2.1. Transfert limit aux mbcs


Le processus de transfert le plus simple consiste garder la racine source in-
change et slectionner la MBC cible par consultation de la matrice de corres-
pondance de MBCs (cf. section 3.2.1). Cette exprience correspond la situation
pour laquelle nous ne disposons pas dun lexique de transfert.

113
racine source
verbe source MAGEAD MBC source
traits
matrice de
corresp. MBC
traits
verbe cible MAGEAD MBC cible
racine cible

Figure 4.4.: processus de conversion dune forme verbale source vers une forme
verbale cible en utilisant une table de correspondance de MBCs

Le diagramme prsent dans la figure 4.4 prsente ce processus de transfert.


Les rsultats de cette exprience sont donns dans la table 4.1.

rappel ambigut
occurrences types occurrences types
tun msa 47, 74% 43, 40% 39, 41 37, 61
msa tun 52, 55% 48, 05% 5, 89 7, 12

Table 4.1.: Rappel et ambigut dans lensemble de test en utilisant la matrice de


correspondance de MBCs

Les rsultats prsents dans la table 4.1 soulignent deux points importants.
Premirement, le rappel est assez bas, infrieur 50%. En dautre termes, en
gardant la racine source pour produire la forme cible, nous obtenons uniquement
une approximation grossire de cette dernire. Deuximement, lambigut dans
le sens TUNMSA est plus leve que dans le sens MSATUN. Cela provient
essentiellement du fait que le TUN ne distingue pas certains traits MSA comme le
nombre duel ainsi que les genres au pluriel. titre dexemple, une forme verbale
TUN flchie au pluriel correspond quatre formes verbales distinctes MSA flchies
duel masculin, duel fminin, pluriel masculin et pluriel fminin. Labsence de
marquage du mode et du cas en TUN provoque une multiplication des formes
cibles gnres en MSA.
La mme exprience a t ralise en slectionnant les deux MBCs cibles les
plus probables tant donn la MBC source. La table 4.2 montre une lgre aug-
mentation du rappel. En effet, il slve 51.65% sur les occurrences dans le sens
TUN MSA et 53, 96% dans le sens inverse. En revanche, lambigut augmente
considrablement, le processus produit en moyenne environ 65 verbes MSA pour
une occurrence en TUN.

114
rappel ambigut
occurrences types occurrences types
tun msa 51, 65% 48, 23% 66, 98 64, 69
msa tun 53, 96% 50, 87% 9, 81 10, 68

Table 4.2.: Rsultats sur lensemble de test en utilisant les deux MBCs cibles les
plus frquentes dans la matrice de correspondance de MBCs

4.2.2. transfert de mbcs et de racines dune manire


indpendante
Dans cette exprience, la MBC cible est slectionne, de la mme manire que
dans la dernire exprience, laide de la matrice de correspondance de MBCs,
nanmoins les racines cibles proviennent du lexique de racines (cf. section 3.2.1).

racine source
verbe source MAGEAD MBC source
traits
matrice de lexique de
corresp. MBC racine
traits
verbe cible MAGEAD MBC cible
racine cible

Figure 4.5.: Processus de conversion dun verbe source vers un verbe cible laide
du lexique de racines et de la matrice de correspondance de MBCs

Le processus est dcrit dans la figure 4.5. Les rsultats sur lensemble de test
sont donns dans les tables 4.3 et 4.4.

rappel ambigut
occurrences types occurrences types
tun msa 68, 98% 66, 56% 74, 37 72, 89
msa tun 72, 37% 71, 60% 13, 70 14, 52

Table 4.3.: Rappel et ambigut sur le corpus de test pour la conversion par le
lexique de racines et la matrice de correspondance de mbcs

La table 4.3 montre une amlioration considrable du rappel. Lambigut a


galement augment du fait de lambigut lexicale du lexique de racines. Rappe-
lons quune racine TUN correspond, en moyenne, 2, 06 racines MSA. Ce nombre
est gal 1, 26 dans le sens MSATUN.

115
En utilisant les deux MBCs cibles les plus frquentes de la matrice de corres-
pondance de MBCs, le processus de conversion provoque une augmentation du
rappel et de lambigut, comme le montre la table 4.4.

rappel ambigut
occurrences types occurrences types
tun msa 81,77% 80,66% 126,44 122,45
msa tun 86,12% 84,97% 21,92 22,56

Table 4.4.: Rappel et ambigut sur le corpus de test de la conversion en utilisant


le lexique de racines et la table de correspondance de mbcs

Le rappel slve 86, 12% pour les occurrences dans le sens MSATUN et
atteint 81, 77% dans le sens inverse. En revanche, lambigut dpasse plus de
100 formes cibles dans le sens TUNMSA.

4.2.3. Transfert de couples (racine, mbc)


Contrairement lexprience prcdente o les racines et les MBCs cibles sont
traduits dune manire indpendante, le transfert, dans cette exprience consiste
utiliser les couples (racine, MBC) pour laccs au lexique des verbes (Hamdi
et al., 2013b). Ce nouveau processus est dcrit dans la figure 4.6 et les rsultats
apparaissent dans la table 4.5.

racine source
verbe source MAGEAD MBC source
traits
lexique de
racine, MBC
traits
verbe cible MAGEAD MBC cible
racine cible

Figure 4.6.: Conversion dun verbe source vers une forme cible par le lexique de
racines et MBCs

La prise en compte simultane dune racine et dune MBC lors dune conversion
a un effet positif sur la qualit du processus de conversion. La diffrence entre les
rsultats de cette exprience et de lexprience prcdente permet de quantifier
ce que lon perd en convertissant indpendamment la racine et la MBC.

116
rappel ambigut
occurrences types occurrences types
tun msa 76,43% 74,52% 26,82 25,57
msa tun 79,24% 75,10% 1,47 3,10

Table 4.5.: Rappel et ambigut sur lensemble de test de la conversion par un


lexique de racines et MBCs

Le principal inconvnient de cette mthode rside dans la couverture lexicale.


En effet, la couverture du lexique ntant pas parfaite, dans certains cas, laccs
au lexique choue.
Afin de quantifier limpact de la couverture lexicale, nous avons utilis le cor-
pus de dveloppement. Celui-ci nous a servi enrichir le lexique de sorte que
laccs lexical nchoue jamais et produit toujours une cible correcte au couple
(racine, MBC). Les rsultats de cette exprience, quoique artificiels, permettent
destimer une borne suprieure de notre processus. Dans le sens TUNMSA, le
rappel dans les occurrences slve 87, 65% et 89, 56% dans le sens inverse.
La raison pour laquelle nous navons pas obtenu un rappel parfait (de 100%)
dans cette exprience revient au fait que les deux systmes morphologiques du
TUN et du MSA ne produisent pas toujours les sorties correctes lissue de lana-
lyse et de la gnration. Une analyse derreurs dans le sens TUNMSA a montr
que 21, 8% des erreurs proviennent du systme de gnration du MSA et 78, 2%
du systme danalyse TUN. La plupart des erreurs sont dues aux phnomnes
morphologiques non implments.

4.2.4. transfert de couples (racine, mbc) avec repli


Cette variante a pour objectif de pallier le problme de couverture. Dans le cas
o le couple (racine, MBC) est absent du lexique, nous nous servons du lexique de
racines et de la matrice de correspondance de MBCs pour slectionner la racine
et la MBC cible.
Larchitecture du systme est dcrite dans la figure 4.7. Les traits interrompus
reprsentent le chemin suivi par le systme en cas de repli.

117
racine source
verbe source MAGEAD MBC source
traits lexique de
lexique de
racine, MBC
matrice de
traits corresp. MBC
verbe cible MAGEAD MBC cible
racine cible

Figure 4.7.: Processus de conversion dun verbe source vers une forme cible en
utilisant un lexique de racines et MBCs avec repli

La table 4.6 montre que cette mthode augmente le rappel considrablement.


Cette augmentation est elle-mme le rsultat dune meilleure couverture. Lam-
bigut a galement augment, cela est d au fait que le processus de repli a
tendance augmenter lambigut, comme nous lavons observ dans la sec-
tion 4.2.2.
rappel ambigut
occurrences types occurrences types
tun msa 79, 71% 78, 94% 29, 16 28, 44
msa tun 84, 83% 84, 03% 3, 47 4, 95

Table 4.6.: Rappel et ambigut sur lensemble de test en utilisant le lexique de


racines et MBCs avec repli

Cest la sortie de ce processus de conversion que nous avons choisi pour la


suite de nos expriences.

4.3. Dsambigusation
Pour raliser la dsambigusation des solutions proposes lissue de la conver-
sion, nous avons eu recours deux moyens.
Le premier consiste fournir en entre ltiqueteur en parties de discours
lensemble des solutions proposes par le processus de conversion. En effet,
comme nous lavons voqu dans la section 3.3, ltiqueteur peut prendre en en-
tre un ensemble ambigu de squences dobservables reprsentes sous la forme
dun automate acyclique. Dans ce cas, la dsambigusation est ralise par lti-
queteur.
Le deuxime moyen consiste dsambiguser dune manire indpendante de
ltiquetage. Elle repose sur des modles de langage entrans sur des corpus
MSA . Ces derniers permettent dassocier des probabilits chacune des solutions
proposes par le processus de conversion.

118
Les modles de langage peuvent tre reprsents sous la forme dautomates
pondrs. Ainsi, le processus de dsambigusation est ralis par la composition
de lautomate issu de la conversion suivi par une recherche de meilleur chemin.
Plusieurs modles de langage ont t construits partir de trois corpus :
le premier (C1 ) est form de dpches de presse de lAgence France Presse
(AFP). Le deuxime (C2 ) est une collection de transcriptions de dbats politiques
dAljazeera. Enfin, le troisime (C3 ) constitue lunion des deux corpus. Ce dernier
couvre, par consquent, les deux variantes orale et crite du MSA. Chaque cor-
pus est dcompos en deux parties : un ensemble dentranement et un ensemble
dvaluation.
La table 4.7 donne les tailles des corpus.

entranement valuation
C1 occurrences 1 550 713 9 077
types 39 877 2 636
C2 occurrences 900 109 21 658
types 32 959 2 073
C3 occurrences 2 450 822 30 735
types 54 721 4 146

Table 4.7.: Comptes sur les corpus des modles de langage

Les probabilits des modles de langage ont t calcules laide de loutil


SRILM (Stolcke et al., 2002). Dans le cas de N -grams inconnus, nous avons utilis
la technique standard du repli qui consiste diminuer lhistorique dun N -gram
tant quil na pas t trouv dans le modle de langage.
Neuf modles de langage ont t construits, qui se distinguent par leur ordre
(1-gram, 2-gram et 3-gram) et par le corpus sur lequel leurs probabilits ont t
estimes. Le modle 1-gram na pas t utilis pour raliser la dsambigusation,
il a servi pondrer les mots de lautomate issu de la conversion lorsque la
dsambigusation est ralise par ltiqueteur, ceci dans le but de pnaliser les
mots rares ou incorrects.
Afin dvaluer le processus de dsambigusation, nous avons eu recours au cal-
cul de la couverture des modles de langage sur les corpus dvaluation dune
part et la mesure de la perplexit dautre part. Cette dernire consiste mesu-
rer la capacit de prdiction des modles de langage. En dautres termes, tant
donn un mot prdire, la valeur de la perplexit reprsente le nombre moyen
dhypothses associes un mot dans un contexte donn. Ainsi, lefficacit dun
modle de langage est inversement proportionnelle la valeur de la perplexit.
La table 4.8 donne les diffrentes valeurs de perplexit des neuf modles de
langage implments ainsi que le nombre de mots hors-vocabulaire (oovs a ) de
a. Cet ensemble reprsente les mots qui nappartiennent pas au lexique dentranement des
modles de langage.

119
lensemble de test (nous donnons entre parenthses le pourcentage de oovs dans
le corpus dvaluation).

perplexit oovs
1-gram 1290, 47
C1 2-gram 282, 26 128 (1,4%)
3-gram 284, 50
1-gram 1054, 81
C2 2-gram 177, 00 349 (1,6%)
3-gram 169, 29
1-gram 1262, 49
C3 2-gram 245, 64 295 (0,5%)
3-gram 241, 25

Table 4.8.: valuation des modles de langage

Les rsultats prsents dans la table 4.8 montrent que quel que soit le corpus
dapprentissage, la perplexit est lgrement variable entre les modles. Nous
nous sommes donc bass sur la couverture pour effectuer le choix des modles.
Nous ralisons ainsi la dsambigusation laide des modles entrans sur le
corpus C3 .
Suite la dsambigusation laide des modles de langage entrans sur c3 ,
trois sorties peuvent tre fournies ltiquetage : la meilleure squence prdite
par chacun des modles 2-gram et 3-gram et lautomate pondr laide du
modle 1-gram.

4.4. tiquetage en parties de discours


Dans cette section, nous dcrivons les diffrentes expriences dtiquetage du
dialecte TUN. Pour cela, nous avons fait varier :
la nature des entres de ltiqueteur qui peuvent tre des formes ou des
lemmes,
les pr-traitements raliss avant ltiquetage
Concernant les pr-traitements, nous avons dabord essay dtiqueter des don-
nes TUN sans aucun pr-traitement (1), puis des donnes converties et dsambi-
guses laide de modles de langage (2) et enfin des donnes converties mais
non dsambiguses (3). Chacune des expriences (1), (2) et (3) font lobjet
dune sous-section.

4.4.1. tiquetage sans conversion


La premire exprience que nous avons ralis consiste appliquer ltiqueteur
en parties de discours dcrit dans la section 3.3 sur des donnes TUN sans au-

120
cun traitement pralable. Cette exprience constitue la borne infrieure de notre
valuation et permettra par la suite de calculer la contribution de la conversion
sur la qualit dtiquetage.
Les performances dtiquetage sur le TUN et le nombre de (oovs) sont don-
ns dans la table 4.9. Nous donnons pour rappel dans cette table les rsultats
dtiquetage du MSA laide du mme outil.

msa tun
formes lemmes lmms formes lemmes lmms
performance (%) 94,72 97,63 96,94 69,04 67,41 71,41
OOVs 158 47 42 2891 4766 2705
(%) 0, 57 0, 16 0, 15 26, 9 44, 35 25, 17

Table 4.9.: Rsultats dtiquetage avant la conversion

Nous donnons galement les rsultats dtiquetage des lemmes et des LMMs.
Ces derniers sont les formes non diacrites des lemmes. Comme nous lavons
indiqu dans la section 4.2, lun des avantages de notre systme de conversion
est quil peut gnrer partir dune forme source, les lemmes et les LMMs cibles.
Dans cette exprience, nous donnons les rsultats dtiquetage des lemmes et
des LMMs de rfrence puisque nous ne disposons pas dun systme de lemmati-
sation du TUN. Les rsultats de ltiquetage en parties de discours des lemmes et
des LMMs sont donns pour des raisons comparatives. Nous les comparons aux
rsultats finaux de notre exprience sur les lemmes et les LMMs prdits par le
systme de conversion.
Les rsultats montrent que ltiquetage le plus performant est donn sur des
LMM s du ct TUN et sur des lemmes du ct MSA . Ces rsultats sont artificiels
tant donn que nous avons utilis les lemmes et les LMMs de rfrence. La tche
relle est ltiquetage des formes. Les rsultats dtiquetage des formes atteignent
69% du ct TUN et 94% du ct MSA. Ces rsultats constituent les bornes de notre
exprience.
La table 4.9 montre galement lintersection importante des lexiques TUN et
MSA . Environ 75% de formes et des LMM s TUN appartiennent au lexique MSA .
Ce taux nest que de 55.65% pour les lemmes, ce qui tait prvisible dans la
mesure o, contrairement aux formes et aux LMMs, les lemmes sont entirement
diacrites.
La deuxime exprience que nous avons mene consiste diviser notre cor-
pus dvaluation (cf. section 3.4) en deux ensembles : une ensemble dentra-
nement compos de 600 phrases et un ensemble de test contenant 200 phrases.
Comme nous lavons indiqu dans le chapitre prcdent, le corpus dvaluation
reprsente une collection de phrases extraites de quatre sources diffrentes : des
sries tlvises, des dbats politiques, une pice de thtre et un corpus trans-
crit partir des enregistrements de discussions entre des clients et un agent de

121
la socit nationale tunisienne des chemins ferrs. 150 phrases de chaque do-
maine ont t slectionnes pour la construction du corpus dentranement et 50
phrases de chaque domaine ont construit lensemble de test.
Bien que la taille du corpus dentranement nest pas suffisante pour lappren-
tissage dun tiqueteur robuste, nous avons ralis cette exprience afin desti-
mer les performances dtiquetage du TUN laide dun tiqueteur entran sur
le TUN.

formes lemmes lmms


prcision (%) 71, 53 76, 74 84, 43
oovs 1954 1633 980
(%) 58, 49 48, 88 29, 33

Table 4.10.: Rsultats dtiquetage du TUN

Les rsultats de la table 4.10 montrent que lentranement de ltiqueteur sur


du TUN pour le traitement du TUN ne permet pas dobtenir des rsultats quiva-
lents ceux obtenus avec du MSA pour ltiquetage du MSA. Cela est certainement
du la faible quantit de donnes utilises dans lentranement du TUN compara-
tivement au MSA (cf. table 4.9). De plus, nous remarquons que presque 50% des
mots du corpus de test nont pas t observs lors de la phase dentranement.

4.4.2. tiquetage aprs dsambigusation laide de


modles de langage
Notre exprience principale consiste effectuer la conversion du TUN en pseudo-
MSA avant le processus dtiquetage. La conversion gnre trois automates acy-
cliques sur les formes, sur les lemmes et sur les LMMs.
Lautomate compos de formes a t dsambigus laide de trois modles
de langage qui varient selon lordre (1, 2, 3). Ainsi, trois entres diffrentes
composes de formes ont t fournies ltiqueteur.
un automate pondr avec des scores attribus aux formes grce au modle
1-gram
la meilleure squence de formes calcule laide du modle 2-gram
la meilleure squence donne par le modle 3-gram.
Pour dsambiguser les automates de lemmes et de LMMs, nous avons utilis
les rsultats des modles de langage entrans sur les formes, en remplaant
chaque forme par le lemme (ou LMM) correspondant.
La figure 4.8 dcrit la chane de traitement pour raliser ltiquetage en parties
de discours du TUN.

122
Figure 4.8.: tiquetage en parties de discours du tun avant la conversion

La sortie finale de notre systme prsente la squence des parties de discours


pour la phrase source. Les rsultats sont donns dans la table 4.11.

formes lemmes lmms


1-gram 77, 21% 78, 87% 79, 35%
2-gram 80, 33% 82, 67% 83, 17%
3-gram 80, 51% 82, 32% 83, 25%

Table 4.11.: Rsultats de ltiquetage du pseudo-msa aprs dsambigusation

Les rsultats montrent que la conversion permet damliorer considrablement


les rsultats de ltiquetage en parties de discours. En effet, ils passent de 69%
80% sur les formes. Deux points importants mritent dtre nots. Dune part,
la dsambigusation laide des modles 3-gram est la plus performante. Dautre
part, lapplication de ltiqueteur sur les LMMs est meilleure que les formes et les
lemmes. Les rsultats dtiquetage de LMMs fournit une prcision de (83.5%).

123
4.4.3. tiquetage en parties de discours sans
dsambigusation
La dernire exprience ralise consiste fournir ltiqueteur la sortie du
processus de conversion. Ltiqueteur effectue ainsi la dsambigusation et lti-
quetage en parties de discours simultanment.
Comme nous lavons indiqu, la conversion gnre trois automates qui varient
selon la nature des sorties : des formes, des lemmes et des LMMs. La figure 4.9
dcrit le nouveau processus dtiquetage.

Figure 4.9.: tiquetage en parties de discours des lemmes et des LMMs en pseudo-
MSA

Dans le table 4.12, nous prsentons les rsultats de ltiquetage en parties de


discours de chaque sortie gnre par le processus de conversion.

formes lemmes lmms


prcision (%) 82.5% 86.9% 89.1%
oovs 1456 669 538%
(%) 13.5% 6.2% 4.9%

Table 4.12.: Rsultats de ltiquetage du pseudo-MSA sans dsambigusation

Comme le montre la table 4.12, lapproche qui consiste ne pas dsambiguser


pralablement ltiquetage obtient de meilleures performances. Cela est du
la diffrence dorigine des corpus dentranement des modles de langage (MSA)
et le corpus que nous souhaitons analyser (pseudo-MSA issu du TUN oral). On
observe galement que coupler les tapes de dsambigusation et dtiquetage
amliore significativement les rsultats. Ceci provient probablement du fait que
chaque tche compense certaines erreurs de lautre.

124
Elle montre aussi quil est prfrable de raliser ltiquetage sur les LMMs plutt
que sur les lemmes ou les formes. Ltiqueteur des LMMs permet en effet dobtenir
une prcision de 89.1%. Ce rsultat prsente une augmentation absolue de 20%
par rapport aux rsultats de la premire exprience (tiquetage du TUN laide
dun tiqueteur MSA).
Afin de dterminer les sources derreurs, nous avons ralis une analyse der-
reurs sur ltiquetage des formes, des lemmes et des LMMs. La table 4.13 dcrit le
taux derreurs provenant de chaque processus de traitement savoir la conver-
sion et ltiquetage. Naturellement, nous nattribuons lerreur ltiquetage que
lorsque la conversion est correcte. Nous avons choisi de sparer les erreurs pro-
venant de la phase dtiquetage en deux types afin didentifier si les erreurs sont
des erreurs de dsambigusation ou dtiquetage (si la dsambigusation est cor-
recte).

formes lemmes lmms


conversion 62% 46% 34%
dsambigusation 27% 39% 49%
tiquetage 11% 15% 17%

Table 4.13.: Analyse derreurs dtiquetage du pseudo-msa

La table 4.13 montre quune conversion incorrecte est nocive pour la qualit de
ltiquetage en parties de discours. Une meilleure conversion fournit un meilleur
tiquetage. Au niveau des LMMs 34% des erreurs proviennent de la conversion.
Dans 49% cas, les erreurs proviennent de la dsambigusation. Enfin, dans 17%
cas, les erreurs sont issues de ltiquetage en parties de discours, cest--dire le
systme de conversion a gnr un ensemble ambigu contenant un LMM correct.
Ltiqueteur a slectionn le bon LMM suite la dsambigusation mais lui a
assign une tiquette incorrecte.

Conclusion
Dans ce chapitre, nous avons compar de multiples mthodes dtiquetage en
parties de discours du TUN laide dun tiqueteur entran sur le MSA. Avant
ltiquetage, le texte TUN est traduit en pseudo-MSA. Le processus de conversion
est compos de trois tapes : une analyse morphologique dun mot TUN source,
suivi dun transfert lexical et une gnration morphologique des formes cibles
MSA . Le systme atteint une prcision de 89% (20% damlioration absolue par
rapport la prcision donne par ltiquetage du TUN sans pr-traitement). Les
expriences ont montr que les meilleurs rsultats sont obtenus sur ltiquetage
des lemmes et plus prcisment ceux non diacrits.

125
Conclusion gnrale et
perspectives

Bilan de la thse
Dans ce travail, nous avons propos une mthode gnrique pour le traitement
automatique des dialectes arabes. La mthode consiste de mettre profit les
nombreux outils et ressources du MSA pour raliser le traitement de dialectes.
Nous nous sommes intresss en particulier au dialecte tunisien.

Notre point de dpart est de montrer que le traitement automatique dune


langue peu dote L1 peut tre ralis laide de ressources et doutils dune
deuxime langue mieux dote, tymologiquement proche, L2 . Afin de traiter L1 ,
un processus de conversion convertit L1 en une approximation de L2 . Lhypo-
thse sous-jacente est que le cot de dveloppement dun convertisseur de L1
en L2 est infrieur au cot de dveloppement des ressources ncessaires pour
produire directement des outils pour L1 .

Le processus de conversion que nous proposons repose sur lanalyse morpholo-


gique profonde et le transfert lexical. Pour cela, nous avons dvelopp un analy-
seur morphologique du TUN ainsi quun lexique TUN-MSA. Une des originalit de
notre approche est le recours une analyse morphologique profonde qui analyse
une forme agglutine en une racine, un schme et des traits morphologiques. On
peut alors raliser le transfert au niveau des racines et des schmes. Cela permet
dune part de se restreindre, si ncessaire un lexique de racines, dont la taille
est rduite et, dautre part, cela permet, lors du processus de gnration en L2
de ne pas aller jusqu la gnration des formes agglutines et de sarrter avant.
Cest ce niveau quest alors appliqu loutil pour L2.

Nous avons valid notre mthode sur la tche dtiquetage morphosyntaxique.


Nous avons pour cela utilis un tiqueteur MSA fond sur les chanes de Markov
caches dont nous avons estim les paramtres sur un corpus tiquet MSA. lis-
sue de ltiquetage, les tiquettes sont projetes sur les mots TUN. Afin dvaluer
la qualit de ltiquetage ainsi produit, nous avons collect, transcrit, segment

126
et annot en partie de discours un corpus tunisien. Ce corpus est compos de 800
phrases et denviron 10, 000 occurrences. Il couvre plusieurs variantes du TUN.

La premire exprience que nous avons mene consiste raliser ltiquetage


en partie de discours du TUN avec un outil entran sur le MSA sans aucun traite-
ment pralable du TUN. Cette exprience donne des performances dtiquetage
qui atteignent 69%. Ce rsultat constitue la borne infrieure des rsultats de nos
exprimentations.

Nous avons ensuite ralis la conversion du TUN en pseudo-MSA. La conversion


permet de gnrer un corpus MSA ambigu. En effet, chaque mot source TUN est
traduit par un ensemble de mots cibles en MSA. Les performances du processus
de conversion ont t values sur environ 1, 500 verbes TUN en utilisant deux
mtriques, le rappel, qui atteint 80% et lambigut, qui produit en moyenne 28
formes cibles pour une forme source.

Lensemble de mots cibles constitue un ensemble ambigu qui ncessite un trai-


tement de dsambigusation. Cette opration peut tre ralise laide de lti-
queteur en parties de discours qui autorise ltiquetage dune entre ambigu.
La dsambigusation peut aussi tre effectue indpendamment de ltiquetage,
laide dun modle de langage entran sur du corpus MSA dont on peut dis-
poser en grande quantit. Le modle de langage permet dattribuer des poids
aux diffrentes formes qui compose la sortie de la conversion ou de raliser la
dsambigusation proprement dit.

La troisime tape de notre mthode repose sur ltiquetage en parties de dis-


cours. Nous avons ralis ltiquetage sur trois entres diffrentes :
lensemble ambigu non pondr gnr par la conversion
lensemble ambigu pondr par les scores dun modle de langage
le meilleur chemin propos par le modle de langage
Ltiquetage de ces donnes a donn environ 82%, 80% et 77% respectivement.
Comme on peut lobserver, la dsambigusation laide dun modle de langage
dgrade les performances. Ces rsultats sexpliquent probablement par la diff-
rence du genre du corpus utilis pour lapprentissage des modles de langage
dune part et, dautre part, du corpus dvaluation TUN.

Comme nous lavons mentionn ci-dessus, un avantage de notre mthode est


de pouvoir arrter le processus de gnration morphologique avant son terme et
de produire ainsi des lemmes ou des LMMs qui sont des formes non diacrites
des lemmes. Ltiquetage peut alors tre ralis sur ces derniers, la condition,
bien entendu, de r-entraner ltiqueteur sur des donnes de cette nature. Lti-
quetage des lemmes a permis datteindre une prcision de 86% et celui des LMMs

127
une prcision de 89%. Ceci constitue notre meilleur rsultat, il est suprieur de
20 points au rsultat de ltiquetage sans conversion.

La mise en uvre de notre mthode a ncessit le dveloppement dun analy-


seur morphologique du tunisien ainsi quun lexique TUN-MSA. Il est malheureu-
sement difficile de quantifier le cot dun tel dveloppement car il a t ralis
en mme temps que la mise point de notre modle. Nous pensons que le temps
de dveloppement de telles ressources pour un autre dialecte de larabe devrait
tre bien infrieur celui du dveloppement de corpus annots.

Perspectives
Plusieurs perspectives souvrent nous lissue de ce travail. Nous en dve-
loppons trois dans les paragraphes suivants.

Le dialecte tunisien tant avant tout oral. Traiter des transcriptions manuelles
constitue un objet artificiel. Notre travail trouvera toute sa justification lorsquil
sera possible de prendre en entre les sorties dun systme de transcription auto-
matique du tunisien. Nous navons malheureusement pas pour linstant notre
disposition un tel systme.

Nous avons valid notre mthode sur la tche dtiquetage morphosyntaxique,


qui a lavantage dtre la fois simple et utile. Dans le but de mieux valider notre
mthode, nous envisageons de recourir dautres outils standard de traitement
automatique des langues, tel que lanalyse syntaxique. Si les rsultats sur cette
tche (ou dautres) montre aussi de bons rsultats, notre mthode prendra alors
toute sa justification car lutilisation de nouveaux outils ne ncessitera aucune
modification notre systme, alors que le dveloppement de ressources en TUN
des ressources ncessaires pour entraner de tels outils, un corpus annot en
syntaxe dans le cas de lanalyse syntaxique est une entreprise coteuse.

Finalement, dautres dialectes arabes peuvent tre traits selon le mme prin-
cipe. Nous disposons en particulier dune implmentation de lanalyseur/gnrateur
morphologique MAGEAD pour le levantin et lgyptien. Il ne reste donc plus qu
dvelopper des lexiques pour ces dialectes de larabe pour reproduire sur ces
derniers les expriences que nous avons ralises sur le tunisien.

128
Bibliographie

A L -D AHDAH, A. (1996). mujam qawAid  Allua~ Alarabyya~ fiy jadAwil


   
wa lawHAt HAg Yg. J
K. Q@ @ Y@ j.. maktaba~ lubnAn nAi-


 Q   
ruwn, Beyrouth, Liban A JJ . , H 
K. , QAK AJJ. J.J.
A L -G HULAYAINI, M. (2006). jAm Aldrws Alrby~, Part II J
K. Q@ PY@ Ag . .
JJ . , H
dAr Alktb Allmyy~, Beyrouth, Liban A  Q
K. , J
@ I.J@ P@ X .
A L -S ABBAGH, R. et G IRJU, R. (2012). A supervised pos tagger for written arabic
social networking corpora. In Proceedings of KONVENS, pages 3952.

A LTABBAA, M., A L -Z ARAEE, A. et S HUKAIRY, M. (2010). An arabic morphological


analyser and part-of-speech tagger. Actes de JADT, page 50.

A LTANTAWY, M., H ABASH, N., R AMBOW, O. et S ALEH, I. (2010). Morphological


analysis and generation of arabic nouns : A morphemic functional approach.
In LREC.

B ASSIOUNEY, R. (2009). Arabic sociolinguistics. Edinburgh University Press.

B EESLEY, K. R. (1998). Arabic morphological analysis on the internet. In Procee-


dings of the 6th International Conference and Exhibition on Multi-lingual Com-
puting. Citeseer.

B EESLEY, K. R. (2001). Finite-state morphological analysis and generation of


arabic at xerox research : Status and plans in 2001. In ACL Workshop on
Arabic Language Processing : Status and Perspective, volume 1, pages 18.

B ERNHARD, D., L IGOZAT, A.-L. et al. (2013). Hassle-free pos-tagging for the alsa-
tian dialects. Non-Standard Data Sources in Corpus Based-Research.

B LACK, A., R ITCHIE, G., P ULMAN, S. et R USSELL, G. (1987). Formalisms for mor-
phographemic description. In Proceedings of the third conference on European
chapter of the Association for Computational Linguistics, pages 1118. Associa-
tion for Computational Linguistics.

129
B OUJELBANE, R., B EN AYED, S. et B ELGUITH, L. H. (2013). Building bilingual
lexicon to create dialect tunisian corpora and adapt language model. ACL
2013, page 88.

B OUJELBANE, R., M ALLEK, M., E LLOUZE, M. et B ELGUITH, L. H. (2014). Fine-


grained pos tagging of spoken tunisian dialect corpora. In Natural Language
Processing and Information Systems, pages 5962. Springer.

B RUSTAD, K. (2000). The syntax of spoken Arabic : A comparative study of Moroc-


can, Egyptian, Syrian, and Kuwaiti dialects. Georgetown University Press.

B UCKWALTER, T. (2002). Buckwalter {Arabic} morphological analyzer version


1.0.

B UCKWALTER, T. (2004). Buckwalter arabic morphological analyzer version 2.0.


ldc catalog number ldc2004l02. Rapport technique, ISBN 1-58563-324-0.

C OHEN, D. (1970). Essai dune analyse automatique de larabe. Etudes de lin-


guistique smitique et arabe, pages 4978.

D ANIELS, P. T. (2007). Mlanges david cohen : tudes sur le langage, les langues,
les dialectes, les littratures, offertes par ses lves, ses collgues, ses amis ;
prsents loccasion de son quatre-vingtime anniversaire (review). Lan-
guage, 83(1):221222.

D AS, D. et P ETROV, S. (2011). Unsupervised part-of-speech tagging with bilin-


gual graph-based projections. In Proceedings of the 49th Annual Meeting of
the Association for Computational Linguistics : Human Language Technologies-
Volume 1, pages 600609. Association for Computational Linguistics.

D EBILI, F. et A CHOUR, H. (1998). Voyellation automatique de larabe. In Pro-


ceedings of the Workshop on Computational Approaches to Semitic Languages,
pages 4249. Association for Computational Linguistics.

D HOUIB, E. (2007). El makki w zakiyya. Maison ddition manshuwrat manara,


Tunis.

D ICHY, J., B RAHAM, A., G HAZALI, S. et H ASSOUN, M. (2002). La base de connais-


sances linguistiques diinar. 1 (dictionnaire informatis de larabe, version 1).
In Proceedings of the International Symposium on The Processing of Arabic, Tunis
(La Manouba University), pages 1820.

D UONG, L., C OOK, P., B IRD, S. et P ECINA, P. (2013). Simpler unsupervised pos
tagging with bilingual projections. In ACL (2), pages 634639.

E LGOT, C. C. et M EZEI, J. E. (1965). On relations defined by generalized finite


automata. IBM Journal of Research and Development, 9(1):4768.

130
F ELDMAN, A., H ANA, J. et B REW, C. (2006). A cross-language approach to rapid
creation of new morpho-syntactically annotated resources. In Proceedings of
LREC, pages 549554.

F ERGUSON, C. A. (1959). Diglossia. WORD-JOURNAL OF THE INTERNATIONAL


LINGUISTIC ASSOCIATION, 15(2):325340.

G ARRETTE, D. et B ALDRIDGE, J. (2013). Learning a part-of-speech tagger from


two hours of annotation. In HLT-NAACL, pages 138147. Citeseer.

G OOSSE, A. et G REVISSE, M. (1993). Le bon usage : grammaire franaise. Duculot.

G RAFF, D., M AAMOURI, M., B OUZIRI, B., K ROUNA, S., KULICK, S. et B UCKWAL -
TER , T. (2009). Standard Arabic Morphological Analyzer (SAMA) Version 3.1.
Linguistic Data Consortium LDC2009E73.

H ABASH, N. (2004). Large scale lexeme based arabic morphological generation.


In Proceedings of Traitement Automatique du Langage Naturel (TALN-04).

H ABASH, N. (2010). Introduction to Arabic Natural Language Processing. Morgan


& Claypool Publishers.

H ABASH, N., D IAB, M. T. et R AMBOW, O. (2012). Conventional orthography for


dialectal arabic. In LREC, pages 711718.

H ABASH, N. et R AMBOW, O. (2005). Arabic tokenization, part-of-speech tagging


and morphological disambiguation in one fell swoop. In Proceedings of the 43rd
Annual Meeting on Association for Computational Linguistics, pages 573580.
Association for Computational Linguistics.

H ABASH, N. et R AMBOW, O. (2006). Magead : a morphological analyzer and


generator for the arabic dialects. In Proceedings of the 21st International Confe-
rence on Computational Linguistics and the 44th annual meeting of the Associa-
tion for Computational Linguistics, pages 681688. Association for Computa-
tional Linguistics.

H ABASH, N., R AMBOW, O. et K IRAZ, G. (2005). Morphological analysis and gene-


ration for arabic dialects. In Proceedings of the ACL Workshop on Computational
Approaches to Semitic Languages, pages 1724. Association for Computational
Linguistics.

H ABASH, N., R AMBOW, O. et R OTH, R. (2009). Mada+ tokan : A toolkit for arabic
tokenization, diacritization, morphological disambiguation, pos tagging, stem-
ming and lemmatization. In Proceedings of the 2nd International Conference on
Arabic Language Resources and Tools (MEDAR), Cairo, Egypt, pages 102109.

131
H ABASH, N. et R OTH, R. M. (2009). Catib : The columbia arabic treebank. In
Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, pages 221224.
Association for Computational Linguistics.

H ABASH, N., S OUDI, A. et B UCKWALTER, T. (2007). On Arabic Transliteration. In


van den B OSCH, A. et S OUDI, A., diteurs : Arabic Computational Morphology :
Knowledge-based and Empirical Methods. Springer.

H AMDI, A. (2012). Apport de la diacritisation dans lanalyse morphosyntaxique


de larabe. JEP-TALN-RECITAL 2012, page 247.

H AMDI, A., B OUJELBANE, R., H ABASH, N. et N ASR, A. (2013a). The effects of


factorizing root and pattern mapping in bidirectional tunisian - standard arabic
machine translation. In MT Summit, Nice.

H AMDI, A., B OUJELBANE, R., H ABASH, N. et N ASR, A. (2013b). Un systme de


traduction de verbes entre arabe standard et arabe dialectal par analyse mor-
phologique profonde. In Traitement Automatique des Langues Naturelles, Les
Sables dOlonnes, page 395406.

H AMDI, A., G ALA, N. et N ASR, A. (2014). Automatically building a tunisian lexi-


con for deverbal nouns. COLING 2014, page 95.

H OLES, C. (2004). Modern Arabic : Structures, functions, and varieties. George-


town University Press.

J URAFSKY, D. et M ARTIN, J. H. (2000). Speech & language processing. Pearson


Education India.

KARTTUNEN, L. (1995). The replace operator. In Proceedings of the 33rd annual


meeting on Association for Computational Linguistics, pages 1623. Association
for Computational Linguistics.

KAY, M. (1987). Nonconcatenative finite-state morphology. In Proceedings of


the third conference on European chapter of the Association for Computational
Linguistics, pages 210. Association for Computational Linguistics.

K IRAZ, G. A. (1994). Computational analyses of arabic morphology. arXiv pre-


print cmp-lg/9408002.

KOSKENNIEMI, K. (1983). Two-level model for morphological analysis. In IJCAI,


volume 83, pages 683685.

L ARCHER, P. (2012). Le systme verbal de larabe classique, 2me dition, revue et


augmente. Presses universitaires de Provence.

132
L I, S., G RAA, J. V. et TASKAR, B. (2012). Wiki-ly supervised part-of-speech
tagging. In Proceedings of the 2012 Joint Conference on Empirical Methods in
Natural Language Processing and Computational Natural Language Learning,
pages 13891398. Association for Computational Linguistics.

M AAMOURI, M., B IES, A., B UCKWALTER, T. et M EKKI, W. (2004). The penn arabic
treebank : Building a large-scale annotated arabic corpus. In NEMLAR confe-
rence on Arabic language resources and tools, pages 102109.

M ASMOUDI, A., E LLOUZE K HMEKHEM, M., E STVE, Y., H ADRICH B ELGUITH, L. et


H ABASH, N. (2014). A corpus and a phonetic dictionary for tunisian arabic
speech recognition. In of the Language Resources and Evaluation Conference,
Iceland.

M C C ARTHY, J. J. (1981). A prosodic theory of nonconcatenative morphology.


Linguistic inquiry, pages 373418.

M C C ARTHY, J. J. (1993). Template form in prosodic morphology. pages 187218.

M EJRI, S., M OSBAH, S. et S FAR, I. (2009). Pluringuisme et diglossie en tunisie.


Synergies Tunisie n 1, pages 5374.

M OHAMED, E., M OHIT, B. et O FLAZER, K. (2012). Annotating and learning mor-


phological segmentation of egyptian colloquial arabic. In LREC, pages 873
877.

M OHRI, M., P EREIRA, F. et R ILEY, M. (2000). The design principles of a weighted


finite-state transducer library. Theoretical Computer Science, 231(1):1732.

N ELKEN, R. et S HIEBER, S. M. (2005). Arabic diacritization using weighted finite-


state transducers. In Proceedings of the ACL Workshop on Computational Ap-
proaches to Semitic Languages, pages 7986. Association for Computational
Linguistics.

O UERHANI, B. (2009). Interfrence entre le dialectal et le littral en tunisie : Le


cas de la morphologie verbale. Synergies Tunisie n 1, pages 7584.

PASHA, A., A L -B ADRASHINY, M., K HOLY, A. E., E SKANDER, R., D IAB, M., H ABASH,
N., P OOLEERY, M., R AMBOW, O. et R OTH, R. (2014). Madamira : A fast, com-
prehensive tool for morphological analysis and disambiguation of arabic. In
In Proceedings of the 9th International Conference on Language Resources and
Evaluation, Reykjavik, Iceland.

P ULMAN, S. G. et H EPPLE, M. R. (1993). A feature-based formalism for two-level


phonology : a description and implementation. Computer Speech & Language,
7(4):333358.

133
R ABIN, M. O. et S COTT, D. (1959). Finite automata and their decision problems.
IBM journal of research and development, 3(2):114125.

R OCHE, E. et S CHABES, Y. (1997). Finite-state language processing. MIT press.

R OTH, R., R AMBOW, O., H ABASH, N., D IAB, M. et R UDIN, C. (2008). Arabic
morphological tagging, diacritization, and lemmatization using lexeme mo-
dels and feature ranking. In Proceedings of the 46th Annual Meeting of the
Association for Computational Linguistics on Human Language Technologies :
Short Papers, pages 117120. Association for Computational Linguistics.

R UESSINK, H. (1989). Two-level formalisms. Katholieke Universiteit.

S CHERRER, Y. et al. (2009). Un systme de traduction automatique paramtr


par des atlas dialectologiques. Actes de TALN.

S HAALAN, K., B AKR, H. et Z IEDAN, I. (2007). Transferring egyptian colloquial


dialect into modern standard arabic. In International Conference on Recent
Advances in Natural Language Processing (RANLP2007), Borovets, Bulgaria,
pages 525529.

S MR, O. (2007a). Elixirfm : implementation of functional arabic morphology.


In Proceedings of the 2007 Workshop on Computational Approaches to Semitic
Languages : Common Issues and Resources, pages 18. Association for Compu-
tational Linguistics.

S MR, O. (2007b). Functional Arabic Morphology. Formal System and Implemen-


tation. Thse de doctorat, Ph. D. thesis, Charles University in Prague, Prague,
Czech Republic.

S PROAT, R. (1995). Lextools : Tools for finite-state linguistic analysis. Rapport


technique, Technical Report 11522-951108-10TM, Bell Laboratories.

S TOLCKE, A. et al. (2002). Srilm-an extensible language modeling toolkit. In


INTERSPEECH.

T CKSTRM, O., D AS, D., P ETROV, S., M C D ONALD, R. et N IVRE, J. (2013). Token
and type constraints for cross-lingual part-of-speech tagging. Transactions of
the Association for Computational Linguistics, 1:112.

V ERGEZ -C OURET, M. (2013). Tagging occitan using french and castillan tree
tagger. In Proceedings of 6th Language & Technology Conference.

V ERGYRI, D. et K IRCHHOFF, K. (2004). Automatic diacritization of arabic for


acoustic modeling in speech recognition. In Proceedings of the workshop on
computational approaches to Arabic script-based languages, pages 6673. Asso-
ciation for Computational Linguistics.

134
YAROWSKY, D., N GAI, G. et W ICENTOWSKI, R. (2001). Inducing multilingual text
analysis tools via robust projection across aligned corpora. In Proceedings of
the first international conference on Human language technology research, pages
18. Association for Computational Linguistics.

Z ITOUNI, I., S ORENSEN, J. S. et S ARIKAYA, R. (2006). Maximum entropy based


restoration of arabic diacritics. In Proceedings of the 21st International Confe-
rence on Computational Linguistics and the 44th annual meeting of the Associa-
tion for Computational Linguistics, pages 577584. Association for Computa-
tional Linguistics.

Z RIBI, I., K HEMAKHEM, M. E. et B ELGUITH, L. H. (2013). Morphological analysis


of tunisian dialect. In Proceeding of International Joint Conference on Natural
Language Processing (IJCNLP 2013), Nagoya, Japan.

135
ANNEXES

136
A. Rgles morphologiques du tunisien
Dans cette annexe, nous dcrivons en dtail toutes les ressources que nous
avons cres dans MAGEAD pour le traitement du TUN.

Grammaire hors-contexte
[ENTREE] [WORD] [RACINE]
[RACINE] [RAD1] [RAD2] [RAD3]
[MOT] [CONJ]([VRB]|[NOM])
[NOM] [PREP]([INDEF_NOM]|[DEF_NOM])
[INDEF_NOM] [NOM_STEM] [INDEF_CAS]
[DEF_NOM] [DET] [NOM_STEM] ([DEF_CAS]|[NSUFF_NOPOSS])
[DEF_NOM] [NOM_STEM] ([DEF_CAS]|[NSUFF_POSS])[POSS]
[DEF_NOM] [DEF_NOM_STEM] [DEF_CAS]
[VRB] ([PV_VRB]|[IV_VRB]|[CV_VRB])[OBJ][POST_VRB]
[POST_VRB] ([POST:NEG]|[POST:nil])
[PV_VRB] [PV_PRT] [PV_VRB_STEM] [SUBJSUF_PV]
[PV_PRT] ([PRT:EMPHATIC]|[PRT:NEG]|[PRT:nil])
[IV_VRB] [IV_PRT][IV_VRB_CONJUG]
[IV_PRT] ([PRT:NEG]|[PRT:nil])
[IV_VRB_CONJUG] [SUBJPRE_IV:1S][IV_VRB_STEM][SUBJSUF_IV:1S]
[IV_VRB_CONJUG] [SUBJPRE_IV:1P][IV_VRB_STEM][SUBJSUF_IV:1P]
[IV_VRB_CONJUG] [SUBJPRE_IV:2MS][IV_VRB_STEM][SUBJSUF_IV:2MS]
[IV_VRB_CONJUG] [SUBJPRE_IV:2FS][IV_VRB_STEM][SUBJSUF_IV:2FS]
[IV_VRB_CONJUG] [SUBJPRE_IV:2FP][IV_VRB_STEM][SUBJSUF_IV:2FP]
[IV_VRB_CONJUG] [SUBJPRE_IV:2MP][IV_VRB_STEM][SUBJSUF_IV:2MP]
[IV_VRB_CONJUG] [SUBJPRE_IV:3MS][IV_VRB_STEM][SUBJSUF_IV:3MS]
[IV_VRB_CONJUG] [SUBJPRE_IV:3FS][IV_VRB_STEM][SUBJSUF_IV:3FS]
[IV_VRB_CONJUG] [SUBJPRE_IV:3FP][IV_VRB_STEM][SUBJSUF_IV:3FP]
[IV_VRB_CONJUG] [SUBJPRE_IV:3MP][IV_VRB_STEM][SUBJSUF_IV:3MP]
[CV_VRB] [CV_VRB_STEM] [SUBJSUF_CV]

Hirarchie de classes morphologiques


MBC-word
[cnj:f] : [CONJ:f]
[cnj:wa] : [CONJ:wa]
[cnj:wi] : [CONJ:wi]
[cnj:0] : [CONJ:nil]
[prt:0] : [PART:nil]

137
MBC-verb
[prt:l] : [PART:RESULT]
[prt:l] : [PART:SUBJUNC]
[prt:l] : [PART:EMPHATIC]
[prt:s] : [PART:FUT]
[prt:neg] : [PART:NEG]
[asp:P][per:1][num:s] : [SUBJ_SUF_PV:1S]
[asp:P][per:1][num:p] : [SUBJ_SUF_PV:1P]
[asp:P][per:2][gen:m][num:s] : [SUBJ_SUF_PV:2MS]
[asp:P][per:2][gen:f][num:s] : [SUBJ_SUF_PV:2FS]
[asp:P][per:2][num:d] : [SUBJ_SUF_PV:2D]
[asp:P][per:2][gen:m][num:p] : [SUBJ_SUF_PV:2MP]
[asp:P][per:2][gen:f][num:p] : [SUBJ_SUF_PV:2FP]
[asp:P][per:3][gen:m][num:s] : [SUBJ_SUF_PV:3MS]
[asp:P][per:3][gen:f][num:s] : [SUBJ_SUF_PV:3FS]
[asp:P][per:3][gen:m][num:d] : [SUBJ_SUF_PV:3MD]
[asp:P][per:3][gen:f][num:d] : [SUBJ_SUF_PV:3FD]
[asp:P][per:3][gen:m][num:p] : [SUBJ_SUF_PV:3MP]
[asp:P][per:3][gen:f][num:p] : [SUBJ_SUF_PV:3FP]
[asp:I][per:1][num:s] : [SUBJ_PRE_IV:1S]
[asp:I][per:1][num:p] : [SUBJ_PRE_IV:1P]
[asp:I][per:2][gen:m][num:s] : [SUBJ_PRE_IV:2MS]
[asp:I][per:2][gen:f][num:s] : [SUBJ_PRE_IV:2FS]
[asp:I][per:2][num:d] : [SUBJ_PRE_IV:2D]
[asp:I][per:2][gen:m][num:p] : [SUBJ_PRE_IV:2MP]
[asp:I][per:2][gen:f][num:p] : [SUBJ_PRE_IV:2FP]
[asp:I][per:3][gen:m][num:s] : [SUBJ_PRE_IV:3MS]
[asp:I][per:3][gen:f][num:s] : [SUBJ_PRE_IV:3FS]
[asp:I][per:3][gen:m][num:d] : [SUBJ_PRE_IV:3MD]
[asp:I][per:3][gen:f][num:d] : [SUBJ_PRE_IV:3FD]
[asp:I][per:3][gen:m][num:p] : [SUBJ_PRE_IV:3MP]
[asp:I][per:3][gen:f][num:p] : [SUBJ_PRE_IV:3FP]
[asp:I][per:1][num:s] : [SUBJ_SUF_IV:1S]
[asp:I][per:1][num:p] : [SUBJ_SUF_IV:1P]
[asp:I][per:2][gen:m][num:s] : [SUBJ_SUF_IV:2MS]
[asp:I][per:2][gen:f][num:s] : [SUBJ_SUF_IV:2FS]
[asp:I][per:2][num:d] : [SUBJ_SUF_IV:2D_Ind]
[asp:I][per:2][gen:m][num:p] : [SUBJ_SUF_IV:2MP]
[asp:I][per:2][gen:f][num:p] : [SUBJ_SUF_IV:2FP]
[asp:I][per:3][gen:m][num:s] : [SUBJ_SUF_IV:3MS]
[asp:I][per:3][gen:f][num:s] : [SUBJ_SUF_IV:3FS]
[asp:I][per:3][gen:m][num:d] : [SUBJ_SUF_IV:3MD]

138
[asp:I][per:3][gen:f][num:d] : [SUBJ_SUF_IV:3FD]
[asp:I][per:3][gen:m][num:p] : [SUBJ_SUF_IV:3MP]
[asp:I][per:3][gen:f][num:p] : [SUBJ_SUF_IV:3FP]
[asp:C][gen:m][num:s] : [SUBJ_SUF_CV:MS]
[asp:C][gen:f][num:s] : [SUBJ_SUF_CV:FS]
[asp:C][gen:m][num:p] : [SUBJ_SUF_CV:MP]
[asp:C][gen:f][num:p] : [SUBJ_SUF_CV:FP]
MBC-verb-Intr
[pro:0] : [OBJ:nil]
MBC-verb-Tr
[pro:1S] : [OBJ:1S]
[pro:1P] : [OBJ:1P]
[pro:2MS] : [OBJ:2MS]
[pro:2FS] : [OBJ:2FS]
[pro:2D] : [OBJ:2D]
[pro:2FP] : [OBJ:2FP]
[pro:2MP] : [OBJ:2MP]
[pro:3MS] : [OBJ:3MS]
[pro:3FS] : [OBJ:3FS]
[pro:3D] : [OBJ:3D]
[pro:3MP] : [OBJ:3MP]
[pro:3FP] : [OBJ:3FP]
[pro:0] : [OBJ:nil]
MBC-verb-I
[asp:P][pos:V]:[PAT_PV:I]
[asp:I][pos:V]:[PAT_IV:I]
[asp:C][pos:V]:[PAT_CV:I]
[asp:P][pos:V][vox:pas]:[VOC_PV:I-pas]
[asp:I][pos:V][vox:pas]:[VOC_IV:I-pas]
MBC-verb-I-aa
[asp:P][pos:V][vox:act] : [VOC_PV:I-aa-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-aa-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-aa-act]
MBC-verb-I-au
[asp:P][pos:V][vox:act] : [VOC_PV:I-au-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-au-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-au-act]
MBC-verb-I-ai
[asp:P][pos:V][vox:act] : [VOC_PV:I-ai-act]

139
[asp:I][pos:V][vox:act] : [VOC_IV:I-ai-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-ai-act]
MBC-verb-I-uu
[asp:P][pos:V][vox:act] : [VOC_PV:I-uu-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-uu-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-uu-act]
MBC-verb-I-ia
[asp:P][pos:V][vox:act] : [VOC_PV:I-ia-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-ia-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-ia-act]
MBC-verb-I-ii
[asp:P][pos:V][vox:act] : [VOC_PV:I-ii-act]
[asp:I][pos:V][vox:act] : [VOC_IV:I-ii-act]
[asp:C][pos:V][vox:act] : [VOC_CV:I-ii-act]
MBC-verb-II
[asp:P][pos:V] : [PAT_PV:II]
[asp:P][pos:V][vox:act] : [VOC_PV:II-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:II-pas]
[asp:I][pos:V] : [PAT_IV:II]
[asp:I][pos:V][vox:act] : [VOC_IV:II-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:II-pas]
[asp:C][pos:V] : [PAT_CV:II]
[asp:C][pos:V][vox:act] : [VOC_CV:II-act]
MBC-verb-III
[asp:P][pos:V] : [PAT_PV:III]
[asp:P][pos:V][vox:act] : [VOC_PV:III-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:III-pas]
[asp:I][pos:V] : [PAT_IV:III]
[asp:I][pos:V][vox:act] : [VOC_IV:III-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:III-pas]
[asp:C][pos:V] : [PAT_CV:III]
[asp:C][pos:V][vox:act] : [VOC_CV:III-act]
MBC-verb-IV
[asp:P][pos:V] : [PAT_PV:IV]
[asp:P][pos:V][vox:act] : [VOC_PV:IV-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:IV-pas]
[asp:I][pos:V] : [PAT_IV:IV]
[asp:I][pos:V][vox:act] : [VOC_IV:IV-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:IV-pas]
[asp:C][pos:V] : [PAT_CV:IV]

140
[asp:C][pos:V][vox:act] : [VOC_CV:IV-act]
MBC-verb-V
[asp:P][pos:V] : [PAT_PV:V]
[asp:P][pos:V][vox:act] : [VOC_PV:V-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:V-pas]
[asp:I][pos:V] : [PAT_IV:V]
[asp:I][pos:V][vox:act] : [VOC_IV:V-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:V-pas]
[asp:C][pos:V] : [PAT_CV:V]
[asp:C][pos:V][vox:act] : [VOC_CV:V-act]
MBC-verb-VI
[asp:P][pos:V] : [PAT_PV:VI]
[asp:P][pos:V][vox:act] : [VOC_PV:VI-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:VI-pas]
[asp:I][pos:V] : [PAT_IV:VI]
[asp:I][pos:V][vox:act] : [VOC_IV:VI-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:VI-pas]
[asp:C][pos:V] : [PAT_CV:VI]
[asp:C][pos:V][vox:act] : [VOC_CV:VI-act]
MBC-verb-VII
[asp:P][pos:V]:[PAT_PV:VII]
[asp:P][pos:V][vox:act]:[VOC_PV:VII-act]
[asp:P][pos:V][vox:pas]:[VOC_PV:VII-pas]
[asp:I][pos:V]:[PAT_IV:VII]
[asp:I][pos:V][vox:act]:[VOC_IV:VII-act]
[asp:I][pos:V][vox:pas]:[VOC_IV:VII-pas]
[asp:C][pos:V]:[PAT_CV:VII]
[asp:C][pos:V][vox:act]:[VOC_CV:VII-act]
MBC-verb-VIII
[asp:P][pos:V] : [PAT_PV:VIII]
[asp:P][pos:V][vox:act] : [VOC_PV:VIII-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:VIII-pas]
[asp:I][pos:V] : [PAT_IV:VIII]
[asp:I][pos:V][vox:act] : [VOC_IV:VIII-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:VIII-pas]
[asp:C][pos:V] : [PAT_CV:VIII]
[asp:C][pos:V][vox:act] : [VOC_CV:VIII-act]
MBC-verb-IX
[asp:P][pos:V] : [PAT_PV:IX]
[asp:P][pos:V][vox:act] : [VOC_PV:IX-act]

141
[asp:P][pos:V][vox:pas] : [VOC_PV:IX-pas]
[asp:I][pos:V] : [PAT_IV:IX]
[asp:I][pos:V][vox:act] : [VOC_IV:IX-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:IX-pas]
[asp:C][pos:V]:[PAT_CV:IX]
[asp:C][pos:V][vox:act] : [VOC_CV:IX-act]
MBC-verb-X
[asp:P][pos:V] : [PAT_PV:X]
[asp:P][pos:V][vox:act] : [VOC_PV:X-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:X-pas]
[asp:I][pos:V] : [PAT_IV:X]
[asp:I][pos:V][vox:act] : [VOC_IV:X-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:X-pas]
[asp:C][pos:V] : [PAT_CV:X]
[asp:C][pos:V][vox:act] : [VOC_CV:X-act]
MBC-verb-XI
[asp:P][pos:V] : [PAT_PV:XI]
[asp:P][pos:V][vox:act] : [VOC_PV:XI-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:XI-pas]
[asp:I][pos:V] : [PAT_IV:XI]
[asp:I][pos:V][vox:act] : [VOC_IV:XI-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:XI-pas]
[asp:C][pos:V] : [PAT_CV:XI]
[asp:C][pos:V][vox:act] : [VOC_CV:XI-act]
MBC-verb-QI
[asp:P][pos:V] : [PAT_PV:QI]
[asp:P][pos:V][vox:act] : [VOC_PV:QI-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:QI-pas]
[asp:I][pos:V] : [PAT_IV:QI]
[asp:I][pos:V][vox:act] : [VOC_IV:QI-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:QI-pas]
[asp:C][pos:V] : [PAT_CV:QI]
[asp:C][pos:V][vox:act] : [VOC_CV:QI-act]
MBC-verb-QII
[asp:P][pos:V] : [PAT_PV:QII]
[asp:P][pos:V][vox:act] : [VOC_PV:QII-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:QII-pas]
[asp:I][pos:V] : [PAT_IV:QII]
[asp:I][pos:V][vox:act] : [VOC_IV:QII-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:QII-pas]
[asp:C][pos:V] : [PAT_CV:QII]

142
[asp:C][pos:V][vox:act] : [VOC_CV:QII-act]
MBC-verb-QIII
[asp:P][pos:V] : [PAT_PV:QIII]
[asp:P][pos:V][vox:act] : [VOC_PV:QIII-act]
[asp:P][pos:V][vox:pas] : [VOC_PV:QIII-pas]
[asp:I][pos:V] : [PAT_IV:QIII]
[asp:I][pos:V][vox:act] : [VOC_IV:QIII-act]
[asp:I][pos:V][vox:pas] : [VOC_IV:QIII-pas]
[asp:C][pos:V] : [PAT_CV:QIII]
[asp:C][pos:V][vox:act] : [VOC_CV:QIII-act]
MBC-NOM
[prt:l] : [PREP:l]
[prt:b] : [PREP:b]
[prt:k] : [PREP:k]
[prt:0] : [PREP:nil]
[det:Al] : [DET:Al]
[det:0] : [DET:nil]
[pro:1S] : [POSS:1S]
[pro:1P] : [POSS:1P]
[pro:2MS] : [POSS:2MS]
[pro:2FS] : [POSS:2FS]
[pro:2D] : [POSS:2D]
[pro:2FP] : [POSS:2FP]
[pro:2MP] : [POSS:2MP]
[pro:3MS] : [POSS:3MS]
[pro:3FS] : [POSS:3FS]
[pro:3D] : [POSS:3D]
[pro:3MP] : [POSS:3MP]
[pro:3FP] : [POSS:3FP]
[pro:0] : [POSS:nil]

Table de correspondance de morphmes abstraits et


mophmes concrets
[CONJ:wa] : wa+
[CONJ:wi] : wi+
[CONJ:f] : fa+
[CONJ:nil] : 
[PREP:b] : bi+
[PREP:k] : ki+
[PREP:l] : li+

143
[PREP:nil] : 
[PART:RESULT] : la+
[PART:SUBJUNC] : bAc+
[PART:EMPHATIC] : la+
[PART:NEG] : lA+
[PART:NEG] : mA+
[PART:FUT] : bAc+
[PART:FUT] : mAc+
[PART:nil] : 
[POST:NEG] : +c
[POST:nil] : 
[DET:Al] : Al+
[DET:nil] : 
[POSS:1S] : +I
[POSS:1P] : +nA
[POSS:2MS] : +ik
[POSS:2FS] : +ik
[POSS:2MP] : +kum
[POSS:2FP] : +kum
[POSS:3MS] : +h
[POSS:3FS] : +hA
[POSS:3MP] : +hum
[POSS:3FP] : +hum
[POSS:nil] : 
[OBJ:1S] : +nI
[OBJ:1P] : +nA
[OBJ:2MS] : +ik
[OBJ:2FS] : +ik
[OBJ:2FP] : +kum
[OBJ:2MP] : +kum
[OBJ:3MS] : +h
[OBJ:3MS] : +U
[OBJ:3FS] : +hA
[OBJ:3MP] : +hum
[OBJ:3FP] : +hum
[OBJ:nil] : 
[SUBJ_SUF_PV:1S] : +t
[SUBJ_SUF_PV:1P] : +nA
[SUBJ_SUF_PV:2MS] : +t
[SUBJ_SUF_PV:2FS] : +t
[SUBJ_SUF_PV:2MP] : +tuwA
[SUBJ_SUF_PV:2FP] : +tuwA

144
[SUBJ_SUF_PV:3MS] : +0
[SUBJ_SUF_PV:3FS] : +it
[SUBJ_SUF_PV:3FP] : +uwA
[SUBJ_SUF_PV:3MP] : +uwA
[SUBJ_PRE_IV:1S] : n+
[SUBJ_PRE_IV:1P] : n+
[SUBJ_PRE_IV:2MS] : t+
[SUBJ_PRE_IV:2FS] : t+
[SUBJ_PRE_IV:2MP] : t+
[SUBJ_PRE_IV:2FP] : t+
[SUBJ_PRE_IV:3MS] : y+
[SUBJ_PRE_IV:3FS] : t+
[SUBJ_PRE_IV:3MP] : y+
[SUBJ_PRE_IV:3FP] : y+
[SUBJ_SUF_IV:1S] : +0
[SUBJ_SUF_IV:1P] : +uwA
[SUBJ_SUF_IV:2MS] : +0
[SUBJ_SUF_IV:2FS] : +0
[SUBJ_SUF_IV:2MP] : +uwA
[SUBJ_SUF_IV:2FP] : +uwA
[SUBJ_SUF_IV:3MS] : +0
[SUBJ_SUF_IV:3FS] : +0
[SUBJ_SUF_IV:3MP] : +uwA
[SUBJ_SUF_IV:3FP] : +uwA
[SUBJ_SUF_CV:MS] : +0
[SUBJ_SUF_CV:FS] : +0
[SUBJ_SUF_CV:MP] : +uwA
[SUBJ_SUF_CV:FP] : +uwA
[PAT_IV:I][VOC_IV:I-aa-a-act] : [V12V3,XXX,aa]
[PAT_PV:I][VOC_PV:I-aa-a-act] : [1V2V3,XXX,aa]
[PAT_CV:I][VOC_CV:I-aa-a-act] : [V12V3,XXX,aa]
[PAT_IV:I][VOC_IV:I-aa-a-pas] : [VtV12V3,XXX,iia]
[PAT_PV:I][VOC_PV:I-aa-a-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:I][VOC_IV:I-aa-i-act] : [V12V3,XXX,ia]
[PAT_PV:I][VOC_PV:I-aa-i-act] : [1V2V3,XXX,ia]
[PAT_CV:I][VOC_CV:I-aa-i-act] : [V12V3,XXX,ia]
[PAT_IV:I][VOC_IV:I-aa-i-pas] : [VtV12V3,XXX,iia]
[PAT_PV:I][VOC_PV:I-aa-i-pas] : [tV1V2V3,XXX,iia]
[PAT_IV:I][VOC_IV:I-au-act] : [V12V3,XXX,uu]
[PAT_PV:I][VOC_PV:I-au-act] : [1V2V3,XXX,aa]
[PAT_CV:I][VOC_CV:I-au-act] : [V12V3,XXX,uu]
[PAT_IV:I][VOC_IV:I-au-pas] : [VtV12V3,XXX,iia]

145
[PAT_PV:I][VOC_PV:I-au-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:I][VOC_IV:I-ai-act] : [V12V3,XXX,ai]
[PAT_PV:I][VOC_PV:I-ai-act] : [1V2V3,XXX,aa]
[PAT_CV:I][VOC_CV:I-ai-act] : [V12V3,XXX,ai]
[PAT_IV:I][VOC_IV:I-ai-pas] : [VtV12V3,XXX,iaa]
[PAT_PV:I][VOC_PV:I-ai-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:I][VOC_IV:I-ii-act] : [V12V3,XXX,ii]
[PAT_PV:I][VOC_PV:I-ii-act] : [1V2V3,XXX,ii]
[PAT_CV:I][VOC_CV:I-ii-act] : [V12V3,XXX,ii]
[PAT_IV:I][VOC_IV:I-ii-pas] : [VtV12V3,XXX,iii]
[PAT_PV:I][VOC_PV:I-ii-pas] : [tV1V2V3,XXX,iii]
[PAT_IV:I][VOC_IV:I-uu-act] : [V12V3,XXX,uu]
[PAT_PV:I][VOC_PV:I-uu-act] : [1V2V3,XXX,uu]
[PAT_CV:I][VOC_CV:I-uu-act] : [V12V3,XXX,uu]
[PAT_IV:I][VOC_IV:I-uu-pas] : [VtV12V3,XXX,iia]
[PAT_PV:I][VOC_PV:I-uu-pas] : [tV1V2V3,XXX,iaa]
[PAT_IV:II][VOC_IV:II-aa-act] : [1V22V3,XXX,aa]
[PAT_PV:II][VOC_PV:II-aa-act] : [1V22V3,XXX,aa]
[PAT_CV:II][VOC_CV:II-aa-act] : [1V22V3,XXX,aa]
[PAT_IV:II][VOC_IV:II-aa-pas] : [Vt1V22V3,XXX,iaa]
[PAT_PV:II][VOC_PV:II-aa-pas] : [t1V22V3,XXX,aa]
[PAT_IV:II][VOC_IV:II-ii-act] : [1V22V3,XXX,ai]
[PAT_PV:II][VOC_PV:II-ii-act] : [1V22V3,XXX,ai]
[PAT_CV:II][VOC_CV:II-ii-act] : [1V22V3,XXX,ai]
[PAT_IV:II][VOC_IV:II-ii-pas] : [Vt1V22V3,XXX,iai]
[PAT_PV:II][VOC_PV:II-ii-pas] : [t1V22V3,XXX,ai]
[PAT_IV:III][VOC_IV:III-aa-act] : [1A2V3,XXX,a]
[PAT_PV:III][VOC_PV:III-aa-act] : [1A2V3,XXX,a]
[PAT_CV:III][VOC_CV:III-aa-act] : [1A2V3,XXX,a]
[PAT_IV:III][VOC_IV:III-aa-pas] : [Vt1A2V3,XXX,ia]
[PAT_PV:III][VOC_PV:III-aa-pas] : [t1A2V3,XXX,a]
[PAT_IV:III][VOC_IV:III-ii-act] : [1A2V3,XXX,i]
[PAT_PV:III][VOC_PV:III-ii-act] : [1A2V3,XXX,i]
[PAT_CV:III][VOC_CV:III-ii-act] : [1A2V3,XXX,i]
[PAT_IV:III][VOC_IV:III-ii-pas] : [Vt1A2V3,XXX,ii]
[PAT_PV:III][VOC_PV:III-ii-pas] : [t1A2V3,XXX,i]
[PAT_IV:V][VOC_IV:V-aa-act] : [Vt1V22V3,XXX,iaa]
[PAT_PV:V][VOC_PV:V-aa-act] : [t1V22V3,XXX,aa]
[PAT_CV:V][VOC_CV:V-aa-act] : [t1V22V3,XXX,aa]
[PAT_IV:V][VOC_IV:V-ii-act] : [Vt1V22V3,XXX,iai]
[PAT_PV:V][VOC_PV:V-ii-act] : [t1V22V3,XXX,ai]

146
[PAT_CV:V][VOC_CV:V-ii-act] : [t1V22V3,XXX,ai]
[PAT_IV:VI][VOC_IV:VI-act] : [Vt1A2V3,XXX,ii]
[PAT_PV:VI][VOC_PV:VI-act] : [t1A2V3,XXX,i]
[PAT_CV:VI][VOC_CV:VI-act] : [t1A2V3,XXX,i]
[PAT_IV:VIII][VOC_IV:VIII-aa-act] : [V1tV2V3,XXX,iaa]
[PAT_PV:VIII][VOC_PV:VIII-aa-act] : [AV1tV2V3,XXX,iaa]
[PAT_CV:VIII][VOC_CV:VIII-aa-act] : [V1tV2V3,XXX,iaa]
[PAT_IV:VIII][VOC_IV:VIII-ai-act] : [V1tV2V3,XXX,iai]
[PAT_PV:VIII][VOC_PV:VIII-ai-act] : [AV1tV2V3,XXX,iaa]
[PAT_CV:VIII][VOC_CV:VIII-ai-act] : [V1tV2V3,XXX,iai]
[PAT_IV:IX][VOC_IV:IX-act] : [V12A3,XXX,i]
[PAT_PV:IX][VOC_PV:IX-act] : [12AV3,XXX,u]
[PAT_CV:IX][VOC_CV:IX-act] : [V12A3,XXX,i]
[PAT_IV:X][VOC_IV:X-act] : [VstV12V3,XXX,iai]
[PAT_PV:X][VOC_PV:X-act] : [AVstV12V3,XXX,iai]
[PAT_CV:X][VOC_CV:X-act] : [VstV12V3,XXX,iai]
[NSUFF_POSS_PL_MASC] : [+iy]
[NSUFF_POSS_PL_FEM] : [+At]
[NSUFF_NOPOSS_PL_MASC] : [+iyn]
[NSUFF_NOPOSS_PL_FEM] : [+At]

Rgles morpho-phonmiques et orthographiques


Dans cette section, nous donnons les rgles ncessaires pour raliser la flexion
dune classe de verbes TUN. Les rgles sont suivi dun exemple illustratif.

Rgles morpho-phonmiques de base


[X,0] X, X=[PATTERNLETTER]
[C,X0] X
[VX,0] X
Rgles orthographiques de base
[X,X,0] X, X=[PATTERNLETTER]
[C,XX,0] X
[VX,X,0] X

Verbes parfaitement sains (ktib "crire")


Rgles morpho-phonmiques des verbes sains
[VX,X] 0 / [2,%%] _ [3+Y,%%+Y], Y=[{Uui}], X=[{aui}]
[VX,X] 0 / _ [3+0+Y,%%+0+Y], Y=[{Uui}], X=[{aui}]
[VX,X] 0 / [1,%%] _ [2V3,%%,V,%V%], X=[{aui}], V=[{aui}]
[VX,X] 0 / [1,%%] _ [2V3,%%,%,%Y0], X=[{aui}], Y=[{aui}]

147
[VV,V] 0 / _ [1V,%,Y,%Y], V=[{aui}], Y=[{Aaui}]

accompli inaccompli
1S ktibt niktib
1P ktibnA niktibuwA
2MS ktibt tiktib
2FS ktibtiy tiktibiy
2P ktibtuwA tiktibuwA
3MS ktib yiktib
3FS kitbit tiktib
3P kitbuwA yiktibuwA

Table .14.: Flexion des verbes parfaitement sains

Verbes dfectifs (mad "tendre")


Rgles morpho-phonmiques des verbes dfectifs
[V3,X,V,VX] Y0 / [V2,%,%,%%] _ [+0,+0], X=[{wy}], V=[{aui}]
[V3,X,V,VX] A0 / [V2,%,%,%%] _ [+S,+S], S=[{ui}], X=[{wy}],
V=[{aui}]
[V3,X,V,VX] A0 / [tV12,%%,i,ti%%] _ [+S,+S], S=[{ui}],
X=[{wy}], V=[{aui}]
[V3,X,V,VX] Y0 / [tV12,%%,i,ti%%] _ [+0,+0], X=[{wy}],
V=[{aui}]
[VV,V] 0 / _ [2V3,%X,%,%A0], X=[{wy}], V=[{aui}]
[VV,V] 0 / _ [2V3,%X,%,%Y0], X=[{wy}], V=[{aui}]
[2,ww] W / _ [V3,X,%,%y], X=[{wy}], V=[{aui}]
[VV,V] X / [S+1,%S+%] _ S=[{nty}] , V=[{aui}]
[V3,X,V,VX] Y0 / [V22,%,Z,Z%%] _ [+0,+0], X=[{wy}], V=[{aui}],
Z=[{ai}]
[V3,X,V,VX] A0 / [V22,%,Z,Z%%] _ [+S,+S], S=[{ui}], X=[{wy}],
V=[{aui}], Z=[{ai}]
[VV,X] V
[VV,V] X / [S+1A,%S+%A] _ , S=[{nty}] , V=[{aui}]
[V3,X,V,VX] Y0 / [A2,%A%] _ [+0,+0], X=[{wy}], V=[{aui}]
[V3,X,V,VX] A0 / [A2,%A%] _ [+S,+S], S=[{ui}], X=[{wy}] ,
V=[{aui}]
[S,S] 0 / [V3+,X,V,%%+] _ , S=[{ui}] , X=[{wy}], V=[{aui}]
[VV,X] V
Rgles orthographiques des verbes dfectifs
[V1,Y,X,ZY,0] ZY, X=[{aui}], Z=[{ui}], Y=[{wy}]
[2,XY,0] Y, X=[{wy}], Y=[{wy0}]

148
[3,XY,0] Y, X=[{wy}], Y=[{wy0}]
[VX,Y,0] Y, X=[VOWEL], Y=[LONGVOWEL]
[VY,X,0] X, X=[VOWEL], Y=[LONGVOWEL]
[VX,Y,0] Y, X=[VOWEL], Y=[VOWEL]
[X,Y,0] Y, X=[VOWEL], Y=[LONGVOWEL]
[X,Y,0] Y, X=[VOWEL], Y=[VOWEL]

accompli inaccompli
1S rmiyt narmiy
1P rmiynA narmiywA
2MS rmiyt tarmiy
2FS rmiytiy tarmiy
2P rmiytuwA tarmiywA
3MS rma yarmiy
3FS rmAt tarmiy
3P rmAwA yarmiywA

Table .15.: Flexion des verbes dfectifs

Verbes creux (bA "vendre")


Rgles morpho-phonmiques des verbes creux
[VV,V] 0 / _ [1V2V,%X,%%,%%X%], V=[{aui}], X=[{wy}]
[VV,V] 0 / _ [12V,%X,%,%X%], V=[{aui}], X=[{wy}]
[V2V,X,VZ,VXZ] A00 / [1,%%] _ [3+S,%%+S], S=[{0iuU}], X=[{wy}]
, V=[{aui}] , Z=[{aui}]
[2V,X,Z,XZ] 0A / [tV1,%,%,t0%] _ [3+S,%%+S], S=[{0iuU}],
X=[{wy}] , Z=[{aui}]
[2V,w,u,wu] 0U / [+V1,%,%,+%%] _ [3,%%]
[2V,y,i,yi] 0I / [+V1,%,%,+%%] _ [3,%%]
[V2V,w,VX,VwX] 00u / [1,%%] _ [3+S,%%+S], S=[{tn}], V=[{aui}],
X=[{aui}]
[V2V,y,VX,VyX] 00i / [1,%%] _ [3+S,%%+S], S=[{tn}], V=[{aui}],
X=[{aui}]
[VV,V] 0 / _ [2V3,%X,%,%A0], X=[{wy}], V=[{aui}]
[VV,V] 0 / _ [2V3,%X,%,%Y0], X=[{wy}], V=[{aui}]
[2,wW] w

149
accompli inaccompli
1S qult nquwl
1P qulnA nquwluwA
2MS qult tquwl
2FS qultiy tquwliy
2P qultuwA tquwluwA
3MS qAl yquwl
3FS qAlit tquwl
3P qAluwA yquwluwA

Table .16.: Flexion des verbes creux

Verbes assimils (wSul "arriver")


Rgles morpho-phonmiques de verbes assimils
[V1,w,X,Xw] uw / [+,+] _ , X=[VOWEL]
[V1,y,X,Xy] iy / [+,+] _ , X=[VOWEL]

accompli inaccompli
1S wSilt nuwSil
1P wSilnA nuwSluwA
2MS wSilt tuwSil
2FS wSiltiy tuwSliy
2P madiytuwA tmiduwA
3MS wSil yuwSil
3FS wiSlit tuwSil
3P wiSluwA yuwSluwA

Table .17.: Flexion des verbes assimils

Verbes hamzs
Rgles morpho-phonmiques de verbes hamzs
[V1,,X,X] A0 / [+,+] _, X=[aui]
[V1,,X,X] A0 / [+tV%,+t%] _, X=[{aui}]
[V3,,X,0] A0 / _ [+S,+S], X=[{aui}], S=[{0iuU}]
[V3,,X,X] A0 / _ [+S,+S], X=[{aui}], S=[{0iuU}]
[VV,V] 0 / _ [2V3,%X,%,%A0], X=[{}], V=[{aui}]
[V3,,X,X] I0 / _ [+S,+S], X=[{aui}], S=[{tn}]
[VV,V] 0 / _ [2V3,%X,%,%I0], X=[{}], V=[aui]
[3,] 0 / [V%,I] _
[S,S] 0 / [V3+,X,V,%%+] _, S=[{ui}], X=[{}], V=[{aui}]

150
hamza dans la premire lettre de la racine (kla "manger")

accompli inaccompli
1S kliyt nAkil
1P kliynA nAkluwA
2MS kliyt tAkil
2FS kliytiy tAkliy
2P kliytuwA tAkluwA
3MS kl yAkil
3FS klAt tAkil
3P klAwA yAkluwA

Table .18.: Flexion des verbes contenant une hamza dans la premire radicale

hamza dans la troisime radicale (bdA "commencer")

accompli inaccompli
1S bdiyt nabdA
1P bdiynA nabdAwA
2MS bdiyt tabdA
2FS bdiytiy tabdiy
2P bdiytuwA tabdAwA
3MS bdA yabdA
3FS bdAt tabdA
3P bdAwA yabdAwA

Table .19.: Flexion des verbes contenant une hamza dans la troisime radicale

Verbes redoubls (mad "tendre")


Rgles morpho-phonmiques des verbes redoubls
[3,XX] X / [V2V,X,%%,%%%] _, X=[CONSONANT]
[3,XX] X / [12V,%X,%,%%%] _, X=[CONSONANT]
[VV,V] 0 / _ [12V3,%%%,%,%%%X], V=[{aui}]
[VV,V] 0 / _ [3,%X] , V=[SHORTVOWEL]
[2V,X,V,X0] VX / [1,%%] _ [3,XX], V=[SHORTVOWEL],
X=[CONSONANT]
[+,+] I / [3,XX] _ [S,S], S=[{tn}], X=[CONSONANT]
[3,XX] X
Rgles orthographiques des verbes redoubls
[2V,X,V,VX,00] VX, V=[VOWEL], X=[CONSONANT]
[+,I,0] I

151
accompli inaccompli
1S madiyt nmid
1P madiynA nmiduwA
2MS madiyt tmid
2FS madiytiy tmidiy
2P madiytuwA tmiduwA
3MS mad ymid
3FS madit tmid
3P maduwA ymiduwA

Table .20.: Flexion des verbes redoubls

Verbes de la forme IX (HmAr "rougir")


Rgles morpho-phonmiques de verbes de la forme IX
[AVu,Au] 0u / _ [3+S,%%+S], S=[{tn}]
[AVu,Au] A0 / _ [3+Z,%%+Z], Z=[{0iuU}]

accompli inaccompli
1S Hmurt niHmAr
1P HmurnA niHmAruwA
2MS Hmurt tiHmAr
2FS Hmurtiy tiHmAriy
2P HmurtuwA tiHmAruwA
3MS HmAr yiHmAr
3FS HmArit tiHmAr
3P HmAruwA yiHmAruwA

Table .21.: Flexion des verbes de la forme IX

152
B. Liste des verbes issus de racines tun
1. gzr 12a3 = gzar "regarder"
2. nqb 12a3 = nqab "percer"
3. rkH 12a3 = rkaH "se calmer"
4. rAD 12a3 = rAD "se calmer"
5. Sdm 12u3 = Sdum "attaquer"
6. lqf 12i3 = lqif "attraper"
7. cwf 12u3 = cAf "voir"
8. jbd 12i3 = jbid "tirer"
9. qdm 12i3 = qdim "mordre"
10. nqz 1a22i3 = naqqiz "sauter"
11. gTs 12u3 = gTus "plonger"
12. Srf 12a3 = Sruf "dpenser"
13. Hm 12i3 = Him "intimider"
14. r 12u3 = ru "trembler"
15. sxf 12i3 = sxif "avoir piti"
16. skr 1a22i3 = sakkir "fermer"
17. nzl 1a2i3 = nzil "appuyer"
18. nn Aista1a2a3 = Aistanna "attendre"
19. bk 12i3 = bki "devenir muet"
20. Hbs 12a3 = Hbas "isoler"
21. rqd 12a3 = rqad "dormir"
22. Sbb 12a3 = Sabb "verser"
23. lHlH 1a23a4 = laHlaH "insister"
24. blbz 1a23i4 = balbiz "dfaire"
25. lnsy 1a23a4 = lansa "lancer"
26. frhd 1a23i4 = farhid "amuser"
27. fdd 12a3 = fadd "sennuyer"
28. ss 12a3 = ass "surveiller"
29. lzz 12a3 = lazz "obliger"
30. mss 12a3 = mass "toucher"
31. sdd 12a3 = sadd "bloquer"
32. lmd 1a22i3 = lammid "rassembler"

153
33. bTl 1a22i3 = baTTil "suspendre"
34. lwj 1a22i3 = lawwij "chercher"
35. frks 1a23i4 = farkis "chercher"
36. njm 1a22i3 = najjim "pouvoir"
37. hzz 12a3 = hazz "emporter"
38. dzz 12a3 = dazz "pousser"
39. jyb 12a3 = jAb "ramener"
40. TyH 12a3 = TAH "tomber"
41. yx 12a3 = Ax "jouir"
42. wly 1a22a3 = walla "devenir"
43. xly 1a22a3 = xalla "laisser"
44. fyD 12a3 = fAD "dborder"
45. msmr t1a23i4 = tmasmir "se fixer"
46. xlS 1a22i3 = xalliS "rembourser"
47. wm 12a3 = Am "se baigner"
48. fwH 1a22a3 = fawwaH "picer"
49. kHH 12a3 = kaHH "tousser"
50. HSl 1a22i3 = HaSSil "tromper"
51. fs 12a3 = fas "fouler"
52. T 12u3 = Tu "avoir soif "
53. Hqr 12a3 = Hqar "mpriser"
54. wlm 1A2i3 = wAlim "adapter"
55. bzq 12a3 = bzaq "cracher"
56. srH 12a3 = sraH "rver"
57. bH 12a3 = baH "gorger"
58. fDH 12a3 = fDaH "diffuser"
59. ssy 1A2a3 = sAsa "mendier"
60. br 12a3 = brA "gurir"
61. Tyb 1a22i3 = Tayyib "prparer"
62. Hws 1a22i3 = Hawwis "se promener"
63. 1a22i3 = ai "nerver"
64. tlf 1a22i3 = tallif "ngliger"
65. syb 1a22i3 = sayyib "laisser"

154
66. sys 1A2i3 = sAyis "aider"
67. Hm 1a22i3 = Hammi "provoquer"
68. y 1a22a3 = ayya "emmener"
69. Ty 1a22i3 = Tayyi "jeter"
70. bnj 1a22i3 = bannij "anesthsier"
71. xb 1a22i3 = xabbi "griffer"
72. nHy 1a22a3 = naHHa "enlever"
73. kb 1a22i3 = kabbi "sattacher"
74. yT 1a22i3 = ayyiT "crier"
75. qrr 1a22i3 = qarrir "insister"
76. wxr 1a22i3 = waxxir "reculer"
77. xlT 12a3 = xlaT "rattraper"
78. lT 12a3 = gluT "se tromper"
79. SHH 1a22a3 = SaHHaH "signer"
80. zrq 1a22a3 = zarraq "vacciner"
81. slf 1a22i3 = sallif "prter"
82. bws 12a3 = bAs "embrasser"
83. qbH t1a22a3 = tqabbaH "affecter"
84. msx t1a22a3 = tmassax "se salir"
85. rD 12u3 = ruD "rencontrer"
86. rtH 1a22a3 = rattaH "reposer"
87. xmj 12i3 = xmij "primer"
88. tH 12a3 = taH "danser"
89. dls 1a22i3 = dallis "falsifier"
90. Db 1a22a3 = Dabba "devenir fou"
91. rwm 1a22i3 = rawwim "dompter"
92. zrb 12i3 = zrib "dpcher"
93. tb 1a22i3 = attib "franchir"
94. fj 12a3 = fja "effrayer"

155
C. Table de dverbaux tun-msa

schme verbal type de dverbal schme nominal


msa tun
participe actif 1A2i3 1A2i3 / 1A2a3
participe passif ma12uw3 ma12uw3
forme infinitive 1a23 / 1u23/ 1i23 1a23 / 1u23/ 1i23
1a2A3a~ 12iy3a~
nom du lieu ma12a3 ma12i3 / 1u23a~
ma1A2i3 m1A2i3
I nom du temps ma12i3 mu12u3
nom doutil mi12A3 / ma1A2iy3 mi12A3 / m1A2a3
adjectif analogue 1a2iy3 12iy3
adjectif comparatif a12a3 a12i3 / a12a3
forme exagre 1a22A3 1a22A3
participe actif mu1a22i3 m1a22i3
II participe passif mu1a22a3 m1a22i3
forme infinitive ta12iy3 ta12iy3
adjectif analogue 1a22A3 1a22A3
participe actif mu1A2i3 m1A2i3
III participe passif mu1A2a3 m1A2i3
forme infinitive mu1A2a3a~ 12A3 / mu1A2a3a~
participe actif mu12i3 mu12i3
IV participe passif mu12a3 mu12i3 / mu12a3
forme infinitive Ai12A3 Ai12A3
participe actif muta1a22i3 mit1a22i3
V participe passif muta1a22a3 mit1a22i3
forme infinitive ta1a22u3 1a2A3 / ta1a22u3
participe actif muta1A2i3 mit1A2i3
VI participe passif muta1A2a3 mit1A2i3
forme infinitive ta1A2u3 ta1A2i3
participe actif mun1a2i3 mun1a2i3
V II participe passif mun1a2a3 mun1a2i3
forme infinitive Ain1i2A3 Ain1i2A3
participe actif mu1ta2i3 mu1ta2a3
V III participe passif mu1ta2a3 mu1ta2a3
forme infinitive Ai1ti2A3 Ai1ti2A3

156
schme verbal type de dverbal schme nominal
msa tun
participe actif mu12a33 mi12A3
IX participe passif mu12a33 mi12A3
forme infinitive Ai12i3A3 12uw3iyya~
participe actif musta12i3 musta12i3
X participe passif musta12a3 musta12i3
forme infinitive Aisti12A3 Aisti12A3
participe actif mu1a23i4 1a23A4
Q participe passif mu1a23a4 m1a23i4
forme infinitive 1a23a4a~ 1a2i34a~
participe actif muta1a23i4 mit1a23i4
QI participe passif muta1a23a4 mit1a23i4
forme infinitive ta1a23u4 t1a23iy4

157
Mes publications

2015Ahmed Hamdi, Alexis Nasr, Nizar Habash, Nria Gala


POS-tagging of Tunisian Dialect Using Standard Arabic Resources and Tools
Workshop on Arabic Natural Language Processing
Annual Meeting of the Association for Computational Linguistics (ACL), Pkin, Chine

2014Ahmed Hamdi, Nria Gala, Alexis Nasr


Building a Tunisian Lexicon for Deverbal Nouns
Applying NLP Tools to Similar Languages, Varieties and Dialects (VarDial) Workshop
International Conference on Computational Linguistics (COLING), Dublin, Irlande

2013Ahmed Hamdi, Rahma Boujelbane, Nizar Habash, Alexis Nasr


The Effects of Factorizing Root and Pattern Mapping in Bidirectional
Tunisian - Standard Arabic Machine Translation
MT Summit, Nice, France

Ahmed Hamdi, Rahma Boujelbane, Nizar Habash, Alexis Nasr


Un systme de traduction de verbes entre arabe standard et arabe
dialectal par analyse morphologique profonde
Traitement Automatique des Langues Naturelles (TALN), Les Sables dOlonnes, France

2012Ahmed Hamdi
Apport de la diacritisation dans lanalyse morphosyntaxique de larabe
Rencontre des tudiants Chercheurs en Informatique
pour le Traitement Automatique des Langues (RECITAL), Grenoble, France

158