Académique Documents
Professionnel Documents
Culture Documents
Lamia Belguith Hadrich (1), Leïla Baccour (1), Ghassan Mourad (2)
Résumé Nous présentons dans cet article un système de segmentation de textes arabes non
voyellés basé sur l’analyse contextuelle des signes de ponctuations et de certaines particules,
tels que les conjonctions de coordination. STAr accepte en entrée un texte arabe en format txt
et génère en sortie un texte segmenté en paragraphes et en phrases. La conception de STAr
s’est basée sur un corpus réel contenant divers types de texte et son implémentation est
réalisée avec le langage Perl, en appliquant les expressions rationnelles.
Abstract We present in this paper a tokenizer for non-vowelled Arabic texts based on a
contextual analysis of the punctuation marks and a list of particles, such as the coordination
conjunctions. The input of STAr is an Arabic text (in .txt format) and its output is a
segmented text in paragraphs and sentences. The conception of STAr is based on a real
corpus of different types of texts and its implementation is done with Perl programming
language using the regular expressions.
Lamia Belguith Hadrich, Leïla Baccour et Ghassan Mourad
1 Introduction
L’évolution des nouvelles technologiques de l’information et de la communication a poussé
les industriels à investir dans le domaine du Traitement Automatique des Langues Naturelles
(TALN). Ainsi, la production de logiciels traitant le TALN est devenue une vraie industrie.
Tous ces facteurs ont conduit les chercheurs vers une finalité et une phase de production et
d’aboutissement à des résultats efficaces en se basant sur des corpus de textes très
volumineux.
Pour la plupart des applications de traitement automatique des langues naturelles (e.g.,
l’analyse de texte, l’extraction d’information, le résumé automatique) la segmentation devient
une phase importante pour repérer les segments contenant les informations recherchées. Ainsi
par exemple, commencer une analyse d’un texte sans le segmenter en phrases conduit à des
résultats peu fiables; de même, avoir un mauvais segmenteur conduit à accumuler les erreurs
du traitement automatique du texte (Mourad, 2001).
Dans ce qui suit, nous présentons un bref aperçu des méthodes de segmentation. Ensuite, nous
détaillons les ambiguïtés et les difficultés rencontrées lors de la segmentation des textes
arabes. Nous décrivons, ensuite, notre approche de segmentation de textes arabes. Après,
nous présentons la réalisation du système STAr à travers un exemple d’exécution. Enfin,
nous présentons l’évaluation de STAr et nous discutons les résultats obtenus.
Pour l’arabe, il y a peu de travaux sur la segmentation de textes arabes et il n’existe pas des
segmenteurs fonctionnels et spécifiques à l’arabe.
Dans ce qui suit nous présentons quelque segmenteurs pour le français et l’anglais.
• Le segmenteur SATZ (Palmer, Hearst, 1994) des textes anglais qui utilise les
catégories lexicales au voisinage des signes de ponctuation et applique une méthode
d’apprentissage en utilisant les réseaux de neurones.
• Le système SegATex (Mourad, 2001), un segmenteur des textes français qui conçoit
des règles de segmentation en étudiant les voisinages des signes de ponctuation et
STAr : un système de Segmentation de Textes Arabes basé sur l’analyse contextuelle des
signes de ponctuations et de certaines particules
des marques typographiques en appliquant la méthode d’exploration contextuelle
(DESCLES, 1997).
• L’ambiguïté vocalique des mots : un texte arabe non voyellé est fortement ambigu.
La proportion des mots ambigus passe à plus de 90% si les comptages portent sur les
voyellations globales (lexicales et casuelles) de ces mots (DEBILI, ACHOUR,
SOUISSI, 2002). Ainsi, un mot dépourvu de voyelles peut être ambigu et par
conséquent peut avoir plusieurs caractéristiques morphologiques possibles (Chaâben,
Belguith, 2003). Par exemple le mot " "فھمpeut représenter un nom « fahmon »
(compréhension) ou un verbe « fahima » (il a compris), ou encore un pronom
personnel précédé d’une conjonction de coordination « fā hom » (alors ils).
La plupart des mots arabes sont dérivés à partir de racines trilitères ou quadrilitères.
Le mot arabe n'est pas le résultat d'une simple concaténation de morphèmes comme
c'est le cas pour l'anglais mais c'est à partir d'une racine, d'une combinaison de
voyelles, de préfixes, d'infixes, de suffixes et d’un schème morphologique qu'on
obtient un mot (Beesley, 1996).
Exemple : Le mot "( "يتأثـّرونils s’influent) est la combinaison de la racine " " أثرdu
préfixe " "يتde l'infixe " ّ " et du suffixe ""ون. Le schème étant ""يتفعّلون.
Cette richesse au niveau de la morphologie arabe entraîne des difficultés pour la
segmentation automatique en phrases. En effet, l’identification de la catégorie
grammaticale de certains mots devient ambiguë surtout lorsqu’il s’agit d’un mot non
voyellé (i.e. pour la racine ""رجع, nous avons la forme dérivée " "راجعqui peut
désigner un verbe "اج َع َ (il a révisé) ou un adjectif "اج ٌع
َ "ر ِ ( " َرil est de retour)).
rôle pausale et par conséquent la segmentation de textes arabes ne peut pas se baser
uniquement sur ces signes de ponctuation. Ainsi, nous pouvons trouver tout un
paragraphe arabe ne contenant aucun signe de ponctuation à part un point à la fin de
ce paragraphe. En effet, en arabe la séparation entre phrases peut se faire par
certaines particules (e.g., les conjonctions de coordinations, tels que "( "وwaw), ""ف
(fā)) qui peuvent jouer le rôle de frontières entre phrases. Par exemple, l’énoncé
suivant représente deux phrases séparées par la conjonction "( "وwaw).
أوقـفــت الطّـبـيـبة آلـتھا وأعـادتھا إلى موضـعھا بكلّ عـنـاية
Le médecin a arrêté son appareil et l’a rendu à sa place avec toute précaution.
• L’utilisation des mots connecteurs : certains mots connecteurs tels que ""حتّى
(hattā), peuvent jouer le rôle d’un séparateur de phrases. C’est le cas de l’énoncé
suivant :
كانت الح ّمى قد فارقت الطّفل.. الليل حتّ ◌ّ ى إذا ما طلع ال ّنھار
ّ فقد بات بجانب صديقه الصّ غير ساھرا طول
المريض
Il a passé toute la nuit éveillé à côté de son petit ami et lorsque le jour s’élève… la
fièvre avait quitté l’enfant malade.
Notons que le mot "( "حتّىhattā) qui marque le début d’une nouvelle phrase dans
cet exemple, peut ne pas jouer le même rôle de « séparateur de phrases » dans
d’autres cas. Par exemple, dans l’énoncé : " ( " ووقف حذوه يحرسه حتّى أتى أبوه وعرفهet il
est resté près de lui en le surveillant jusqu’à ce que son père vienne et le reconnaître),
il s’agit d’une seule phrase et le mot "( "حتّىhattā) représente un complément
circonstanciel de temps.
Ainsi, il est clair que la segmentation de textes arabes est une tâche non triviale et ne
peut pas se fier aux signes de ponctuation. En effet, les mots connecteurs (i.e., ""حتّى
(hattā),"( "بلbal), etc.) ainsi que certaines particules (e.g., les conjonctions de
coordinations "( "وet) et "( "فdonc)) jouent un rôle important dans la segmentation
en phrases. De plus, l’étude du voisinage de ces mots s’avère nécessaire pour
désambiguïser les frontières des phrases.
Afin de segmenter les textes arabes et pour désambiguïser les frontières des phrases, nous
proposons d’utiliser la méthode d’exploration contextuelle pour étudier le contexte droit et le
contexte gauche de chaque mot ou particule pouvant jouer le rôle de séparateur de phrases.
Pour ce faire et afin de dégager les indices déclencheurs et les indices complémentaires
associés, nous avons étudié un corpus réel de textes de différents types. Ce corpus est
composé de 279 textes répartis sur quatre livres de l’enseignement primaire et de
l’enseignement de base tunisiens (voir figure 1).
Ce corpus a été segmenté manuellement par des linguistes qui ont inséré des balises de fin de
phrase et de fin de paragraphes.
L’étude de ce corpus segmenté nous a permis de concevoir des règles de segmentation
permettant de désambiguïser les frontières des phrases.
Nous présentons dans la section suivante le format de ces règles ainsi que des exemples de
règles relatifs aux signes de ponctuation, aux conjonctions de coordinations et aux mots
connecteurs.
• soit d’insérer les marques de fin de phrase (</ )>جet le début d’une nouvelle phrase
suivante (<)>ج
• soit de ne pas insérer ces marques et de considérer l’énoncé analysé en tant qu’un
segment unique.
Lamia Belguith Hadrich, Leïla Baccour et Ghassan Mourad
Les règles de segmentation que nous avons conçues peuvent être classées en trois principales
classes relatives aux trois types de marqueurs déclencheurs à savoir les signes de ponctuation,
les particules et les mots connecteurs (Baccour, Mourad, Belguith Hadrich, 2003), (Baccour,
2004).
Nous présentons dans ce qui suit trois exemples de règles correspondants aux trois types de
marqueurs déclencheurs.
Les signes de ponctuation traités sont : le point, la virgule, le point virgule, les points
de suspension, le point d’exclamation, le point d’interrogation et les deux points.
Considérons par exemple le cas de la virgule qui représente généralement une fin de
phrase lorsqu’elle est suivie d’un espace, suivi d’un verbe qui peut être précédé
d’une conjonction de coordination ("( "وwaw), "( "فfā), "( "ث ّمtumma)). Cependant, il
y a plusieurs exceptions où la virgule ne marque pas la fin d’une phrase. C’est le cas
de l’énoncé suivant :
Notons que cette règle est appliquée si "( "وwaw) est suivie de l’un des pronoms
ّ " ," "لكم," "لھما,"لھن
relatifs: "لكن ّ " ," "لھم," "لھا,""له,""لي
Plusieurs mots peuvent jouer le rôle de frontière entre phrases. Nous citons par
exemple les mots "( "بلbal), "( "بينماbaynamā), "‘( "إذid).
SI "( " بلbal) est suivi d’un verbe ou d’un pronom personnel
...،" ھو،"( "ھيhya, huwa, …) ou de "( "قدqad) ou de "( "كثيراkatiran)
ALORS "( " بلbal) marque une nouvelle phrase.
Ainsi l’énoncé suivant sera segmenté en deux phrases :
بل قد، ويدور في خلدي * أنّ ھذه النّحلة الّتي على السّاعة المشدودة إلى معصمي قد ال تكون غريبة عنّي
.تكون ذات أفضال علي
Et je pensais que cette abeille qui est sur la montre attachée à mon poignet peut ne
pas être inconnue pour mois, mais peut m’avoir fourni des services.
Comme nous l’avons indiqué dans la section précédente, nous avons conçu un ensemble de
règles pour les marqueurs déclencheurs. Pour l’application des expressions rationnelles, nous
avons formulé nos règles en fonction d’un ensemble de motifs. Ainsi, nous avons déterminé
pour chaque signe de ponctuation, chaque conjonction de coordination (("( "وwaw), "( "فfā),
"( "ث ّمtumma)) ainsi que pour les mots connecteurs, une liste correspondante de motifs
permettant d’identifier les frontières des phrases (Baccour, 2004).
Afin de présenter l’interface de STAr, nous présentons dans ce qui suit un exemple de son
exécution.
La figure suivante montre un texte segmenté par STAr. Dans le premier éditeur, figure le
texte source (texte à segmenter de type .txt) et dans le deuxième éditeur figure le texte
segmenté par STAr.
1
Un motif défini les indices à chercher avant ou après les marqueurs déclencheurs. Il peut être formé d’un
mot ou d’un ensemble de mots sous forme d’une expression booléenne
Lamia Belguith Hadrich, Leïla Baccour et Ghassan Mourad
6 Evaluation de STAr
La première évaluation du système STAr a été réalisée sur deux corpus d’évaluation
différents de ceux utilisés pour la conception de ses règles (voir figure 4). Notre objectif étant
de permettre une évaluation objective et non influencée par le corpus de conception. Le
premier corpus d’évaluation représente un livre pour l’enseignement primaire tunisien
composé de 78 textes et un livre pour l’enseignement de base tunisien composé de 66 textes
tandis que le deuxième corpus d’évaluation représente une collection de 60 articles de
journaux traitant divers thèmes.
Corpus Nombre de textes Nombre de paragraphes Nombre de mots
Livre de 4ème année primaire 78 747 15 904
Livre de 9ème année de base 66 244 24 439
Total 144 991 40 343
Articles de journaux 60 510 38 062
Figure 4 : Corpus d’évaluation de STAr
Pour l’évaluation de STAr nous avons procédé au calcul des mesures de complétudes « R :
Recall » et de précision « P : Precision » (voir figure 5).
Corpus Rappel Précision
Livres 88.26% 80.65%
Articles de journaux 75.81% 65.66%
Figure 5 : Les mesures de rappel et de précision obtenues pour les deux corpus d’évaluation
STAr : un système de Segmentation de Textes Arabes basé sur l’analyse contextuelle des
signes de ponctuations et de certaines particules
Nous remarquons que les mesures de rappel et de précision obtenues pour le premier corpus
sont meilleurs que ceux trouvés pour le deuxième corpus. Ceci s’explique par le fait que les
articles de journaux contiennent des erreurs typographiques (i.e. insertion d’un espace après
la conjonction de coordination "( "وwaw), omission de la lettre "‘( "ال ّش ّدةchadda), des
constructions erronées, etc.) qui augmente le taux d’erreur au niveau de la segmentation en
mots, de l’identification de la catégorie grammaticale des mots et par conséquent le taux
d’erreur au niveau de la segmentation en phrases augmente.
Par ailleurs, notons qu’à l’état actuel, STAr ne dispose pas d’un analyseur morphologique
permettant de reconnaître la catégorie grammaticale des mots, mais utilise un certain nombre
de règles d’analyse de surface pour distinguer entre les verbes et les noms. Ainsi, une erreur
au niveau de l’identification de ces informations morphologiques entraîne des erreurs au
niveau de segmentation.
Afin d’éviter ce genre d’erreur et pour diminuer au maximum les cas d’échec de
segmentation, STAr est intégré dans le système MASPAR (Multi Agent System for Parsing
Arabic) d’analyse de textes arabes non voyellés (Aloulou, Belguith, Ben Hamadou, 2000),
(Aloulou, Belguith, Hadj Kacem, Ben Hamadou, 2004). Ce système est composé de 5 agents
(segmentation, morphologie, syntaxe, ellipse, anaphore) (Aloulou, Belguith, Hadj Kacem,
Hammami, 2003). Ainsi STAr est intégré dans MASPAR en tant qu’agent pour la
segmentation de textes en phrases et pourrait collaborer avec l’agent morphologie2.
7 Conclusion et perspectives
Dans ce papier nous avons présenté le système STAr de segmentation de textes arabes. Pour
la désambiguïsation des frontières des phrases, STAr se base sur une méthode d’analyse
contextuelle des signes de ponctuation, de certaines particules et certains mots connecteurs
entre phrases.
La conception de STAr s’est basé sur l’étude d’un corpus réel de textes de différents types et
a permis de dégager 183 règles pour la segmentation de textes en phrases.
La première évaluation de STAr est réalisée sur deux corpus différents et les résultats obtenus
sont encourageants. Ainsi pour des textes ne contenant pas d’erreurs typographiques (premier
corpus d’évaluation), les mesures de rappel et de précision sont respectivement de 88.26%et
80.65%.
STAr est actuellement intégré dans un système général : le système MASPAR qui représente
un système multi-agent pour l’analyse de textes arabes. STAr est intégré en tant qu’agent
dans MASPAR et par conséquent il pourrait collaborer avec les autres agents afin d’améliorer
ses performances.
Comme perspectives, nous comptons ajouter des nouvelles règles pour la segmentation
d’articles de journaux et l’étude de la segmentation dans d’autres types de textes tels que les
pages Web.
2
Cet agent a pour objectif de déterminer pour chaque mot, la liste de ses catégories morphologiques :
catégorie grammaticale, genre, nombre, temps, personne, etc.
Lamia Belguith Hadrich, Leïla Baccour et Ghassan Mourad
Références
Aloulou C., Belguith Hadrich L., Hadj Kacem A., Ben Hamadou A., (2004), Conception et
développement du système MASPAR d’analyse de l’Arabe selon une approche agent, 14ème
Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence
Artificielle, du 28 au 30 janvier 2004 à Toulouse - France.
Aloulou C., Belguith Hadrich L., Ben Hamadou A., (2000), Vers un système d’analyse
syntaxique robuste pour l’Arabe: Application au recouvrement des erreurs de la
reconnaissance, 7ème conférence sur le Traitement Automatique des Langues Naturelles
(TALN’2000), 16 – 18 octobre 2000, Lausanne, SUISSE.
Blachère R., Gaudefroy-Demombynes M. (1975), Grammaire de l'arabe classique, Éditions
Maisonneuve & Larose 15, rue Victor-cousin 75005 Paris.
Beesley K. (1996), Arabic Finite-State Morphological Analysis and Generation; COLING96,
Vol. 1, pages 89-94.
Belguith Hadrich L. (1999), Traitement des erreurs d'accord de l'Arabe basé sur une analyse
syntagmatique étendue pour la vérification et une analyse multicritères pour la correction,
Thèse de doctorat en informatique, Faculté des Sciences de Tunis.
Baccour L., Mourad G., Belguith Hadrich L. (2003), Segmentation de textes arabes en
phrases basée sur les signes de ponctuation et les mots connecteurs, troisième journées
scientifiques des jeunes chercheurs en génie électrique et informatique, du 25-27 mars,
Mahdia, Tunisie.
Baccour L., (2004), Conception et réalisation d’un système de segmentation de textes arabes
non voyellés, Mémoire de mastère en informatique : Système d’informations et nouvelles
technologies, Faculté des sciences économique et de gestion, Sfax, Tunisie.
Chaâben N., Belguith Hadrich L (2003), L'étiquetage morpho-syntaxique: Comment lever
l'ambiguïté dans les textes arabes non voyellés ?, troisième journées scientifiques des jeunes
chercheurs en génie électrique et informatique, du 25-27 mars, Mahdia, Tunisie.
Descles J.-P., (1997), Systèmes d'exploration contextuelle. Co-texte et calcul du sens. , éd.
Claude Guimier, Presses Universitaires de Caen, pp. 215-232.
Debili F., Achour H., Souissi E. (2002), La langue arabe et l’ordinateur, de l’étiquetage
grammatical à la voyellation automatique, Correspondances n° 71 juillet-août 2002.
Hammami S., Aloulou C., Belguith Hadrich L., Hadj Kacem A. (2003), Implémentation du
système MASPAR selon une approche multi-agent, IWPT’03 (International Workshop on
Parsing Technologies), 23-25 avril 2003, Nancy, France.
Mourad G. (2001), Analyse informatique de signes typographiques pour la segmentation de
textes et l’extraction automatique des citations, Thèse de doctorat en informatique
linguistique, université de Paris - Sorbonne.
Palmer D., Hearst M. (1994), Adaptive sentence boundary disambiguation, Report No.
UCB/CSD 94/797, Computer Science Division (EECS), University of California, Berkeley,
California 94720.
Silberztein M. (1993), Dictionnaires électroniques et analyse automatique de textes, Le
système INTEX, PARIS, MASSON.