STAr Un Système de Segmentation de Textes Arabes Basé Sur L'analyse Contextuelle Des Signes de Ponctuations Et de Certaines Particules

TALN 2005, Dourdan, 6-10 juin 2005
STAr : un Système de Segmentation de Textes Arabes

basé sur l’analyse contextuelle des signes de ponctuations et de
certaines particules
Lamia Belguith Hadrich (1), Leïla Baccour (1), Ghassan Mourad (2)
(1) Laboratoire LARIS - Faculté des Sciences Economiques et de Gestion

B.P. 1088, 3018 - Sfax – Tunisie
l.belguith@fsegs.rnu.tn
Leila_freind@techemail.com
(2) Laboratoire LaLICC
96, boulevard Raspail, 75 006 Paris- France
ghassan.mourad@paris4.sorbonne.fr
Mots clés : Segmenteur de textes arabes, segmentation en paragraphes, segmentation en

phrases, exploration contextuelle, expressions rationnelles.
Keywords: Arabic text Tokenizer, paragraph tokenization, sentence tokenization,

contextual exploration, regular expressions.
Résumé Nous présentons dans cet article un système de segmentation de textes arabes non
voyellés basé sur l’analyse contextuelle des signes de ponctuations et de certaines particules,
tels que les conjonctions de coordination. STAr accepte en entrée un texte arabe en format txt
et génère en sortie un texte segmenté en paragraphes et en phrases. La conception de STAr
s’est basée sur un corpus réel contenant divers types de texte et son implémentation est
réalisée avec le langage Perl, en appliquant les expressions rationnelles.
Abstract We present in this paper a tokenizer for non-vowelled Arabic texts based on a
contextual analysis of the punctuation marks and a list of particles, such as the coordination
conjunctions. The input of STAr is an Arabic text (in .txt format) and its output is a
segmented text in paragraphs and sentences. The conception of STAr is based on a real
corpus of different types of texts and its implementation is done with Perl programming
language using the regular expressions.
Lamia Belguith Hadrich, Leïla Baccour et Ghassan Mourad
1 Introduction
L’évolution des nouvelles technologiques de l’information et de la communication a poussé
les industriels à investir dans le domaine du Traitement Automatique des Langues Naturelles
(TALN). Ainsi, la production de logiciels traitant le TALN est devenue une vraie industrie.
Tous ces facteurs ont conduit les chercheurs vers une finalité et une phase de production et
d’aboutissement à des résultats efficaces en se basant sur des corpus de textes très
volumineux.
Pour la plupart des applications de traitement automatique des langues naturelles (e.g.,
l’analyse de texte, l’extraction d’information, le résumé automatique) la segmentation devient
une phase importante pour repérer les segments contenant les informations recherchées. Ainsi
par exemple, commencer une analyse d’un texte sans le segmenter en phrases conduit à des
résultats peu fiables; de même, avoir un mauvais segmenteur conduit à accumuler les erreurs
du traitement automatique du texte (Mourad, 2001).
La segmentation consiste à désambiguïser les frontières des phrases et des paragraphes et se

base généralement sur un ensemble de règles de segmentation. C’est une phase non triviale
pour toute application en TALN. En effet, segmenter un texte nécessite le repérage des
frontières formelles marquées par des signes typographiques. Par ailleurs, dans les textes
arabes actuels, les signes de ponctuation ne sont pas très utilisés et dans le cas où ils y
figurent, ils ne sont pas gérés par des règles d'utilisation. De plus, d'après l'observation de
corpus, nous avons constaté que certaines particules (e.g., "‫( "و‬et), "‫( "ف‬donc)) jouent un rôle
principal dans la séparation de phrases.
Dans ce qui suit, nous présentons un bref aperçu des méthodes de segmentation. Ensuite, nous
détaillons les ambiguïtés et les difficultés rencontrées lors de la segmentation des textes
arabes. Nous décrivons, ensuite, notre approche de segmentation de textes arabes. Après,
nous présentons la réalisation du système STAr à travers un exemple d’exécution. Enfin,
nous présentons l’évaluation de STAr et nous discutons les résultats obtenus.
2 Un Bref aperçu sur les travaux de segmentation

Les travaux sur la segmentation ne sont pas nombreux. Pour certaines langues latines, ils
existent des segmenteurs fonctionnels.
Pour l’arabe, il y a peu de travaux sur la segmentation de textes arabes et il n’existe pas des
segmenteurs fonctionnels et spécifiques à l’arabe.
Dans ce qui suit nous présentons quelque segmenteurs pour le français et l’anglais.
• Le segmenteur INTEX (Silberztein, 93) qui utilise un transducteur pour découper un

texte français en phrases en s’appuyant sur les signes de ponctuation.
• Le segmenteur SATZ (Palmer, Hearst, 1994) des textes anglais qui utilise les
catégories lexicales au voisinage des signes de ponctuation et applique une méthode
d’apprentissage en utilisant les réseaux de neurones.
• Le système SegATex (Mourad, 2001), un segmenteur des textes français qui conçoit
des règles de segmentation en étudiant les voisinages des signes de ponctuation et
STAr : un système de Segmentation de Textes Arabes basé sur l’analyse contextuelle des
signes de ponctuations et de certaines particules
des marques typographiques en appliquant la méthode d’exploration contextuelle
(DESCLES, 1997).
3 La segmentation de textes arabes : particularités et difficultés

La segmentation automatique de textes arabes présente plusieurs difficultés spécifiques à la
langue arabe. Nous présentons dans ce qui suit certaines de ces difficultés qui rendent la
segmentation une tâche ardue, et difficile à réaliser sans une étude linguistique approfondie
sur un corpus à large couverture.
• L’ambiguïté vocalique des mots : un texte arabe non voyellé est fortement ambigu.
La proportion des mots ambigus passe à plus de 90% si les comptages portent sur les
voyellations globales (lexicales et casuelles) de ces mots (DEBILI, ACHOUR,
SOUISSI, 2002). Ainsi, un mot dépourvu de voyelles peut être ambigu et par
conséquent peut avoir plusieurs caractéristiques morphologiques possibles (Chaâben,
Belguith, 2003). Par exemple le mot "‫ "فھم‬peut représenter un nom « fahmon »
(compréhension) ou un verbe « fahima » (il a compris), ou encore un pronom
personnel précédé d’une conjonction de coordination « fā hom » (alors ils).
• L’ambiguïté dérivationelle : l’arabe possède des formes dérivées du verbe par

modification des voyelles, par dédoublement de la deuxième radicale, par adjonction
et même par intercalation d’affixes. Ce système très précis et très délicat, concourt à
donner à l’arabe la richesse de ses verbes, celle aussi des noms abstraits qui en sont
formés, les masdar (Blachere, Gaudefroy-Demombynes, 1975).
La plupart des mots arabes sont dérivés à partir de racines trilitères ou quadrilitères.
Le mot arabe n'est pas le résultat d'une simple concaténation de morphèmes comme
c'est le cas pour l'anglais mais c'est à partir d'une racine, d'une combinaison de
voyelles, de préfixes, d'infixes, de suffixes et d’un schème morphologique qu'on
obtient un mot (Beesley, 1996).
Exemple : Le mot "‫( "يتأثـّرون‬ils s’influent) est la combinaison de la racine "‫ " أثر‬du
préfixe "‫ "يت‬de l'infixe " ّ " et du suffixe "‫"ون‬. Le schème étant "‫"يتفعّلون‬.
Cette richesse au niveau de la morphologie arabe entraîne des difficultés pour la
segmentation automatique en phrases. En effet, l’identification de la catégorie
grammaticale de certains mots devient ambiguë surtout lorsqu’il s’agit d’un mot non
voyellé (i.e. pour la racine "‫"رجع‬, nous avons la forme dérivée "‫ "راجع‬qui peut
désigner un verbe "‫اج َع‬ َ (il a révisé) ou un adjectif "‫اج ٌع‬
َ ‫"ر‬ ِ ‫( " َر‬il est de retour)).
• L’ambiguïté structurelle: la phrase arabe est relativement longue et complexe en

comparaison avec d’autres langues, tels que le français ou l’anglais. Par exemple,
l’énoncé suivant représente une seule phrase verbale composée de 54 mots :
‫ وأنّ الّذين احتملوا مشقّة السّفر منذ أن أشرقت‬,‫ولك ّنك ترى أن القلوب ال تغني عن الحجرات والغرفات شيئا‬
‫ أحوج إلى غرفة‬,‫ال ّشمس إلى أن كادت تجنح إلى الغروب مصوّبين ومصعّدين تمخضھم السّيارة مخض القرب‬
‫ وإلى سرير يلقون عليه ثقل التعب منھم على القلوب يجدون فيھا الحبّ والو ّد‬,‫يتخفّفون فيھا من عناء السّفر‬
.‫والبرّ والحنان‬
• L’utilisation des signes de ponctuation : la langue arabe n’est pas appuyée

principalement sur les signes de ponctuations et les marqueurs typographiques
(comme c'est le cas par exemple pour le français); ces derniers ont généralement un
rôle pausale et par conséquent la segmentation de textes arabes ne peut pas se baser
uniquement sur ces signes de ponctuation. Ainsi, nous pouvons trouver tout un
paragraphe arabe ne contenant aucun signe de ponctuation à part un point à la fin de
ce paragraphe. En effet, en arabe la séparation entre phrases peut se faire par
certaines particules (e.g., les conjonctions de coordinations, tels que "‫( "و‬waw), "‫"ف‬
(fā)) qui peuvent jouer le rôle de frontières entre phrases. Par exemple, l’énoncé
suivant représente deux phrases séparées par la conjonction "‫( "و‬waw).
‫أوقـفــت الطّـبـيـبة آلـتھا وأعـادتھا إلى موضـعھا بكلّ عـنـاية‬
Le médecin a arrêté son appareil et l’a rendu à sa place avec toute précaution.
• L’utilisation des mots connecteurs : certains mots connecteurs tels que "‫"حتّى‬
(hattā), peuvent jouer le rôle d’un séparateur de phrases. C’est le cas de l’énoncé
suivant :
‫ كانت الح ّمى قد فارقت الطّفل‬.. ‫الليل حتّ ◌ّ ى إذا ما طلع ال ّنھار‬
ّ ‫فقد بات بجانب صديقه الصّ غير ساھرا طول‬
‫المريض‬
Il a passé toute la nuit éveillé à côté de son petit ami et lorsque le jour s’élève… la
fièvre avait quitté l’enfant malade.
Notons que le mot "‫( "حتّى‬hattā) qui marque le début d’une nouvelle phrase dans
cet exemple, peut ne pas jouer le même rôle de « séparateur de phrases » dans
d’autres cas. Par exemple, dans l’énoncé : " ‫( " ووقف حذوه يحرسه حتّى أتى أبوه وعرفه‬et il
est resté près de lui en le surveillant jusqu’à ce que son père vienne et le reconnaître),
il s’agit d’une seule phrase et le mot "‫( "حتّى‬hattā) représente un complément
circonstanciel de temps.
• L’agglutination : les conjonctions de coordinations "‫( "و‬waw) et "‫( "ف‬fā) jouent un

rôle important dans la segmentation en phrases. Cependant, elles sont toujours
agglutinées aux mots (i.e. il n’y a pas d’espace entre les conjonctions de coordination
et les mots qui les suivent). Ainsi par exemple dans le mot "‫"وھم‬, nous ne pouvons
pas savoir si "‫( "و‬waw) est une lettre faisant partie du mot comme le cas de
« wahmon » (imagination) ou s’il s’agit de la conjonction de coordination "‫ "و‬suivie
du pronom personnel "‫ « "ھم‬wa hom » (et + ils).
Ainsi, il est clair que la segmentation de textes arabes est une tâche non triviale et ne
peut pas se fier aux signes de ponctuation. En effet, les mots connecteurs (i.e., "‫"حتّى‬
(hattā),"‫( "بل‬bal), etc.) ainsi que certaines particules (e.g., les conjonctions de
coordinations "‫( "و‬et) et "‫( "ف‬donc)) jouent un rôle important dans la segmentation
en phrases. De plus, l’étude du voisinage de ces mots s’avère nécessaire pour
désambiguïser les frontières des phrases.
4 Méthode proposée pour la segmentation de textes arabes

Afin de surmonter les problèmes de segmentation que nous venons de présenter, nous
proposons une méthode de segmentation de textes arabes basée sur l’exploration contextuelle
des signes de ponctuation, des mots connecteurs jouant le rôle de séparateur de phrases (e.g.,
"‫( "لكن‬lakin), "‫( "لقد‬laqad) et "‫‘( "أ ّما‬amma)) ainsi que celles de certaines particules tel que les
conjonctions de coordination ("‫( "و‬waw) et "‫( "ف‬fā)).
La méthode d’exploration contextuelle repose sur une étude des indices linguistiques
déclencheurs appelés indicateurs et des indices complémentaires associés à ces indicateurs et
sur un ensemble de règles (Descles, 1991).
Afin de segmenter les textes arabes et pour désambiguïser les frontières des phrases, nous
proposons d’utiliser la méthode d’exploration contextuelle pour étudier le contexte droit et le
contexte gauche de chaque mot ou particule pouvant jouer le rôle de séparateur de phrases.
Pour ce faire et afin de dégager les indices déclencheurs et les indices complémentaires
associés, nous avons étudié un corpus réel de textes de différents types. Ce corpus est
composé de 279 textes répartis sur quatre livres de l’enseignement primaire et de
l’enseignement de base tunisiens (voir figure 1).
Corpus Nombre de textes Nombre de paragraphes Nombre de mots

Livre de 5ème année primaire 70 618 19 254
Livre de 7ème année de base 65 202 20 221
Total 279 1 249 82 678
Figure 1 : Corpus utilisé pour la conception des règles de segmentation
Ce corpus a été segmenté manuellement par des linguistes qui ont inséré des balises de fin de
phrase et de fin de paragraphes.
L’étude de ce corpus segmenté nous a permis de concevoir des règles de segmentation
permettant de désambiguïser les frontières des phrases.
Nous présentons dans la section suivante le format de ces règles ainsi que des exemples de
règles relatifs aux signes de ponctuation, aux conjonctions de coordinations et aux mots
connecteurs.
4.1 Format des règles de segmentation

Nous avons conçu 183 règles de segmentations en phrases. Ces règles ont le format suivant :
Soit un marqueur déclencheur X

SI le contexte gauche de X est G
ET/OU SI le contexte droit de X est D
ALORS prendre la décision Y (fin ou non fin d’un
segment)
Figure 2 : Format de règles conçues pour la segmentation de textes (Mourad, 2001)
Ainsi, selon l’existence de l’un des marqueurs déclencheurs et l’étude de leurs contextes
gauches et/ou leurs contextes droits, l’action correspondante de la règle serait :
• soit d’insérer les marques de fin de phrase (</‫ )>ج‬et le début d’une nouvelle phrase
suivante (<‫)>ج‬
• soit de ne pas insérer ces marques et de considérer l’énoncé analysé en tant qu’un
segment unique.
Les règles de segmentation que nous avons conçues peuvent être classées en trois principales
classes relatives aux trois types de marqueurs déclencheurs à savoir les signes de ponctuation,
les particules et les mots connecteurs (Baccour, Mourad, Belguith Hadrich, 2003), (Baccour,
2004).
Nous présentons dans ce qui suit trois exemples de règles correspondants aux trois types de
marqueurs déclencheurs.
4.2 Exemples de règles de segmentation

• Les signes de ponctuation (cas de la virgule)
Les signes de ponctuation traités sont : le point, la virgule, le point virgule, les points
de suspension, le point d’exclamation, le point d’interrogation et les deux points.
Considérons par exemple le cas de la virgule qui représente généralement une fin de
phrase lorsqu’elle est suivie d’un espace, suivi d’un verbe qui peut être précédé
d’une conjonction de coordination ("‫( "و‬waw), "‫( "ف‬fā), "‫( "ث ّم‬tumma)). Cependant, il
y a plusieurs exceptions où la virgule ne marque pas la fin d’une phrase. C’est le cas
de l’énoncé suivant :
.‫ م ّر بابن ع ّمه إسماعيل‬,‫وفي صباح مشرق من أصباح الصّيف‬

Et à une des matinées ensoleillées de l’été, il a passé à son cousin Isma)il.
Pour ce cas, la règle correspondante est :
Contexte gauche Marqueur Contexte droit

Verbe Espace , ‫وفي صباح‬
SI la virgule est suivie par un espace

ET Si l’espace est suivi d’un verbe
ET SI le contexte droit de la virgule commence par " ‫"وفي صباح‬
ALORS la virgule ne marque pas la fin de la phrase
Notons qu’ils existent d’autres indicateurs temporels qui jouent le même rôle que
l’indicateur "‫"وفي صباح‬, comme : "‫ "وذات يوم‬,"‫ "ذات ليلة‬,"‫ "في يوم من األيّام‬,"‫"وحـوالي الظّھر‬,
etc.
• Les particules (cas de la conjonction de coordination "‫( "و‬et))
Les particules traitées représentent principalement les conjonctions de coordination

("‫( "و‬et), "‫( "ف‬donc), "‫( "ث ّم‬après)).
La règle suivante illustre un exemple relatif à la conjonction "‫( "و‬et).

‫لي‬ ‫و‬
SI "‫( "و‬waw) est suivi du mot "‫( "لي‬ly)

ALORS "‫( "و‬waw) marque le début d’une nouvelle phrase.
C’est le cas de l’énoncé suivant:
...‫! ھذه رسالتي األولى إليك ولي حديث طويل أريد أن أقوله‬...‫مجدي‬
Majdi… ! c’est ma première lettre pour toi et j’ai beaucoup à dire…
Notons que cette règle est appliquée si "‫( "و‬waw) est suivie de l’un des pronoms
ّ " ,"‫ "لكم‬,"‫ "لھما‬,"‫لھن‬
relatifs: "‫لكن‬ ّ " ,"‫ "لھم‬,"‫ "لھا‬,"‫"له‬,"‫"لي‬
• Les mots connecteurs (cas de "‫( "بل‬mais))
Plusieurs mots peuvent jouer le rôle de frontière entre phrases. Nous citons par
exemple les mots "‫( "بل‬bal), "‫( "بينما‬baynamā), "‫‘( "إذ‬id).
La règle suivante représente un exemple pour la cas du mot "‫( "بل‬mais).

...،‫ ھو‬،‫ ھي‬،‫ كثيرا‬،‫قد‬ ‫بل‬
Ou d’un verbe
SI "‫( " بل‬bal) est suivi d’un verbe ou d’un pronom personnel
...،"‫ ھو‬،"‫( "ھي‬hya, huwa, …) ou de "‫( "قد‬qad) ou de "‫( "كثيرا‬katiran)
ALORS "‫( " بل‬bal) marque une nouvelle phrase.
Ainsi l’énoncé suivant sera segmenté en deux phrases :
‫ بل قد‬، ‫ويدور في خلدي * أنّ ھذه النّحلة الّتي على السّاعة المشدودة إلى معصمي قد ال تكون غريبة عنّي‬
.‫تكون ذات أفضال علي‬
Et je pensais que cette abeille qui est sur la montre attachée à mon poignet peut ne
pas être inconnue pour mois, mais peut m’avoir fourni des services.
5 Réalisation du système STAr

STAr est réalisé avec le langage de programmation Perl, vu la facilité qu’il offre pour
l’utilisation des automates à état fini grâce aux expressions rationnelles qui permettent
d’utiliser des motifs1 de recherche pour l’application de règles.
Comme nous l’avons indiqué dans la section précédente, nous avons conçu un ensemble de
règles pour les marqueurs déclencheurs. Pour l’application des expressions rationnelles, nous
avons formulé nos règles en fonction d’un ensemble de motifs. Ainsi, nous avons déterminé
pour chaque signe de ponctuation, chaque conjonction de coordination (("‫( "و‬waw), "‫( "ف‬fā),
"‫( "ث ّم‬tumma)) ainsi que pour les mots connecteurs, une liste correspondante de motifs
permettant d’identifier les frontières des phrases (Baccour, 2004).
Afin de présenter l’interface de STAr, nous présentons dans ce qui suit un exemple de son
exécution.
La figure suivante montre un texte segmenté par STAr. Dans le premier éditeur, figure le
texte source (texte à segmenter de type .txt) et dans le deuxième éditeur figure le texte
segmenté par STAr.
1
Un motif défini les indices à chercher avant ou après les marqueurs déclencheurs. Il peut être formé d’un
mot ou d’un ensemble de mots sous forme d’une expression booléenne
Figure 3 : Un exemple d’exécution de STAr

Le texte segmenté se présente sous forme d’un fichier XML. Les balises < ّ‫ >نص‬et </ ّ‫>نص‬
indiquent le début et la fin d’un texte, les balises <‫ >ف‬et </‫ >ف‬représentent le début et la fin
d’un paragraphe et les balises <‫ >ج‬et </‫ >ج‬représentent le début et la fin d’une phrase.
6 Evaluation de STAr
La première évaluation du système STAr a été réalisée sur deux corpus d’évaluation
différents de ceux utilisés pour la conception de ses règles (voir figure 4). Notre objectif étant
de permettre une évaluation objective et non influencée par le corpus de conception. Le
premier corpus d’évaluation représente un livre pour l’enseignement primaire tunisien
composé de 78 textes et un livre pour l’enseignement de base tunisien composé de 66 textes
tandis que le deuxième corpus d’évaluation représente une collection de 60 articles de
journaux traitant divers thèmes.
Corpus Nombre de textes Nombre de paragraphes Nombre de mots
Total 144 991 40 343
Articles de journaux 60 510 38 062
Figure 4 : Corpus d’évaluation de STAr
Pour l’évaluation de STAr nous avons procédé au calcul des mesures de complétudes « R :
Recall » et de précision « P : Precision » (voir figure 5).
Corpus Rappel Précision
Livres 88.26% 80.65%
Articles de journaux 75.81% 65.66%
Figure 5 : Les mesures de rappel et de précision obtenues pour les deux corpus d’évaluation
Nous remarquons que les mesures de rappel et de précision obtenues pour le premier corpus
sont meilleurs que ceux trouvés pour le deuxième corpus. Ceci s’explique par le fait que les
articles de journaux contiennent des erreurs typographiques (i.e. insertion d’un espace après
la conjonction de coordination "‫( "و‬waw), omission de la lettre "‫‘( "ال ّش ّدة‬chadda), des
constructions erronées, etc.) qui augmente le taux d’erreur au niveau de la segmentation en
mots, de l’identification de la catégorie grammaticale des mots et par conséquent le taux
d’erreur au niveau de la segmentation en phrases augmente.
Par ailleurs, notons qu’à l’état actuel, STAr ne dispose pas d’un analyseur morphologique
permettant de reconnaître la catégorie grammaticale des mots, mais utilise un certain nombre
de règles d’analyse de surface pour distinguer entre les verbes et les noms. Ainsi, une erreur
au niveau de l’identification de ces informations morphologiques entraîne des erreurs au
niveau de segmentation.
Afin d’éviter ce genre d’erreur et pour diminuer au maximum les cas d’échec de
segmentation, STAr est intégré dans le système MASPAR (Multi Agent System for Parsing
Arabic) d’analyse de textes arabes non voyellés (Aloulou, Belguith, Ben Hamadou, 2000),
(Aloulou, Belguith, Hadj Kacem, Ben Hamadou, 2004). Ce système est composé de 5 agents
(segmentation, morphologie, syntaxe, ellipse, anaphore) (Aloulou, Belguith, Hadj Kacem,
Hammami, 2003). Ainsi STAr est intégré dans MASPAR en tant qu’agent pour la
segmentation de textes en phrases et pourrait collaborer avec l’agent morphologie2.
7 Conclusion et perspectives
Dans ce papier nous avons présenté le système STAr de segmentation de textes arabes. Pour
la désambiguïsation des frontières des phrases, STAr se base sur une méthode d’analyse
contextuelle des signes de ponctuation, de certaines particules et certains mots connecteurs
entre phrases.
La conception de STAr s’est basé sur l’étude d’un corpus réel de textes de différents types et
a permis de dégager 183 règles pour la segmentation de textes en phrases.
La première évaluation de STAr est réalisée sur deux corpus différents et les résultats obtenus
sont encourageants. Ainsi pour des textes ne contenant pas d’erreurs typographiques (premier
corpus d’évaluation), les mesures de rappel et de précision sont respectivement de 88.26%et
80.65%.
STAr est actuellement intégré dans un système général : le système MASPAR qui représente
un système multi-agent pour l’analyse de textes arabes. STAr est intégré en tant qu’agent
dans MASPAR et par conséquent il pourrait collaborer avec les autres agents afin d’améliorer
ses performances.
Comme perspectives, nous comptons ajouter des nouvelles règles pour la segmentation
d’articles de journaux et l’étude de la segmentation dans d’autres types de textes tels que les
pages Web.
2
Cet agent a pour objectif de déterminer pour chaque mot, la liste de ses catégories morphologiques :
catégorie grammaticale, genre, nombre, temps, personne, etc.
Références
Aloulou C., Belguith Hadrich L., Hadj Kacem A., Ben Hamadou A., (2004), Conception et
développement du système MASPAR d’analyse de l’Arabe selon une approche agent, 14ème
Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence
Artificielle, du 28 au 30 janvier 2004 à Toulouse - France.
Aloulou C., Belguith Hadrich L., Ben Hamadou A., (2000), Vers un système d’analyse
syntaxique robuste pour l’Arabe: Application au recouvrement des erreurs de la
reconnaissance, 7ème conférence sur le Traitement Automatique des Langues Naturelles
(TALN’2000), 16 – 18 octobre 2000, Lausanne, SUISSE.
Blachère R., Gaudefroy-Demombynes M. (1975), Grammaire de l'arabe classique, Éditions
Maisonneuve & Larose 15, rue Victor-cousin 75005 Paris.
Beesley K. (1996), Arabic Finite-State Morphological Analysis and Generation; COLING96,
Vol. 1, pages 89-94.
Belguith Hadrich L. (1999), Traitement des erreurs d'accord de l'Arabe basé sur une analyse
syntagmatique étendue pour la vérification et une analyse multicritères pour la correction,
Thèse de doctorat en informatique, Faculté des Sciences de Tunis.
Baccour L., Mourad G., Belguith Hadrich L. (2003), Segmentation de textes arabes en
phrases basée sur les signes de ponctuation et les mots connecteurs, troisième journées
scientifiques des jeunes chercheurs en génie électrique et informatique, du 25-27 mars,
Mahdia, Tunisie.
Baccour L., (2004), Conception et réalisation d’un système de segmentation de textes arabes
non voyellés, Mémoire de mastère en informatique : Système d’informations et nouvelles
technologies, Faculté des sciences économique et de gestion, Sfax, Tunisie.
Chaâben N., Belguith Hadrich L (2003), L'étiquetage morpho-syntaxique: Comment lever
l'ambiguïté dans les textes arabes non voyellés ?, troisième journées scientifiques des jeunes
chercheurs en génie électrique et informatique, du 25-27 mars, Mahdia, Tunisie.
Descles J.-P., (1997), Systèmes d'exploration contextuelle. Co-texte et calcul du sens. , éd.
Claude Guimier, Presses Universitaires de Caen, pp. 215-232.
Debili F., Achour H., Souissi E. (2002), La langue arabe et l’ordinateur, de l’étiquetage
grammatical à la voyellation automatique, Correspondances n° 71 juillet-août 2002.
Hammami S., Aloulou C., Belguith Hadrich L., Hadj Kacem A. (2003), Implémentation du
système MASPAR selon une approche multi-agent, IWPT’03 (International Workshop on
Parsing Technologies), 23-25 avril 2003, Nancy, France.
Mourad G. (2001), Analyse informatique de signes typographiques pour la segmentation de
textes et l’extraction automatique des citations, Thèse de doctorat en informatique
linguistique, université de Paris - Sorbonne.
Palmer D., Hearst M. (1994), Adaptive sentence boundary disambiguation, Report No.
UCB/CSD 94/797, Computer Science Division (EECS), University of California, Berkeley,
California 94720.
Silberztein M. (1993), Dictionnaires électroniques et analyse automatique de textes, Le
système INTEX, PARIS, MASSON.

STAr Un Système de Segmentation de Textes Arabes Basé Sur L'analyse Contextuelle Des Signes de Ponctuations Et de Certaines Particules

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

STAr Un Système de Segmentation de Textes Arabes Basé Sur L'analyse Contextuelle Des Signes de Ponctuations Et de Certaines Particules

Transféré par

Droits d'auteur :

Formats disponibles

TALN 2005, Dourdan, 6-10 juin 2005

STAr : un Système de Segmentation de Textes Arabes

(1) Laboratoire LARIS - Faculté des Sciences Economiques et de Gestion

Mots clés : Segmenteur de textes arabes, segmentation en paragraphes, segmentation en

Keywords: Arabic text Tokenizer, paragraph tokenization, sentence tokenization,

La segmentation consiste à désambiguïser les frontières des phrases et des paragraphes et se

2 Un Bref aperçu sur les travaux de segmentation

• Le segmenteur INTEX (Silberztein, 93) qui utilise un transducteur pour découper un

3 La segmentation de textes arabes : particularités et difficultés

• L’ambiguïté dérivationelle : l’arabe possède des formes dérivées du verbe par

• L’ambiguïté structurelle: la phrase arabe est relativement longue et complexe en

• L’utilisation des signes de ponctuation : la langue arabe n’est pas appuyée

• L’agglutination : les conjonctions de coordinations "‫( "و‬waw) et "‫( "ف‬fā) jouent un

4 Méthode proposée pour la segmentation de textes arabes

Corpus Nombre de textes Nombre de paragraphes Nombre de mots

4.1 Format des règles de segmentation

Soit un marqueur déclencheur X

4.2 Exemples de règles de segmentation

.‫ م ّر بابن ع ّمه إسماعيل‬,‫وفي صباح مشرق من أصباح الصّيف‬

Pour ce cas, la règle correspondante est :

Contexte gauche Marqueur Contexte droit

SI la virgule est suivie par un espace

• Les particules (cas de la conjonction de coordination "‫( "و‬et))

Les particules traitées représentent principalement les conjonctions de coordination

La règle suivante illustre un exemple relatif à la conjonction "‫( "و‬et).

Contexte gauche Marqueur Contexte droit

SI "‫( "و‬waw) est suivi du mot "‫( "لي‬ly)

• Les mots connecteurs (cas de "‫( "بل‬mais))

La règle suivante représente un exemple pour la cas du mot "‫( "بل‬mais).

Contexte gauche Marqueur Contexte droit

5 Réalisation du système STAr

Figure 3 : Un exemple d’exécution de STAr

Vous aimerez peut-être aussi