Vous êtes sur la page 1sur 201

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/331385873

THÈSE: LE TRAITEMENT AUTOMATIQUE DE LA LANGUE ARABE (TALA) POUR


LA RECHERCHE D'INFORMATION SUR LE WEB Table des matières Partie I :
Traitement Automatique des langues (TAL) CHAPITR...

Thesis · January 2017

CITATION
READS
1
1,232

1 author:

Hammad Ballaoui
Université Chouaib Doukkali El Jadida
12 PUBLICATIONS 10 CITATIONS

SEE PROFILE

All content following this page was uploaded by Hammad Ballaoui on 21 August 2022.

The user has requested enhancement of the downloaded file.


Centre d’Etude Doctorales « Sciences et Technologies de l’Information et
Mathématiques (STIM) »

THES

Présentée par BALLAOUI Hammad


En vue de l’obtention du
DOCTORAT
En Informatique

LE TRAITEMENT AUTOMATIQUE DE LA LANGUE ARABE


(TALA) POUR LA RECHERCHE
D’INFORMATION SUR LE WEB

Soutenance le 21 Janvier 2017 à El Jadida.


Devant la commission d’examen composée de :

Pr. AAROUD Abdessadek Faculté des Sciences d’El Jadida Président

Pr. MADANI Abdellah Faculté des Sciences d’El Jadida Rapporteur

Pr. EDDAOUI Ahmed Faculté des Sciences Ben M’sik, Casablanca Rapporteur

Pr. EL YOUNOUSSI Yacine Ecole Nationale des Sciences Appliquées, Tétouane Rapporteur

Pr. BENI-HSSANE Abderrahim Faculté des Sciences d’El Jadida Examinateur

Pr. LABANI Nasser Faculté des Sciences d’El Jadida Directeur

Pr. BEN LAHMAR El Habib Faculté des Sciences Ben M’sik,Casablanca Co-Directeur
Résumé
Depuis le milieu des années cinquante, les efforts des chercheurs se sont tournés vers
l'utilisation des ordinateurs dans la traduction automatique de textes en langues étrangères, ce
qui a ouvert la voie dans le cadre du développement des technologies de l'information à
l'émergence de la science du traitement automatique des langues naturelles (TALN) et qui
représente aujourd’hui la préoccupation principale des chercheurs en sciences et études de la
linguistique computationnelle et du traitement du langage informatique. Cette science pose
plusieurs difficultés au cœur du traitement à mesure de la quantité massive des documents
contenant des milliers, voir des milliards d’informations accumulées et difficile à gérer d’une
manière pertinente. L’amélioration de la pertinence de la recherche d’information à base du
traitement automatique de la langue naturelle, représente l’un des enjeux les plus importants
dans le monde de l’information, telles que le traitement automatique de la langue naturelle et
la recherche d’information, sont devenues plus que jamais une nécessité pour tous et en
particulier pour les chercheurs intéressés par ce domaine. De ce point de vue, le système de
recherche d’information pour envoyer des résultats pertinents, nécessite des traitements
exprimé par une langue naturelle, ce qui confirme le lien entre la recherche d’information sur
le web et le traitement automatique de la langue naturelle. Cette problématique permettra
d’ouvrir et d'illustrer des pistes de réflexions pour développer plus amplement des aspects
importants dans le champ de la recherche d’information.
Cette thèse s'inscrit dans un domaine multidisciplinaire contenant la linguistique, la
modélisation informatique de la linguistique, la recherche d’information sur le web et
l’intelligence artificielle. Et plus précisément celui du traitement automatique de la langue
arabe (TALA) pour la recherche d’information sur le web. Les premiers travaux durant la
période de la recherche en traitement automatique de la langue arabe se basent sur l’analyse
morphosyntaxique pour la détection de relations sémantiques et pour l’étiquetage des mots à
partir des règles arabe, où nous avons choisi comme objectif de notre contribution dans cette
partie de travail, le système Automate à Etat Fini Déterministe (AEFD) pour traiter d’une
part, les mots arabes afin d’obtenir leurs sémantiques (approche de schèmes et technique
contextuelle) et pour étiqueter d’autre part les mots dans le but de catégoriser ces unités, selon
leurs affixes et les particules correspondantes. Cette approche d’étiquetage nous permettra
d’aider un utilisateur à enrichir une requête arabe, afin de trouver une définition pertinente
d’un certain mot-clé. Cette pertinence est très importante pour enrichir les requêtes et
améliorer la recherche d’information arabe.

Mots-clés: TALN, TALA, Morphologie, Morphosyntaxique, Sémantique, Etiquetage,


Schè me, AEFD, Recherche d’information, Requê te, Indexation.

2
Abstract
Since the mid-1950s, the efforts of researchers have turned to the use of computers in the
automatic translation of texts into foreign languages, which has paved the way within the
framework of the development of information technologies in the emergence of the science of
natural language processing (NLP) and which today represents the main concern of
researchers in the sciences and studies of computational linguistics and computer language
processing. This science poses several difficulties at the heart of processing as the massive
amount of documents containing thousands, or even billions of accumulated information is
difficult to manage in a relevant way. Improving the relevance of information retrieval based
on natural language processing represents one of the most important challenges in the world
of information, such as natural language processing and information search, have become
more than ever a necessity for everyone and in particular for researchers interested in this
field. From this point of view, the information retrieval system to send relevant results
requires processing expressed by a natural language, which confirms the link between the
search for information on the web and the automatic processing of natural language. . This
problem will open and illustrate avenues of reflection to further develop important aspects in
the field of information retrieval.
This thesis is part of a multidisciplinary field containing linguistics, computer modeling of
linguistics, information retrieval on the web and artificial intelligence. And more precisely
that of the automatic processing of the Arabic language (TALA) for the search for
information on the web. The first works during the period of research in automatic processing
of the Arabic language are based on morphosyntactic analysis for the detection of semantic
relations and for the labeling of words from Arabic rules, where we have chosen as the
objective of our contribution in this part of the work, the Deterministic Finite State
Automaton (AEFD) system to process on the one hand, the Arabic words in order to obtain
their semantics (schema approach and contextual technique) and on the other hand to label the
words in order to categorize these units, according to their affixes and the corresponding
particles. This labeling approach will allow us to help a user to enrich an Arabic query, in
order to find a relevant definition of a certain keyword. This relevance is very important to
enrich queries and improve the search for Arabic information.

Keywords: TALN, TALA, Morphology, Syntax, Semantics, Labeling, Scheme, AEFD,


Information retrieval, Query, Indexing.

3
REMERCIEMENTS
Je tiens en premier lieu à remercier chaleureusement Mon grand encadrent, le professeur
El Habib BEN LAHMAR qui a encadré et suivi mon travail de recherche durant cette thèse et
tout au long des cinq années. Je lui exprime ma sincère gratitude pour son implication, son
aide, son écoute, ses remarques et ses critiques qui m’ont toujours permis d’avancer. Je le
remercie profondément pour son attention, sa bienveillance et son appui sans faille qui ont
été des encouragements décisifs pour mener à terme ce travail. Sans ses qualités rares au
niveau humain et scientifique, le développement et l’achèvement de ce travail n’auraient été
possibles. Je suis sincèrement reconnaissant à vous, Monsieur El Habib BEN LAHMAR.
Je remercie vivement le professeur Nasser LABANI pour sa disponibilité et ses conseils. Je
resterais sans doute encore longtemps en admiration devant la pertinence et la justesse de ses
remarques.
Je remercie grandement les professeurs : Ahmed EDDAOUI, Yacine EL YOUNOUSSI et
Abdellah MADANI pour avoir accepté d’être rapporteurs de ma thèse. Merci pour vos
remarques et vos commentaires pertinents. Je remercie également le professeur Abdessadek
AAROUD pour m’avoir fait l’honneur de présider mon jury et le professeur Abderrahim,
BENI-HSSANE pour avoir accepté, encore d’être examinateur de ma thèse.
Merci à toutes les personnes qui ont participé, de près ou de loin, à mes recherches et à
l’élaboration de cette thèse. Je pense particulièrement les professeurs : Abd Elwahed
LMOURABITE, Mohamed TAGHROUT, Hassan SILKAN et aux étudiants, aux enseignants et
aux autres personnels de l’Université Chouaib Doukkali, Faculté des Sciences d’El Jadida et
Faculté des Sciences Ben M’sik et autres Facultés extérieurs.
Enfin, un grand merci à mes chères famille, et plus particulièrement ma chère mère qui m’a
toujours encouragée dans mes études pour leur soutien indéfectible, à mes chères filles:
Riham et Bonayya, ainsi que ma chère femme, toutes mes chères sœurs et tous mes chers
frères.
À toi ma mère et toute la famille je dédie cette thèse.

Hammad BALLAOUI

4
Table des matières
INTRODUCTIONGENERALE............................................................................................12

Partie I : Traitement Automatique des langues (TAL)


CHAPITRE 1: ETAT DE L’ART DU TRAITEMENT AUTOMATIQUE DES
LANGUES NATURELLES (TALN)........................................................ 17
1. INTRODUCTION............................................................................................................17
2. LES NIVEAUX D’ANALYSE….....................................................................................20
2.1. Analyse morphologique........................................................................................................................20
2.1.1. Les notions essentielles de la morphologie..................................................................................21
a. Mot et lexème...............................................................................................................21
b. Morphe et morphème...................................................................................................22
i. les morphèmes lexicaux..........................................................................................................22
ii. les morphèmes grammaticaux................................................................................................23
c. Mots, clitiques et affixes...............................................................................................23
2.1.2. Morphologie flexionnelle.............................................................................................................23
a. Flexion des verbes.........................................................................................................24
b. Flexion des noms...........................................................................................................24
2.1.3. Morphologie dérivationnelle.......................................................................................................25
2.2. Analyse syntaxique................................................................................................................25
2.3. Analyse sémantique...............................................................................................................26
3. LES DIFFICULTES DU TRAITEMENT AUTOMATIQUE DE LA LANGUE ARABE....29
3.1. L’absence de voyelles............................................................................................................29
3.2. Signes diacritiques de schèmes.............................................................................................32
3.3. Complexité de la morphologie arabe...................................................................................32
4. AMBIGUÏTE..................................................................................................................................34
4.1. Généralité..............................................................................................................................34
4.2. Ambiguïté de la langue arabe...............................................................................................34
4.2.1. Ambiguïté lexicale........................................................................................................................ 34
4.2.2. Ambiguïté syntaxique..................................................................................................................35
4.3. Particularité de la théorie Chomskyenne............................................................................36
5. ETIQUETAGE..............................................................................................................................38
5.1. Introduction............................................................................................................................38
5.2. Approches sur l’étiquetage..................................................................................................40
i. L’approche symbolique..........................................................................................................40
ii. L'approche statistique............................................................................................................41
iii. L'approche hybride...............................................................................................................41
6. RACINISATION...........................................................................................................................42
6.1. Définition................................................................................................................................42
6.2. Les difficultés de racinisation...............................................................................................43
6.3. La racinisation de la langue arabe.......................................................................................44
6.3.1. Particularité de la langue arabe..................................................................................................44
6.3.2. Les difficultés de racinisation arabe..........................................................................................47
6.3.3. Approches et solutions.................................................................................................................49
7. CONCLUSION DE L’ETAT DE L’ART...................................................................................52

CHAPITRE 2: APPLICATION DE SYSTEME D’AUTOMATE A ETAT FINI DETE-


RMINISTE POUR LA DETECTION DES SENS DES NOMS ARABE..

5
….…………...................................................................................................................55

1. INTRODUCTION........................................................................................................................55
2. DETECTION DES SENS DE SOURCES A BASE DE (AEFD)..............................................56
2.1. Les Difficultés de la détection des sources des noms dans le texte arabe.........................56
2.2. Description mathématique de (AEFD)..............................................................................59
2.3 Source trilitère.......................................................................................................................59
2.3.1. Description...................................................................................................................................59
2.3.2. Application du système (AEFD) sur la catégorie des noms de source trilitère...................61
2.4. Source quadrilatère..............................................................................................................62
2.4.1. Description...................................................................................................................................62
2.4.2. Application du système (AEFD) sur la catégorie des noms de source quadrilatère............63
2.5. Source quiquilitère.............................................................................................................64
2.5.1. Description.................................................................................................................................... 64
2.5.2. Application du système (AEFD) sur la catégorie des noms de source quintet......................66
2.6. Source hexagon...................................................................................................................67
2.6.1. Description....................................................................................................................................67
2.6.2. Application du système (AEFD) sur la catégorie des noms de source hexagone...................67
3. CONCLUSION.............................................................................................................................68

CHAPIRE 3: L’IMPORTANCE DE SCHEMES POUR TROUVER LA SEMANTIQUE


AUX MOTS ARABE........................................................................................69

1. INTRODUCTION.........................................................................................................................69
2. LES SCHEMES ET LEURS IMPORTANCES AUX TRAITEMENTS..................................70
2.1. Définition du schème.............................................................................................................70
2.2. L’importance de schèmes......................................................................................................70
2.3. Détection de la sémantique à travers l’analyse morphosyntaxique..................................71
2.4. Analyse...................................................................................................................................72
3. FORMALISME..............................................................................................................................75
4. CONCLUSION...............................................................................................................................75

CHAPITRE4: APPLICATION DE SYSTEME D’AUTOMATE A ETAT FINI


DETERMINISTE POUR L’ETIQUETTAGE DES MOTS ARABE.......77

1. INTRODUCTION.........................................................................................................................77
2. ÉTIQUETAGE DES MOTS ARABES.......................................................................................78
2.1. Notre approche.......................................................................................................................78
2.2. Morphologie et étiquetage.....................................................................................................78
2.3. Syntaxe et étiquetage.............................................................................................................79
3. LE TRAITEMENT AUTOMATIQUE DES MOTS PAR (AEFD)...........................................79
4. LES MOTS ARABES ASSOCIES PAR DES AFFIXES............................................................80
5. LES MOTS ARABES ASSOCIES PAR DES PARTICULES...................................................81
5.1. Exemples des particules attribuées par des verbes (Vp)...................................................81
5.2. Exemple des particules attribuées par des noms (Np)........................................................83
6. LES MOTS ARABES AUX CONTEXTES................................................................................84
7. CONCLUSION..............................................................................................................................85

Partie II : Recherche d’Information (RI)


6
CHAPITRE 5 : ETAT DE L’ART DE RI SUR WEB......................................................... 88

1. INTRODUCTION..........................................................................................................................88
2. CONCEPTS DE BASE DE LA RECHERCHE D’INFORMATION.......................................90
2.1. Le processus de recherche d’information...........................................................................91
2.2. Document et collection de documents.................................................................................92
2.3. Besoin en information..........................................................................................................93
2.4. La pertinence.........................................................................................................................94
3. MODELES DE RI...........................................................................................................................95
3.1. Les Modèles booléens...........................................................................................................96
3.1.1. Le modèle booléen de base..........................................................................................................96
3.1.2. Le modèle booléen flou................................................................................................................99
3.1.3. Le modèle booléen étendu...........................................................................................................99
3.2. Le Modèle vectoriel............................................................................................................100
3.2.1. Le modèle vectoriel de base......................................................................................................100
3.2.2. Mesure et calcule de la similarité..............................................................................................101
3.3. Le Modèle probabiliste.......................................................................................................105
3.3.1. Le modèle probabiliste de base.................................................................................................105
3.3.2. Autres points de vue de probabiliste.........................................................................................107
4. L’EVALUATION DES RESULTATS PRODUITS PAR LES SRIS.....................................108
4.1. Généralité Sur Les Deux Mesures : Le Rappel Et La Précision...................................109
4.1.1. Le rappel.....................................................................................................................................109
4.1.2. La précision.................................................................................................................................110
4. 2. Exemple De Mesures..........................................................................................................112
4.3. Autres Mesures..................................................................................................................113
4.3.1. Le bruit....................................................................................................................................... 113
4.3.2. Le silence.....................................................................................................................................113
4.3.3. La mesure harmonique..............................................................................................................114
4.3.4. La mesure E ( E- measur)..........................................................................................................114
5. INDEXATION..............................................................................................................................115
5.1. Indexation Des Documents................................................................................................115
5.2. Processus D’indexation.......................................................................................................117
5.3. Ponderation Des Termes....................................................................................................120
5.3.1. Loi de Zipf...................................................................................................................................121
5.3.2. Conjecture de Luhn...................................................................................................................123
5.3.3. Pondération TF ×IDF................................................................................................................123
i. Le facteur de pondération locale tf.....................................................................................123
ii. Le facteur de pondération globale idf..................................................................................125
iii. la fonction de pondération tf×idf........................................................................................126
6. REQUETTAGE............................................................................................................................127
6.1. Enrichissement Et Reformulation Des Requetes............................................................127
6 .1.1. Pour quoi la reformulation de la requête ?............................................................................127
6.1.2. Approches et Apports sur la reformulation de la requête et la réinjection de la pertinence….
…………………………………………………………………………………………………………………………………………..127
6.2. Appariement Document-Requete.....................................................................................129
6.3. Utilisation De L’ontologie.................................................................................................131
6.3 .1. C’est quoi une ontologie ?............................................................................................................. 131
6.3.2. Pour quoi l’ontologie ?..............................................................................................................131
6.3.3. Structure et éléments clés d’ontologie......................................................................................132

i. Concept.....................................................................................................................132
ii. Relations Associatives (non taxonomie)..............................................................................133
iii. Subsomption (relations taxonomiques)...............................................................................133

7
iv. Axiomes...............................................................................................................................134
6.3.4. Construction d’une ontologie................................................................................................... 134
6.3.5. Contribution à l’ontologie lexicale arabe.................................................................................136
i. Discussion.............................................................................................................................136
ii. Les parties des mots arabe...................................................................................................139

CHAPITRE 6 : L’ENRICHISSEMENT DE LA REQUETE PAR L’EXPLOITATION


DES PHRASES DE DEFINITION..........................................................140

1. INTRODUCTION.........................................................................................................................140
2. ANALYSE MORPHOLOGIQUE D’UN MOT DANS UNE REQUETE................................142
3. REFORMULATION DE LA REQUETE R...............................................................................143
3.1. C’est quoi une formule définitoire?..................................................................................143
3.2. Reformulation de requêtes R' à base des formules définitoires.....................................145
4. RECUPERATION DES REPONSES DES MOTEURS ET EXTRACTION DES PHRASES
DE DEFINITION..........................................................................................................................149
4.1. Traitement Des Requêtes...................................................................................................149
4.1.1. Les mesures TF-IDF.................................................................................................................149
4.1.2 Calcule de poids.........................................................................................................................149
i. poids des phrases par documents........................................................................................149
ii. poids des termes par phrases..............................................................................................151
4.2. Résultats Du Traitement...................................................................................................152
4.3. Reformulation De Requête Formée Par Les Termes Extraits (Mots Pertinents)..........153
4.4. Représentation...................................................................................................................156
4.4.1. Représentation graphique (graphe bipartite)..........................................................................156
4.4.2. Représentation vectorielle basée sur la pondération tf.idf.....................................................157
5. CONCLUSION..............................................................................................................................159

CONCLUSION GENERALE...........................................................................................................160

BIBLIOGRAPHIE.............................................................................................................................166

8
Index des figures :

Figure 1: Rôle d'une grammaire selon Chomsky........................................................................................................................18


Figure 2: Représentation graphique de différentes significations du mot arabe ""‫ علم‬................................................................35
Figure 3: Architecture d’un étiqueteur, dont l’application de la technique de tokenisation sur un texte....................................42
Figure 4: La distribution des différents documents arabe en fonction des mots voyelles, voyelles partiellement et non voyelles
par rapport à 1200 documents…................................................................................................................................58
Figure 5: la détection de la sémantique des sources trilitères par le système (AEFD)...............................................................62
Figure 6: triangle sémantique de schèmes selon leurs degrés de la complexité..........................................................................63
Figure 7: La détection de la sémantique des sources quadrilatère par le système (AEFD)........................................................64
Figure 8: La détection de la sémantique des sources quintet par le système (AEFD)................................................................66
Figure 9: La détection de la sémantique des sources hexagones par le système (AEFD)...........................................................68
Figure 10: Représentation d’un processus qui permet de détecter le sens des noms arabes affixés et à base de leurs schèmes…
………………………………………………………………………………………………………………………73
Figure 11: Les relations entre le mot candidat et les mots significatifs au contexte…...............................................................75
Figure 12: Utilisation du système AEFD pour traiter les verbes arabes....................................................................................80
Figure 13: Utilisation du système AEFD pour traiter les noms arabes......................................................................................81
Figure 14: Extrait du (AEFD) pour traiter les verbes arabes à base de leurs particules.............................................................83
Figure 15: Extrait du (AEFD) pour traiter les noms arabes à base de leurs particules..............................................................84
Figure 16: Utilisation du système AEFD pour extraire des mots contextuels à base de leurs préfixes (Part(A)) et leurs suffixes
(Part (B))....................................................................................................................................................................84
Figure 17: Utilisation du système AEFD pour extraire des mots arabes dans les phrases de formes (Vp)-V-(Pv) V-Mo.........85
Figure 18: Utilisation du système AEFD pour extraire des mots arabe dans les phrases de formes: FSN -(Pv)Mo..................85
Figure 19: Modèle classique de la recherche d’information.......................................................................................................91
Figure 20: Processus en U représente le SRI...............................................................................................................................92
Figure 21: Une requête booléenne combinant t1 AND t2..................................................................................................................................................................96
Figure 22: Une requête booléenne combinant t1 OR t2.......................................................................................................................................................................97
Figure 23: Une requête booléenne combinant (t1 OR t2) AND NOT (t1 AND t2).......................................................................97
Figure 24: Similarité entre une requête conjonctive q (requête de type OU) et les documents D1 et D2...................................................101
Figure 25: Similarité entre une requête disjonctive q (requête de type ET) et les documents D1 et D2......................................................101
Figure 26: représentation vectorielle de deux vecteurs documents et un vecteur requête (Chaque vecteur ⃗d→J formé avec le
ve- cteur q⃗ → un angle θj, avec j= {1,2}). ...............................................................................................................103
Figure 27: Evolution de la similarité suivant les variations de l’angle θ formé par deux vecteurs et leur mesure cosθ..........103
Figure 28: La fonction de correspondance au cœur de SRI et modèles de RI.........................................................................108
Figure 29: Représentation des partitions de la collection en cas d’une application..................................................................111
Figure 30: Représentation de la précision en fonction du rappel dans les deux cas de SRI.....................................................111
Figure 31: Courbe de rappel et précision selon l’exemple.......................................................................................................113
Figure 32: Représentation de l’indexation conceptuelle permutant d’indexer une collection de documents multilingue(exemp-
le pour le terme "‫)"مدرسة‬..........................................................................................................................................117
Figure 33: Représentation comparative entre l'indexation manuelle et l'indexation automatique............................................120
Figure 34: Représentation de la conjecture de Luhn.................................................................................................................123
Figure 35: Processus général de recherche d’information........................................................................................................131
Figure 36: Architecture des ontologies......................................................................................................................................135
Figure 37: Architecture représente les parties des mots arabes.................................................................................................139
Figure 38: Un graphique qui représente les résultats obtenus par 500 documents, lors de l’envoie d’une requête ""‫ تاريخ‬......146
Figure 39: Représentation graphique (graphe bipartite) de la distribution des termes tk dans les phrases si............................157
Figure 40: Représentation vectorielle........................................................................................................................................159

9
Index des tableaux :

Tableau 1 : Les préfixes et les suffixes enlevés par l'algorithme de Kareem Darwish (Al- Stem) [96].....................................49
Tableau 2 : La liste d'affixes enlevés par les différents algorithmes Leah Larkey [96]..............................................................51
Tableau 3 : La transcription de Tim Buckwalter.........................................................................................................................52
Tableau 4 : Tableau représente les sources trilitères et leurs schèmes........................................................................................61
Tableau 5 : Tableau représente les sources quadrilatère et leurs schèmes..................................................................................63
Tableau 6 : Tableau représente les sources quintet et leurs schèmes..........................................................................................66
Tableau 7: Tableau représente les sources hexagones et leurs schèmes.....................................................................................67
Tableau 8: Liste de schèmes et leurs sémantiques.....................................................................................................................72
Tableau 9: Représente la variation de similarité par rapport à la variation de l’angle θ...........................................................103
Tableau 10: Exemple de résultats de rappel et précision après un traitement sur les 20 premiers documents trouvés par le SRI.
…..………………………………………………………………………………………………………………112
Tableau 11: Représente les propriétés de relation synonyme (relation basée sur les formules définitoires)...........................136
Tableau 12: Les relations entre les formules précèdes et succèdes selon la nature, le genre et le nombre d’un mot (ou w)…144
Tableau 13: Résultats extraits de requête < ‫ > تاريخ‬après un essai sur 500 documents. ..........................................................146
Tableau 14: Résultats extraits de requête < ‫ > التاريخ يعتبر‬après un essai sur 100 documents. ......................................................147
Tableau 15: Calcule de la fréquence des phrases dans plusieurs documents…........................................................................150
Tableau 16: Calcule de la fréquence des mots non répétitifs dans les phrases….....................................................................151
Tableau 17: Calcule de TF, IDF et TF.IDF pour trouver le(s) mot(s) définitoire(s) proche(s)….............................................152
Tableau 18: Extraction des phrases après la reformulation de la requête : ""‫ علم الفلسفة‬...............................................................154
Tableau 19: Extraction des phrases après la reformulation de la requête : ""‫ تفكير الفلسفة‬...............................................................154
Tableau 20: Extraction des phrases après la reformulation de la requête : ""‫ معرفة الفلسفة‬.............................................................155
Tableau 21: Extraction des phrases après la reformulation de la requête : ""‫ بحث الفلسفة‬...............................................................155
Tableau 22: Résultats de calculs de idf pour les termes définitoires du mot "‫ "الفلسفة‬après la reformulation de requête… ........156

1
1
Introduction générale

Cadre de la thèse

De nos jours, l’information est devenue disponible en grande masse et en plusieurs formes
(texte, image, audio, vidéo). Cette quantité énorme doit être accessible et maitrisable par la
plupart des utilisateurs qui veulent accéder et traiter ces informations. Afin de permettre à une
personne d’atteindre ces informations, plusieurs outils de recherche d’information ont vu le
jour. De tels outils ont pour objectif de fournir à l'utilisateur un accès facile, rapide et
pertinent à l’information qui l’intéresse.

Afin d’atteindre cet objectif, un système de recherche d’information (SRI) doit représenter,
stocker et organiser l’information puis fournir à l’utilisateur les éléments correspondants au
besoin d’information exprimé par sa requête.

Ainsi un SRI pour les textes en langue arabe doit prendre en considération ses
caractéristiques et propose des outils et des techniques plus sophistiqués afin de permettre son
traitement informatique.

Cependant, le traitement automatique de la langue arabe (TALA) comme une langue


naturelle, fait face à un certain nombre de difficultés, les plus manifestes, sont le problème de
la voyéllation, l’agglutination et l’extraction de la racine.
Dans le cadre du traitement automatique de la langue et de la recherche d’information (RI)
arabe, les problèmes liés à l’indexation classique sont dus aux variations linguistiques de la
langue utilisée, ces variations pour la langue arabe sont divisées en trois types :
- Des variations morphologiques.
- Des variations lexicales (on utilise pour le même sens des mots différents).
- Des variations sémantiques.

Le besoin de développer des systèmes de RI dédiés pour résoudre ce type de problèmes de


la langue arabe devient de plus en plus incontournable ces dernières années, vu
l’augmentation du nombre de documents électroniques rédigés en arabe.

1
Dans le cadre de RI arabe, plusieurs travaux sont confrontées à des problèmes d’établir une
correspondance entre l’information recherchée et l'ensemble des documents d'une collection
(un document pertinent peut contenir des termes sémantiquement proches de ceux de la
requête mais toutefois différents). D’autre part, le SRI consiste à établir une correspondance
pertinente entre l'information recherchée dans une requête et l'ensemble des documents de la
collection documentaire. Il s'appuie sur un ensemble de processus, articulés autour de deux
étapes essentielles : la phase d'indexation des documents disponibles et la phase de recherche
ou de l'interrogation du fond documentaire ainsi constitué [1] [2].

En revanche, il y a quelques tentatives et qui ont été déjà proposées pour établir cette
correspondance et améliorer la tache de la RI arabe. Elles ont abordé et analysé des approches
du traitement automatique et de la recherche d’information de la langue arabe,
particulièrement, pour reformuler des requêtes [3], pour indexer sémantiquement les
collections des documents [4], ou bien pour créer une représentation conceptuelle pour les
sites web en arabe [5].

Le sujet de cette thèse s’inscrit dans le cadre de l’enrichissement des requêtes et


l’amélioration de la pertinence de la RI arabe. Nous nous sommes intéressés, en particulier, à
la section de la désambigüisation en prenant en considération les techniques du traitement
automatique de la langue arabe et en se focalisant, plus précisément sur l’aspect sémantique.

Objectifs et contributions

Pour la recherche d’information en langue arabe et plus précisément, en ce qui concerne les
termes dans les requêtes et les documents arabes, nous pouvons remarquer leurs variations
linguistiques (morphologiques, syntaxiques et sémantiques). A partir de ces variations de
mots arabes, le SRI se trouve face à des problèmes sérieux.
Dans ce contexte nous proposons une solution basée sur l’exploitation des phrases
définitoires pour enrichir les requêtes et améliorer la pertinence de la RI arabe.
Pour un SRI, lorsqu’un utilisateur essaie d’envoyer une requête pour chercher la définition
d’un mot-clé, le système dans ce cas, va récupérer les données pour chercher la définition des
mots-clés et leurs formes associées dans la collection de documents.

Une fois le système récupère les différents documents, on va chercher les mots proches à
travers les méthodes proposées qui permettent d’analyser pour extraire ces mots proches aux
mots-clés. Dans le cas d’un mot proche ambigu on propose comme solution d’utiliser une
autre méthode basée sur la technique de schèmes pour dépasser l’ambiguïté de ce mot.

Après, le système va renvoyer et enrichir les requêtes par les mots proches extraits et va
récupérer les données contenant les réponses et les définitions pertinentes. Cette démarche
nécessite sans doute une analyse spécifique des requêtes et par conséquence un traitement
automatique de la langue Arabe.

Dans ce cadre, nous avons choisi comme formalisme de notre contribution un système
d'automate à état fini déterministe (AEFD) pour traiter d’une part, les mots arabes afin
d’obtenir leurs sémantiques (approche de schèmes et technique contextuelle) et pour étiqueter
d’autre part, les mots dans le but de catégoriser ces derniers, selon leurs affixes et les
particules correspondantes. Cette approche d’étiquetage, nous permettra d’aider un utilisateur
à enrichir une requête afin de trouver une définition pertinente d’un certain mot-clé, Comme il
est indiqué dans la deuxième partie de cette thèse.

Organisation de la thèse

Ce travail se compose de deux parties :

La première partie, est consacrée aux travaux de traitement automatique de la langue


naturelle (TALN). Le premier chapitre de cette partie présente un état de l’art sur le traitement
automatique de la langue naturelle et le traitement automatique de la langue arabe (TALA) en
cas particulier. Il présente la structure générale de la langue naturelle et aborde les différents
niveaux d’analyse. Dans le second chapitre, nous commençons par une présentation introduite
dans notre contribution et qui est basée sur la détection des sens des noms arabes par le
système automate à état fini déterministe (AEFD) et à travers la technique de schèmes. Le
troisième chapitre aborde une méthode proposée sur l’importance de schèmes pour déterminer
les significations des mots arabes. Cette méthode peut considérer comme une solution au
problème associé par l’approche précédente (dans le second chapitre) pour en extraire des
sens des noms arabes au contexte. Le quatrième chapitre discute une méthode proposée au
sein de l’étiquetage des mots arabes. Le système utilisé pour réaliser cet objectif est le
système (AEFD).

La deuxième partie, présente des travaux sur la recherche d’information (RI). Le premier
chapitre de cette partie, décrit en détails un état de l’art sur la RI en langue naturelle, il
introduit les différents modèles, processus, et métrique utilisé. Le second chapitre est consacré

14
à l’étude de la recherche des termes et phrases définitoires des mots-clés associés par les
requêtes arabes.

Partie I : Traitement Automatique des langues (TAL)

15
Chapitre1 : Etat de l’art du Traitement Automatique des
Langues Naturelles (TALN)

1. Introduction

La Science du traitement automatique des langues naturelles (TALN), comme des langues
parlées, lues et écrites par les êtres humains, et l’ensemble des langages informatique,
artificiels, mathématiques ou logiques, nous permet de produire un système linguistique facile
et intelligible.

D’une manière plus précise, le TALN est la conception de logiciels capables de traiter de
façon automatique des données exprimées dans une langue (dite « naturelle », par opposition
aux langages formels de la logique mathématique). Il se constitue de deux grands domaines
d’étude qui partagent un seul objectif : le traitement d’une manière automatique des langues
naturelles via l’utilisation des programmes et logiciels informatiques pour traiter des données
(des corpus, des documents, des textes, des phrases, des mots, etc.) à la base des règles et
grammaires linguistiques. Autrement dit, pour faire une certaine application du TALN, il faut
déterminer ou créer un programme, un logiciel approprié à cette application et en parallèle de
déterminer les règles grammaticales associées à l’application traitée. Parmi les applications
les plus connues du TALN, nous pouvons citer: la traduction automatique, la correction
orthographique, la recherche d'information et la fouille de textes, le résumé automatique, la
génération automatique de textes, la synthèse de la parole, la reconnaissance vocale, la
reconnaissance de l'écriture manuscrite, etc.

La création d’une grammaire qui peut s’intégrer au système informatique et de déterminer la


structure caractéristique de toute chaîne conduit Chomsky à considérer la linguistique et
l'informatique comme une nouvelle discipline « contact », appelée linguistique algébrique,
consacrée à l'étude des grammaires formelles.

Noami Chomsky [6], et qui a commencé sa théorie par la grammaire générative et


transformationnelle dans les années 1950 , propose que la liaison entre l’informatique et
linguistique basée sur la découverture d’une grammaire par le linguiste et des théories
linguistiques permette de déterminer des grammaires possibles :

16
« It is assumed that there is a correct generative grammar which determines the structural
characteristic of any string, including those that deviate from well-formedness in various
respects, and that the problem of the linguist is to discover this grammar and to discover the
linguistic theory that determines possible grammars and incorporates universals of language »
[6].
Selon Chomsky, pour un locuteur qui ne perçoit que les entrées et les sorties, sa grammaire
mentale est comme une " "boîte noire". Elle n’exprime qu’une suite d’unités formées d’une
manière correcte ou non (Figure 1). Pour cela, le rôle d’un linguiste peut être considérer
nécessaire pour l’ouverture de cette "boîte noire".
Par exemple, soit l’énoncé dans un contexte : " le chat mange…" (Les trois points
remplacent une unité lexicale ou plus), considérons les deux unités suivantes dans cette
étude : " le traitement" et " écrivez".Toutefois, le statut des deux énoncés ainsi construits ne
serait pas le même, ou la phrase, " le chat mange le traitement " est absolument grammaticale,
par contre n’est pas dans le cas " le chat mange écrivez".

Correcte/pas correcte
Suite d’unités

Grammaire

Figure1 : Rôle d'une grammaire selon Chomsky

L’ordre des mots dans les phrases (syntaxe) selon Chomsky, soumis à un ensemble de
règles et de principes qui nous permet de comprendre les phrases et dont nous sommes, le
plus souvent, totalement inattentif. Cet ensemble de règles est appelé la " grammaire
générative ".

D’autre part, le concept traitement automatique est une transformation d’objet en état brut
(état du prétraitement) à un état demandé par l’utilisateur (état après le traitement), cette
opération se fait à travers un mécanisme informatique (programme, logiciel, modèle,..). Par
conséquent, l'intégration d'une langue naturelle dans le domaine informatique, génère ce qu'on
appelle le traitement automatique de la langue naturelle.
On peut distinguer deux aspects inverses pour chaque TALN :
Le traitement basé sur l’analyse, cette vue se compose d’un enchaînement de traitements,
tels que le traitement morphologique, syntaxique, sémantique, pragmatique, etc. dans ce cas

17
[7] l’analyse consiste à construire une représentation formelle du texte en entrée. Cette
représentation doit être facile à manipuler par la machine.
Le second aspect intéresse le traitement basé sur la génération et qui a une fonction inverse
à celle de l’analyse, il consiste à générer des textes à partir d’une représentation interne. Ce
type de traitements associé par des applications, comme le résumé automatique de texte, la
traduction automatique de texte, des générations concernant des rapports ou des programmes,
etc.
Formellement, une langue naturelle est un ensemble de chaînes de caractères organisés qui
peuvent être attachées parfois, pour former une unité lexicale précédé et/ou suivi par l’espace
(ex. la langue arabe, la langue persane, etc.), ou bien des unités lexicales formées par des
caractères séparés entre eux – mais sans espaces- souvent dans les documents non manuscrits
(ex. les langues : française, anglaise, chinoise, amazigh, etc.). Le mot dans la langue naturelle
est l’unité principale pour commencer l’écriture après avoir pensé. Il est considéré comme un
élément fiable pour le découpage d’un texte, ainsi que le début et la fin d’une phrase
indépendante par son concept. Graphiquement, le mot est peut-être toujours précédé par un
espace et est suivi soit par ce dernier ou bien, par des caractères spéciaux (la virgule, le
point,..), d’ailleurs, JAYE [8] écrit dans son livre:
« Sur le plan linguistique, de telles définitions soulèvent de nombreuses difficultés : sur le
mot au fur et à mesure, … recouvrent un sens mais apparaissent comme plusieurs segments
graphiques ; … Nous conservons cependant des définitions aussi imprécises pour la bonne
raison que la complexité même du problème ne permet pas aux écoles linguistiques actuelles
d’aboutir à une définition du mot qui soit réellement opératoire sur machine ; dans ces
conditions, il nous semble préférable de fonder la notion de mot sur le seul découpage de
texte que l’on sait reproduire par machine, à savoir celui que l’on obtient par reconnaissance
des blancs ou caractères spéciaux comme la virgule, le point… » .
L’analyse des langues naturelles a pour objectif de construire une représentation formelle
d’un ensemble d’unités lexicales en entrée et qui peuvent être facile à manipuler par la
machine. Le développement basé sur la réalisation des analyseurs pour les applications
concerne le traitement automatique des langues naturelles, n’implique pas les langues qui sont
moins informatisées, comme l’arabe par exemple. Et qui a connu une difficulté croissante lors
du passage du niveau morphologique aux autres niveaux d’analyse (syntaxique, sémantique et
pragmatique). L’arabe est considérée comme une langue des objets et des propriétés, tels que
les mots peuvent être associés par leurs caractéristiques, citons dans ce cas par une approche
de gènes [9] à partir de l’identification de types des mots. Morphologiquement, le mot arabe
se caractérise par des structures très compliquées, où on peut trouver une pluralité verbale,

18
une polysémie du mot et similitude verbale et syllabique. Pour cela l’arabe est considéré
comme :
« Une langue difficile à maîtriser dans le domaine du traitement automatique des langues.
Grâce à ses propriétés morphologiques et syntaxiques. A la différence des autres langues
comme, le français ou l’anglais, dont les étiquettes grammaticales proviennent d’une
approche distributionnelle caractérisée par une volonté "d’écarter toute considération relative
au sens", les étiquettes de l’arabe viennent d’une approche où le sémantique côtoie le formel
lié à la morphologie du mot, sans référence à la position de ce dernier dans la phrase. Ce
phénomène est matérialisé par la notion de schèmes et de fonctions qui occupent une place
importante dans la grammaire de l'arabe ».
Plusieurs niveaux d’analyses peuvent être consacrés pour la tâche du TALN. On spécifie
dans ce cas l’analyse morphologique, syntaxique, sémantique et pragmatique.

2. Les niveaux d’analyse

Généralement, pour l’analyse du TALN, nous nous appuyons dans cette partie de recherche
sur quatre grandes sections de domaine en linguistique [10] :

- Analyse morphologique
- Analyse syntaxique
- Analyse sémantique
- Analyse pragmatique.

Dans le traitement automatique de la langue arabe, la majorité des travaux des chercheurs ne
s’intéressent pas véritablement à ces deux derniers niveaux d’analyse (sémantique et
pragmatique).

2.1. Analyse morphologique

La morphologie est l’étude des structures des mots (unités lexicales) ainsi que leurs formes
(flexion et dérivation). Elle concerne l’étude de la structure morphimique des mots considérés
isolément (hors contexte) sous le double aspect de la nature et des variations qu’ils peuvent
subir [11].
L’analyse morphologique est substantielle pour chaque système de traitement automatique
de la langue naturelle. Elle a pour objectif de regrouper les mots en classes utilisables par les
autres niveaux d’analyse de telle façon que chaque classe peut être associée par une étiquette
appelée catégorie grammaticale ou catégorie lexicale [7]. Tout simplement, une étude

19
structurelle des mots et leurs changements au niveau de la forme. Un mot peut avoir
différentes catégories grammaticales ce qui se traduit en une apparence d’ambiguïté.

Bien que des différents travaux de recherche appuyaient sur l’analyse morphologique des
langues latines. Mais l’application est considérée difficile pour des langues qui ont une
morphologie riche et complexe telle que la morphologie arabe ; même si nous avons raccourci
le lexique aux seules informations non calculables (i.e. forme canoniques, racines, etc.) [12]
que l’on utilise des règles pour connaître le reste des informations.

2.1.1. Les notions essentielles de la morphologie

a. Mot et lexème
Un mot est un signe linguistique qui possède deux caractéristiques [13] :
 une certaine autonomie de fonctionnement.
 une certaine cohésion interne.
Il y a plusieurs définitions et notions pour le terme mot et qui est considéré comme un terme
ambigu, selon sa nature comme mot composé ou agglutiné.
Une analyse simple nous permet de constater qu’un mot soit caractérisé par des différents
aspects et qui sont des acceptions du terme mot :
 Caractéristique orthographique et phonologique, dans ce cas le mot peut être plusieurs
formes orthographiques vis-à-vis d’un seul mot phonologique.
Exemple, dans la langue française : cherchais, cherchait, cherchaient. Nous avons donc trois
mots orthographiques devant un seul mot phonologique qui se produit par des syllabes
formées aussi par les voix des caractères du mot.
Ce phénomène est plus clair dans la langue latine, par contre il n’apparaît pas d’une manière
fréquente dans la langue arabe, cela est dû au fait que les mots arabes sont caractérisés par les
signes diacritiques (signes peuvent être au-dessus ou au-dessous des caractères qui formaient
le mot). Mais on n’exclut pas la langue arabe de ce phénomène, où on peut trouver comme
exemple :
Les deux mots orthographiques : ‫ ا´كتب‬,‫ كتب‬devant un seul mot phonologique.
 Caractéristique grammaticale. Le mot grammatical peut s’identifier selon le nombre et
le genre de chaque forme orthographique. Prenons par exemple les trois mots
orthographiques précédents : cherchais, cherchait, cherchaient. Ces mots sont
conjugués à l’imparfait du mot chercher. Nous pouvons trouver donc quatre mots
grammaticaux vis-à-vis trois mots orthographiques et un seul mot phonologique :
1ère personne du singulier : cherchais

20
2e personne du singulier : cherchais
3e personne du singulier : cherchait
3e personne du pluriel : cherchaient.
 Caractéristique lexicale, c’est l’unité source qui représente les différents mots
orthographiques et grammaticaux. En langue française et dans notre exemple précédent,
l’unité lexicale est le verbe à l’infinitif « chercher ». l’unité lexicale pour les noms est
toujours au singulier et au masculin singulier pour les adjectifs.
Pour la langue arabe des noms peuvent être aussi au singulier (même caractéristique que
la langue française), alors que ce n’est pas le cas pour les adjectifs et les verbes, ainsi les
adjectifs arabes peuvent être trouvés en deux genres (féminins ou masculins) et en un seul
nombre (singulier). Exemple : ‫ حمراء‬et ‫أحمر‬. Pour les verbes arabes acceptent plusieurs
types (trilitère, quadrilatère, quiquilitère,..).

b. Morphe et morphème

Le morphe est la plus petite composante d’un mot. Il peut être extrait par La réalisation
graphique ou phonique d’un morphème. Exemple : les terminaisons des mots : /s/ pour les
pluriels des mots latins et /‫وا‬/, /‫ون‬/, /‫ن‬/, /‫ن‬/‫ ي‬pour les pluriels des mots arabes, ce type de
morphes est appelé morphe grammatical.

Le morphème (ou monème) est l’unité minimale significative dans une langue quelconque.
Il était défini depuis Saussure comme l’association d’un signifié et d’un signifiant, c’est-à-
dire, pour reprendre les propres mots de Saussure, que :

“Le signe linguistique unit non une chose et un nom, mais un concept et une image
acoustique” (Saussure, 1967,98).

Selon Chomsky, "les morphèmes sont considéré comme des éléments porteurs de sens"
(Chomsky, 1969, 110).

La partie morphinique se trouve sous forme de différents types. Généralement, nous


distinguons deux types de morphèmes : les morphèmes lexicaux et les morphèmes
grammaticaux.

i .les morphèmes lexicaux


Appelés aussi des lexèmes. Sont des unités qui correspondent aux mots en tant qu’unités du
dictionnaire, peuvent être sous la forme d’adjectifs, verbes, adverbes, etc. Exemples :
Des noms : maison, chien, table,
Des adjectifs : petit, grand, rouge, beau,…
21
Des verbes : lire, manger, dormir,
Des adverbes : heureuse, vite, merveilleusement,...

ii. les morphèmes grammaticaux

Sont des morphèmes qui indiquent les catégories grammaticales qui sont sous formes des
articles, déterminants, prépositions, conjonctions, etc. (le, la, une, un, très, etc.).

Généralement, nous distinguons deux types de morphèmes grammaticaux :

- Morphèmes grammaticaux libres, qui sont des mots qui ont un sens lorsqu’ils sont inclus
dans des propositions.

- Des morphèmes grammaticaux liés, qui sont des unités de sens appelés des affixes.

En particulier, ces deux types forment les unités essentielles d’un texte en langue

arabe.

Nous obtenons comme exemple de morphèmes grammaticaux du type libre les mots: ‫رجل‬،
...،‫ولد‬.

Pour les morphèmes liés, par exemple : ‫ان‬‰‰‫( كتاب‬kitabun)/deux livres. Cette unité peut se
segmenter en deux morphèmes : ‫اب‬‰‰‫ كت‬+ ‫ان‬, où, le morphème ‫اب‬‰‰‫( كت‬kitab)/livre, est un
morphème libre car il signifiait une chose qui est connue. Par contre le morphème ‫ ان‬signifiait
un suffixe du dualisme, dont on ne peut pas utiliser ce type de morphème d’un cas isolant (il
dépend toujours du mot).

Les morphèmes dépendants ne sont pas radicaux (non- roots), ils ont une valeur syntaxique.

c. Mots, clitiques et affixes

Plusieurs études sur l’analyse des clitiques, sont à considérer notamment celle de
Zwicky[14] qui distingue les clitiques simples des clitiques spéciaux, et celle de Zwicky &
Pullum [15] qui fournissent l’une des analyses les plus détaillées sur la différenciation entre
clitiques et affixes.
Miller [16] [17] distingue trois types d’éléments qui ont pu recevoir l’appellation de
‘clitiques’:

22
- Les clitiques post-lexicaux sont des clitiques “simples”. Ce sont des mots syntaxiquement
indépendants qui s’appuient phonologiquement sur un mot qui précède ou qui suit.

- Les affixes syntagmatiques sont affixés à un mot qui se trouve à la frontière gauche ou
droite d’un syntagme, quelle que soit la catégorie de ce mot.

- Les affixes de tête sont les affixes traditionnels (p. ex. la flexion verbale). Ils
sélectionnent une tête lexicale d’une catégorie spécifique et s’attachent morphologiquement à
elle.

2.1.2. Morphologie flexionnelle

Une morphologie flexionnelle est un changement de la forme des unités lexicales en


fonction de facteurs grammaticaux ; On distingue généralement deux types de flexion :
flexion des verbes et flexion des noms (avec les pronoms et les adjectifs). Le premier est basé
sur la conjugaison des verbes, et le second basé sur la décolonisation des noms.

a. Flexion des verbes

La conjugaison pour les verbes est une catégorie de flexion verbale. Cette classe concerne
les variations sur les verbes en personne, nombre, genre, temps, voix et mode, entre autres
possibilités.
Historiquement, les marqueurs flexionnels du verbe permettent de modifier le temps et la
personne. Toutefois, un processus historique de réduction des syllabes finales dans les formes
les plus fréquentes des verbes a conduit à une disparition des flexions finales qui servent à
marquer la personne [18].
Particulièrement, l’Arabe est une langue flexionnelle. Elle emploie, pour la conjugaison du
verbe et la décolonisation du nom, des indices d’aspect, de mode, de temps, de personne, de
genre, de nombre et de cas, qui sont en général des préfixes et suffixes [19].

La flexion des verbes arabes caractérisés par leurs conjugaisons et qui permet de varier les
formes des verbes en fonction de circonstances [20]. Nous présentons dans ce cas trois formes
du verbe arabe : l’accompli "‫( "الماضي‬al maàdi), l’inaccompli "‫("المضارع‬al mudaàraâ) et
l’impératif "‫( "األمر‬alaàmar). Les deux premières formes sont fondamentales et plus utilisées
dans la langue arabe, décrites par trois principales valeurs qui sont étroitement liées entre elles
[21] : la valeur aspectuelle, la valeur modale et la valeur temporelle. La troisième forme
(l’impératif) est un paradigme supplémentaire [20] il exprime l’ordre, le commandement, la
défense ou l’exhortation. Ces éléments concernent tout simplement la 2eme personne au

23
singulier, féminin duel et pluriel ( ‫ت‬/‫أنتما‬/‫أنتن‬/‫ أن ت أنتم‬+ verbe à l’impératif (selon le nombre et
le genre de personne)). ‫أن‬/

b. Flexion des noms

La décolonisation pour le système nominal est une catégorie de flexion nominale : les noms,
les adjectifs et les pronoms. Cette classe concerne les changements sur les noms selon le
genre, le cas ou le nombre, entre autres possibilités.

La flexion des noms arabes justifiée par la décolonisation nominale et qui comporte trois
cas différents : la nominative "‫( "الرفع‬arrafaâ), l’accusative "‫( "النصب‬annasub) et la génitive "
‫( "الجر‬aljaàr).

2.1.3. Morphologie dérivationnelle

Une morphologie dérivationnelle est une formation d'unités lexicales nouvelles à partir de
matériel morphologique existant. Elle permet d’étudier la construction des mots et leur
transformation selon le sens voulu ; autrement dit, la dérivation morphologique est décrite sur
une base morphosémantique : d’une même racine, se dérivent des mots différents [22].
La différence entre la morphologie flexionnelle et la morphologie dérivationnelle est que la
première étudie la relation entre les différentes formes d’un même lexème. Et la seconde
étudie la relation entre lexèmes considérés comme appartenant à une même famille de mots.
La connaissance de la morphologie dérivationnelle implique la capacité à déduire les
systématicités de formes liées au sens dans le lexique [23]. Elle implique aussi de savoir le
rôle des suffixes dans la formation des mots de diverses catégories et à les reconnaître comme
étant des unités qui distinguent les noms, les adjectifs, les verbes et les adverbes [24]. Par
exemple, le suffixe " ance", accolé à un verbe, forme un nom d'action: vengeance. Cette
connaissance permet au locuteur qui rencontre pour la première fois le mot isolé modélisation,
d'identifier qu'il s'agit d'un nom et non pas d'un adjectif. La connaissance des règles de
dérivation explique aussi que le locuteur natif à qui l'on demanderait le nom de l'arbre qui
porte des pamplemousses répondrait très probablement pamplemoussier, même si ce mot lui
était préalablement inconnu, et non pas pamplemousseur, par exemple. Selon ce qu'a trouvé
Carlisle [25], c'est la capacité de dérivation qui contribue le plus dans la définition des mots
complexes puisqu'il faut savoir le sens et la fonction des affixes et non seulement la
signification de la base [26].

2.2. Analyse syntaxique

24
Implique la disposition des mots et leurs relations structurelles au niveau contextuel. Ces
relations permettent de désambigüiser les phrases d’une langue et qui sont partiellement
ambigus. L’analyse syntaxique reconnaît la structure du programme source, i.e. les
constructions telles que les expressions arithmétiques ou logiques, les instructions, les
déclarations, les sous-programmes, etc. La structure de ces constructions est décrite par une
grammaire algébrique dont le vocabulaire est l’ensemble des unités lexicales [27].

Dans une partie intitulée " Überlegangen zur textthéorie/ Considérations de texte théorie"le
travail de Horst Isenberg [28] en se basant sur l’hypothèse que le domaine de la grammaire
doit être le texte, et non pas la phrase, Isenberg énumère une série de phénomènes "
empiriques", c'est-à-dire linguistiques, qui ne reçoivent pas d’explication suffisante dans la
grammaire phrastique. Parmi ces facteurs linguistiques [29], seuls interprétables par rapport à
la structuration textuelle, seraient :

 Les anaphores
 L’emploi de l’article
 L’ordre des mots dans la phrase
 La pronominalisation et connecteurs (" pro-adverbes")
 L’intonation
 Emphase et contraste
 La succession temporelle. Etc.

Dans une autre partie intitulée " caractéristiques de référence spéciales ", Isenberg traite les
problèmes de la référence, c'est-à-dire les anaphores, l’article, la pronominalisation etc.

Harweg [30] traite dans une partie intitulée " Pronomina und textkonstitution/ Pronoms et
constitution de texte", même que Isenberg, la cohérence textuelle par le biais de la référence
de l’anaphorisation, qui, chez lui, reçoit le nom de substitution ou bien de pronominalisation.
Selon Harweg [30], le terme pronominalisation recouvre, la substitution par des items
lexicaux aussi bien que par des pros formes syntaxiques, c'est-à-dire que la pronominalisation
recoupe à la fois les domaines syntaxique et sémantique. Il propose une distinction entre :

 Cohérence par coréférence (par exemple : une femme – la femme – elle).


 Cohérence par contiguïté sémantique (exemple : la science – la connaissance).

Irena Bellert [31] conclut que les aspects d’implications linguistiques et encyclopédiques,
sémantiques et pragmatiques, jouent un rôle égal pour l’interprétation de la cohérence

25
textuelle. Mentionnons pour conclure que pour Bellert, la cohérence textuelle se base sur un
processus de répétition d’unités lexicales et d’intersection de contenus propositionnels.

2.3. Analyse sémantique

Ce domaine fondé sur la recherche conceptuelle des mots, en prenant en considération les
domaines d’analyse précédents, spécialement le domaine syntaxique et qui s’intéresse à
étudier la relation entre les mots au niveau contextuel.

La représentation sémantique utilisée par les chercheurs peut souvent être sous la forme
d’un graphe de relations [29]. Elle est directement inspirée des représentations sémantique et
syntaxique profonde de la Théorie Sens-Texte proposée par les chercheurs : Mel’čuk, Candito
& Kahane [32][33][34]. Il s’agit d’une représentation sémantique du contenu linguistique et
pas d’une sémantique dénotationnelle comme les représentations sémantiques basées sur la
logique. Il n’y a donc pas à proprement parler de calcul de valeurs de vérité associées [29] ;
par contre, ce type de représentation permet des calculs de paraphrases selon Mel’čuk et
Milićević [35][36] et a été implémenté avec succès pour la génération de textes [37][38] ou la
traduction automatique [39]. Des représentations similaires ont été proposées par d’autres
auteurs sans référence explicite à la Théorie Sens-Texte [40][41].

Discution pragmatique

Ce domaine pragmatique prend en compte l’étude contextuelle pour traiter un certain


concept. Il exprime le rapport des signes à leurs utilisateurs [42] et qui est le produit d’un
aspect pragmatique et le contenu pour une juxtaposition à ce qui est dit et ce qui est signifié.
Cet aspect concerne les caractéristiques de son utilisation [43].
La pragmatique définie comme l'étude cognitive, sociale et culturelle du langage et de la
communication se donne pour objectif de répondre à la question: comment définir et étudier
l'utilisation du langage? [44][45][46][47]. Il s’agit donc bien comme nous l’avons déjà
souligné de déterminer le rapport qui existe entre la signification des énoncés et leur contexte
de production.

Du point de vue de l’histoire [48] des idées William James [49] est le premier, à partir de
1890, à développer le « pragmatisme » en psychologie. On peut commencer par une définition
"par l'exemple" de façon à illustrer concrètement dans quelles situations d'utilisation du
langage la mise en œuvre de ces capacités est nécessaire. Toutes les situations où
l'interprétation des énoncés produits dépend du contexte, requiert le recours aux capacités
pragmatiques chez le locuteur comme chez l'auditeur. En d'autres termes, à chaque fois que le
26
langage n'est pas transparent, les capacités pragmatiques doivent être mises en œuvre pour
que le succès de la communication soit assuré. L'absence de transparence du langage, c'est à
dire le décalage entre ce qui est dit et ce qui est signifié, est courante dans la vie quotidienne.

Prenons par exemple dans ce contexte la phrase suivante :

"casse ma tête", en arabe on dit : "‫"رأسي كسر‬/ kassar rassi.

C’est métaphore ("casse ma tête"), l’interlocuteur non pas pour dire que sa tête (après la
casse) elle s’est transformée en particules ou en des petits morceaux comme le verre ou autres
matières fragiles, mais pour lui faire approuver le taux de pression et le degré du stress.

Pour mieux comprendre le sens, il faut déterminer une relation entre la cause et son résultat.
Donc, entre les significations des unités de la métaphore comme résultats et le taux de
pression, prenons en considération la forme des unités lexicales, par exemple la métaphore:

"‫"رأسي كسر‬/ kassar rassi « casse ma tête ». La phrase constituée par un verbe "‫" كسر‬/ casse et
une unité nominale "‫ "رأسي‬et qui peut être segmenté en deux morphèmes : morphème libre "
‫ "رأس‬et morphème lié "‫( "ي‬cette particule peut exprimer en arabe, la proportionnalité : "‫"النسبية‬/
annissbya).

Dans ce cas, il existe une relation entre ces deux notions : le degré du stress et l’effet de la
casse (c'est-à-dire que la tête ne peut pas supporter (en signification) plus que sa capacité).

Un autre exemple est plus utilisé en communication et qui inclus deux termes opposés,
lorsqu’on peut utiliser cet exemple dans les deux langues : la langue française et la langue
arabe, et qui est représenté par la phrase suivante:

"‫دري أثلج‬‰‫"ص‬/ athlaja sadri «refroidi mon cœur». Mais la traduction de cette métaphore en
langue française porte une forme différente : « réchauffe mon cœur »/ "‫(" قلبي أسخن‬asskhana
galbi). Cet exemple peut être appliqué dans le même sens et de la même manière par les deux
peuples qui utilisent deux langues différentes tant que le mot « réchauffe » est l’antonyme du
mot " ‫ " أثلج‬et qui peut se traduire en français au synonyme « refroidi ».
Une métaphore comporte une signification plus profonde, mais plus loin de raisonnement au
niveau de la forme. Elle peut être composée par des unités opposées ou l’incompatibilité entre
ces unités, ou bien à donner à une image un sens qu’on attribue généralement à une autre.
Comme dans les exemples suivants :
dessus devient qui dessous Le «  » / "‫"يصير أسفلها أعالها‬

27
« sable le fait sud qu’au ce nord au fait neige La » )Hugo( / ‫" يفعل الثلج في الشمال ما فت عله في‬
"‫الجنوب الرمال‬
" blanc manteau un porte montagne La «  » : "‫ " يرتدي الجبل معطفا ابيض‬porte ville la « Ou
habillement nouveau un » : "‫ترتدي المد ني ة حلة جديدة‬
manger pour vivre pas non et vivre pour manger faut Il «  » )Molière( / ‫" يجب أن تأكل كي‬
"‫تعيش ال أن تعيش كي تأكل‬

3. Les difficultés du traitement automatique de la langue


arabe
La détection des sources des noms arabes est un travail plein de complication sur tous
les niveaux des domaines linguistiques : morphologique, syntaxique et sémantique.
Exceptionnellement, très compliquée en ce qui concerne le niveau sémantique. En raison
de la caractéristique particulière, dont la dominance d'ambiguïté aux textes arabes, où
nous trouvons souvent des mots simples, des mots composés et des racines qui ont de
mêmes formes en écriture mais des significations différentes [50].
La langue arabe est parmi les langues sémitiques vivantes qui s’écrivent généralement
de droite à gauche et qui est difficile à traiter par la machine. Les difficultés de la langue
arabe, tels que la non vocalisation et l’agglutination sont classées selon les différents
niveaux d’analyse : des phénomènes pragmatiques, sémantiques et morphosyntaxiques.
La difficulté de ces phénomènes est apparue sous forme d’une complexité de mise en
place dès qu’il s’agisse d’un passage de l’état d’un prototype théorique ou maquette à
celui d’un système réellement utilisable dans des applications à large échelle [20].

3.1. L’absence de voyelles

L’absence de voyelles en langue arabe présente un problème majeur, et qui reproduit des
différents phénomènes morphosyntaxique et sémantique. L’arabe se caractérise par quatre
types de voyelles et qui présentent une difficulté au niveau du traitement par le système:
 les voyelles brèves ou courtes (nommées en arabe par : ‫ القصيرة المصوتات‬/Almossawittate El
kassira). Ce type de voyelles se prononce brièvement et s’écrit sous la forme de quatre
petits signes, et qu'on met au-dessous ou au-dessus de la lettre :
o La Fat- ha ( : -a), qui est située au-dessus de la lettre. Où chaque lettre associée par ce
signe se prononce par sa tonalité, suivi par un ton « -a ».
o La Dhamma ( : -ou), un petit '‫و‬/Waw' situé au-dessus de la lettre. Telle que chaque
lettre liée par ce signe se prononce par sa tonalité, suivi par un ton « -ou ».

28
o Le signe Kas- ra ( : -i), située au-dessous de la lettre. Où chaque lettre associée par ce
signe se prononce par sa tonalité, suivi par un ton « -i ».
o Le signe Soukonn ( ). Ce type est sous la forme d’un petit cercle, et qui peut être situé au-
dessus de la lettre. Il indique l’absence de voyelle ; implique que la consonne sera
prononcée seule et sans voyelle.
Les voyelles brèves peuvent lier les lettres d’un mot arabe, mais restent indépendante
de ces lettres, c’est à dire que les signes ne sont pas collés par les lettres qui forment le
mot arabe. Et par conséquent, cette caractéristique présente un problème lors du
traitement des mots qui comportent ce type de voyelles.
Sauf, les textes religieux (Alcoran et Alhadith) et une partie de la poésie et des textes
scolaires, une quantité de documents arabes très importante (dans les livres et sur les sites
internet) est enregistrée sans signes. De même que parmi la quantité textuelle voyelle, on
trouve des documents entièrement voyelle et autre partiellement.
Dans les détails de [51], nous pouvons proposer que : « l’écriture arabe courante ne
note pas les voyelles brèves, la gémination des consonnes, les marques casuelles
composées d’une voyelle brève suivie, pour les noms et les adjectifs indéterminés, d’une
consonne "‫( "ن‬noun- tanwîn), etc. on parle alors d’écriture ‘non voyelle’. Ces signes de
voyallation qui sont réalisés, lorsqu’ils sont notés, sous la forme des signes diacritiques
placés au dessus ou au dessous des lettres, apparaissent dans certains textes religieux
(coran ou hadith) ou littéraires (poésie classique, notamment) : on dira qu’ils sont édités
en graphie voyelle. On distingue en outre deux pratiques, celle de l’écriture entièrement
voyelle et celle qui l’est partiellement. La voyallation partielle répond, dans les éditions
soignées, à la levée de certaines ambiguïtés de première lecture [….]. On notera que la
voyallation partielle ne repose pas sur une codification appuyée sur une tradition : elle ne
présente donc pas un caractère systématique».
Les voyelles longues (de prolongation) : elles se prononcent de manière prolongée.
Chaque type de voyelles longues correspond à un autre type de voyelles brèves au
niveau de la prononciation. Elles ne sont pas comme les voyelles brèves et qui sont sous
la forme des signes, mais elles sont représentées par des lettres et s’insèrent dans le mot
exactement comme les consonnes.
En arabe nous pouvons distinguer trois sortes de voyelles de prolongation :
o le « Alif » ( ‫ ا‬: qui prolonge la voyelle brève /a/).
o le « Ya » ( ‫ ي‬: qui prolonge la voyelle brève /i/).
o le « Waw » (‫ و‬: qui prolonge la voyelle brève /ou/).

29
 Double voyelles. Ce type comporte deux signes qui permettent de redoubler la
consonne (le cas de la Shad-da ( )) ou bien de créer une tonalité à la fin du mot
associé (le cas du Tanwine)
o Shad-da ( ) : un signe qui est situé au-dessus de la lettre et qui peut être associé par
un certain signe des voyelles brèves.
o Tanwine. Ce type s’écrit sous la forme suivante :
- Avec 2 Fat- ha situées au-dessus de la dernière lettre " ‫ « " ا‬Alif ».
- Avec 2 Dham-ma situées au-dessus de la dernière lettre.
- Avec 2 Kasra situées au-dessous de la dernière lettre.
 La Hamza (‫)ء‬. Elle possède quatre formes d’écriture:
o Sur "‫ « " ا‬Alif » et qui équivaut l’écriture " ´‫ " أ‬/ A. Dans ce cas, la lettre qui est située
avant cette « Hamza », peut être :
- associée par le signe « Fat- ha ». Exemples : ...‫´ ´ سأ‬،‫´ كأ ل‬،‫ س‬.
- un caractère sain associé par le signe « soukonn » (sauf les mots de type : ‫ب‬، ‫ه‬،‫ة´ْيئ ْيئة‬... ).
Exemples : ‫لة‬
،‫ف´ جأة‬...،‫ مشأمة‬،.
‫´سأ‬ ‫م‬
o Sur "‫ « " و‬Waw », qui équivaut l’écriture "
" / Ou. La lettre qui précède cette écriture
‫ ؤ‬peut être :
- Associée par le signe « Damma ». Exemple : ...ُ‫ ك‬،‫ ر ُؤوس‬،‫ ؤوس‬.
- Associée par le signe « Fat-ha ». Exemple : ...ُ
،‫ ´ر ُؤول‬.
‫ؤول‬،
- Exemple ». Soukonn « signe le par Associée : ‫ تثا ُؤب‬, ‫ تشا ُؤم‬, ‫تفا ُؤل‬ ،.
- Associée par le signe « Damma » et la lettre qui comporte la « Hamza » est liée par
une « Fat-ha » ( ‫) ´ؤ‬. Exemple
‫ ُم‬... ، ,‫خر‬ ‫ ُم ´ؤ‬.
: ‫جل‬ ´ , ‫´ؤنث‬
‫ؤ‬
‫م‬
- Associée par le signe « Damma » et la lettre qui comporte la « Hamza » associée par
Soukonn « la » (‫ ْؤ‬.) Exemple : ...،‫ ُي ْؤمن‬،‫ م ْؤنس‬،‫ م ْؤمن‬.
o Sur " ‫ « " ي‬Ya », qui équivaut l’écriture "‫ "ئ‬. Le caractère précédent peut être associé
par les différents signes : Fa-tha, Damma, Kasra et Soukonn, et la lettre qui comporte
la « Hamza », peut être associée aussi, par ces différents signes.
o Seule sur la ligne. Dans ce cas le signe « Hamza » est séparé par un espace avec tous
les caractères du mot.
L’absence de voyelle a contribué à l’augmentation du taux de l’ambiguïté au niveau
morphologique, syntaxique, sémantique et de même pragmatique. comme par exemple

30
le mot trilitère « ‫ كتب‬/ktb » : ce mot peut devenir comme l’un des deux du
verbe
« écrire » (soit, il a écrit/ ‫ " ك‬kataba", où il a été ِ kotiba", il fait écrit/
‫ب‬ ‫ ت‬écrit/" ‫ب‬ ‫ت‬
´
‫ك‬
‫" كتَّب‬kattaba" ) pour une voyallation, ou bien un nom ( des livres /"ُ‫ ُ كتب‬kotobe "), pour

31
une autre. De même pour les mots « ‫شعر‬/sh’r » et « ‫سلم‬/slm », dont les différents
vocalisations peuvent avoir des significations différentes :

« ‫ » شعر‬signifiant : sentir, poème, cheveux, etc. [52].

« ‫ » سلم‬peut avoir l’un des sens suivants : paix, saluer, échelle, intact…

3.2. Signes diacritiques de schèmes

Comme dit précédemment, un diacritique est un élément ajouté à une lettre d'un alphabet
pour en modifier la valeur. Cet élément peut être souscrit (en indice), suscrit (en exposant) à
cette lettre, à sa droite ou encore à sa gauche [53]. L’absence de ces signes peut également
affecter le sens de certains schèmes arabes.

En outre, un signe diacritique peut être placé au-dessous ou au-dessus de la consonne d’un
schème arabe pour donner un sens ou une valeur spéciale aux mots associés par ce schème.
Ce phénomène présente aussi, un problème au cas de la pratique par un système du
traitement.
Exemple :
Prenons dans cet exemple les mots qui ont des schèmes « ‫ » فعال‬et qui peuvent être :
‫ ِفعال‬,»fiaale/ « ‫ ُفعال‬/ »ou fouaale « ‫ َّ عال‬/faâale», où la première consonne du schème soit
«
avec « kassra » (signe ( ), placé au-dessous du caractère arabe): et qui peut signifier un
certain sens. Ou avec « Damma » (signe ( ), placé au-dessus du caractère arabe) : dans ce
cas le schème a un autre sens différent. Ou bien avec fat-ha (signe ( ) et la deuxième
consonne associée par le signe « shadda ( ) ») : ce qu’implique dans ce cas, que le schème
peut signifier un sens différent par rapport aux cas précédents.
De manière que les voyelles en arabe jouent le rôle tel qu’elles enlèvent l’ambiguïté, elles
donnent aussi l’étiquette grammaticale indépendamment de sa position dans la phrase [54].
Cet effet permet de diminuer d’une manière relative la complexité morphologique de la
langue arabe.

3.3. Complexité de la morphologie arabe

La langue arabe est une langue fortement flexionnelle et agglutinante qui se caractérise par
l’absence des voyelles courtes dans la plupart des textes écrits [55].Cet agglutination est

32
engendrée par une ambiguïté morphologique au cours de l’analyse des mots qui ont apparu
sous la forme d’une structure graphique compliquée.

Cette appellation a été attribuée par D. Cohen [56] à un mot graphique décomposable en :
proclitique, forme fléchie et enclitique. La forme fléchie représente le noyau lexical, les
proclitiques sont des préfixes ajoutés aux préfixes de formes fléchies et les enclitiques sont
des suffixes ajoutés aux suffixes de formes fléchies.

Le phénomène de l’agglutination dans la langue arabe augmente le taux d’ambiguïté en


introduisant des ambiguïtés supplémentaires au niveau de la segmentation des mots [57].

Dans ce cas l’agglutination propose une difficulté en traitement automatique de la langue


arabe, par laquelle les composantes du mot sont liées les unes aux autres [58]. Ces
phénomènes posent de redoutables problèmes pour l’analyse automatique de l’arabe dans la
mesure où ils augmentent considérablement le taux d’ambiguïté en introduisant des
ambiguïtés supplémentaires au niveau de la segmentation des mots [57]. En effet, une unité
lexicale arabe peut se trouver en plusieurs découpages possibles à base de leur structure
morphimique selon [56] (proclitique, forme fléchie et enclitique).
Considérons l’exemple suivant, où nous prenons le mot " ‫" كلهم أو‬:

o Découpage 1 :
Proclitique 1 Proclitique 2 Forme fléchie Enclitique
‫(أ‬à)/article d’interrogation ‫(و‬wa)/ conjonction de ْ‫( ل ُك‬kol : mange)/ verbe à ‫( هم‬hom)/ pronom personnel
coordination l’impératif

o Découpage 2 :
Proclitique 1 Proclitique 2 Forme fléchie
‫(أ‬à)/article d’interrogation ‫(و‬wa)/ conjonction de coordination ُّ‫( ´هم كل‬kallahom : ils ont
fatigué)/verbe à
l’accompli

o Découpage 3 :
Proclitique Forme fléchie

‫(أو‬àw)/ particule implique la choix ُ ‫( هم ِّل ُك‬kollohom : toutes(tous))/ homophones


(expriment
encore des adjectifs)

o Découpage 4 :
Proclitique Forme fléchie

33
‫( أ‬à)/ article d’interrogation ْ‫( ´م ُه ْل ِّك و‬wakkilhom :tu les confiés)/ verbe à l’accompli

o Découpage 5 :
Forme fléchie

ُ‫( هم ْل ِك ْو أ‬àwkilhom : confié les)/ verbe à l’accompli

4. Ambiguïté
4.1. Généralités

Nécessaire, le choix entre les différents sens d’un constituant ambigu est également
impossible [59]. Là encore, insistons, toute ambiguïté est effective ; autrement dit, il n’existe
pas d’ambiguïté “virtuelle”. En revanche, il n’y a ambiguïté que dans un empan contextuel
et/ou situationnel donné [60].

L’ambiguïté trouve sa source dans deux ordres de phénomènes linguistiques : l’homonymie


entre deux signes distincts d’un côté, et la polysémie d’un même signe [61][62], de l’autre. Or
ces deux phénomènes ne donnent pas lieu aux mêmes cas de figure interprétatifs [63][64]:
l’homonymie ne peut conduire qu’à l’univocité ou à l’ambiguïté, tandis que la polysémie peut
conduire non seulement à l’univocité ou à l’ambiguïté, mais aussi à la “plurivocité sans
ambiguïté”.

D’autres études portant sur le traitement des ambiguïtés syntaxiques [65] chez les bilingues
ont cherché à établir les lieux d’attaches différents selon les langues, soit par l’attachement
minimal (complément le plus proche) ou par la clôture tardive (complément éloigné), ainsi
qu’à vérifier le traitement de ces phrases chez les bilingues. [66] ont étudié les stratégies
d’attache chez les locuteurs de l’espagnol et de l’anglais afin de déterminer si les mécanismes
de décodages étaient universels ou influencés par la langue parlée et quels indices étaient
utilisés par les locuteurs pour interpréter les phrases syntaxiquement ambigües. Selon ces
chercheurs, la clôture tardive devrait être utilisée en espagnol si cette stratégie possède des
avantages de traitement (au niveau des résultats et de la charge cognitive, entre autres).

4.2. Ambiguïté de la langue arabe


4.2.1. Ambiguïté lexicale
34
Le problème de l’ambiguïté [20] ne réside pas dans l’analyse d’un langage ambigu en soi;
mais c’est plutôt au niveau de son traitement de façon robuste et réaliste.

Beaucoup de mots en arabe sont homographiques [20] : ils ont la même forme
orthographique, bien que la prononciation soit différente.
Nous pouvons mentionner de nombreux facteurs qui sont associés à ce problème :
 Le lexique arabe contient des mots homographes, et qui peuvent avoir différentes formes au
niveau de la prononciation, la signification et de la catégorie grammaticale.
Exemple de la forme ‫( علم‬Aalm) :

Figure 2 : Représentation graphique de différentes significations du mot arabe "‫"علم‬

 La flexionalité des verbes arabes, où plusieurs lemmes peuvent être produits d’une
seule forme (surtout lors de la transformation des verbes à l’inaccompli).
Exemple : ‫( يعد‬y’d)
( )‫ُي ِعدّ (أعد‬/ Yu’id )ّ‫ ´عد( يُعد‬/ ِ‫(عد ´ي)وعد‬/ ya’id )‫عاد( عُد´ي‬/ ya’udd )‫ُي ِعد (أعاد‬
)àa’ada ya’ud (wa’ada) (adda) /yu’idd(aa’adda)
(ada)

Il refait Il compte Il promet Il retourne Il prépare

Le redoublement d’une consonne au moyen de la lettre « shadda », où nous trouverons deux


formes différentes au niveau du redoublement de la syllabe.

Exemple : ‫( كتب‬ktb)
‫´ب´كت‬
‫( كتّب‬kattaba)
(kataba)
Il a écrit il a fait écrit
 La flexionnalité des certains verbes arabes peut engendrer une forme homophonique
ayant des différents sens.
‫( أجر‬àjr)
‫أج ر‬
35
‫ج ˚ر‬
‫أجر‬
‫أ‬

‫‪36‬‬
(àajurru/ je tire) (àajrun/ salaire) (àajrun/ bon)
 Les clitiques peuvent fortuitement produire plusieurs formes homophoniques.
‫‘( علمي‬lmy)
‫علمي‬ (‫ ي‬+‫ علم‬:‫) علمي‬ ‫´عل´مي‬
(‘Ilmiy/ scientifique) ('ilm + y/ ma science) (àalami/ mon drapeau)

4.2.2. Ambiguïté syntaxique

Actuellement, une importance très limitée est donnée à l’analyse syntaxique, notamment
pour résoudre un certain problème d’ambiguïté en ce qui concerne une langue très
compliquée, comme l’arabe par exemple. Pour cela encore, l’efficacité de la nécessité des
analyseurs morphosyntaxique est de considérer la phase d’analyse pour désambigüiser des
mots et des phrases au contexte comme une phase principale et qui permet d’associer à un
énoncé ses structures syntaxiques possibles, en identifiant ses différents constituants et les
rôles que ces derniers entretiennent entre eux. Cette phase reçoit au fur et à mesure de la
phase ‘morphologie’ les résultats de traitement des mots de la phrase indépendamment du
contexte, commence à faire l’analyse du premier mot reçu de la phrase, et entre en
communication avec les autres phases d’analyse, si nécessaire [67].

Plusieurs méthodes sont proposées pour la décision de l’ambiguïté syntaxique. Fodor [68]
postule que le découpage prosodique d’une phrase joue un rôle essentiel dans la résolution des
ambiguïtés syntaxiques. En effet, Fodor propose l’hypothèse « de la prosodie implicite » («
Implicit Prosody Hypothesis ») selon laquelle, en cas d’ambiguïté syntaxique, le lecteur
choisit l’analyse syntaxique la plus proche du découpage prosodique naturel de la phrase
(Quinn, Abdelghany et Fodor, 2000) [69]. L’influence de la prosodie sur la résolution
d’ambiguïté structurale a été mise en évidence dans des phrases présentées oralement
(Schafer, Carter, Clifton et Frazier, 1996 ; Pynte et Prieur, 1996) [70]. Par exemple, [70] ont
mis en évidence le rôle de l’accent focal sur l’attachement d’une proposition relative (PR) qui
suit un syntagme nominal (SN) complexe (« N1 de N2 ») dans des phrases présentées
oralement. Ces auteurs ont en effet observé que la PR est préférentiellement attaché au nom
marqué par l’accent focal, qu’il soit placé en première (N1) ou en seconde position (N2).
Toujours dans des phrases présentées à l’oral, plusieurs études ont mis en évidence
l’influence du découpage prosodique sur le découpage syntaxique (voir les références données
par Schafer et al. 1996) [70]. Fodor élargit l’influence de la prosodie observée dans la
compréhension des phrases orales à la compréhension des phrases écrites. Elle part du
postulat que, même pendant la lecture silencieuse, le lecteur effectue un découpage
prosodique des phrases qui va influencer leur analyse syntaxique.
37
4.3. Particularité de la théorie Chomskyenne

À base de la théorie chomskyenne [71], le sens d’une phrase n’est pas seulement dans le
contenu qu’elle véhicule, mais aussi dans la façon dont ce contenu est véhiculé. Où nous
remarquons l’apparition des différences de contenu entre une phrase et sa paraphrase.

L’application de cette théorie sur les phrases arabes a donné les mêmes résultats que la
langue latine.

Exemple :

‫كل الباحثين يبحثون عن معلومة‬information. une cherchent chercheurs les /Tous )1(

‫ معلومة يبحث عنها كل الباح يث ن‬chercheurs. les tous par cherchée est information /Une )2(

La première phrase signifie que chaque chercheur cherche une information différente, ce
qu’on appelle une signification dite distributive. La seconde phrase signifie nécessairement
que tous les chercheurs cherchent la même information. Ce type de signification dite
collective.

La grammaire d’une langue est la collection de la représentation de cette langue et de son


activité, lexique, phonologie, morphologie compris, et, pour Chomsky, c’est la collection de
la production des phrases de cette langue. Chomsky part du modèle syntagmatique (la
décomposition en constituants immédiats de Bloomfield et Hockett), qu’il présente comme un
système génératif, un ensemble de règles de réécriture permettant de « produire » ou «
générer» les phrases de l’anglais.

La transformation des mots d’une manière différente dans une phrase permet de changer le
sens de cette phrase (comme dans les exemples précédents (1) et (2)). En effet, que cette
manière peut être provoquée, des ambiguïtés syntaxiques. Cette transformation est parfois,
associée par l’ajout d’un mot inséré dans la phrase ou/et d’un morphème collé par un autre
mot.

En outre, la flexibilité de l’ordre des mots arabes dans une phrase simple [20] provoque
encore, et sans doute, des ambiguïtés syntaxiques. La longueur de la phrase qui comporte les
mots ordonnés est liée par le nombre de phrases produites comportant des mots désordonnés :

Exemple 1:

38
 ‫( القسم في الدرس الولد درس‬darassà àl waladù àddarssa fi àlkissmi/ l’enfant a étudié la leçon dans la
classe) ;
Nous pouvons produire de cette phrase, les phrases suivantes :
 ‫( الدرس الولد القسم في درس‬darassà àl waladù fi àlkissmi àddarssa/ l’enfant a étudié dans la classe la
leçon).
 ‫( القسم في الولد الدرس درس‬darassà àddarssa àl waladù fi àlkissmi / la leçona été étudié par l’enfant
dans la classe).
 ‫( الدرس القسم في الولد درس‬darassà àl waladù fi àlkissmi àddarssa / c’est l’enfant qui a étudié dans
la classe la leçon).
 ‫( الدرس الولد درس القسم في‬fi àlkissmi darassà àl waladù àddarssa/ c’est en classe que l’enfant a
étudié la leçon).
 ‫( الدرس درس الولد القسم في‬fi àlkissmi àl waladù darassà àddarssa/ c’est en classe que l’enfant a
étudié la leçon).
 ‫(القسم في الدرس درس الولد‬àl waladù darassà àddarssa fi àlkissmi/ c’est l’enfant qui a étudié
la leçon dans la classe).
 ‫( الدرس درس القسم في الولد‬àl waladù fi àlkissmi darassà àddarssa / dans la classe l’enfant a étudié la
leçon)…

Exemple 2:

 ‫( القسم في الولد درس‬darassà àl waladù fi àlkissmi / l’enfant a étudié dans la classe).


Nous changeons la placedes termes dans cette phrase pour produire d’autres phrases
différentes :
 ‫( الولد القسم في درس‬darassà fi àlkissmi àl waladù / dans la classe l’enfant a étudié).
 ‫( الولد درس القسم في‬fi àlkissmi darassà àl waladù / c’est en classe que l’enfant a étudié).
 ‫( القسم في درس الولد‬àl waladù darassà fi àlkissmi / c’est l’enfant qui a étudié dans la classe)…

Toutes les phrases produites par les deux phrases dans l’exemple 1 et 2 n’ont pas la même
valeur que la phrase mère (la phrase dont les mots placés d’une manière ordonnées), où la
transformation des mots dans la phrase peut associer des problèmes morphosyntaxiques.

Chaque phrase comporte un verbe qui exprime un événement (‫)درس‬, sa place effective est
l’entête de la phrase arabe (localisé au premier). Cet événement est réalisé par un agent (‫)الولد‬,
sa place est souvent suivi par le verbe )‫(درس‬, suivi par la zone dans laquelle a lieu cet
événement (dans la classe/‫)القسم في‬.

5. Etiquetage
39
5.1. Introduction

Dans le traitement automatique de langue naturelle, les chercheurs se focalisent sur


l’étiquetage morphosyntaxique qui a pour objectif de proposer une analyse détaillée de
plusieurs étiqueteurs pour une langue quelconque. Cet objectif nous permet d’identifier un
mécanisme ayant les meilleurs résultats au niveau de l’analyse morphosyntaxique. Il consiste
à assimiler pour chaque mot sa classe morphosyntaxique à partir de son contexte et des
connaissances lexicales (des bases de données et ressources lexicales par exemple) [72].

Habituellement, nous pouvons décrire une étiquette morphosyntaxique à base de deux


classes principales :
 La catégorie grammaticale (exemple : nom, verbe, adjectif, particule, …).
 Informations morphologiques (genre : masculin, féminin ; nombre : pluriel, singulier, dual;
temps : imparfait, présent…).

Pour construire les étiqueteurs, nous pouvons employer comme première étape, les
méthodes à base de règles sans apprentissage. Les règles de cooccurrences des mots et des
étiquettes, permettent de définir l’appartenance d’une occurrence à une classe de mots, sont
fournies par un linguiste. L’étiquetage morphosyntaxique est utilisé avec succès dans des
tâches de traitement du langage, grâce à sa facilité de réalisation, puisque le niveau de
performance atteint par les systèmes est comparable à celui des humains en terme de qualité
d’étiquetage, avec l’avantage que les systèmes offrent une vitesse d’annotation sans commune
mesure avec celle d’un humain, qui ne peut annoter au mieux que quelques milliers de mots à
l’heure.
Le succès de la tâche d’étiquetage morphosyntaxique a été répandu dans des différents
domaines du Traitement Automatique de la Langue Naturelle (TALN) comme :

 la lemmatisation, où il consiste à associer un lemme à chaque mot du texte. Si le mot ne peut


pas être lemmatisé (nombre, mot étranger, mot inconnu), aucune information ne lui est
associée. La lemmatisation suppose que l'analyse morphosyntaxique a déjà été faite.
 l’analyse syntaxique, où il constitue très souvent une phase amont de l’analyse syntaxique,
 la synthèse vocale (où il sert à désambiguïser les homographes comme « couvent » en
distinguant le verbe du nom),
 l’extraction terminologique.

L’étiquetage morphosyntaxique est la tâche la plus appliquée pour permettre un étiquetage


sémantique qui a pour objectif de trouver le sens d’un mot en contexte. [73] il opère déjà une
40
certaine forme de désambiguïsation sémantique (par exemple pour « guide » entre le nom et
le verbe). On peut aller plus loin et attribuer à chaque mot, en contexte, son sens (en fonction
d'un dictionnaire préexistant). C'est à cette tâche de désambiguïsation sémantique que sont
consacrés les articles de R. Martin [74] et J. Véronis [75] dans ce numéro. Des dictionnaires
sémantiques ont été développés, essentiellement pour l'anglais avec Word Net [76][77][78]
(un dictionnaire limité a été mis au point pour le français dans le cadre du projet européen
EuroWordNet). Dans de tels dictionnaires, sont fournies de manière systématique les relations
d'hyperonymie, antonymie, méronymie, etc.

5.2. Approches sur l’étiquetage

Plusieurs études et approches considèrent l’étiquetage morphosyntaxique comme une tache


fondamentale du Traitement Automatique de la Langue Naturelle (TALN), [79] se sont
intéressés à l’objectif d’étiquetage morphosyntaxique de textes en domaine de spécialité
(domaine médical), et plus particulièrement les documents cliniques issus des dossiers
électroniques de patients en français. [80] présentant des travaux relatifs au corpus de biologie
moléculaire. Après avoir effectué l’étiquetage par l’étiqueteur de Brill, les auteurs constatent
plusieurs problèmes dans ce cas : (i) l’insuffisant du nettoyage ; (ii) les mots techniques sont
inconnus du lexique général ; (iii) les règle de Brill ne sont pas adaptées au corpus utilisé.
L’étiqueteur de Brill [81] permet d’utiliser un apprentissage supervisé à base de
transformations pour engendrer deux listes ordonnées de règles : règles lexicales et règles
contextuelles.

Le travail de [82] qui propose un système basé sur l'étiqueteur stochastique TreeTagger,
réputé pour son efficacité et la généricité de son architecture. Pour ce faire, le commencement
est par la constitution d’un corpus de travail. Celui-ci est peut servir à réaliser l'étape de
segmentation lexicale.

L’objet principal des différentes approches est représenté par la désambiguïsation des mots,
c'est-à-dire de déterminer la catégorie grammaticale d'un mot par son utilisation dans un
contexte particulier. Ces approches se répartissent en trois catégories. Particulièrement, nous
trouverons parmi ces abords : les approches symboliques ou approches à base de règles, les
approches statistiques et les approches hybrides qui combinent les deux dernières.

i. L’approche symbolique

41
Cette approche d’étiquetage est généralement équivalente à l'étiqueteur de Brill, c'est à dire
que l'on va construire des règles lexicales et contextuelles de désambigüisation. La différence
vient du fait que ces règles sont faîtes manuellement, la plupart du temps par des linguistes.

L'avantage de cette approche est donc d'avoir des règles lisibles, modifiables et qui collent
aux phénomènes linguistiques d'une langue particulière.

Le désavantage de l’approche symbolique est le même que pour les approches statistiques
de par le fait qu'il faut construire l'ensemble des règles manuellement et sur un temps plus
long que pour un corpus (qui lui est directement utilisable en fin de création).

ii. L'approche statistique

La majorité des étiqueteurs associé par l’approche statistique se basent sur les probabilités et
plus particulièrement sur les modèles de Markov caches de premier et deuxième degrés
(HMM). La probabilité de choix d’une séquence d’étiquettes est proportionnelle au nombre
de mots étiquetés dans la phrase. Au niveau de la phrase, on cherche donc à maximiser la
probabilité d'avoir une séquence de mots étant donné une séquence d'étiquettes [83].
L'apprentissage de ces probabilités est fait sur un corpus d'apprentissage annote, la plupart
du temps crées manuellement par des linguistes [84]. Ce qui est un désavantageux de cette
approche, car le cout de création de ce corpus est important étant donné sa taille.
Diverses méthodes ont été proposées pour introduire de l’information discriminante dans
des systèmes de type Markovien ou plus généralement basés sur des modèles génératifs [85]
[86][87][88]. Ces travaux reposent en grande partie sur des méthodes à noyau et des machines
à vecteur support.
D’autres techniques ont été utilisées, reprenons par exemple la technique basée sur les
suffixes des mots proposée par [89] et qui consiste à choisir l'étiquette la plus probable pour le
suffixe le plus long du mot inconnu.
Ainsi que les modèles de [89] et TnT [90] qui expliquent un ensemble d’étiqueteurs basés
sur le modèle dit « trigramme », c'est à dire que les probabilités contextuelles sont calculées à
partir d'un contexte gauche de deux étiquettes. Le travail de [91] vise à de déterminer les
probabilités de transition à partir d'arbres de décisions. Ce type d’étiqueteurs basé sur les
HMM est appelé TreeTagger.

iii. L'approche hybride

Cette approche combine les deux autres approches précédentes (statistique et symbolique).
42
En outre, elle combine les règles linguistiques à l'égard des informations statistiques dans le
but de résoudre l’ambiguïté morphologique. Dans cette situation, on peut citer par exemple la
méthode de [92] et qui présente une technique basée sur l’approche MBL (Memory based
learning) [93],et qui permet d’analyser les affixes grammaticaux et flexionnels et les règles
grammaticales. Cette approche est appliquée aussi pour classer une collection de textes
coraniques et éducatifs. L’approche hybride a été appliquée encore par [94] et qui combine
l'approche à base de règles avec un étiqueteur trigramme HMM [95]. Le travail de [96] a mis
en œuvre une approche hybride qui utilise l’algorithme de Viterbi [97][98].
D’un autre point de vue, l’étiquetage d’un texte qui comporte un ensemble des mots (∑𝑛
1 𝑊𝑖
𝑝
/ Wi représente un mot i dans le texte, avec ∑𝑛 𝑊𝑖 = ∑𝑚 𝑁𝑗 𝑈 ∑𝑠 𝑉𝑘 𝑈 ∑𝑡 𝐴𝑙 𝑈 ∑ 𝑃𝑟 𝑈 … ./
1 0 0 0 1

𝑁𝑗, 𝑉𝑘, 𝐴𝑙, 𝑃𝑟, …. représentent successivement un nom j, un verbe k, un adjectif l. une
particule r et une autre catégories dans le texte. où j, k, l, r,… sont des variables entiers ) est
souvent soumise à une technique appelée la tokenisation et qui a pour but (même but aussi
que l’analyse lexicale ambigüe) de segmenter le texte brut en tokens et d’assigner ensuite
pour chacun d’eux les étiquettes possibles à partir des dictionnaires [99].Cette étape produite
par un automate ambigu est réalisée automatiquement avec le logiciel de traitements
linguistiques Unitex [100]. A partir de ce dernier logiciel on peut imaginer un étiqueteur qui
se divise en trois parties distinctes, tout d'abord il faut effectuer la tokenisation du texte. On
découpe le texte en unités lexicales simples. Ensuite on effectue une analyse lexicale ambigüe
qui consiste à assigner à chaque token-mot l'ensemble des étiquettes possibles [83] (à partir
d'un lexique comme les dictionnaires par exemple : Figure 3). Les mots inconnus subissent un
traitement spécial car on ne dispose d'aucunes informations lexicales sur eux [83].

Figure 3 : Architecture d’un étiqueteur, dont l’application de la technique de tokenisation sur un texte.

6. Racinisation
6.1. Définition

La racinisation ou le stemming en anglais est le processus d’extraction des racines ou des


pseudo-racines des mots [101]. En cas général, La racine d’un mot correspond à la base

43
isolante de ce mot après la suppression de ses affixes et ses clitiques. Elle consiste à regrouper
ces différents mots affixés ayant un sens proche.

Divers travaux ont penchés sur cette partie d’étude [101][102] [103] et considèrent la
racinisation comme une branche de traitement automatique du langage naturel.

En linguistique, la racinisation peut impliquer que la notion dé-suffixation est une formule
de transmutation des fléchissements en leur racine (en anglais : stem dérivé du mot
stemming). La racine d’un mot correspond à la partie du mot restante une fois que l’on a
supprimé son préfixe et son suffixe, à savoir son radical. À l'inverse du lemme qui correspond
à un mot réel de la langue.

Par exemple, soient les deux mots suivants :

- « Pencher » et qui a pour radical « pench », ce dernier n’applique aucun significatif en


langue française.

- Contrairement pour le mot « frontal », et qui a un radical de la forme « front », ce dernier


explique un mot réel dans la langue naturelle.

6.2. Les difficultés de racinisation

Dans le TALN la racinisation confronte de nombreux problèmes. En langue latine nous


trouvons plusieurs mots qui peuvent n’exprimer aucun sens lors de la suppression de leurs
affixes, comme par exemple pour le cas du mot anglais précédent « stemming » : si on enlève
la suffixe « ing » on obtient un mot « stemm », ce dernier ne correspond pas à un mot réel de
la langue et par suite n’explique pas la racine du mot « stemming » et qui est de la forme
« stem ».

Les langues naturelles ne sont pas complètement régulières et de là, vient la difficulté de la
racinisation [101]. Vu que les algorithmes de racinisation exécutent sur des mots naturels,
alors ils feront nécessairement des erreurs. Le taux d’erreur de chaque algorithme de
racinisation dépend du niveau de complexité de la langue traitée, mais cela n’empêche de dire
que la majorité des racineurs (un programme ou un algorithme de racinisation que l'on
appelle stemmer en anglais) même les plus populaires tel que celui de Lovins et l’autre
de Porter, font deux sortes d’erreurs [104] :

 La sur-racinisation : elle se produit, lorsque la racinisation produit une seule racine pour
deux mots ayant en principe deux racines différentes. Par exemple, l’algorithme

44
de Porter affecte la même racine au groupe de mots « general, generous, generation et
generic »

 La sous-racinisation : elle se produit, lorsque la racinisation produit deux racines pour deux
mots différents ayant en principe la même racine. Prenant les deux mots anglais « recognize »

et« recognition » par exemple. En appliquant une racinisation de Porter, on obtiendra deux
racines différentes au lieu d’une seule.

Les difficultés des langues naturelles peuvent être différenciées selon plusieurs critères,
comme le degré de la complexité, la richesse morphologique, la pluralité des notions, etc. ces
différents critères posent des problèmes au niveau de la racinisation. Nous présentons dans ce
cas comme exemple la langue arabe qui a l’objet principal dans ce travail de thèse.

6.3. La racinisation de la langue arabe


6.3.1. Particularité de la langue arabe

La langue arabe est parmi les langues sémitiques modernes, tels que l’hébreu, le phénicien,
l’araméen, le syriaque, etc. la construction de ses langues est très proche de celle des langues
indo-européennes. Au niveau de proportion des gens parlant ces langues sémitiques
officielles, la langue arabe a marquée des progrès en termes de locuteurs natifs par rapport
aux locuteurs des autres langues sémitiques (plus de 450 millions de locuteurs qui parlent en
arabe),l’amharique (27 millions locuteurs), l’hébreu (8 millions locuteurs), le tigrinya (6,75
millions locuteurs), le maltais (400 000 locuteurs).Ces langues se caractérisent par la
prédominance de racines trilitères qui constituent le squelette de la langue sémitique. En
particulier la majorité de racines arabe est de type trilitère. En plus, nous obtenons encore
l’influence des autres racines comme les racines bilitères et quadrilatères, mais d’une manière
moins que celle des racines trilitères. Ces parties morphiniques arabes sont formées par des
lettres arrangées de façon que la racine exprime un certain sens.

L'alphabet arabe comprend 28 lettres (de "‫ "ا‬à "‫ )"ي‬et parmi ces lettres, il y a 14 lettres
solaires(sont des lettres qui peuvent préfixer au début d’un certain nom et accepter l’article
défini suivant "‫)"آل‬, ces lettres sont : {‫(ت‬ta),‫(ث‬tha), ‫(د‬del), ‫(ذ‬zel), ‫(ر‬ra), ‫(ز‬za), ‫(س‬sin),
‫(ش‬chin), ‫(ص‬sad),‫( ض‬dad), ‫(ط‬tta), ‫(ظ‬zza), ‫(ل‬lam), ‫(ن‬noun)}, et 14 lettres lunaires(sont des
lettres qui peuvent préfixer au début d’un certain nom et accepter l’article défini suivant "˚‫ل‬
‫)"آ‬, ces lettres sont : {‫ ء‬ou ‫(ا‬hamza ou alif),‫(ب‬ba),‫(ج‬djim), ‫(ح‬hha), ‫(خ‬kha), ‫(ع‬ayn), ‫(غ‬rayn),
‫(ف‬fa), ‫(ق‬9af), ‫(ك‬kaf),‫(م‬mim), ‫(ه‬ha), ‫(و‬waw), ‫(ي‬ya)}. Mais la plupart des chercheurs

45
conviennent que l’arabe hérite vingt-deux lettres de l’écriture nabatéenne, et elle emploie des
liens pour rassembler une lettre à la suivante.

A l’arrivée de l’Islam, où le Coran a été fixé, les philologues arabes ont signalé
l’insuffisance de ces 22 consonnes nabatéennes et ont inventé six nouvelles lettres [101].Il
s’agit des lettres suivantes : ‫ ظ غ‬,‫ ض‬,‫ ذ‬,،‫ث خ‬، ces six consonnes représentent l’image de six
autres identiques et qui sont parmi les 22 lettres nabatéennes, telle que chaque lettre est
dérivée de l’autre, avec une petite différence symbolisée par l’ajout de points diacritiques. Où
nous obtenons :

 La lettre ‫ ث‬est dérivée de la lettre ‫( ت‬avec l’ajout d’un troisième point au sommet).

 La lettre‫ غ‬est dérivée de la lettre ‫( ع‬avec l’ajout d’un point au dessus de la lettre).

 La lettre ‫ خ‬est dérivée de la lettre ‫( ح‬avec l’ajout d’un point au dessus de la lettre).

 La lettre ‫ ذ‬est dérivée de la lettre ‫( د‬avec l’ajout d’un point au dessus de la lettre).

 La lettre ‫ ض‬est dérivée de la lettre ‫( ص‬avec l’ajout d’un point au dessus de la lettre).

 La lettre ‫ ظ‬est dérivée de la lettre ‫( ط‬avec l’ajout d’un point au dessus de la lettre).

La révolution qualitative et quantitative de la langue arabe a apparue au VIIIème siècle avec


l'effort colossal en lexicographie d'al-Khalil ibn Ahmed El Farahidi (718- 776, 786, 791 : selon
les sources) qui introduisent une approche combinatoire dans ses raisonnements et calculent le
nombre de combinaisons sans répétition des 28 lettres de l'alphabet, prises 2 à 2, puis 3 à 3, etc.,
jusqu'à 5 à 5., ainsi que le nombre de permutations de chaque groupe de r lettres.

Une étude sur le plan morphosyntaxique, montre que l’arabe se caractérise par sa structure
flexionnelle et dérivationnelle, permettant d’organiser ses unités lexicales en paradigmes de
schèmes dont certains sont prévisibles, d’autres relèvent de l’usage. Par conséquent, cette
caractéristique permet la lecture sans voyelles et de fixer une concordance entre mots sans
voyelles en cas de locution ou de l’écriture. Les terminaisons suffixées qui indiquent la fonction
du mot dans la phrase sont maintenues en arabe littéral mais ont absolument disparu du dialectal.

Elle possède trois types de mots, dont une catégorie des noms qui comporte aussi les adjectifs,
les circonstances (de temps et de lieux), les noms propres, les cinq noms ( ُ ‫اب‬/abun, ‫اخ‬
ُ/akhun,ُ ُ‫م ح‬/hamun, ‫فو‬/fou, ‫ذو‬/thou) etc. une catégorie de verbes, qui comporte deux temps tout
simplement : l’accompli/Al-maddii (se traduit souvent en français par le passé composé ou le
passé simple) et l’inaccompli/Al-mudari (désigne souvent en français le présent et le future).La
troisième catégorie concerne les particules. Ces dernières sont nombreuses en langue arabe et

46
peuvent se diviser en deux classes : des particules significatives et autres constructives. La
première classe contient des particules associées par les noms ou/et les verbes, dont on obtient un
sens (...‫ في‬،‫ من‬،‫ إلى‬،‫لن‬،). Pour la seconde, elle associée des lettres qui forment le mot arabe ( ‫ ا‬،‫ب‬،
...، ‫)ت‬.

Remarquons que parmi ces deux classes de particules, on peut trouver d’autres qui sont
communs (peuvent être significatives et constructives en même temps).Ce type de particules
comporte le particule du futur "‫ "س‬et d’autres particules appelées ‫المضارع حروف‬/ Huruf
Al- mudari (particules de l’inaccompli), associées par quatre lettres ( ‫ )نيت أ‬permet d’être coller
au début du verbe à l’accompli pour obtenir un verbe à l’inaccompli.

D’où, si une particule pi appartient à l’ensemble des particules suivantes { ‫ أ‬،‫ ن‬،‫ ي‬،‫س ت‬،} et si
va un verbe à l’accompli et v in est un verbe à l’inaccompli, alors que le résultat suivant sera
réalisé :

p i - va = vin (p i- va : traduit que la particule pi est collé par le verbe va).


La langue arabe conserve aussi, deux types de phrases : la phrase nominale et la phrase
verbale. Dans le premier cas elle se compose d’un sujet (mubtada) et d’un attribut (khabar,
« information »). Elle exprime une constatation ou une définition et le verbe est sous-entendu.
L’attribut s’accorde en genre et en nombre si le sujet est au singulier.
Exemple :
‫كثيرون البشر‬/Al-bacharu kathiiruuna ( les gens sont nombreux ).
En revanche l’attribut prend la marque du féminin singulier s’il s’agit d’un pluriel d’animaux
ou de choses inanimées.

Exemple :

‫ كثيرة المراجع‬/ Al-marajiau kathiira ( les références sont nombreux).

À l’époque et avec l’arrivée de la révolution technologique, la langue arabe représente un des


défis pour le traitement automatique et permet d’imposer leur présence dans le cyberespace
comme une langue aspirant à rivaliser avec d'autres langues. Malheureusement que la structure
compositionnelle complexe de la langue arabe a empêché la progression vers les niveaux de
langues latines informatisées, grâce à l’un de développement de cette langue au domaine
informatique et leur enrichissement morphologique, remarquons que une masse de problèmes
morphologiques, syntaxiques, sémantiques et pragmatiques en langue arabe peut être recyclée
d’une manière routinière et ne peut pas être traitée d’une manière pertinente Comme il arrive
avec les autres langues naturelles.
47
Contrairement, au traitement automatique des langues latines, principalement la langue
anglais et qui reste la plus utilisée sur internet et la plus dominante dans le cyberespace, même si
sa présence relative (par rapport aux autres langues) diminue, passant de 75 % en 1998 à 45 % en
2007 [105] et selon différents croisements d’études, à près de 30 % aujourd’hui [106].Les
recherches scientifiques, notamment au domaine du Traitement Automatique de la Langue Arabe
(TALA) sont venues tardivement après les années soixante, où l’étude n’a débuté que vers les
années 1970 (à partir de cette date), et elle ne concernait que les parties lexicales et
morphologiques. Puis, dans les années 90 et 2000, c’est la naissance de plusieurs ressources
linguistiques et des bases de données, comme la base de données DINAR [107] qui est une
ressource lexicale très importante pour une application de traitement automatique de la langue
arabe. Cette ressource comporte des informations syntaxiques et morphologiques (pour le
modèle linguistique voir notamment [108][109][110], [111], [112] pour les aspects
informatiques, voir notamment [113], [114], [115] [116]. La base de données DINAR se
caractérise par trois types de traits généraux, qui la distinguent d’autres bases de données
existantes [107] :
 Les entrées lexicales y sont associées à des spécificateurs morphosyntaxiques qui garantissent
une insertion conforme au fonctionnement de la langue de ces entrées dans l’unité mot (dont le
schéma est rappelé plus loin) [117], [110], [118] [119].
 L’ensemble des sorties des lexiques générés à partir de DIINAR.1 correspond à des unités
effectives de la langue. Les spécificateurs morphosyntaxiques opèrent comme un filtre qui
empêchent par exemple la génération de formes correspondant à un verbe intransitif (tel que
nâma ‫“ نام‬dormir”) avec des pronoms complément (ainsi : *nâma-ka ‫“ نام‬il t’a dormi”, qui
‫ ك‬n’existe pas, n’est pas généré).
 Les règles de formation du mot graphique, ainsi que les spécificateurs morphosyntaxiques
associés aux entrées de la base sont conçus pour répondre aux besoins des deux démarches
asymétriques de la génération (ou de la synthèse) et de l’analyse [120], [108], [110], [117].

Ainsi que Les travaux sur le traitement automatique de l’arabe se sont multipliés ces
dernières années [121]. Mais la plus part de ces travaux sont des idées et suggestions proposés
par les chercheurs et en revanche il y a une quantité d’approches qui permettent de pousser la
recherche vers l’éclectisme, elle est représentée par un ensemble d’analyseurs, des systèmes,
des algorithmes (par exemple l'algorithme Al-stem de Kareem Darwish et qui peut être
appliqué sur le mot arabe)des logiciels (baptisés le TALA aux plusieurs domaines comme par
exemple la création des dictionnaires, la traduction automatique, l’extraction des information,
etc.), des méta- moteurs pour la recherche d’information et le traitement automatique arabe,

48
citons dans ce contexte par exemple l’effort colossal et considérable de [122][123] exprimé
par le méta-moteur de recherche dédié à la langue arabe nommé Astrolab. Cette approche
permet d’élaborer une nouvelle technique de racinisation de la langue arabe et d’extension de
requêtes qui visent l’amélioration de la pertinence des résultats de recherche d’information sur
le web à travers Astrolab[101].

6.3.2. Les difficultés de racinisation arabe

Les difficultés de racinisation en langue arabe sont généralement, parmi les difficultés qui
caractérisent la langue arabe, tels que les mots agglutinants, des particules attribuées par le
mot ce qu’implique une ambiguïté morphologique(comme les deux particules arabes : ‫ و‬et ‫ما‬,
exemple des mots : ‫ورق‬/(peut être : feuille ou et compatit), ‫مارد‬/( peut être : ne répond pas ou
bien atroce)) de telle façon on ne peut pas faire la distinction entre un mot qui dépend d’une
particule ou qui est indépendant d’elle. Dans ce cas l’omission de préfixe de ce type de mots
par un analyseur morphologique ne remarque aucun résultat.

Un autre problème a apparu et intéresse la manipulation des mots composés fréquentés dans
un texte arabe par la majorité des analyseurs morphologique.

Quelques entrées de dictionnaires utilisées par quelques analyseurs tels que celui de
Buckwalter sont très anciennes et ne sont pratiquement plus citées dans les textes arabes
modernes ou ne sont utilisées que dans quelques dialectes arabes. En voici quelques
exemples: " ‫( "قلعط‬souiller), "‫( "غملج‬inconstant), "‫( "قلفط‬calfater)[101].

Encore, la racinisation des mots erronés impose aussi un problème pour le TALA, ce qui
permet d’obtenir des résultats ambigus. Par exemple le mélange entre les deux mots : "‫ضرب‬
‫"ة‬/frappe et "‫"ضربه‬/frappe-le et les mots "‫"يسرى‬/Youssra (nom propre) et "‫"يسري‬/marcher la nuit
(verbe 3ème personne de singulier à l’inaccompli). Même effet au cas où les mots contenant
l’un des outils de l’inaccompli (‫)أنيت‬. Ce problème se base sur la confusion entre les noms et
les verbes. Par exemple la confusion entre le mot"‫"بيت‬/maison et le mot "ّ‫"يت ب‬/ fait coucher
et encore les mots :"‫"أكل‬/je mange, "‫"أكل‬/il (elle) mange, "‫"أكل‬/ repas, "‫"أكل‬/ je fatigue.

La langue arabe est une langue infixée. Elle inclut plusieurs mots qui comportent des
infixes, telle que la tâche pour l’analyse et le traitement sera multiple. C’est un problème
majeur qui empêche le traitement automatique de la langue arabe et en cas particulier
l’analyse des mots isolants quand il vient à la technique de racinisation.

49
Tant que l'arabe est une langue flexionnelle et agglutinante, le problème ne s'arrête pas
seulement à un mot préfixé, infixé ou suffixé, mais peut être plus compliqué à un mot qui
comporte ces trois morphèmes adhérents avec une racine.

Exemple, soit le mot " ‫ «" استعالمات‬istiaalamat/ renseignements » :

L’analyse du mot donne la décomposition suivante : un proclitique " ‫" اس‬/ « is », un préfixe
"‫ « "ت‬ta », une racine "‫ « " علم‬aalm », un infixe " ‫ « " ا‬alif » et un suffixe " ‫ « " ات‬at ».

Donc, pour continuer l’analyse il est nécessaire de suivre une étape qui consiste à extraire
tous les clitiques et les affixes candidats en se basant sur un lexique des clitiques et un lexique
des affixes. Puis l’identification de l’infixe de la partie restant après l’élimination des autres
morphèmes (les clitiques et les affixes), en se basant sur une liste de schèmes et une autre de
racines, tel que l’infixe peut être après la première lettre " ‫ « " ف‬fa » et avant la dernière lettre
" ‫ « " ل‬lam » du schème "‫ « " فعل‬faala ». En conséquence, la racine est la partie restant après
toute extraction. D’une manière plus pertinente, nous pouvons détailler des approches et des
solutions dans le paragraphe postérieur.

6.3.3. Approches et solutions

La nécessite d’un algorithme conçu pour éliminer les affixes et les clitiques de la langue
arabe (et de prendre en compte les situations morphologiques des mots à base des règles
arabes) est une tâche importante et obligatoire pour faire face au volume croissant des
informations et des quantités de logiciels dédiés à traiter les langues latines. La majorité des
approches concernant la racinisation des mots arabes ne contiennent pas une quantité
suffisante des algorithmes d’analyse, pour régler les problèmes proposés.

Au contraire de la racinisation de la langue anglaise (voir l'algorithme de Lovins et Porter)


qui ne se préoccupe pas de la suppression des préfixes, la langue arabe est contrainte de les
enlever à côté des suffixes pour une racinisation efficace. Cette approche opère une légère
troncature sur le début et la fin du mot en se basant sur des listes de préfixes et de suffixes
établies sur la base de la connaissance de la grammaire arabe, l'analyse des fréquences
d'occurrences des affixes des mots dans une collection de textes, ainsi que des évaluations
empiriques sur des corpus de test et parfois on fait recours même à la traduction des affixes
anglais [101].

Une autre approche représentée par le travail de l'algorithme deKareem Darwich (Al-
Stem).C’est un algorithme de racinisation légère, se base sur une liste d'affixes, et permet de

50
déterminer les affixes à base d'un calcule de probabilité d'occurrence, à partir de l'analyseur
morphologique Sebawai, sur une collection d'articles arabes de l'Agence France Press. Parmi
ces affixes inclus dans la liste, nous obtenons : les conjonctions, préfixes verbaux, pronoms
possessifs, pronoms compléments du nom ou suffixes verbaux exprimant le pluriel etc.

Préfixes Suffixes

‫بال فال وال‬ ‫نا تك ية ها هم هن كم تم ته تي ان وه ون وا ات‬


‫في لي وي لل فم كم وم لم بم نت ست وت مت لت يت بت ال با ال فا وا‬ ‫يه ا ي ه ين ة‬

Tableau1 : Les préfixes et les suffixes enlevés par l'algorithme de Kareem Darwish (Al- Stem) [101]

L’algorithme de Aitao Chen et Ferederic Gey qui est de même fonction que l’algorithme de
Kareem Darwish (Al- Stem) et qui permettant d’appliquer un prétraitement avant de passer à
l'analyse. L’algorithme de Chen et Gey conçu d’enlever le seul préfixe qui désigne l’article
défini (‫) ال‬, les suffixes du duel (‫)ان‬, le pluriel masculin et féminin (‫ ون‬et ‫ ) ات‬et le suffixe
féminin (‫)ة‬. Cet algorithme a été développé par Chen et Gey durant leurs contributions dans
la conférence TREC-2002, où ils ont formés deux listes, une liste contienne les préfixes et
l’autre comporte les suffixes en se basant sur [101] :

 Les règles grammaticales des affixes,

 La fréquence d'occurrence des affixes portés par les mots d'une collection de textes14,

 La traduction des affixes de la langue anglaise,

 Ainsi qu'une évaluation empirique utilisant une collection de textes des évaluations
CLIR 2001 (Cross-Language Information Retrieval).

L’algorithme de Chen et Gey fonctionne selon la procédure suivante :

 Normaliser le codage. Puisque les documents et les requêtes de la collection ont un


codage différent, Chen encode les tous avec cp1256.

 Enlever les mots vides durant l'indexation.

 Remplacer les formes suivantes d’Alif (‫ ٱ )ا‬, ٍ ˚ ً ´ ُ


,‫ا‬, ‫ ا‬, ‫ا‬, ‫ ا‬, ‫ ا‬par la lettre Alif ‫ا‬
 Enlever le signe chadda ُّ

 Remplacer les formes suivantes d’Alif (‫أ)ا‬, ‫إ‬, ‫ آ‬par ‫ا‬

 Remplacer la lettre terminale ‫ ى‬par la lettre ‫ي‬

 Remplacer la lettre terminale ‫ ه‬par la lettre ‫ة‬.

51
Plusieurs versions d'algorithmes de racinisation légère de la langue arabe ont été proposées
par Leah Larkey [101]. Nous mentionnons par les versions suivantes : light1, light2, light3,
light8 et light10. Ce dernière (light 10) est la plus importante par Larkey, dont elle a comparée
par l’algorithme Al-Stemde Drwich, et selon ce dernier l’algorithme light10 est considéré le
plus efficace.
Les étapes du traitement des versions de l’algorithme de Larkey par rapport aux autres
algorithmes précédents, sont différentes au niveau de listes des affixes enlevés par chaque
algorithme :

Soit l’ensemble des affixes enlevés par les versions de Leah Larkey comme indique le
tableau suivant :

Tableau 2 : La liste d'affixes enlevés par les différents algorithmes Leah Larkey [101].

D’autres approches très importantes sont dédiées par les chercheurs dans le domaine de la
racinisation des mots arabe, citons dans ce cas par exemple :

 L’analyseur morphologique Sebawai, crié par Kareem Darwish et qui s’appuyé sur deux
phases du traitement, où dans la première phase applique la technique de la racinisation légère
et dans la deuxième phase utilise les schèmes (ces schèmes sont listés par Sebawai dans une
autre liste plus que la liste des affixes) correspondants pour enlever les infixes et extraire les
racines.
 L'analyseur de Khoja permet d’éliminer les affixes puis chercher les schèmes correspondants
afin d’extraire les racines qui seront vérifiés en consultant une liste de racines. L’algorithme
de khoja pour la racinisation arabe est comme suit :
o Enlever les signes diacritiques

o Enlever la ponctuation, les mots vides et les nombres

définis articles les Enlever o : (‫)فال كال بال وال ال‬

o Enlever la conjonction : ‫و‬

52
o Enlever les suffixes :
(‫ه ك ن ني تي ته هم هن ين ون ما تا نا كن تن كم تم وا ها ان كما تما هما‬ ‫)ات ي ا ت ة‬

préfixes les Enlever o : (‫)ف ت م ن ي ب س و ا ل لل‬

o Dans une liste de schèmes, chercher le schème approprié au résultat. Si le schème est
trouvé, Khoja extrait la racine.

o Valider la racine extraite en consultant la liste des racines valides.

o Remplacer les lettres faibles ‫ا‬, ‫و‬, ‫ ي‬par ‫و‬

o Remplacer toutes les occurrences de hamza ‫ئ‬,‫ء‬,‫ ؤ‬par ‫أ‬

o Si la racine se compose de deux lettres, on doit vérifier si la dernière lettre devrait être
doublée.

 L’analyseur morphologique de Buckwalter BAMA (Buckwalter Arabic Morphological


Analysis) et qui se base sur trois différentes tables : une table de préfixes, une table de
suffixes et une considérable table de stems (pseudo-racines).
 L’analyseur morphologique de Tim Buckwalter applique une transcription pour passer de
l'alphabet arabe à l'alphabet latin (voir tableau).

Tableau 3: la transcription de Tim Buckwalter

Keneth Beesley a proposé sur deux piliers fondamentaux nécessitent l’étude de la langue
arabe et qui sont la racine et le schème [124]. Le formalisme de Beesley a été basé sur les
règles grammaticales pour le traitement computationnel de la morphologie non-
concaténative.

L'analyseur de Keneth Beesley , c’est un analyseur robust utilise une technologie très
innovante celle des transducteurs à états finis (Finite State Transducer (FST))[125]. Beesley
en 2001spécifie que la fonction d'un analyseur morphologique consiste à identifier et
distinguer les morphèmes composant un mot donné [124].

53
7. Conclusion de l’état de l’art

Nous avons proposé les différentes étapes de traitement automatique de la langue naturelle,
considérant à propos de ça la particularité de la langue arabe. Dans la première phase nous
avons abordé sur les divers niveaux d’analyse, tel que :

 Le niveau d’analyse morphologique basé sur l’étude structurelle des unités lexicales et pour
objet de regrouper les mots en classes associées par des étiquettes appelées catégorie
grammaticale ou catégorie lexicales [7]. Ces classes sont utilisables par les autres niveaux
d’analyse. La notion morphologique propose trois caractéristiques du mot en langue
naturelle : la caractéristique orthographique et phonologique, la caractéristique grammaticale
et la caractéristique lexicale. La première caractéristique concerne une force des connexions
entre deux pôles en linguistique, tel que l’orthographique qui exprime la forme graphique des
mots et la forme phonologique qui se base sur la lecture et la prononciation associée à
l’ensemble des caractères qui forment le mot proféré. La seconde caractéristique est basée sur
une analyse qui consiste à décomposer et à rechercher la nature et la fonction des mots. La
dernière caractéristique est l’expression rationnelle basée sur un ensemble de règles qui
définissent des séquences de caractères formant les lexèmes.

Ces précédents phénomènes sont omniprésents dans les langues qui ont une morphologie
compliquée comme la langue arabe par exemple.

 L’analyse syntaxique qui a pour but la disposition des mots et leurs relations structurelles et
contextuelles. Cette tâche joue un rôle pour l’interprétation de la cohérence textuelle et afin de
désambigüiser les mots ambigus. Ce qu’implique l’apparence d’une relation étroite entre ce
domaine et la tâche sémantique.
 L’étude sémantique, qui est l’esprit des éléments précédents (l’analyse morphologique et
syntaxique) et qui est la plus utilisables par les chercheurs, cela est dû à leur importance en ce
qui concerne la résolution d’une quantité massive de problèmes considérables au TALN. Mais
la plus part des approches qui intéressent ce niveau d’analyse se sont limité au le côté
théorique et n’ont rien trouvée pour les langues qui ont une morphologie très riche et
compliquée.
 L’étude pragmatique comme une tâche contextuelle et cognitive, sociale et culturelle d’un
langage et d’une communication est difficile à appliquer. elle n’est pas à la disposition de la
majorité des chercheurs, tant pour les langues naturelles ou pour la langue arabe.

54
A la base de ces précédents éléments, nous exposons les difficultés de la détection des
sources des noms dans le texte arabe, cette tâche permet de cerner plusieurs difficultés
représentées par les imperfections suivantes : l’absence de voyelles qui a conduit au
affleurement de l’ambigüité morphologique, les signes diacritiques qui ont pour rôle de
transformer totalement la prononciation d’une lettre. Ils sont plus utilisés dans les langues
sémitiques. Et la multiplicité des mots affixes ou bien ce qu’on appelle le phénomène
d’agglutination.

Toutes ces difficultés en générale, peuvent conduire à une ambigüité dans tous les domaines
du TALN et en particulier dans les mêmes domaines pour le TALA.

Puis, nous avons proposé un travail sur l’étiquetage des mots, citons par exemple, trois
approches fondamentales :

Une approche symbolique basée sur l’étiqueteur de Brill, et qui vise à construire des règles
lexicales et contextuelles pour la désambigüisation des mots. Pour le TALA, les chercheurs se
sont penchés vers cette approche.

L’approche statistique basée sur les probabilités et l’utilisation des modèles de Markov
cachés de premier et deuxième degré (HMM). Nous remarquons une rareté des travaux dans
la langue arabe qui se penchent vers cette approche et la prennent en considération.

En fin, l’approche hybride et qui combine les deux autres approches précédentes. Elle
permet de grouper la technique de Brill et la méthode basée sur les modèles de Markov cachés
(HMM) pour générer une nouvelle approche composite.

Nous avons présenté dans cette dernière partie un algorithme simple, représenté par une
architecture et qui permet d’étiqueter les mots arabes.

Dans la section qui implique la dernière tâche dans notre état de l’art, nous avons proposé
un travail détaillé sur la racinisation en langue naturelle et en langue arabe comme cas
particulier, citons par ex les diverses approches dédiées pour le traitement automatique de la
langue arabe (TALA).Ces approches sont représentées par des analyseurs et des algorithmes
qui servent à confronter une masse des problèmes qui empêche le TALA.

55
Chapitre 2 : Application de système d’Automate à Etat
Fini Déterministe (AEFD) pour la détection
des sens des noms arabe

1. Introduction
Malgré, plusieurs tentatives faites par les intéressés dans le domaine qui concerne la
désambiguïsation et la recherche des sens des mots, le problème de l’ambiguïté en arabe reste
très difficile à résoudre et envisage de nombreuses contraintes à cause de la difficulté et la
complication morphologique de cette langue, quand il en vient à faire une étude contextuelle
ou bien, hors contexte.

La plupart des applications et des approches du traitement automatique de la langue arabe et


à la recherche d’information, nécessitent la tâche de la désambiguïsation lexicale, telle que la
majorité des opinions et méthodes existants s'appuient sur deux grandes étapes [126] :

56
- La représentation de l'ensemble des sens d'un mot. Cette étape repose sur l’application des
ressources lexicales, telles que les dictionnaires ou les réseaux sémantiques.
- L’assortiment du sens le plus proche du mot par rapport à son contexte. Cette étape, selon
[127] est la meilleure pour identifier la signification d’un mot ambigu.

L’approche contextuelle est basée sur les relations entre les mots et l’utilisation des
méthodes de calcul mathématique pour cerner le sens proche du mot ambigu, mais la
difficulté peut augmenter lorsque le contexte est très important (des textes très long), où le
calcul doit être très compliqué à réaliser.

En 1960, le mathématicien et linguiste Bar Hillel, précisait qu’il ne voyait pas de moyen
pour déterminer automatiquement le sens du mot dans la phrase [128]. Mais avec l’avènement
d’internet et des moteurs de recherche, les difficultés des traitements sont limités et le
domaine de la recherche y avait une explosion d’information, ainsi le problème n’est plus
l’accès à l’information [122]. Cet arrivé technologique connait un essor très important et une
croissance très importante des informations dans notre vie scientifique et technique, puis il a
encouragé la recherche pour accéder à une quantité colossale d’informations qui nécessite la
mise en place des outils de recherche de plus en plus performants [129] en général, et pour
approcher les réponses aux questions sémantiques compliquées au domaine du traitement en
particulier.

Comme la langue arabe comprend environ 150 schèmes ou patrons, dont certains plus
complexes tel le redoublement d’une consonne ou l’allongement d’une voyelle de la racine,
l’adjonction d’un ou de plusieurs éléments où la combinaison des deux [130]. Mais Souvent
la majorité des noms arabes dans une famille des schèmes signifiants le sens d’un métier ou
une autre famille significative de schèmes. Notre méthode se base sur le mécanisme
d’automate à état fini déterministe qui a pour rôle de trouver, après avoir déterminé le schème
de source, le sens de chaque nom traité par ce système.

Nous utilisons le système d’automate à état fini déterministe(AEFD) pour détecter le sens
de chaque schème qui représente un nom arabe (non nom propre), et le traiter caractère par
caractère via le système (AEFD), cette méthode a pour objectif de produire une approche pour
contribuer à améliorer partiellement, le traitement automatique des noms convertis aux
schèmes pour cerner leurs sens.

2. Détection des sens de sources à base de (AEFD)

57
La détection des sens des mots dans un texte arabe par un système informatique exige la
création d’un extrait de base de données pour atteindre une exactitude de réponse à la base
d’une étape choisi. Généralement, elles existent deux étapes efficaces pour la détection du
sens des mots, telle que l’étape qui repose sur les ressources lexicales, et celle qui se fonde sur
le contexte.

La difficulté du traitement pour identifier le sens des mots varie en fonction d’une
complication de la langue. L’approche proposée dans ce sujet d’étude vise à utiliser une base
de schèmes pour détecter les sens de sources arabes, prenons en considération la complexité
de cette langue sémitique, notamment en ce qui concerne le traitement par l’ordinateur, tenant
compte de la non voyallation de la plupart des mots et la prédominance des sources trilitères,
ainsi que la similarité des racines à l’absence de signes diacritiques. Où on peut trouver
quelques mots ayant la même racine tandis que leurs sens sont différents [50].

2.1. Les Difficultés de la détection des sources des noms


dans le texte arabe.

Nous cherchons dans notre approche, une méthode pour trouver une solution à l’ambiguïté.
Ainsi nous commençons dans cette section par des arguments pour cerner les difficultés
concernant la détection des sources des noms (noms non propre) dans un texte arabe à base du
système (AEFD), telle que nous les illustrons comme suit :
 Les noms qui ont de mêmes schèmes et qui peuvent être traités par le système (AEFD) ne
comportent pas les mêmes sens, comme par exemple le cas des noms qui ont un schème "‫"ُفعال‬
(fouaal) et qui peuvent signifier des maladies (comme : ُ‫ زكام‬/Rhume...‫سعال‬، ،/Toux) ou bien
des voix (comme : ‫صراخ‬،/ Braillementُ‫بكاء‬، /Pleurer). Mais le système (AEFD) peut traiter des
noms qui ont les mêmes schèmes et qui peuvent signifier autres significations différentes,
comme par exemple les noms suivants :
/Poussière, ‫زالل‬ /albumen,... Dans ce cas,
‫غبار‬
l’application par le système (AEFD) ne conduit à aucun résultat précis. Par conséquent,
l’étude peut se pencher sur l’analyse contextuelle pour trouver la signification précise
associée au nom traité.
Les signes diacritiques placés au-dessous ou au-dessus de chaque consonne du schème
permettent de donner une valeur ou une caractéristique au nom correspondant à ce schème,
l’absence donc de ces signes diacritiques aboutit forcément à l’ambiguïté. Prenons comme
exemple, le cas de deux schèmes de sources ""‫ ´عال‬et "‫" ال´ُفع‬. Le premier schème peut signifier
une omission et le second exprime soit une voix ou une maladie. Graphiquement et sans signe

58
diacritique, on ne peut obtenir qu’un seul schème non-voyelle"‫"فعال‬, mais les deux signes de

59
la première consonne (‫ )ف‬de ce schème permettent d’enlever l’ambiguïté à ce dernier, tel que
le signe « damma(ُ˚ ) », placé au-dessus de la première consonne et le signe « kassra ( ُِ ) »,
placé au-dessous de la même consonne de schème. Pour cela les signes diacritiques posent un
problème majeur au traitement automatique des schèmes, surtout le cas de deux schèmes
ayant la même forme graphique, ce qui permet d’engendrer une ambigüité morphosyntaxique
et sémantique associé par chaque mot arabe non voyelle et hors contexte.

En faisant un essai sur un ensemble de documents : approximativement de 1200 documents


arabe, puis nous obtenons que :

 Environ de 860 (71,67%) documents sont non-voyelle.


 Environ de 220 (18,33%) documents qui sont voyelle partiellement.
 Environ de 120 (10%) documents qui sont voyelle entièrement.

Différents documentsarabes
Documents non voyelle Documents voyelle partiellement Documents voyelle entièrement

Figure 4 : La distribution des différents documents arabes en fonction des mots voyelles, voyelles partiellement et non-
voyelles par rapport à 1200 documents.

Les voyelles en arabe jouent un rôle tel qu’elles enlèvent l’ambiguïté, elles donnent aussi
l’étiquette grammaticale indépendamment de sa position dans la phrase [54].

 Comme la langue arabe se caractérise par l’absence des voyelles courtes dans la plupart des
textes écrits, l’arabe aussi est une langue fortement flexionnelle et agglutinante du fait que les
affixes et les clitiques se collent aux substantifs, verbes, adjectifs auxquels ils se rapportent.
Pour cela nous détectons quelques particules qui s’accrochent aux radicaux en gênant leurs
significations, comme par exemple le mot "‫("وبكتبه‬wa-biktbhi/ et + par + écrire (ou livres) +
sa, tel que « ‫ و‬/et » présente une conjonction, « ‫ ب‬/ par » indique une préposition, « ‫كتب‬/ écrire
(ou livres) » est un verbe (ou nom pluriel) et « ‫ه‬/sa » désigne un pronom personnel. Ce que
justifie la complexité de l’analyse de cette langue au niveau du traitement automatique. C’est
à dire que le phénomène d’agglutination augmente le taux d’ambiguïté. Cette tâche nécessite
de l’utilisateur de tester avant le traitement si le mot commence par une certaine
particule (préfixes ou/et proclitiques): ‫( ب‬bi/par), ‫( ف‬fa), ‫( ك‬ka/comme), ‫( ل‬li/pour), ‫( و‬wa/et),
‫(ت‬ta), ‫(م‬mim), ‫(ي‬ya), ‫(س‬sin), ‫(ال‬al), ‫(لل‬lil), ‫(فال‬f-al), ‫(كال‬k-al/comme le), ‫(بال‬b-al/par le), ‫(وال‬w-
60
al/et le),où bien se termine par l’une des particules (suffixes ou/et enclitiques) suivantes :
‫(ه‬hi/sa), ‫(ها‬ha), ‫(هم‬hom), ‫(هما‬homa), ‫(هن‬honna),‫(ات‬ate), ‫(ي‬ya), ‫(ا‬a), ‫(ت‬ta), ‫( ة‬ta-marboutta),
‫ك‬
(ka), ‫( ن‬noun),‫( ني‬ni), ‫( تي‬ti), ‫( ته‬tah), ‫( ين‬yen), ‫( ون‬wen), ‫( ما‬ma), ‫( تا‬taa), ‫( نا‬naa), ‫( كن‬kona), ‫( تن‬tona),
‫( كم‬kom), ‫( تم‬tom), ‫( وا‬waa), ‫(ان‬an), ‫( كما‬koma), ‫( تما‬toma).
Dans ce cas l’agglutination pose une difficulté au traitement automatique de la langue arabe,
par laquelle les composantes du mot sont liées les unes aux autres [58].
L’enlèvement des affixes sera fait par un algorithme ou un analyseur à la base des listes des
affixes et des racines pour déterminer la racine du mot étudié. Ensuite, pour identifier la
signification de ce mot il faut transformer sa racine à la source correspondante, enfin traiter
son schème par le système.
 A l’exception de la source trilitère, où les verbes dérivés de cette source forment une grande

quantité en langue arabe, à la différence des autres sources (quadrilatère, quiquilatère,..) qui

forment une rareté en fonction de la quantité, nous remarquons que les sens de ces sources

restent difficiles à déterminer. Ainsi que la complexité lexicale des sources associée par le

nombre de consones qui forment un mot. Cela conduit encore à une complexité sémantique.

2.2. Description mathématique de (AEFD)


Un automate à état fini déterministe est la donnée :
 d’un ensemble des états fini S.
 d’un alphabet fini X.
 d’une fonction δ : S × X S (fonction de transition)
 D’un élément i de S (état initial)
 D’une partie F de S (ensemble des états finaux, ou états terminaux)
 La relation R est une partie de S×∑× S appelée ensemble des transitions.
Notation usuelle:
A = (S, X, δ, i, F) où: S = {0, 1, 2…, .n}
X = {a1, a2,.. ap} p est un entier.
i = 0 ; F = {1, 2,….m} / m ≤ n
Le graphe associé à un automate fini déterministe est un graphe orienté dont les arcs sont
étiquetés par des symboles. Graphiquement, l’automate est représenté par un diagramme, où
les sommets sont des états, et les arcs sont des transitions.

61
a
Une transition (p, a, q) ∈ S est souvent écrite sous la forme suivante q 0 q1, tel que q1 = δ
(q0, a) ; on dit que le caractère a est l’étiquette de la transition, l’état q 0 représente l’état initial
(ou la source), et q1 est l’état suivant vers l’état final du système.

2.3. Source trilitère


2.3.1. Description

La source est un nom qui comporte un sens quelconque. Elle est formée de plusieurs verbes
et des dérivés [131] et qui ont des schèmes associés par des significations différentes.
Le schème d’un verbe trilitère en arabe est constitué de trois caractères, commencé par le
caractère "‫("ف‬fa), suivi par un autre "‫( "ع‬âa), et la terminaison "‫("ل‬lam) pour obtenir une
forme non voyelle" ‫( " فعل‬fâala / faire), et qui peut désigner divers sens lors de la voyallation
(... ‫ل‬، ‫ ُف‬، ُ ‫ِ ف ْع‬ ‫´ ف‬،‫) ´عل‬. Les consonnes des mots appliqués sur ce schème peuvent être variées,
‫ ِع ل‬،‫ُعل‬
tout en conservant les mêmes voyelles du schème.

Exemple :
Le mot ‫( ر´ ´د س‬darassa/ étudier) accepte un schème ‫ع´ف‬. Telle que la consonne "‫("ف‬fa) se
´
‫ل‬
remplace, dans ce cas par "‫("د‬da), la consonne "‫("ع‬âa) par "‫("ر‬Ra) et la consonne "‫("ل‬lam) se
remplace par "‫("س‬sin) et en revanche une conservation du signe « fetha (ُ´ ) » au-dessus de
toutes les consonnes.
Lorsqu’on enlève les signes diacritiques associés au schème"‫"فعال‬, surtout le signe attribué à
la première lettre "‫( "ف‬fa), on peut désigner au moins deux schèmes déférents signifiants
trois sens :
 Le schème de source "‫( "ُفعال‬fouaale),qui exprime deux sens déférents :
 Peut signifier une maladie (plus souvent), exemples :…‫صد‬
، ‫( زكام‬zoukamon /grippe, soudaa
‫اع‬
/ mal de tête,…).
 Peut signifier une voix (plus souvent), exemples :... ‫نُواح‬
‫نُباح‬، (noubahe/ aboiement,
‫صراخ‬، sourakhe / hurlement, nouahe/ lamentation,…).
 Le schème de source,"ِ‫ " فعال‬souvent signifie une omission, exemple :...‫ فار‬،‫جدار‬، ‫ جماح‬،‫إباء‬
،
(ibaa/refus, jimahe / rêne, nifar/ aliéner quelque chose, jidar/mure, …).
Le traitement par le système AEFD conduit à distinguer deux cas déférents des noms- non
propre- arabes qui signifient souvent des troubles, acceptant un schème de source "‫"فعالن‬:
62
 Des sources qui peuvent comprendre une consonne "‫( "ي‬yaa) (la troisième consonne du nom),
exemple : ‫جريان غليان‬، ... (ralyane /ébullition, jarayane / afflux, …). Les verbes de ces sources

63
se terminent toujours par « alif makssoura : une consone de type "‫» "ى‬. exemple : Le verbe "
‫ "جرى‬dérivé de source "‫ "جريان‬et "‫ "غلى‬dérivé de la source "‫ "غليان‬etc.
 Des sources qui peuvent inclure une consonne différente que la précédente ( "‫( "ي‬yaa)),
exemple : ‫هيجان‬،‫دوران فوران‬، ... (fawarane / effervescence), (hyajane / agitation), (dawarane /
tournoiement),…). Ce type de sources associées par des verbes où chacun comprend en
deuxième consonne une voyelle (harf-aalla/‫ )علة حرف‬de type " ‫" ا‬/alif. Exemples : "‫ "فار‬pour la
source "‫ "هاج‬,"‫ "فوران‬pour la source "‫ "هيجان‬etc.

Les sources trilitères qui appartiennent à la même classe en termes de schème partagent la
même caractéristique sémantique, ainsi il y a une similarité acoustique entre ces mots sources
(tels que, l'ébullition et l'agitation et l'effervescence ...), mais ne sont pas similaire en termes
de la sémantique (ex. le mot ‫ غليان‬/ébullition n’a pas la même signification que ‫هيجان‬/agitation,
bien qu'ils indiquent le même état qui exprime la turbulence/‫طراب‬‰‫االض‬...).Et pour cela, la
similarité sémantique nécessite le remplacement du mot par un autre équivalent en aspect
quelconque, comme dans le cas des mots suivants : ‫طريق‬/route, ‫سبيل‬/voie, ‫ممر‬/passage,
‫شارع‬/avenue et ‫درب‬/ sentier ... [132].

La similarité sémantique est un élément très important qui peut être utilisé (plus que son
utilisation en linguistique) dans de nombreuses applications aussi bien, en particulier dans les
domaines de l'intelligence artificielle et de la psychologie, à la fois dans les milieux
industriels et académiques [133], [134].

Dans notre approche, nous utilisons les modèles des schèmes pour les sources trilitères,
quadrilatères, quiquilitères et hexagones. Chaque schème associé par un ensemble des mots
qui forment un réseau entre eux. Tous les mots d’un ensemble sont similaires
sémantiquement.

Soit le tableau de la source trilitère qui contient la sémantique des noms en fonction de leurs
schèmes :

64
Tableau 4 : tableau représente les sources trilitères et leurs schèmes.

2.3.2. L’application du système (AEFD) sur la catégorie des noms


de source trilitère

Notre approche de schème adopte le traitement des sources via le système d’automate pour
analyser le nom en cas isolant. Le système traitera le nom caractère par caractère et à l’état
final ce dernier sera fixé à un tel sens (voir figure 3).
 Les schèmes traités sont des noms (non propres), ainsi qu’ils ne portent pas des signes
diacritiques.
 Les schèmes traités peuvent comporter plus qu’un seul sens. si on considère par exemple, le
schème "‫ِ´ف ع‬‰‫" الة‬, tous les mots qui acceptent ce schème ne signifient pas un métier
(mais la proposition « plus souvent » est vrai), sans oublier qu’il y a des mots qui expriment
d’autres choses, exemple :". ‫ سجارة‬،‫عبارة‬،" /sijaraa (cigarette), aibaraa (expression),…
De même façon pour le schème "‫"ال´ُفع‬/ fouaal, où les mots associés peuvent signifier
souvent, une maladie ou bien une voix ; mais on peut trouver des autres significations
différentes comme par exemple les mots "... ،‫ل‬ ‫( " غبا‬ghoubar/poussière, zoulal/albumen,
‫ز‬ ،‫ر‬
…), et qui ne signifient ni voix ni maladie.
La problématique ici réside dans le fait que le système d’automate à état fini déterministe
(AEFD) peut traiter tous schèmes appliqués aux mots correspondants.

65
Figure 5 : la détection de la sémantique des sources trilitères par le système (AEFD).

- Nombre des états est 11 états.


- Nombre des états finaux est 5états finaux.
- Nombre de transition est 12 transitions.

2.4. Source quadrilatère


2.4.1. Description
Dans cette partie de source quadrilatère des noms -non propre arabe, nous avons trois
ensembles de schèmes des sources quadrilatères :
 Un ensemble de schèmes contenant des préfixes et infixes. ils commencent par les caractères ‫ا‬
(alif), ‫ت‬ (tha), ‫( م‬mime). Cet ensemble comporte trois schèmes ( ‫مفاعلة‬/moufaala, ‫تفعي‬
‫ل‬/tafaail, ‫ إفعال‬/ifaal).
Ces trois schèmes ont des significations différentes. Où :
Le schème ‫ مفاعلة‬peut signifier soit, l’ostentation et l’apparence ou bien la participation.
Exemple : ...‫ محاسنة‬،‫ مجاملة‬،‫مداهنة‬،.
Le schème d’écriture graphique ‫ تفعيل‬peut signifier l’augmentation ou la diminution d’une
certaine valeur. Exemple : …‫ تحسين‬،‫ تعظيم‬،‫تقبيح‬،
Le schème ‫ إفعال‬qui indique l’application de chose à base d’une cause quelconque et par la
suite il peut signifier encore le résultat de cette cause. Exemple : .‫إهمال‬... ،‫إحسان‬، ce type de
schèmes peut désigner encore (parfois) la participation. Exemple : ...‫ إشراك‬،‫إنتاج‬،.
 Un ensemble de schèmes contenant des suffixes. Ils peuvent commencer par des caractères
différents et se terminent par les morphèmes : ‫( لة‬laa), ‫( ال‬al). Cet ensemble comporte deux
schèmes (‫ فعالل‬/fiaalale, ‫ فع لة‬/faalala) et qui signifient parfois un mouvement.
 Un autre ensemble comporte le schème (‫فعال‬/fiaal). Ce type se caractérise par l’existence de
l’infixe ‫( ا‬alif) avant le dernier caractère. Il accepte plusieurs significations différentes.

66
Tableau 5 : tableau représente les sources quadrilatère et leurs schèmes.

2.4.2. L’application du système (AEFD) sur la catégorie des noms


de source quadrilatère.

Les sources des noms arabes associées par des schèmes quadrilatères sont moins, en termes
de nombres que les schèmes trilitères et plus existants que les autres sources des noms et qui
ont des schèmes quiquilitères.
Conjointement aux sémantiques, la complexité d’identifier les significations de schèmes
quadrilatères et qui augmente en raison du plus grand nombre de caractères associés aux
schèmes. C'est-à-dire qu’il est plus difficile d’identifier le sens d’un nom qui a un schème
quadrilatère qu’un nom associé par un schème trilitère (contrairement aux noms qui ont de
schèmes quiquilitères et hexagones). Evidement que cette complexité résulte de la rareté de
schèmes représentant les noms rares en langue arabe (voir figure au dessous).

Figure 6 : triangle sémantique de schèmes selon leurs degrés de la complexité.

Note :

 Ce triangle représente tous les schèmes qui ont les racines suivantes : dualismes, trilitères,
quadrilatères, quiquilatères et hexagones.
 Chaque case dans le triangle représente un caractère du schème.
 Le sommet du triangle n’exprime aucun schème (un seul caractère).

67
Pour traiter les schèmes des noms quadrilatères, nous proposons comme le cas précédent la
même méthode basée sur le système d’automate à état fini déterministe (AEFD), ce système
permet de traiter tous les schèmes des noms qui ont des sources quadrilatère (voir la figure 5).
Les états finaux de ce système, tels que les derniers caractères des schèmes correspondent
aux noms traités, permettant d’identifier les significations associées.

Figure 7 : la détection de la sémantique des sources quadrilatère par le système (AEFD).

- Nombre des états est 23 états.


- Nombre des états finaux est 7 états finaux.
- Nombre de transition est 25transitions.

2.5. La Source quiquilitère


2.5.1. Description

Nous pouvons discriminer deux schèmes de source quiquilitère des noms- non propre-
arabe, tel que l’un peut commencer par le caractère " ‫ ( " ا‬alif ), et l’autre par le caractère ‫" ت‬
"( ta ) :
 Les schèmes de sources qui commencent par le caractère "‫ ( "ا‬alif ) sont : ‫(افعالل‬ifaailale
); ‫ (انفعال‬infiaale ); ‫ (افتعال‬iftiaale ). ces schèmes sont produits de la source trilitère augmentée par
deux lettres. Pour cela, la difficulté de l’identification des sens des noms qui sont associés par
ces schèmes. Nous remarquons que :
o Le schème ‫ (افتعال‬iftiaale ) et qui est une source du schème ‫ (افتعل‬iftaala ) est obtenu à partir de la
source trilitère en ajoutant au schème ‫ فعل‬un préfixe " ‫ ( " ا‬alif ) et un infixe "‫ (" ت‬ta ) et qui a
suivi la première lettre "‫( "ف‬fa) du schème. Souvent que la signification de ce type de
schèmes peut prendre des caractéristiques différentes, mais parfois nous obtenons un
ensemble de noms associés par ce schème et signifiant une décision de l’action. Par exemple :
‫( اجتماع‬ijtimaa) /réunion, ‫( اختبار‬ikhtibar) /examen, ‫( اعتذار‬iaatithar) /pardon…
o Le schème ‫ ( انفعال‬infiaale ) est une source du schème ‫ ( انفعل‬infaala ), devient aussi la source
trilitère en ajoutant au schème ‫فعل‬, la partie morphinique"‫ "ان‬comme préfixe. Il ne faut
pas mélanger entre les deux schèmes ‫ افتعال‬et ‫انفعال‬, tant que les noms associés par ces derniers

68
sont

69
similaires en termes de schème. où le schème ‫ انفعال‬concerne tous les noms commençant par
les deux lettres "‫"ان‬, comme exemple :"‫( " انطالق‬intilak) /départ," ‫( " اندحار‬indihar)
/déroute,
"‫(" انفجار‬infijar) /explosion," ‫ ( " إنماء‬inmaa) /développement ,... par contre le schème ‫افتعال‬
associé par tous les noms qui ne commencent pas la partie morphinique"‫"ان‬. En ce qui
concerne la signification, le schème ‫ انفعال‬peut signifier le début de l'apparition d’un
événement.
o Le schème ‫ (افعالل‬ifaailale ) est une source du schème ‫ ( فع اْ´ ل‬ifaalla ), il est obtenu à partir de la
source trilitère en ajoutant au schème ‫ فعل‬un préfixe " ‫ ( " ا‬alif ) et un infixe "‫ (" ل‬lam ) et qui a
suivi la deuxième lettre"‫ ("ع‬aâ ) du schème trilitère.
 Les schèmes de sources qui commencent par le caractère " ‫ (" ت‬tha) sont : ‫ ( تفاعال‬tafaawl-
ane);‫( تفعال‬tfaal-ane) ; ‫ (تفعالل‬tafaalol-ane ). Où le suffixe " ً‫(" ا‬-ane) exprime ‫( التنوين ألف‬alif
tanwine ).
o Le schème ‫ ( تفاعال‬tafaawl-ane ) accepte la source quiquilitère ‫ ( تفاعل‬tafaal ), et qui a provoqué
le schème trilitère augmenté par la lettre préfixe "‫ ( "ت‬ta ) et un infixe "‫ ( "ا‬alif ). Le schème ‫تفا‬
‫( عال‬tafaawl-ane) peut designer la participation et la coexistence avec la situation. Exemple :
‫ ( توافق‬tawafok/concordance ), ‫ ( تجاوب‬tajawb/réponse ),..
o Le schème ‫ ( تفعال‬tafaal-ane ) accepte la source quiquilitère‫ ( تفعّل‬tafaal ). comme les autres
schèmes de la source quiquilitère, ce schème ni qu’une source trilitère augmenté par le préfixe
" ‫ (" ت‬tha) et un infixe produit par le redoublement de lettre "‫ ("ع‬aâ ) ou bien ce qu’on appel
en arabe :‫ ( الحرف تضعيف‬tadaaif el harf)/ l’affaiblissement de la lettre (malgré plusieurs
chercheurs utilisent la traduction du mot ‫ ( تضعيف‬tadaaif ) par le mot ( affaiblissement ), mais
en arabe le concept ‫ ( تضعيف‬tadaaif ) n’implique pas l’affaiblissement en français, il désigne le
redoublement d’une lettre et devient le mot ‫ ( مضاعف‬moudaaf/ multiple ).
Parfois, les mots qui ont un schème ‫( تفعّل‬tafaal) signifient les bravoures. Exemple :
‫( تهيئ‬tahayou/préparation), ‫( تشجع‬tachajoaa/encouragement)…
o Le schème ‫ ( تفعالل‬tafaalol-ane ) accepte la source quiquilitère ‫ ( فت علل‬tafaalol ). c’est une source
trilitère augmentée par deux lettres, tel qu’un préfixe " ‫(" ت‬tha) et un infixe représenté par la
lettre "‫("ل‬lam ). peut signifier parfois un mouvement.
Exemple : ‫( تدحرج‬tadahrouj) /roulement, ّ‫ ( رج تد‬tadarouj) /graduation , …

70
Tableau 6 : tableau représente les sources quiquilitères et leurs schèmes.

2.5.2. L’application du système (AEFD) sur la catégorie des noms


de source quiquilitère

Comme les applications sur les schèmes précédents, le traitement des noms de sources
quiquilitère, peut aussi être réalisé par le système (AEFD), mais plus complexe que dans le
cas des applications antérieurs. Cela est dû au fait que les schèmes produits par cette source
(source quiquilitère) contenant un nombre de caractères plus que les schèmes quadrilatères,
par la suite les nombres des états, des états finaux et des transitions sont élevés.

Figure 8 : la détection de la sémantique des sources quiquilitère par le système (AEFD).

- Nombre des états est 26 états.


- Nombre des états finaux est 6 états finaux.
- Nombre de transition est 26 transitions.

71
2.6. Source hexagone
2.6.1. Description

Tous les noms -non propre- arabe qui ont une source d’hexagone commencent par le
caractère
" ‫( " ا‬alif), et possèdent un autre avant le dernier caractère. Ils expriment une source trilitère
augmentée par trois lettres.
La majorité des schèmes verbaux d’hexagone contenant le « shadda » (signe diacritique
permettre de redoubler le caractère dans le schème en cas d’écriture).
La rareté de l’utilisation de ce type des noms en langue arabe et leurs difficultés en écriture
graphique (par exemple, des utilisateurs qui écrivent le nom‫ « اخضيرار‬ikhdirar/ très vert » et
des autres, utilisent le nom sans infixe "‫ اخضرار‬:"‫ « ي‬ikhdrar/très vert »), et en prononciation
( le redoublement des lettres dans un seul nom (exemples : ..‫ اصفيرار‬،‫ اخضيرار‬،‫اعشيشاب‬،), ces
facteurs empêchent l’utilisation de ces noms en communication et en recherche, puis
l’inattention de l’importance pour traiter et analyser ce type des schèmes.
Remarque :
La source ‫ال إ‬‰‰‰‫ «فعيع‬ifaaiaal » signifiant l’accroissement, la multiplication et
l’augmentation d’un objet. Exemple : ‫اب‬‰‰‫ « إعشيش‬iaachichab/gazonné » indique beaucoup de
l’herbe ( ‫)كثرة العشب‬.

Tableau7 : tableau représente les sources hexagones et leurs schèmes.

2.6.2. Application du système (AEFD) sur la catégorie des noms


de source hexagone

Le système (AEFD) ne permet pas d’identifier tous les sens des schèmes hexagones, car un
ensemble de noms associés par ces schèmes restent ambigus et ne sont pas classés selon leurs
sens (comme le cas des schèmes trilitères).

72
Figure 9 : la détection de la sémantique des sources hexagones par le système (AEFD).

- Nombre des états est 19 états.


- Nombre des états finaux est 4 états finaux.
- Nombre de transition est 19 transitions.

3. Conclusion

L’objectif de cette tâche est d’élaborer le système AEFD pour enlever l’ambiguïté et de
trouver les significations de la majorité des sources des noms arabes convertis en schèmes et
traités par ce système. A cette raison, on a proposé notre méthode basée sur la procédure
suivante :
 Nous avons commencé à extraire les schèmes corresponds aux noms arabes que nous voulons
traiter. Où le traitement se fait à partir de l’entrée (l’état initial), caractère par caractère en
fonction des états d’automate à état fini déterministe. L’ensemble des états (y compris les
états finaux) sont reliés par des flèches représentants des transitions.
 Afin que le schème d’un nom atteigne l’état final de l’automate (cas de la source trilitère des
noms arabes), Nous représentons une approche sémantique pour chaque nom arabe.
Notre objectif à la fin de cette estimation, et de développer le système d’automate à état fini
déterministe sous forme d’un logiciel pour augmenter la recherche des informations et
faciliter le traitement automatique de la langue arabe. Malheureusement, l’absence des règles
arabes et des propriétés qui peuvent identifier les sémantiques d’une quantité de schèmes,
notamment en ce qui concerne les sources, quadrilatère, quiquilitère et hexagone empêche la
performance du système AEFD.

73
Chapitre 3: L’importance de schèmes pour trouver la
sémantique aux mots arabes

1. Introduction

L’apparition de l’intelligence artificielle au milieu des années cinquante, génère une


source d’inspiration pour la majorité des chercheurs intéressés par le domaine de
l’automatisation des techniques du langage et qui ont accumulé une masse de travaux qui peut
exiger de modéliser un ensemble de règles syntagmatiques et linguistiques à base de
l’ordinateur. L’activité de cette technique a connu un succès considérable entre 1956 et 1996,
tel que l’émergence d’une nouvelle discipline nommée : le traitement automatique de la
langue naturelle (TALN), et qui repose sur deux grands domaines : la linguistique, comme
une discipline basée sur l’étude langagière, et se concentre sur l’utilisation des règles
grammaticales. Puis, l’informatique comme une autre discipline basée sur des algorithmes et
logiciels d’analyse permettant de mettre en œuvre l’exploitation de ces règles pour simplifier
l’étude langagière.
Le développement technique aujourd’hui a réalisé un essor admirable dans le domaine de la
science TALN. Cette dernière notion inclut la sémantique comme sous domaine, où la
majorité des recherches et des analyses se focalisent sur cette thématique comme une partie
d’étude importante notamment pour le traitement automatique des langues qui ont une
morphologie complexe et plus difficiles à traiter comme l’arabe par exemple, et qui est
dominée par l’ambigüité des termes qui prennent, selon le contexte une énorme diversité de
sens. Cette dernière notion, est parmi l’un des points qui ont attiré l’attention des chercheurs
sur le domaine du traitement automatique de la langue arabe.
L’ambigüité est considérée aujourd’hui comme étant la principale pierre d'achoppement du
traitement automatique au moment où la mémoire de stockage et la puissance de traitement
des ordinateurs ne constituent plus un frein au développement des applications informatiques
[6]. Elle se manifeste sous différentes formes et selon les différents niveaux des traitements
linguistiques (lexical, morphologique, syntaxique, sémantique et pragmatique), ainsi
considérée ardu à modéliser en informatique. Dans la langue arabe la forme d’ambiguïté la
plus importante au traitement automatique est l’ambiguïté morphologique.

Dans ce travail nous présentons une approche basée sur l’utilisation des schèmes pour
déterminer les significations des mots arabe via le système AEFD. Malgré que ce système ne

74
peut pas traiter tous les mots convertis en schème, en raison de quelques difficultés qui ont été
mentionné précédemment, et qui se rapportent l’ambigüité et des autres problèmes associés
par l’affixation (le traitement des mots collés par l’article défini, particules des prépositions
ou d’autres), le problème qu’un schème peut représenter plusieurs mots qui acceptent des
significations différentes…Pour cela, et en cas d’une ambiguïté morphologique nous pouvons
nous focaliser sur le niveau syntaxique pour chercher les sens des mots au contexte.

2. Les schèmes et leurs importances aux traitements


2.1. Définition du schème

Le schème peut être considéré comme une représentation formelle constituée par 3 ou 4
consonnes qui sont totalement vocalisées. C’est un moule sur laquelle coule la racine [135].
En arabe le schème de plusieurs mots est constitué de trois lettres "‫ "ع‬,"‫ "ف‬et "‫"ل‬, l’ajout
d’une autre lettre (par exemple "‫ "ن‬,"‫ "ا‬etc.) comprend une variation sémantique au niveau du
mot émergé. En totalité, il y a 19 schèmes verbaux qui peuvent être soit nus, soit augmentés
dérivant de trois consonnes de la racine par modification des voyelles, par redoublement de la
deuxième lettre de la racine, par adjonction et même par intercalation d’affixes (préfixe,
infixe, suffixe) [136]. Les verbes augmentés se conjuguent avec les mêmes préfixes et
suffixes que le verbe sans augment. De ce fait, une racine peut générer au maximum 19
verbes et les schèmes correspondants peuvent donner 22 modèles de conjugaison différents.
Ces schèmes sont détaillés en plusieurs sections :

 Les schèmes trilitères : Et qui sont les plus utilisés, cela est dû à l'abondance des mots
associés par ce type de schèmes en langue arabe, ce qui a fait la richesse de cette dernière.
La forme graphique d’un schème trilitère est "‫"فعل‬. Les mots arabes non voyelles et associés
par cette section de schèmes sont totalement ambigus. Exemple : le mot non voyelle ‫كتب‬/ktb,
peut être , ُ َ‫ ´كت‬.…,
‫ب‬ ´‫ك ´كت‬
‫ِت ب‬
‫ب‬
,
 Les schèmes quadrilatères : Leur distribution dans la langue arabe est inférieure à celle des
schèmes trilitères. Les formes graphiques d’un schème quadrilatère peuvent être sous
certaines formes : "‫ "فاعل‬,"‫ ّ"عل ف‬,"‫ "فعلل‬etc.
 Les schèmes quiquilitères et hexagonaux : Sont rarement utilisés dans la langue arabe.
Exemple : "‫ "استفعل‬,"‫ "انفعل‬,"‫ "تفعلل‬, etc.

75
Au niveau de la sémantique, un schème parmi les schèmes précédents être signifier
plusieurs sens.

76
2.2. L’importance des schèmes

Le traitement automatique des schèmes repose sur le système AEFD, nous permet de
discriminer la sémantique de quelques mots ambigus. C'est-à-dire que l’utilisation de cette
technique au niveau de l’analyse permet relativement de résoudre le problème de l’ambigüité
tant que ces schèmes sont classés en différents groupes selon la forme et le sens.
Notre technique d’analyse sémantique de la langue arabe se compose de deux principales
étapes : la première étape est basée sur l’analyse morphologique qui met en considération
l’importance de schème pour produire le sens du mot correspondant. La seconde étape permet
d’identifier le sens à partir de l’analyse syntaxique dont l’étude se base sur le contexte
lorsqu’un schème peut signifier deux ensembles sémantiques ou plus (ex. le schème ‫∗ة ∗ا( عالة‬
´
∗)/fiaalatun peut signifier un ensemble de métiers comme : ...‫ارة‬‰‰‫نج‬،/ Menuiserie, ‫دادة‬‰‰‫ح‬/
Métallurgiques, ou bien un ensemble des autres expressions qui ne correspondent à aucun
métier, comme : ...‫ عبارة‬،‫حكاية‬،). Nous proposons dans ce cas une liste sous forme d’un tableau
qui contient un ensemble de schèmes plus utilisés dans la langue arabe (voir tableau 8 au-
dessous).
L’utilisation des schèmes permet de faciliter le traitement et l’analyse de la langue arabe,
vu qu’un seul schème utilisé dans une application comme un modèle et qui peut associer un
ensemble de mots englobant les mêmes caractères (même nombre de lettres, même rythme
acoustique). Ainsi que leur structure graphique élémentaire et qui est formée par trois
caractères représentant la base du mot trilitère "‫ « "فعل‬faala », tels que les autres schèmes
(quadrilatère, quiquilitère et hexagone) peuvent être produit par l’ajout d’une lettre parmi les
trois lettres précédents (‫ف‬- ‫ع‬- ‫)ل‬, et chacun de ces schèmes représente un gabarit de différents
ensembles des mots exprimant les contenus de gabarits (schèmes) et comportant le même
nombre de caractères et les mêmes signes diacritiques correspondants au schème.

2.3. Détection de la sémantique à travers l’analyse


morphosyntaxique

Nous utilisons dans cette approche les schèmes des mots arabes et leurs sémantiques. Tel
que nous exposons un ensemble de schèmes les plus utilisables dans la langue arabe et qui
signifient au moins un sens. Nous les avons classés dans le tableau suivant :

77
Tableau 8 : Liste de schèmes et leurs sémantiques.

2.4. Analyse
Mots affixés

Remarquons que les affixes collés par les mots arabes sont limités, on peut donc, les
représenter par deux bases contenant tous les préfixes existants en arabe (B p) et tous les
suffixes des mots arabes (Bs). Par la suite et au prétraitement, nous pouvons chercher une
compatibilité entre la première lettres c 1 du mot candidat et celle des préfixes dans la base
(Bp), puis on va comparer aussi, la dernière lettre cf du mot avec la dernière lettre de certain
suffixe dans la base (Bs) :

 Si cp𝜖(Bp) et/ou cs𝜖(Bs) : dans ce cas la suppression de cp et/ou cs se sera nécessaire, pour
trouver l’unité lexicale Ul du mot candidat.
o Si Ul est un nom, il faut le convertir à son schème sch, en fin on va comparer ce schème avec
les autres qui sont indiqués dans la liste L (Tableau 8) ou dans une base de schèmes. Si le
schème existe il faut donc déterminer le sens du mot candidat. Si le schème n’appartient pas à
la liste : il faut passer à l’étude contextuelle.

78
o Si Ul est un verbe, on transforme ce dernier à sa source, puis on le converti à son schème et si
sch 𝜖 L, on trouve le sens compatible. Sinon on passe à l’étude contextuelle.
 Si cp∉(Bp) et/ou cs∉(Bs) : on transforme le nom à son schème et on le compare, avec les
schèmes dans la liste. Si sch 𝜖 L, puis on identifie le sens du mot, sinon on passe à l’étude
contextuelle.

Figure 10 : représentation d’un processus qui permet de détecter le sens des noms arabes affixés et à base de leurs
schèmes.

Le signe (-)/ (+) peut signifier que :


 Le mot candidat n’inclut pas/ inclut un préfixe Pj (j= 1, …, r) et un suffixe Sk (k= 1, …, m).
 Le mot candidat n’approprie pas/ approprié à un schème sch i (i= 1, …, n) : le résultat du
premier cas (-) nécessite une étude contextuelle. Par contre pour le cas second (+), on
peut identifier le sens convenable.
Au contexte

Considérons une phrase sous la forme suivante : M 1 M2 ...Mi...Mn (n est un entier naturel). Et
on considère que le mot Mi a un schème qui peut signifier un état quelconque. On peut essayer
de voir, si le schème est identique à une certaine signification dans l’ensemble : {métier, couleur,
maladie, voix, etc.}.Si le schème correspond à un élément de l’ensemble, donc le sens du mot
associé à ce schème sera trouvé. Si le schème peut exprimer deux significations différentes, on
peut remarquer dans ce cas, une apparition de l’ambiguïté, pour cela nous pouvons nous pencher
vers un autre niveau d’étude syntaxique pour désambigüiser l’expression essayée à base de
contexte. Dans ce niveau contextuel, le sens d’un mot peut être un mot appartenant à la phrase
précédente/ ou la phrase suivante du mot candidat, ou bien un mot appartenant ou paragraphe au-
dessus/ ou au-dessous de la ligne qui comporte le mot candidat.

Exemple :
Considérons les deux phrases arabes suivantes :
79
"‫ « " باآللة خشب نجارة‬nijarte khachab bi alala/ copeaux de bois par machine » (1)

"‫ « " التدفئة خشب نهاية‬nihayate khachab attadfya/ la fin de bois pour le chauffage » (2).

Le mot ‫ نجارة‬dans la phrase (1) a le même schème que le mot ‫ نهاية‬dans la phrase (2) et
toutefois, ce dernier ne signifie pas un métier. Dans ce cas l’étude ne s’arrête pas à l’utilisation de
la technique de schèmes pour détecter la sémantique des mots.
On peut poursuivre donc, l’étude de chaque phrase et trouver le sens du mot candidat, selon les
relations entre les mots, ou bien par exemple à base des autres techniques (un analyseur
morphosyntaxique, une ontologie du domaine,..). Suite aux exemples :
Nous proposons que la relation entre ‫ خشب‬/bois et ‫ اآللة‬/la machine dans la phrase (1) soit le mot
‫نجارة‬. Nous cherchons donc est ce qu’il existe une relation entre ‫ اآللة‬/la machine et le mot ‰ ‫مهن‬
‫ة‬/métier ? Concrètement et à base d’une ontologie de domaine, tel que le classement des mots
selon leurs catégories morphologiques, grammaticales et sémantiques nous arrivons à une réponse
positive. Et par la suite le mot ‫ نجارة‬peut signifier un métier.
Par contre, l’absence d’une relation entre le mot ‫مهنة‬/métier et le mot ‫التدفئة‬/le chauffage
représenté dans la phrase (2), conduit au résultat que le mot ‫ نهاية‬n’exprime pas un métier.
La problématique qui coïncide cette partie d’étude est basée sur deux points essentiels :
 L’absence des signes diacritiques associés par les mots candidats au traitement, ce qu’empêche
l’identification pertinente de leurs schèmes et l’extraction de la sémantique sachant que, le
système traite les schèmes à base de leurs formes graphiques et non pas selon
ses diverses voyellations. Prenons comme exemple le mot candidat: "‫ « "حسام‬hssam ». l’ambigüité
morphologique du mot peut apparaitre aux cas suivants :‫ « حسام‬hissam/ règlement », et qui a un
schème ‫عال‬
« fiaal ». Le cas du mot ‫ « ح‬houssam/épée (ou nom propre) », ce type de mots
´ ‫سام‬
accepte un schème ‫ « عال´ ُف‬fouaal » et qui est différent du schème précédent: « fiaal ».
‫´عال‬
 Lorsque le mot candidat n’inclus pas l’ensemble sémantique de leur schème, comme le cas
précédent du mot ‫ « حسام‬houssam/épée (ou nom propre) » et qui n’appartient pas à un certain
ensemble ({Maladie – Voix}) du schème ‫ال´ُفع‬. Même cas pour le mot ‫عقاب‬/aakab. Et qui peut
signifier‫اب‬ «aikabe /la peine » ou bien ‫ « اب‬aukabe/ aigle (oiseau) ».
‫´عق‬ ‫´عق‬
Nous remarquons, l’apparition d’un autre problème et qui doit être lié par l'existence de certains
mots qui ont le même schème, mais acceptent des significations différentes. Prenons par exemple,
le cas du mot ‫ «عبارة‬aaibara/expression », de schème ‫ « ِفعالة‬fiaala » et qui n’exprime pas un
mots les comme métier : ...،‫تجارة‬،‫ جراحة‬،‫نجارة‬.

80
Les mots affixés (exemple, les mots collés par l’article défini ou bien par une certaine particule
de préposition…) présentent aussi, une contrainte au traitement par le système (AEFD). Tant que

81
ce dernier ne contient pas une tâche pour segmenter un mot ou un schème en préfixe et/ou
suffixe, et d’extraire la racine ou la base, puis de déterminer leur signification.

Les significations d’un mot au contexte peuvent être situées proches (précédentes ou suivantes,
appartiennent à la même ligne du mot) ou à une distance (dans les paragraphes au-dessus ou au-
dessous) d’un mot candidat (voir figure 11).Les flèches associées par les lettres: R’, R’’, R 1 et R2,
représentent les relations entre le mot candidat (petit cercle garis) et les mots significatifs au
contexte (les 4 petits cercles blancs).

Mot ou phrase Mot ou


∈ à la phrase phrase ∈ à la
précédente ligne ou le
paragraphe
R’
au dessus.

R1 R2

Mot ou phrase R’’ Mot ou


∈ à la ligne ou phrase ∈ à la
le paragraphe phrase
au dessous. suivante

Figure 11 : Les relations entre le mot candidat et les mots significatifs au contexte.

2. Formalisme
Nous estimons notre travail par la technique d’automatisme pour traiter la signification de
chaque schème en ce qui concerne l’étude sémantique d’un mot arabe isolé (hors contexte).

Nous présentons dans ce qui suit une représentation d’automate à état fini déterministe
(AEFD) de différents schèmes (voir Ch. 2 : Fig.5 ; Fig. 7 ; Fig. 8 ; Fig. 9).

Le premier traitement par (AEFD) ne conduit pas à des résultats pertinents en raison des
problèmes qui sont présentés précédemment. Mais nous pouvons estimer que ces résultats
peuvent être considérés comme ceux qui apparaissent le plus souvent. Dans la seconde phase
l’étude se base sur une analyse contextuelle et d’identifier les mots associés par le mot
candidat pour définir leur sens.

3. Conclusion

Dans cette contribution nous avons proposé comment détecté les significations d’un
ensemble des mots arabes convertis en schèmes et traités caractère par caractère via le
système (AEFD), et nous avons identifié encore les contraintes qui empêchent cette technique
82
du traitement, où nous pouvons trouver comme exemple, plusieurs sens qui peuvent être
associés par un seul schème. Partant de ce constat, nous avons abordé à une autre proposition
basée sur le contexte pour remédier au problème de l’ambigüité associé par les mots converti
en schème et traités par le système proposé. Mais cette approche a des limites et qui sont
représentées par des contraintes marquées préalablement. De plus, nous remarquons
également une absence des méthodes et techniques permettant de traiter les mots arabes pour
désigner leurs sémantique à base des règles lexicales et grammaticales en général, et l’absence
des approches permettant de faciliter le traitement et de confronter les difficultés concernant
l’identification des sens à travers le contexte en particulier.

83
Chapitre 4 : Application de système d’automate à état fini
déterministe (AEFD) pour l’étiquetage des
mots arabe

1. Introduction

L’étiquetage morphosyntaxique automatique d’un texte arabe est une étape essentielle dans
son analyse, il est utile pour de nombreuses applications du traitement automatique de la
langue arabe. Grace à l’avènement d’Internet et des moteurs de recherche, le problème n’est
plus l’accès à l’information[122], le traitement automatique de la langue arabe a connu ces
dernières années (depuis 2000, jusqu’à maintenant) une véritable ascension sur des différents
plans, scientifiques (la création des dictionnaires scientifiques latin-arabe ou arabe-latin et des
mécanismes qui permettent de traiter des concepts en ontologie...) ou social(l’encouragement
des chercheurs arabes pour développer et améliorer leurs recherches…) et économique( vente
des produits et logiciels informatiques…), tous cela, par l’émergence d’un nombre très
importants des inventions techniques comme : les traducteurs automatiques des textes,
correcteurs orthographiques d’erreurs, générateurs automatiques de résumés…etc.[137]. Mais
même avec ces développements techniques, il existe encore plusieurs difficultés au traitement
automatique liées par les caractéristiques de la langue arabe elle-même, à tel point que
certains chercheurs ont affirmé qu’il n’existe pas de système complet pour l’étiquetage du
texte arabe [138]. Aujourd'hui, le TALA nous demande beaucoup d'efforts pour parvenir à un
résultat avec succès, puisque les anciennes tentatives n’arrivent souvent pas à boucler la
majorité des phénomènes linguistiques en arabe, et par ailleurs, les performances des
recherches restent défectueuses surtout dans le domaine de l’informatisation de la langue
arabe. Mais le seul défi linguistique et informatique qui est la principale pierre d’achoppement
et qui gêne souvent les chercheurs pour le traitement automatique d’une langue
naturelle(TALN) est le problème de l’ambiguïté. Ce problème a fortement augmenté en
langue arabe à la différence des autres langues naturelles comme l’anglais et le français, cette
complexité se manifeste sous différentes formes et dans les différents niveaux de traitement
que ce soient : lexical, morphologique, syntaxique et même sémantique. Cela est dû au fait
que la langue arabe se caractérise par sa morphologie fortement flexionnelle, dérivationnelle
et agglutinante, sa construction des mots textuels très similaire en forme morphologique,
syntaxique et sémantique. En outre les textes écrits arabes sont entièrement caractérisés par
84
l’absence des voyelles courtes (diacritiques) [55], Ce qui a conduit à la domination de
l’ambiguïté.

L’amélioration de la désambiguïsation se trouve à l’essor de la dernière révolution


informatique et l’explosion massive en quantité d’informations. Le besoin de l’amélioration et
la création des nouvelles méthodes et techniques de traitement, et en particulier, la nécessité
d’étiquetage des mots dans les textes arabes à travers des applications considérables ou par
des systèmes d’études convenables, comme par exemples le traitement automatique par le
système d’automate à état fini déterministe(AEFD) pour l’étiquetage morphologique et
syntaxique des mots. C’est dans ce cadre que nous entreprenons ce travail.

2. Étiquetage des mots arabes


2.1. Notre approche

L’approche utilisée est une technique qui permet d’étiqueter les mots affixés et non affixés
dans un certain contexte. Elle consiste à classer les mots avant le traitement, selon leurs
particules associées et leurs affixes accolés pour déterminer la catégorie de chaque unité
lexicale après le traitement. Cette approche se base principalement sur un ensemble de règles
arabes (présentés par des linguistes ou bien à base de contexte) et les schèmes des mots
(prenons en considération si le morphème est un préfixe d’un mot, ex. ‫سأكتب‬/‫ سأفعل‬ou c’est une
partie du mot, ex. ‫)سأل‬. Le système d’étude (AEFD) va traiter le mot choisi, caractère par
caractère, au sens d’une transition convenable. A la sortie finale du système, ce dernier
désigne les différentes étiquètes pour chaque mot automatisé.

Notre objectif abordé à l’utilisation de plusieurs outils d’étiquetage sur les mots arabe Pour
réduire relativement le phénomène de l’ambiguïté.

2.2. Morphologie et étiquetage

L’étude de l’analyse morphologique consiste à décomposer les mots en morphèmes [139],


[140] sans tenir compte des liens grammaticaux entre ces derniers [141]. Cette partie d’étude
a pour objectif de donner la majorité des étiquettes aux mots arabes à base de leurs affixes.
Mais cela ne signifie pas que nous pouvons trouver des difficultés au niveau de la
morphologie notamment, quand il s’agit de cas d’une étude de la structure morphinique de
quelques mots arabes.

On distingue dans notre étude, deux catégories de mots, prenons en considération une
exception pour les mots accompagnés par les particules, c'est-à-dire les verbes qui comportent
85
des préfixes signifiant un temps à l’inaccompli, par exemple : ...‫ يجمع‬،‫ يكتب‬،‫ أقرأ‬،‫سيدرس‬،, et des
autres noms préfixés par ce type de lettres, comme exemples:...‫ يسار‬،‫ أعمال‬،‫سياح‬، (De même
pour les mots suffixés, comme les verbes qui comportent le morphème " ‫" ان‬: ex. ‫ يكتبان‬et les
noms suffixés par ces deux lettre : ex. ‫)يابان‬. La difficulté de traitement peut apparaître où le
système AEFD ne nous permet pas de discriminer ces catégories.

2.3. Syntaxe et étiquetage

L’étude syntaxique est considérée comme une tâche plus importante pour la détection des
mots arabes et une solution relative au phénomène de l’ambiguïté des mots. La principale
difficulté de l'analyse syntaxique est de faire le lien entre le programme (la suite des mots) et
la grammaire hors contexte du langage.
L’analyse syntaxique a pour objectif de reconnaitre les phrases appartenant à la syntaxe du
langage. Elle comporte les trois parties suivantes :

i) les catégories syntaxiques : des étiquettes qui nous permettent de ressembler des mots
ensemble selon différentes caractéristiques communes.
ii) les règles syntaxiques et la construction des phrases : Cette partie nous permette de
combiner les mots en phrases.
iii) la transformation des phrases : les différentes formes de transformations des phrases pour
obtenir le même type de phrase. Exemple : ‫المعلومة عن يبحث الطالب‬/l’étudiant recherche
l’information. Cette phrase peut se transformer à l’interrogative de façons différentes : ‫الطالب‬
‫يبحث عن المعلومة؟‬, ‫أ يبحث الطالب عن المعلومة؟‬, ‫هل يبحث الطالب عن المعلومة؟‬, .etc

3. Le traitement Automatique des mots par(AEFD)

Généralement, dans un texte arabe, le mot peut être affixé (collé par des affixes) ou bien
fourni par d’autres attributs (particules de prépositions, des pronoms, des signes au contexte
qui permettent d’identifier la nature du mot). Pour cela et à base de ces éléments, le traitement
automatique peut être lancé.

Considérons dans ce contexte, un ensemble E, associé par tous les attributs qui permettent
d’étiqueter le mot dans un texte arabe : préfixes verbaux(Pv), préfixes nominaux(Pn), suffixes
verbaux(Sv), suffixes nominaux(Sn), particules verbales(Vp), particules nominales(Np) et
autres (temps, genre, nombre,…) :

E= {Mo, N, V, Pn, Pv, Vp, Np, Sn, Sv, Pc, NF, MS, FS, FP, MP, FD, MD, NFS, VFS,

86
NFD, VFD, NMS, VMS, NMD, VMD, NFP, VFP, NMP, VMP}. Et soit le caractère "esp"
qui représente l’espace entre les mots et autre ponctuations : esp = { '،' .‘،'', ' ' ، ; '' :' }.
Avec, Mo : Mot arabe quelconque, N : Nom arabe, V : Verbe arabe, Pc : Particule
commune, NF : Nom Féminin, MS : Masculin Singulier, FS : Féminin Singulier, FP :
Féminin Pluriel, MP : Masculin Pluriel, FD : Féminin Dual, MD : Masculin Dual, NFS : Nom
Féminin Singulier, VFS : Verbe Féminin Singulier, NFD : Nom Féminin Dual, VFD : Verbe
Féminin Dual, NMS : Nom Masculin Singulier, VMS : Verbe Masculin Singulier, NMD :
Nom Masculin Dual, VMD : Verbe Masculin Dual, NFP : Nom Féminin Pluriel, VFP : Verbe
Féminin Pluriel, NMP : Nom Masculin Pluriel et VMP : Verbe Masculin Pluriel.

4. Les mots arabes associés par des affixes


L’utilisation du système (AEFD), nous permet de détecter les verbes arabes à base de leurs
préfixes et suffixes. Le traitement des mots fonctionne caractère par caractère de l’état initial
q0 à l’état final représenté par deux petits cercles intégrés. Soit la figure suivante :

Figure 12 : Utilisation du système AEFD pour traiter les verbes arabes.

1- L’état schématisé par q représente l’état initial, et le symbole n (où n est un


entier naturel, tel que n ≠ 0) représente les états finaux.
2- Le symbole * représente tous les caractères arabe. Et l’expression : */ {‫ ن‬،‫ ت‬،‫ ي‬،‫أ س‬،},
implique chaque caractère, sauf les morphèmes suivants : ‫ ن‬،‫ ت‬،‫ ي‬،‫أ س‬،).
Comme le cas précédent (traitement des verbes affixés), le système (AEFD) nous permet de
traiter encore, les noms arabes selon leurs affixes (préfixes et suffixes) :

87
Figure 13 : Utilisation du système AEFD pour traiter les noms arabes.

5. Les mots arabes associés par des particules

Les particules arabes sont divisées en trois catégories :

 La première catégorie comporte les particules concernant les verbes, on parle d’un
ensemble de particules limitées, où chacune de ces particules peut être absolument
suivie par un verbe.
 La deuxième catégorie comporte les particules associées par les noms, et nous permet
de détecter le nom arabe.
 La troisième catégorie, implique les particules communes et qui peuvent être attribuée
également aux verbes et aux noms. Ce type de particules présente une ambiguïté au
cas du traitement, notamment que le système n’est pas qualifié pour distinguer entre
les particules des verbes et celles de noms.

5.1. Exemple des particules attribuées par des verbes


(Vp)

Dans cette tâche d’étude, nous considérons une classe de particules verbales et qui est
fréquemment utilisée dans les contextes des documents arabes. Parmi ces particules, nous
citons :

- Les particules accusatives / ‫( النصب حروف‬Huruf annassb). Cet ensemble comporte


quatre particules différentes en mode graphique, et qui ont la même caractéristique en
ce qui concerne le signe diacritique « fatha » ( ُ´ ) au-dessus de la dernière lettre de
verbe. Parmi ses particules, on trouve : {(An/ Que)ْ‫ ن أ‬-(Iden/Alors) ‫ إذن‬-(Lan/Ne pas,
jamais ) ‫ لن‬- (kay/ Pour) ‫}كي‬.
88
Exemple appliqué sur le verbe "‫ " يكتب‬/ il écrit: ‫ كي ب‬،‫ب‬ ‫ لن‬،‫ب‬ ‫ إذن‬،‫ أن يكت ب‬.
‫يكت‬ ‫يكت‬ ‫يكت‬
- Les particules de la source /‫( المصدر حروف‬Huruf almassdar) : constituées par cinq
particules:{(An/ Que) ‫ أن‬-(Anna/ Celui, que)
‫ أن‬-(Kay/ Pour)‫ كي‬- (Ma/ Que) ‫ ما‬-
(Law/Lorsque)‫} لو‬.
- Les particules affirmatives ou "particules jussifs"/‫( الجزم حروف‬Huruf aljasim),
représentée, aussi par cinq particules : {(In/Si,que)ْ‫ن إ‬-(Lamm/Ne pas) -
‫(لم‬Lamma/Quand)‫ ما ّل‬- (Lam alamur/Lam d’ordre)‫ األمر الم‬- (Lam annahya/Lam
prohibitive)‫} الناهية الم‬. Ce type de particules permet d’arrêter la voix à la dernière lettre
de verbe par le signe « soukone » (ُْ ), au dessus de la dernière lettre de verbe.
Soit Par exemple : ‫أكتب لم‬/ lam aktub : je n’écris pas.
- Les deux particules de condition/ ‫ ( الشرط حروف‬Huruf achartte) : {(In/Si,que) ‫ن ْإ‬- (Law/
Lorsque, si)‫} لو‬. Ce type de particule suivi toujours par des verbes, où la signification
de la phrase basée sur la réalisation d’un objectif à condition de l’action (le verbe
associé par la particule).
- Les particules du futur/‫( االستقبال حروف‬Huruf al-istikbal) et qui sont : {(s/Sera)‫ س‬،
‫( سوف‬Soufa/Sera)}. Le verbe qui suit ces particules est conjugué à l’inaccompli.
- Les trois particules de l’anticipation/ ‫( التوقع حروف‬Huruf attwakoaa) : {‫( قد – لقد – فقد‬Kad-
Fakad- Lakad/ peut)}.
- les particules d'incitation/‫( التحضيض حروف‬Huruf attahdid), ce type comporte cinq
ّ -(Law la) ‫ لوال‬-(Law ma) ‫} لوما‬.
particules:{(Ala) ‫ أال‬-(Ama) ‫ أما‬-(Hala)‫هال‬

Nous remarquons d’après les informations précédentes qu’il existe des particules verbales
communes, et qui ont plusieurs fonctions. Comme par exemple le cas de particule"ْ‫ ن إ‬/ Ine",
et qui peut être considérée d’une part, comme une particule de jussif et d’autre part, comme
une particule de condition.

Mais cette diversité de fonctionne ne pose aucun problème en cas du traitement par le
système AEFD, tandis que le système ne traite que les mots arabe non voyelle.

L’ensemble des particules verbales Vp qui peut traiter par le système AEFD sont :

= {‫ لوما‬،‫ لوال‬،‫ هال‬،‫ أما‬،‫أال‬،‫ ال‬،‫ إ ˚ن‬،‫ لو‬،‫ فقد‬،‫ لقد‬،‫ قد‬،‫ سوف‬،‫ إذن‬،‫ل ّما‬،‫ أ ˚ن‬،‫كي‬ ‫أ‬، ‫ما‬،‫ لن‬،‫}لم‬
،‫ ن‬Vp

89
Figure 14. Extrait du (AEFD) pour traiter les verbes arabes à base de leurs particules.

5.2. Exemple des particules attribuées par des noms


(Np)

La classe de particules nominales la plus utilisée en langue arabe et qui nous permet
d’étiqueter un nom, constituée par huit sous- classe de particules :

- particules: 17 sont Elles prépositions. Les { -‫ الباء‬-‫ االلم‬-‫ الكاف‬-‫ رب‬-‫ في‬-‫ على‬- ‫ عن‬- ‫ إلى‬-‫من‬
- { ‫التاء‬- ‫الواو‬- ‫ حتى‬-‫مذ‬- ‫منذ‬- ‫خال‬- ‫عدا‬- ‫} حاشا‬. (dans notre étude basée sur le traitement par le
système (AEFD), on peut considérer les particules de prépositions les plus fréquentes).
- Les trois particules du serment : {‫ الباء‬- ‫ التاء‬- ‫} الواو‬.
- Les particules d’exceptions : {‫عدا خال‬-‫حاشا‬-‫}إال‬.
- Les particules d’interjections les plus fréquentes sont :{ ‫أ‬- ‫يا‬- ‫آ‬- ‫أي‬- ‫} أيا‬.
- Les particules "
‫ "إ‬et leur groupe, formé par cinq particules :{ ‫ن‬- ‫كأن‬- ‫لكن‬- ‫ليت‬- ‫} إ لعل‬.
‫ن‬
- La particule qui désigne la surprise (‫ المفاجأة حرف‬/ Harf almofajaa): {‫}إذا‬.
- Les deux particules qui désignent le détail d’un événement dans une phrase :{‫ما أ‬-ّ ‫} إما‬.
d’avertissement particules trois Les (‫ حروف ال نت بيه‬/ attanbih) Huruf {:ّ‫ أال‬- ‫) أما‬-‫ ها (ها أنذا‬.} -

Nous évitons dans cette application toutes les particules qui ont une fréquence faible dans la
langue arabe. La forme du système (AEFD) pour traiter un ensemble de particules nominales
est la suivante :

90
Figure 15. Extrait du (AEFD) pour traiter les noms arabes à base de leurs particules.

Raisonnement d’un Cas particulier :


Dans ce résultat, nous pouvons étiqueter les mots arabes affixés à base des résultats
précédents, dont la procédure est la suivante :

- D’une part, si le mot (Mo) est précédé par Pv ou suffixé par Sv (Pv-Mo ou Mo-Sv), on
peut le considérer comme un verbe(V) : Mo = V. D’autre part, s’il est précédé par Pn ou
suffixé par Sn (Pn-Mo ou Mo-Sn), Mo, on peut le considérer dans ce cas, comme un nom :
Mo=N.

Figure 16. Utilisation du système AEFD pour extraire des mots contextuels à base de leurs préfixes (Part(A)) et leurs suffixes
(Part (B)).

6. Les mots arabes aux contextes


Considérons dans cet exemple, l’étude sur une phrase arabe qui comporte deux ou trois
verbes successifs. La phrase étudiée est une suite de mots Mo i et qui peut s’écrire sous la
forme suivante: Mo1 Mo2 Mo3..., tel que Mo1 = V, Mo2 = V et Mo3 (inconnu).

91
Automatiquement et selon les règles de la langue arabe, le mot Mo3ne peut pas être
considéré comme un autre verbe suivi successivement, les deux verbes précédents
(l’impossibilité de retrouver 3 verbes successifs au contexte arabe). Dans ce cas le motMo 3 est
forcément un nom.

Exemple : ‫قد عاد يصرخ عاليا‬, Vp( que tel‫( )قد‬V‫( )عاد‬VMS ‫يصرخ‬: Mo( Mo) PV‫ )عاليا‬d’où :

Figure 17. Utilisation du système AEFD pour extraire des mots arabes dans les phrases de formes (Vp)-V-(Pv) V-
Mo.

- Si la phrase arabe contient un NFS (nom féminin singulier) suffixé par la lettre ‫""ة‬, (Soit
par exemple, le nom : ‫)الجملة‬. Si ce type de noms est suivi par un mot et qui est préfixé par
une lettre de type Pv : ‫"" ت‬, (exemple du mot : ‫ت‬/‫ تكون‬-Mo), alors que le mot (Mo),
désigne probablement un verbe.
Soit le graphe de l’automate représentant ce processus, où la phrase de traitement est: "..‫تكو‬
‫"ن الجملة‬, tel que : « NFS ‫ ت‬/(Pv)- Mo ».

Figure 18. Utilisation du système AEFD pour extraire des mots arabe dans les phrases de formes: FSN -(Pv)Mo.

Alors que: Mo=Verbe (V).

7. Conclusion

A travers cette partie, nous avons pu développer un système automate à état fini
déterministe (AEFD) à une application dédiée à l’étiquetage morphosyntaxique des mots
arabes. Notre approche est basée sur les règles grammaticales et les contextes des phrases.
Cette contribution vise à traiter le maximum de mots arabes qui n'ont pas été traités, ensuite
on a affixé par chaque mot l’étiquette correspondante. Pour cela, nous employons dans cette
partie d’étude le système (AEFD) pour désigner les mots arabes puis, l’utilisation des résultats
d’étiquetage pour étiqueter les mots aux contextes des phrases. Bien que cette approche pose
des problèmes (i.e. le mécanisme de traitement est incapable de différencier entre les affixes
et les lettres de bases, lourdeur d’analyse et de traitement, etc.). Nous visons principalement et

92
grâce à ce travail de développer le système à une approche plus pertinente pour remédier à ces
problèmes et trouver des solutions efficaces. Ce sera l’enjeu de notre prochain travail.
Remarque :

Comme résolution de la problématique de partie d’étiquetage des mots arabes, nous avons
contribué par une autre technique basée sur les données précédentes pour l’analyse
morphosyntaxique des mots arabes par le système automate à état fini déterministe (AEFD)
[142].où, nous présentons une analyse qui permet d'une part, d'aider l'utilisateur à discriminer
de façon optimale les résultats morphologiques d'un mot dans un texte arabe et d'identifier sa
nature (nom ou verbe) sur la base de ces préfixes, suffixes et ses particules d'attributions.

D'autre part, nous pouvons déterminer les résultats syntaxiques de chaque mot analysé sur la
base du contexte. L’approche comporte deux étapes: Dans la première étape, l'étude porte sur
une vaste analyse des mots sur la base des règles arabes. Puis, dans la deuxième étape, nous
pouvons clarifier une technique basée sur le système (AEFD), qui est conçu pour traiter les
mots candidats, caractère par caractère dans le sens d'une transition appropriée. Dans la sortie
finale et par l'intermédiaire des différentes étiquettes, le système détermine la nature, le genre
et le nombre pour chaque mot automatisé.

93
Partie II : Recherche d’Information (RI)

94
Chapitre 5 : Etat de l’art de la RI sur le Web
1. Introduction
Aujourd'hui, l'accès à l'information dans les bases de données est plus facile pour les
langues standards [143], différemment de ce qu'elle était le cas depuis des dizaines d’années
précisément pendant le commencement du champ d’activité de la recherche d’information
(RI), et qui est apparue depuis l’année 1950[144][145][146]. Un des premiers concepts de la
RI a été produit par Salton[157] : « la recherche d’information est un domaine qui étudié la
structure, l’analyse, l’organisation, le stockage, la recherche et la récupération
d’informations ». Après dix ans presque, et entre la définition de Salton (1968) et une autre
définition qui a été donnée par Van Rijsbergen(1979) [148], estimant que : « L’utilisateur
exprime son besoin d’information sous la forme d’une requête en vue d’obtenir de
l’information. La RI consiste à restituer les documents qui peuvent être pertinents par rapport
au besoin d’information exprimé dans la requête. Il est probable que ce procédé soit réitéré
puisque la requête demeure un moyen imparfait d’expression du besoin d’information et que
les documents restitués à un moment donné permettent d’améliorer la requête utilisée pour la
prochaine itération», nous concluons un changement qualitatif au niveau notionnel de ce
concept RI, tel que Rijsbergen dans sa définition, prouve la nécessite d’une relation entre
trois grands domaines de la RI et qui sont : la requête, les documents et la pertinence. Au
cours de ce développement la recherche de l’information a connu une ascension très
importante, malgré les difficultés qui confrontent les chercheurs intéressés à ce domaine, leurs
évaluations et leurs recherches scientifiques sont devenus comme des sources fiables au
domaine de la qualité et la rapidité d'accès à l'information pertinente. De toute façon, ces
efforts sont considérés comme un changement qualitatif et quantitatif au cours du mouvement
de recherche.

La rapidité et le saut quantique d’Internet a permet d’augmenter les besoins de recherche


d’information (RI), notamment grâce aux moteurs de recherches [149] et comment ces
derniers peuvent être exploités par les utilisateurs. L’enrichissement des requêtes et
l’organisation des données documentaires facilitent les moyens de recherche performants et
automatiques, permettant à chaque utilisateur de trouver une information précise et
convenable. Suite à cette nécessité, le web apporte des solutions générales aux besoins d'accès
à l'information à distance [150] pour appliquer et développer des logiciels puissants
permettant de parcourir tout le web à la recherche de nouveaux sites pour les indexer et les

95
intégrer dans leurs bases de données[151]. Ces besoins sont différents d’une langue à une
autre.

A la différence des langues latines, le besoin d’information en langue arabe a une exception
particulière dépendant de son traitement automatique qui doit faire face à des différents
phénomènes, tels que la nature agglutinante de la langue arabe et qui a particulièrement des
effets sur la symétrie entre l’indexation et le traitement des requêtes [152], où l’unité lexicale
peut être collée par un ensemble de morphèmes qui véhiculent plusieurs informations
morphosyntaxiques [153]. D’autre part, l’arabe est une langue qui se caractérise par l’absence
des voyelles dans les textes écrits [152]. Ce dernier problème entraîne une quantité majeure
d’ambiguïté morphologique, qui est le manque des signes diacritiques au-dessus ou en -
dessous de chaque lettre qui forme un mot arabe et qui aboutit à perdre le vrai sens de ce
dernier. Le troisième phénomène concerne la langue arabe est cerné par la flexionnalité, dans
laquelle les lemmes (« mots ») changent de forme selon leur rapport grammatical aux autres
mots dans un texte.

Ces phénomènes génèrent plusieurs difficultés dans la tâche de recherche d’information en


langue arabe, cela est dû aux considérations suivantes :

- Une quantité massive d’information arabe reste sans analyse à base d’une complexité
morphologique, syntaxique, sémantique et pragmatique.

- les réponses obtenues à l’époque, concernant les besoins d’un utilisateur exprimés par une
requête et un ensemble de résultats, sous la forme des documents restitués, ne sont pas
satisfaisantes (Si l'on excepte un nombre très limité d’approches. Comme par exemple [233]
[232][129][123],...).

- La contribution de l’ambiguïté morphologique à la difficulté de la recherche d’information.

- Le grand défaut de la pertinence en cas d’une recherche simple de l’information sur le web.
Ce défaut est lié par la difficulté de l’ambiguïté.

Ces difficultés conduits à l’intérêt croissant des chercheurs [154] sur cet objet, et pour
mobiliser leur force pour découvrir des nouveaux moyens permettent d’améliorer la
performance de SRI, et d’automatiser la recherche sur le web pour remédier relativement les
problèmes .

En particulier et par spécification, le (SRI) peut automatiser les tâches d’un utilisateur grâce
à un ensemble de logiciels qui permettent de stocker l'information destinée à être traitée,

96
recherchée, trouvée par une population variée d'utilisateurs [147]. Les utilisateurs, chercheurs
au domaine de la recherche de l’information peuvent exiger de connaître les fonctions de
(SRI). Surtout si la recherche de l’information est associée par des processus concernant les
calculs, évaluations et autres objets des représentations dans le domaine du requêtage ou de
l’indexation,…, où ils sont d’abord concentrés sur la représentation des documents et des
requêtes et leur mise en correspondance (leur contenu textuel des documents) [153]. Cette
technique permet notamment d’organiser la correspondance entre besoins et documents en
fonction des méthodes de recherche d’information. En parallèle à l’évolution informatique et
l’augmentation colossale de la quantité de données, les méthodes de la recherche sont devenus
comme des axes référentiels et plus importantes pour une recherche d’information pertinente.
Elles jouent un rôle essentiel pour une application donnée dans le domaine de RI.

2. Concepts et processus de base de la recherche


d’information
La recherche d’information (RI) est une notion ayant un sens qui concerne tous les
domaines sans exception, c’est un espace de recherche infini, basé sur trois actions :
détermination du problème et que peut être un besoin en information (détermine le besoin qui
tu veux recherche), puis la recherche du besoin (action de recherche) : c’est la partie cœur de
ce contexte. Et enfin, l’action de trouver une information et qui est un plafond relatif au
besoin d’un utilisateur. En anglais, la notion RI a deux connotations, un peu différent de
l’autre : «Information Retrieval» et «Information Research». La première, implique la
récupération d’information dans un stockage informatisé et une mathématique de
récupération, alors que la seconde notion désigne "Recherche d’Information". Cette notion est
tout simplement définie comme une démarche faite par un utilisateur pour réaliser un travail
documentaire qui peut résulter d’un ensemble d’opérations effectuées pour accéder à une
information.

Depuis plusieurs années, de nombreux travaux ont été publiés par Cleverdon, Salton, Sparck
Jones, Lancaster et d'autres. Une définition claire est donnée par Lancaster : "la recherche
d'information est un terme appliqué conventionnellement, bien que de manière pas très exacte,
au type d'activité désigné dans ce volume (son livre de RI). Un système de recherche
d'information (SRI) n’informe pas (change la connaissance de) l'utilisateur sur le sujet de sa
requête. Il l'informe simplement sur l'existence (ou l'absence) de documents relatifs à sa
requête et où les trouver". Ceci exclut spécialement les Systèmes Question/Réponse
(Question/Answering systems) tels que caractérisés par [155] ou décrits par Minsky [156]. Il

97
exclut aussi les Systèmes de Recherche de Données (Data Retrieval Systems) tels que ceux
utilisés par les systèmes de cotation en ligne des bourses d’échange [157].

Figure 19 : Modèle classique de la recherche d’information(1)

2.1. Le processus de recherche d’information

Généralement, le processus de RI, selon R.K. Belew [158] se compose de trois processus
élémentaires : la requête, exprimée par une question posée par un utilisateur basée sur leur
besoin d’information ; cluster ou collection des documents, défini par la construction d’une
réponse basée sur la requête correspondante ; décision des documents restitués ce qui
explique l’évaluation de la réponse. Ces trois processus sont précédés par une exigence qui a
accompli cet ensemble, c’est le besoin d’information pour un utilisateur, et qui implique un
signal d’une lacune dans sa connaissance et une expression de la nécessité pour combler une
insuffisance dans certains domaines (par exemples, médical : le besoin d’identifier ou
diagnostiquer une maladie ; commercial : le besoin de désigner un produit ; dans le domaine
informatique et linguistique : le besoin de chercher des définitions ou des sens des mots, etc.).
La tâche requête est reliée à l’idée de l’utilisateur. Cette tâche joue un rôle axial dans le
système de recherche d’information SRI, ce que demande de l’utilisateur est d’améliorer la
formulation de la requête pour accéder à une information comme réponse pertinente à son
besoin.
La construction d’une réponse s’effectue par un ensemble de logiciels, c’est la
responsabilité de SRI. L’activité et la modélisation de cette tâche est considérée difficile et
très compliquée, car elle répond à une requête telle quelle est, et même que cette dernière est
formulée par le(s) terme(s) ambigu(s).

La dernière tâche représentée par les jugements des réponses par l’utilisateur, c'est-à-dire
que ce dernier (l’utilisateur) évalue mentalement les réponses restituées pour accéder à des
informations pertinentes basées sur son besoin. Si le processus ne continu pas le travail, alors
que l’utilisateur est satisfait, sinon il doit être tenu de reformuler la requête grâce au SRI pour
estimer la similarité entre la requête et chaque indexation [159].

98
(1) Cette figure représente un modèle de Jean- Philipe Accart, MAS ALIS 2014-2016. J’ai modifié la traduction des mots et les formes pour les simplifiées (avec respect du
contenu).

Cet ensemble de modèles intégrés dans le système de recherche d’information et qui


fonctionne sur un mécanisme de recherche, permet de sélectionner l’information en réponse
aux besoins exprimés par l’utilisateur à l’aide d’une requête [160]. D’après Belkin, ce
système peut être représenté par le processus en U de RI [161] comme illustre la figure
20suivante :

Figure 20 : Processus en U représente le SRI.

2.2. Document et collection de documents


Le mot "document"est un terme latin grec "documentum"qui signifie les concepts :
enseignement, démonstration, leçon,…historiquement. La tâche des documents concernait
notamment, les spécialistes : documentalistes, archivistes, bibliothécaires, etc. Au moyen
âge, ce terme désigne les textes manuscrits utilisés pour enseigner [162], et au 18eme siècle le
sens du mot document était différent et signifiait une preuve et tous ce qui est écrit pour le
renseignement. Sa définition change au 19ème siècle pour devenir une : « Chose qui enseigne
ou renseigne ; titre, preuve. Un document précieux. Les documents font défaut pour établir ce
point d'histoire » [163] Actuellement, l’Organisation Internationale de Normalisation (ISO)
définit un document comme un "ensemble formé par un support et une information,

99
généralement enregistré de façon permanente, et tel qu’il puisse être lu par l’homme et la
machine"[162]. Et n’est pas loin de cette dernière définition, le terme document désigne tous
les domaines de RI, constitues des informations cherchées et enregistrées (mots, images,
audio, vidéos...etc.). Il représente dans le SRI l’élément objectif [164], nous pouvons donc
conclure de cette dernière information qu’une relation étroite entre document et information
est élémentaire. Ce type d’information d’après M. Baziz est appelée granule de document, et
qui peut représenter tout ou une partie d’un document [157][165].

Un document est un ensemble d’informations dans un répertoire paramétré. Il peut être


représenté, selon trois vues [166][167] :

- La vue sémantique (ou contenu) : elle se concentre sur l’information véhiculée dans le
document.

- La vue logique : elle définit la structure logique du document (structuration en chapitre,


section).

- La vue présentation : elle consiste en la présentation sur un médium à deux dimensions


(alignement de paragraphes, indentation, en- têtes et pieds de pages, etc.).

L’ensemble des documents manipulés par un SRI se nomme collection de documents (ou
fond documentaire ou corpus).

cette collection est un ensemble de documents formés par un cluster d’informations organisés,
dont chacun d’eux a une représentation interne, constitué par un ensemble de termes index
associés à des poids et exploités par le SRI pour les comparer avec une autre représentation
interne de la requête. Le SRI a pour fonction de permettre à l'utilisateur d'accéder à des
documents qui contribuent à combler son besoin d'information [168].

Généralement la collection constitue des représentations simplifiées [162] mais bien


étudiées des documents, de telle manière que la gestion (ajout, suppression d’un document) et
l’interrogation (recherche) soient optimales.

Nous nous intéressons dans ces travaux concernant une collection documentaires de tenter
d’étudier un objet très compliqué, représenté par la question suivante, lorsqu’un utilisateur a
un besoin en information comment peut cibler –t-il un ou plusieurs documents pertinents
parmi la collection documentaire ?

2.3 Besoin d’information

10
C’est la traduction d’une idée (besoin utilisateur) en requête pour cibler leur correspondance
dans une collection de documents grâce à un SRI (besoin en information). Ce qui signifie qu'il
existe une correspondance entre les deux notions : besoin en information et besoin utilisateur.

Cette dernière notion peut être classée en trois types de besoin selon Ingwersen [169] :

1) Besoin vérificatif : l'utilisateur cherche à vérifier le texte avec les données connues qu'il
possède déjà. Où l’utilisateur cible la recherche d’une information (ou une donnée) stable.

Exemples, une telle source, des pages, les mots d’un titre, recherche d’un code, recherche
d’un article sur Internet à partir d'une adresse de site web connue … etc.

2) Besoin thématique connu : l'utilisateur cherche à clarifier, à revoir ou à trouver de


nouvelles informations dans un sujet et un domaine connus. Un besoin de ce type peut être
stable ou variable; il est très possible en effet que le besoin de l'utilisateur s'affine au cours de
la recherche. Le besoin peut aussi s'exprimer de façon incomplète, c'est-à-dire que l'utilisateur
n'énonce pas nécessairement tout ce qu'il sait dans sa requête mais seulement un sous-
ensemble. C'est ce qu'on appelle dans la littérature le label [157].

3) Besoin thématique inconnu : cette fois, l'utilisateur cherche de nouveaux concepts ou de


nouvelles relations hors des sujets ou domaines qui lui sont familiers. Le besoin est
intrinsèquement variable et est toujours exprimé de façon incomplète.

Il Convient de préciser qu’il y a souvent une confusion largement acceptée en RI, entre
besoin et requête. Le besoin en information, comme nous venons de le voir est une expression
mentale de ce que recherche l’utilisateur, or la requête est souvent une liste de mots clés en
particulier en RI textuelle qui traduit le besoin [165].

Le SRI peut soumettre une requête ainsi que cette dernière soumise à la notion besoin en
information. Donc la technique de représenter ces besoins sous forme de requête est basée sur
l’amélioration et l’organisation, notamment que la requête est en réalité une procédure
d’expression du besoin en information, sa formulation initiale associée par l’utilisateur et son
expression finale qui est sous forme d’une réponse, soumise au système. La meilleure
représentation brute peut accéder à une réponse convenable et pertinente.

2.4 La pertinence
Plusieurs travaux de recherche récent [170][171][172] considèrent la pertinence comme une
notion qui est difficile à définir et à établir. Elle concerne l’adéquation du contenu des
documents pertinents restitué avec une requête utilisateur, cette adéquation se vérifie à cause
10
du modèle de comparaison gérer par le SRI. D’une manière générale, le SRI et pour chaque
réception d’une requête, il crée une représentation similaire à celle des documents, puis
calcule le score de correspondance entre les deux représentations (de document et requête).
Ce score traduit un degré de pertinence système [157].

La dimension thématique de la pertinence peut être modélisée par cette fonction de


correspondance entre requête et document.

La pertinence utilisateur est liée à la perception de l’utilisateur sur l’information renvoyée


par le système. Elle est subjective, deux utilisateurs peuvent juger différemment un même
document renvoyé pour une même requête, et évolué dans le temps d’une recherche [164]
[171].

3. Modèles de RI

Un SRI est un ensemble de logiciels permettant d’effectuer l’ensemble des tâches


nécessaires à la RI. Il possède trois fonctions fondamentales qui définissent le modèle de
recherche : représenter le contenu des documents, représenter le besoin de l’utilisateur et
comparer ces deux représentations [168]. En court, un modèle de (RI) comprend la
représentation de la requête et du document et la fonction de correspondance qui calcule le
score des documents pour les différentes requêtes à partir de leurs représentations respectives
[173].

D’une manière générale, le modèle permet de donner une explication des termes choisis
pour représenter, puis comparer le contenu des documents et le besoins de l’utilisateur afin de
déterminer le degré de correspondance entre le document et la requête.

La représentation du contenu des documents et les requêtes se fait à l’issue d’une phase,
appelée l’indexation.

Cette section n'inclut pas tous les modèles de RI existants, mais certains modèles et
techniques fondés sur une représentation qui permet de définir la manière de retrouver les
informations dans un corpus [174] à partir d’une requête de l’utilisateur.

Les modèles les plus utilisés au contexte de RI sont:

 le modèle booléen
 le modèle vectoriel
10
 le modèle probabiliste.

Le premier modèle est un modèle classique [167], qui représente la base de RI. Dans ce
modèle les documents et les requêtes sont représentés par des ensembles de mots clés. Chaque
document di est représenté par un ensemble de termes [165], et chaque requête q peut être
représentée sous forme d’une expression logique [157].

Les deux autres derniers sont les plus largement utilisés par les chercheurs. Ils se basent sur
des fondements mathématiques qui reposent sur la notion d’étude de l’algèbre, la logique, la
théorie de la probabilité et les statistiques [175]. De notre part et au cours de cette étude nous
allons donner une grande importance à ces deux derniers modèles.

3.1 Les modèles booléens (The Booleans Models)


3.1.1 Modèle booléen de base (The basic Booleans Model )

Le premier développement de SRI a été basé sur la théorie des ensembles et l’algèbre
booléen crié par le mathématicien George Boole (qui est né le 02 novembre 1815 à Lincoln
(2)
(Royaume-Uni)) , et qui est la base d’un modèle booléen reposé sur la définition de trois
opérateurs logiques de base : le produit logique AND, la somme logique OR et la différence
logique NOT.

Les utilisateurs trouvent que l’utilisation de synonymes (grâce à la clause OR) et de groupes
de mots (grâce à la clause AND) sont utiles pour la formulation de la requête [176].
Une requête combinant deux termes reliés par le produit logique AND retrouvera un
ensemble de documents (qui ont été indexés avec les deux termes) inférieur ou égal à
l’ensemble des documents restitués par chacun des termes pris séparément ; le résultat émergé
donc est l’intersection des deux ensembles [168]. Exemple, la requête : recherche (t1) AND
information (t2).

Figure 21 : Une requête booléenne combinant t1 AND t2

10
Une requête combinant deux termes reliés par la somme logique OR, retrouvera un
ensemble

de documents supérieur ou égal à l’ensemble des documents restitués par chacun des termes
pris séparément. Le résultat trouvé est l’union des deux ensembles des documents indexés.
Par exemple nous considérons la requête suivante : science (t1) OR connaissance (t2).

(2) Se référant à l'information que je l'écrivais ce fut par hasard, le 02 novembre 2015 qui est la date qui coïncide exactement avec le 200 anniversaire

de la naissance de George Boole (George Boole — Wikipédia).

Figure 22 : Une requête booléenne combinant t1 OR t2.

Une requête combinant deux termes t1 et t2 reliés par OR, et par AND NOT (t1 AND t2),
retrouvera un ensemble de documents inférieur strictement à l’ensemble des documents
restitués par chacun des termes pris séparément.
Par exemple, soit la requête :(Science (t1) OR connaissance (t2)) AND NOT (science (t1)
AND connaissance (t2))

Figure23 : Une requête booléenne combinant (t1 OR t2) AND NOT (t1 AND t2).

On considère dans ce modèle que le document d soit représenté par un ensemble de termes,
tel que [173]: d= (t1 et t2 et…et tn), et la requête q représentée par une expression composée de
termes reliés par des opérateurs logiques [177] : AND/ET (𝖠), OR /OU (∨) et NOT/SAUF
(¬). Exemple [174]:

q= (ti and (tj or tk) and (not tl)).

10
Un document d est dit pertinent pour une requête q si la fonction de correspondance RSV
(Retrieval Status Value) entre d et un certain terme ti est existé. C'est-à-dire que :

RSV (d, ti) = 1 si ti ∈ d ; 0 sinon. Ou d’autre manière :

Autres expressions logiques montrant la correspondance RSV entre requête q et un


document d, sont de la façon suivante :

RSV (d, q1 AND q2) = 1 si RSV (d, q1) = 1 et RSV (d, q2) = 1; 0 sinon.

RSV (d, q1 OR q2) = 1 si RSV (d, q1) = 1 OU RSV (d, q2) = 1; 0 sinon.

RSV (d, NOT q1) = 1 si RSV (d, q1) = 0; 0 sinon.

Exemple d’application

Dans notre exemple [178], nous avons proposé une requête qui comporte le mot clé : "‫ "الفلسفة‬.
Notre besoin est de trouver le terme de définition proche à ce mot clé par rapport aux
différentes formes définitoires. Les termes trouvés d’après la validation des requêtes sont les
suivants : "‫"العلم‬، "‫"المعرفة‬، "‫ "بحث‬et des autres termes. Dans cet exemple nous nous appuyons
sur l’étude de cent documents : d 1, d2, …. d100. Après un calcul, le résultat que nous avons
obtenu dans notre étude en se basant sur la détection du terme définitoire est plus pertinent par
rapport au mot clés de la requête, tel que le document qui comporte ce terme définitoire est
considéré comme un document correspondant à la requête.

Bien que, la plus part des chercheurs dans le domaine de recherche d’information utilisent le
modèle booléen grâce à des avantages limités, comme par exemples : sa performance au cas
où l’information désirée est exactement connue ; facile à comprendre; il marche avec des
requêtes structurées [174] etc. Nous remarquons que ce modèle présente aussi, quelques
faiblesses, comme par exemple :

- Le manque de qualité de recherche (faiblesse de la performance…etc.), et il est difficile pour


les usagers d’exprimer les requêtes car ils manipulent très mal les opérateurs logiques. [179]

10
- Le manque de rangement de pertinence de documents retournés à l’utilisateur (ce modèle est
incapable de trier les documents pertinents) : les documents retournés comme une réponse de
la requête par le SRI seront non-ordonnés. Il n’est pas possible de déterminer quel document
est mieux que l’autre.
- Il est difficile d'exprimer qu'un terme est plus important qu'un autre dans leur représentation.
- la représentation binaire du terme ne donne aucun renseignement sur la fréquence (la
pondération binaire des termes, au cours de l’analyse ne réalise pas la pertinence des résultats
demandés).
- La simplicité du modèle peut conduire à l'impossibilité de se rendre compte d'une
correspondance partielle d'un document à une requête.

Malgré, ces différents inconvénients émergés par le modèle classique, plusieurs activités se
penchent sur d’autres méthodes plus efficaces pour éviter ces empêchements. Citons par les
deux modèles qui sont extensions du modèle de base, et plus utilisés dans le domaine de RI :

 Modèle booléen flou (fuzzy Boolean model),


 Modèle booléen étendu (extended boolean model).

3.1.2 Le modèle Booléen flou (fuzzy Boolean model)

Est un modèle booléen basé sur la théorie des ensembles flous [180][181], et qui a été
proposé par [182] pour remédier relativement aux inconvénients apparaissent nettement dans
le modèle booléen de base, et notamment Quand il vient à la pertinence. Inversement à la
logique classique qui n’admet que deux valeurs booléen : vrai ou faux, la logique flou est un
modèle mathématique qui admet une infinité de valeurs de vérité dans l’intervalle des
nombres réels [0,1] et utilise une fonction d’appartenance ("membership function"), où
l’objectif basé sur la théorie des ensembles flous considère que si un élément a un degré
d'appartenance à un ensemble, cet ensemble est dit ensemble flou.

Dans ce modèle, les documents ne sont pas représentés par des termes seulement, comme
dans le modèle booléen standard, mais par des termes pondérés comme suit :

d = {(t1, w1),…. (ti, wi),….}. Où, (ti, wi) représente le couple de terme ti et son poids wi.

3.1.3 Le modèle booléen étendu (Extended boolean model)

Pour prendre en compte les poids des termes (ce modèle permet principalement de pondérer
les termes des documents), différemment au modèle booléen de base, Salton [167] a introduit
10
un modèle booléen étendu, qui peut permettre de desserrer les contraintes du modèle booléen
classique ( tout ou rien ).

Par exemple, dans une requête représentée par une conjonction de deux termes, seuls les
documents contenants les deux termes sont jugés pertinents. Les documents contenants un
seul des deux termes sont évalués aussi dissimilaires que les documents n’en contenants
aucun. Cette constatation va contre le sens commun qui suggère de considérer les documents
contenants un seul des termes de la conjonction plus pertinents que ceux qui n’en contiennent
aucun [183].

Le modèle booléen étendu considère que les opérations booléennes ont une influence sur la
façon dont il faut entreprendre la requête. La représentation d’un document contrairement au
modèle booléen basique, tient compte des poids des termes. Chaque document est représenté
par un vecteur de termes pondérés [209].
L’extension d’un modèle booléen standard, consiste essentiellement à mesurer le poids des
termes dans les documents à travers une fonction de pondération.
Cette extension contribue au domaine de RI pour remédier aussi aux inconvénients
concernant le modèle classique, à base d’un principe basé sur l’affectation des poids à chaque
terme du document et de la requête. Ce modèle étendu tel que le modèle vectoriel, permet de
corriger une part des inconvénients antérieurs.

3.2 Les modèles vectoriels (Vectors Space Models)

3.2.1 Le modèle vectoriel de base

Le modèle vectoriel de base a été introduit par Salton [167], réalisé dans le cadre du
système SMART. Il consiste spécialement à la pondération des termes de document grâce à
une formalisation géométrique (schéma). La représentation des documents et des requêtes
peut être sur un plan vectoriel où, ses coordonnées ne peuvent être que 0 et 1. Les requêtes q
et les documents di sont représentées dans ce plan vectoriel par des vecteurs, dont les
composantes représentent le poids du terme d’indexation [175]. Si on a un espace T de termes
d’indexation de dimension n, avec T= {t 1, t2,…,tn }, le document di est représenté par un
vecteur di (𝑤𝑖1 , 𝑤𝑖2 , …., 𝑤𝑖𝑛 ), et la requête q est représentée par un autre vecteur q

(wq1 ,

𝑤𝑞 , …., 𝑤𝑞𝑛 ) [184]. Où, 𝑤𝑖𝑗 (resp.𝑤𝑞𝑗 ) représente le poids du terme tj dans le document di
2
(resp. le poids du terme dans la requête q).

10
La pertinence de document par rapport à une requête estimée au moyen du calcul basé sur
l’angle formé par le vecteur document et le vecteur requête dans le même plan vectoriel, où
l’accord document- requête dans ce modèle consiste à trouver les vecteurs documents qui
s’approchent de vecteur de la requête ce qui permet de rendre l’ordonnancement des
documents à cause de leur échelon d’appariement aux requêtes.

3.2.2 Mesure et calcul de la similarité

Pour ordonner les documents Di en réponse à une requête q nous pouvons calculer la
similarité (Sim) de la requête q à un document d. La pertinence d’un document par rapport à
une requête peut être mesurée par sa distance euclidienne au point, tel que si les deux termes
t1 et t2 dans une requête sont totalement absents dans un document, ils sont représentés par le
point (0,0) (figure 24 et figure 25). La similarité de requête q à un document d est donnée,
selon les cas logiques de la requête et sa longueur par les expressions suivantes :

- Pour une requête conjonctive (OR) et qui comporte deux termes, t1 et t2 (t1∨t2) :
2 𝑤21 +𝑤22
Sim (d, q)=√ (4.1)
2

Avec, w1 et w2 représentent les poids de termes.

Figure 24 : Similarité entre une requête conjonctive q (requête de type OU) et les documents D1 et D2.

- Pour une requête disjonctive (AND), qui comporte deux termes (t1𝖠 t2) :

Sim (d, q) =1 - 2√ (1−𝑤1)2+(1−𝑤2 )2


(4.2)
2

10
Figure 25 : Similarité entre une requête disjonctive q (requête de type ET) et les documents D1 et D2.

Cette similarité de représentation document- requête permet de mesurer la pertinence.

En cas général:

Pour le cas d’une requête conjonctive (OR), et qui comporte n termes. Nous utilisons pour
cela les p-normes, où le paramètre p est un entier variable.
𝑝 𝑝 𝑝 𝑝
𝑤 +𝑤 +⋯+𝑤
Sim (Di, q) = √ 1 2 𝑛
(4.3)
𝑛

Et pour le cas d’une requête disjonctive, comporte n termes (avec les mêmes paramètres
précédents) :
𝑝 (1−𝑤1 )𝑝+(1−𝑤2 )𝑝+⋯+(1−𝑤𝑛 )𝑝
Sim (Di, q) = 1- √ (4.4)
𝑛

Le mécanisme de RI consiste à retrouver la correspondance entre requête et document basée


sur les vecteurs de ces dernières. Les mesures de correspondance utilisées principalement,
sont :

o Produit scalaire : RSV (dj, q) = Sim (dj , q ) = dj . q = ∑1𝑛 𝑤𝑖𝑗 . 𝑤𝑖𝑞 (4.5)
∑1𝑛 𝑞𝑖 .𝑑𝑖𝑗
o
Mesure de Jaccard : RSV (dj, q) ∑𝑛 𝑞𝑖 2+∑𝑛 𝑑𝑖𝑗2−∑𝑛 𝑞𝑖 .𝑑𝑖𝑗 (4.6)
=
1 1 1

o
La mesure cosinus, où sa formule est utilisée fréquemment dans plusieurs travaux et qui est

aussi la formule principale dans notre étude (Nous allons annoncer cette formule dans les

paragraphes suivants : en- dessous) :

Ces relations sont des mesures classiques, où certaine formule implique une fonction de

correspondance qui nous permette de mesurer la similarité entre le vecteur requête et les

vecteurs documents. La mesure cosinus est une mesure classique aussi comme les autres,
10
mais différente d’elles en termes de calcul, et fiable en termes de pertinence. Ce type de

mesure basée sur le cosinus de l’angle formé par les deux vecteurs, telle que :

C (𝑑𝑦⃗⃗⃗→, 𝑞⃗ →) = cos (dj, q). Avec C est la fonction de correspondance ; dj un document

contient tj termes et q la requête correspondante.

Représentation des vecteurs dans un repère de termes :

Soit un espace composé par trois termes (t1, t2, t3). La représentation des vecteurs documents

et vecteur requête dans un espace de termes est la suivante :

Figure 26 : représentation vectorielle de deux vecteurs documents et un vecteur requête


(Chaque vecteur ⃗𝑑⃗⃗𝑦→formé avec le vecteur 𝑞⃗ → un angle θj, avec j= {1,2}).

→ →
En général, le cosinus de l’angle formé par les vecteurs dj et le vecteur q est donné par
l’expression suivante
: ∑n(wi × wiq )
→→
.
𝑐𝑜𝑠(⃗𝑑⃗⃗→, 𝑞⃗ 𝑑𝑗 q 1 (4.7)
→) = 𝑦 | |.| | =
→ →
n 2
j
n 2
𝑑𝑗 q
√∑1 wij×√∑1 wiq

Avec wij (resp.wiq ) représente le poids de terme i dans le document d j (resp. le poids du
terme i dans la requête) et n est le nombre total des poids de termes, soit dans les documents
ou la requête.

Lorsque l’angle formé par les deux vecteurs est plus petit, alors que le cosinus de cet angle
est plus grand et par suite, dans ce cas on dit que les vecteurs sont similaires.

Dans l’exemple de la figure x, on a que (𝜃1<<𝜃2) donc, le document D1 est plus similaire à
la requête Q que le document D2.

On peut représenter ces résultats dans le tableau suivant :

11
Tableau 9 : représente la variation de similarité par rapport à la variation de l’angle θ

Ainsi dans la courbe suivante :

Figure 27 : Evolution de la similarité suivant les variations de l’angle θ formé par deux
vecteurs et leur mesure cosθ.

La similarité entre les vecteurs documents ⃗ ⃗⃗→ ⃗𝑞→peut être calculée


𝑑 et le vecteur
requête
𝑦
comme un produit scalaire de vecteurs et qui traduit la somme des produits des poids de
termes dans les documents et les termes dans la requête (formule (4.5)).

Contre exemple :

Considérons dans cet exemple, les documents D 1, D2 et une requête Q qui peuvent être
formées par trois termes T 1, T2 et T3 fréquentés (un terme Ti peut apparaître plus qu’une seule
fois dans les documents ou dans la requête), soient :

D1 = 7 T1 + 4T2 + 2T3

D2 = 1 T1 + 2T2 + 9T3

Q = 2T1 + 0 T2 + 0T3

D’une manière générale, l’existence d’un terme dans le document et la requête augmente le
score de pertinence, et l’existence du terme dans l’un de deux, diminue ce score.

D’après la relation dans (4.6) et les expressions des documents et de la requête précédentes,
nous pouvons calculer les similarités de ces derniers :
11
Sim (D1, Q) = 7 × 2 + 4 × 0 + 2 × 0 = 14.

Sim (D2, Q) = 1 × 2 + 2 × 0 + 9 × 0 = 2.

Nous appliquons la formule dans (4.5) pour la mesure de cosinus de la similarité, nous
obtenons donc :
14
cos (D1, Q) =
√(72+42+22)( 0+0+22) =
14 = 0.84
√276

2
cos (D2, Q) =
√(12+22+92)( 0+0+22)
=
2 = 0.11.
√276

cos (D1, Q) ≈ 8 cos (D2, Q) .

On dit que le document D1 est presque huit fois mieux que D2 à l’aide de similarité cosinus,
mais seulement sept fois mieux à l’aide de produit interne (Sim (D1, Q) = 14/2 Sim (D2, Q) ).

Toutes les méthodes et tous les exemples utilisés par les chercheurs et concernant le modèle
vectoriel confirment que ce dernier permet d’assimiler de bons résultats que les autres
modèles, soit au niveau quantitatif dans lequel, les performances en temps de réponse et la
qualité des résultats restent bonnes quel que soit le nombre des documents [185] ; ou au
niveau qualitatif, où le modèle vectoriel est au moins aussi bon en qualité que les autres
modèles classiques[189].
De nombreux travaux, ont employés le modèle vectoriel pour le repérage de l’information
appliquent des divers métriques de pondération et qui ont été développées pour améliorer les
résultats de la RI. Ainsi, parmi ces approches nous pouvons mentionner par l’abord du calcul
de cosinus de similarité de l’angle formé par les vecteurs représentants le document et la
requête, et qui a été proposé par Manning (2008) [186], et les modèles qui reposent sur la
mesure de l’écart entre la fréquence de termes de la requête dans le document et la fréquence
de ces mêmes termes dans la collection [187] et une autre approche qui appuie sur la notion
de résonance [173] , qui a été introduite initialement, par Grossberg (1976) [188]. Mais,
malgré le développement de ces différentes métriques de pondération, aucune à ce jour n’a
déclassé systématiquement l’efficacité du tf × idf [189].

Toutes les mesures ont l’avantage d’exploiter des propriétés de l’espace vectoriel pour la
perception de l’appariement utilisateur. Le principal intérêt porté à leur application est leur
habilité à retourner des listes ordonnées de documents. Le principal inconvénient du modèle
vectoriel est le fait qu’il suppose que les termes d’indexation forment une base. Or ils existent
11
énormément de relations sémantiques qui font qu’un terme pourra s’exprimer en fonction des

11
autres. Par ailleurs il est très difficile voire impossible de traduire des relations par des
combinaisons linéaires de termes, or ceci s’avère indispensable à la construction de vraie base
de termes d’indexation [209]. Cette construction nous permet de résoudre même que d’une
manière relative la question concernant les relations sémantiques entre termes. Plusieurs
propositions peuvent remédiés au problème qui concerne les relations sémantiques et pour
associer chaque terme par leurs concepts (la pensée de développer le système de la
modélisation, la pensée de la création d’une ontologie, thésaurus, base de donnée…).

3.2 Le Modèle probabiliste (Probabilistic Model)


3.2.1 Le modèle probabiliste de base
Le modèle de recherche probabiliste de base est un modèle mathématique fondé sur la
théorie de probabilité [190]. Ce modèle permet d’estimer au domaine de recherche
d’information la probabilité que le document D appartient à l’ensemble des documents
pertinents (PERT) ou non pertinent (NPERT), lorsqu’un utilisateur va demander des réponses
au sein d’une requête q. Donc, ce qui est plus important dans ce modèle est qu’il est lié par les
deux caractéristiques des documents dans le système de recherche, telle que la caractéristique
d’un document D pertinent ou la caractéristique non pertinent. Seules la présence et l’absence
de termes dans les documents et dans les requêtes sont considérées comme des
caractéristiques observables. Autrement dit, les termes dans le modèle probabiliste ne sont pas
pondérés, mais prennent seulement les valeurs binaires 0 (le terme est absent dans le
document) ou 1 (le terme est présent dans le document). Et par suite, l’objectif de ce modèle
se dispose sur deux probabilités conditionnelles :

P(PERT/ Dj) : Probabilité que le terme ti apparait dans le document Dj sachant que ce dernier
est pertinent pour la requête.

D’autre manière implique que P (1| d) est la probabilité que le document d soit pertinent
pour une requête q.

P(NPERT/ Dj) : Probabilité que le terme ti de poids dji apparaisse dans le document Dj sachant
que ce dernier n’est pas pertinent pour la requête.

Implique que P (0| d) est la probabilité que le document d ne soit pas pertinent pour une
requête q.

La fonction de correspondance entre requête et document s’écrit comme suite :

11
𝑃(𝑃𝑒𝑟𝑡|𝑑𝑗,𝑞)
RSV (d , q) = le ratio d’Odds (4.8)
j
𝑃(𝑁𝑃𝑒𝑟𝑡|𝑑𝑗,𝑞)

Plus que ce ratio est élevé (RSV (dj, q )>> ) pour un document, plus que ce document est
pertinent pour la requête.

Pour calculer ces probabilité, en appliquant les règles de Bayes suivantes :

𝑃(𝑑𝑗,𝑞|𝑃𝑒𝑟𝑡)∗𝑃(𝑃𝑒𝑟𝑡|𝑞)
P(PERT/ dj , q) = (4.9)
𝑃 (𝑑𝑗,𝑞 )

𝑃(𝑑𝑗,𝑞| 𝑁𝑃𝑒𝑟𝑡)∗𝑃(𝑁𝑃𝑒𝑟𝑡|𝑞)
P(NPERT/ dj , q) = 𝑃 (𝑑𝑗,𝑞 ) (4.10)

Après le remplacement dans la fonction de correspondance, on obtient la formule suivante :

𝑃(𝑃𝑒𝑟𝑡|𝑑𝑗,𝑞) 𝑃(𝑑𝑗,𝑞|𝑃𝑒𝑟𝑡)∗𝑃(𝑃𝑒𝑟𝑡|𝑞)
RSV (dj, q)= 𝑃 (𝑑𝑗,𝑞 )
𝑃(𝑑𝑗|𝑃𝑒𝑟𝑡 ,𝑞)
= 𝑃(𝑑𝑗,𝑞| 𝑁𝑃𝑒𝑟𝑡)∗𝑃(𝑁𝑃𝑒𝑟𝑡|𝑞) = C× 𝑃(𝑑𝑗|𝑁𝑃𝑒𝑟𝑡,𝑞)(4.11)
𝑃(𝑁𝑃𝑒𝑟𝑡|𝑑𝑗,𝑞) 𝑃 (𝑑𝑗,𝑞 )

Où :

𝑃 (𝑑𝑗, 𝑞 )Est la probabilité choisir de document dj par rapport à la requête q. cette probabilité
considérée comme constante.

P(dj|Pert , q)Est la probabilité d’observer le document dj sachant que l’on observe la


pertinence en présence de requête q [168].

P(dj|NPert, q)Est la probabilité que dj représente les documents non pertinent pour la
requête q.

P(Pert|q)Est une valeur constante, représente la probabilité de pertinence d’un certain


document.

P(NPert|q)Est la probabilité de non-pertinence d’un document quelconque sa valeur aussi est


constante.

C est une constante.

Considérons que les termes d’indexation wi sont indépendants, On peut donc estimer les
deux probabilités précédentes ainsi :

𝑃(𝑑𝑗|𝑃𝑒𝑟𝑡 , 𝑞) = ∏wi𝖾𝑑𝑗 𝑃(wi|𝑃𝑒𝑟𝑡 , 𝑞) × ∏wi∉𝑑𝑗 1 − 𝑃(wi|𝑃𝑒𝑟𝑡 (4.12)


, 𝑞)
11
𝑃(𝑑𝑗|𝑁𝑃𝑒𝑟𝑡 , 𝑞) = ∏wi𝖾𝑑𝑗 𝑃(wi|𝑁𝑃𝑒𝑟𝑡 , 𝑞) × ∏wi∉𝑑𝑗 1 − 𝑃(wi|𝑁𝑃𝑒𝑟𝑡 (4.13)
, 𝑞)

𝑃(𝑑𝑗|𝑃𝑒𝑟𝑡 , 𝑞) Est la probabilité d’apparition du terme wi, sachant que le document dj est
l’un des documents pertinents.

𝑃(𝑑𝑗|𝑁𝑃𝑒𝑟𝑡 , 𝑞)Est la probabilité d’apparition du terme wi, sachant que le document dj est
l’un des documents non pertinents.

3.2.2 Autres points de vue de probabiliste

Nous citons par exemple de nombreux chercheurs [190],[148][191][192][193] qui ont


étudiés la pondération en s’appuyant sur le modèle probabiliste et ont proposés des systèmes
et des approches qui peuvent simplifier ce modèle.

D’après [190], la probabilité de trouver des documents pertinents par rapport à une requête
pourrait être définie par les statistiques sur l’usage du document. C'est-à-dire par le quotient
du nombre d’utilisations du document courant par le nombre total d’utilisations [168]. Cette
idée est l’origine du classement par popularité, très à la mode sur internet [194].

Le modèle de recherche probabiliste possède des avantages limités dans le domaine de RI,
surtout si l’on compare avec le modèle booléen [195].

La méthode Okapi apparait dans ce domaine, notamment dans la section qui concerne le
modèle de recherche probabiliste, où l’approche basée sur l’idée de construire un modèle
probabiliste prenant en compte la fréquence des termes ainsi que la taille des documents
[196].

Ce système est l’un des systèmes basé sur le modèle probabiliste et qui est plus efficace en
termes de rappel- précision. Okapi développe son système de repérage de permettre tenir des
différents types de documents et d’une variété de requête utilisateur [175].

Dans la collection de documents il existe plusieurs documents pertinents par rapport à une
requête et qui peuvent être non pertinent pour les autres et vice versa, les modèles
probabilistes tentent généralement de l’estimer.

Plus générale, que chaque modèle de recherche d’information il comprend la représentation


de la requête et du document et permet de définir une fonction de correspondance qui permet
de calculer le score des documents pour les différentes requêtes. La fonction de
correspondance qui est le cœur du SRI et les différents modèles peuvent associer directement
11
à la notion de pertinence. Pourtant, tous les modèles ne s'appuient pas sur une approche claire
de la notion de pertinence [173].

Figure 28 : la fonction de correspondance au cœur de SRI et modèles de RI.

4 L’évaluation des résultats produits par les SRIs

Le mécanisme de l’évaluation des méthodes et des modèles dans le domaine de la RI a

toujours eu un rôle très important. La majorité des auteurs considèrent ce mécanisme comme

une tâche statistique pour identifier le type de réalisation et de détection des résultats puis les

visualisés. Pour cela l’objectif de l’évaluation constitue la mesure de qualité des systèmes de

recherche pour mériter des résultats finals à base d’une comparaison entre les réponses d’un

système et les réponses d’un utilisateur.

4.1 Généralité sur les deux mesures : le Rappel et la


Précision

Comme dit précédemment, dans le processus de RI, l’utilisateur énonce sa requête et le SRI
retourne un ensemble de documents et qui sont souvent classés en ordre décroissant de
pertinence dans le SRI. Ce dernier a pour objectif de minimiser le bruit et le silence afin
d’évaluer sa performance. La performance de SRI est caractérisée par la qualité de
fonctionnement de ce système, selon sa capacité de ramener tous les documents pertinents et
de rejeter les autres qui sont non pertinents (sont les deux objectifs principaux d’un SRI).
D’après Rijsbergen [148], deux mesures statistiques ont été définies. La première mesure
est la précision et la deuxième mesure est le rappel. La précision détermine la capacité

11
d’un SRI à rejeter les documents non pertinents pour une requête utilisateur. Le rappel
détermine la capacité d’un SRI à retourner tous les documents pertinents pour une requête.
Cleverdon [208] considère le rappel et la précision comme deux quantités principales parmi
les 6 quantités mesurables, et qui sont proposées comme suit:
o
L’univers du discours de la collection : le degré auquel le système inclut l’information
pertinente ;
o
le temps de réponse : temps moyen entre la formulation de la requête et la réponse donnée par
le système ;
o
la présentation de la sortie ;
o
l’effort demandé à l’utilisateur ;
o
le rappel du système: la proportion de documents pertinents réellement retournés en réponse à
une requête utilisateur ;
o
la précision: La proportion de documents retournés réellement pertinents.
Ces quantités sont importantes pour la performance des SRIs. Mais la majorité des auteurs
sont attentatifs aux deux mesures (le rappel et la précision). Ils leur donnent une grande
importance, ce qu’implique que l’efficacité des SRIs se base sur ces deux quantités.

Le rappel et la précision permet d’évaluer la capacité du système à retourner les documents


pertinents sans restituer les documents non pertinents [175].

4.1.1 Le rappel

Le rappel R des résultats vis-à-vis d’une requête est la mesure de la proportion de nombre
des documents pertinents retrouvés par le système (ndpr), relativement au nombre total des
documents pertinents dans le corpus (ndp). Sa valeur variée entre 0 et 1. Si le rappel vaut 1
c’est que les documents pertinents disponibles ont tous été restitués par le système,
inversement si le rappel vaut 0 c’est qu’aucun document pertinent n’a été restitué. Cette
dernière mesure permet aussi de déterminer le silence, c'est-à-dire la proportion de documents
pertinents non trouvés [168].

le nombre des documents pertinents retrouvés par le système


R = le nombre total des documents pertinents dans la collection

nd𝑝𝑟
Ou R = ndp
4.1.2 La précision

La précession P des résultats vis-à-vis d’une requête est la mesure de la proportion de


nombre des documents pertinents retrouvés (ndpr) par le système, relativement au nombre
11
total des documents restitués par le système (ndr). Sa valeur compris entre 0 et 1. La
précision vaut 1 quand tous les documents restitués sont pertinents. Elle vaut 0 si aucun des
documents restitués ne sont pas pertinents. Cette mesure détermine également le bruit, c'est-à-
dire la proportion de documents non pertinents restitués par le système [168].

𝑙e nombre des documents pertinents retrouvés par le système


P= le nombre total des documents retrouvés

nd𝑝𝑟
Ou P = ndr

Une collection ou un corpus de documents qui est sous l’application de SRI dans le cas où
l’utilisateur exprime sa requête, ne peut comprendre que deux caractéristiques de documents:
 Documents pertinents
 Documents non pertinents.
Chaque caractéristique représente deux partitions différentes des documents:
o documents pertinents restitués (dpr) Répartitions pour la caractéristique
o documents pertinents non restitués (dpnr) des documents pertinents.
o documents non pertinents restitués (dnpr) Répartitions pour la caractéristique
o documents non pertinents non restitués (dnpnr) des documents non pertinents.

Figure 29 : Représentation des partitions de la collection en cas d’une application.

Au cours de l’exécution, le SRI doit restituer des documents pertinents et/ou des documents
non pertinents. La possibilité qu’un système de recherche d’information puisse amener
certains documents est relative à deux facteurs : un facteur externe représenté par la requête
liée à un utilisateur, et un autre interne représenté par la mesure (Rappel-Précision) liée au
système. Par conséquent, une bonne requête et une bonne qualité de mesure n’impliquent pas
que le SRI restitue des documents pertinents.

11
Au cas où le SRI peut également sélectionner tous les documents pertinents, le ratio de
précision est égal au ratio de rappel. On dit que le système est en cas idéal (Figure 30- cas
idéal de système).

Dans le cas d’un système réel, la précision en fonction de rappel est représentée par une
courbe générale (Figure 30- cas réel du système).

Pour i= 1, 2, 3,… # de documents dans la collection faire, évaluer la précision et le rappel


pour les i premiers documents dans la liste des réponses du système.

Figure 30 : Représentation de la précision en fonction du rappel dans les deux cas de SRI.

4.2 Exemple de mesures

Supposons par exemple qu’un utilisateur interroge le SRI par une certaine requête. Le
système a retourné 20 documents en réponse à cette requête.

Soit encore, que parmi les 20 documents traités par le SRI on a 4 documents qui sont
pertinents (dp). On dira donc que le SRI a une précision de 20%.

Ces 4 documents pertinents parmi les 20 documents, représentent le nombre total des
documents pertinents dans le corpus (20 documents dans cet exemple). Les 16 ou 80% autres
documents retrouvés après la fin du traitement, représentent le nombre total des documents
non pertinents (dnp).

Au cours du traitement, la mesure finale de tous les documents pertinents exprime le rappel
avec une valeur de 4/4 d’après cet exemple. Le rapport des documents pertinents trouvés par
le système sur le total des documents trouvés selon le rang de chaque document traité, est
appelé la précession.

12
Tableau 10 : Exemple de résultats de rappel et précision après un traitement sur les 20 premiers
documents trouvés par le SRI.

Dans cet exemple, la valeur maximale (resp. valeur minimale) de précision est celle du
premier document (resp. dernier document) retrouvé, telle que P = 1/1(resp. P= 4/20). Cette
valeur maximale (resp. valeur minimale) de précision est vis-à-vis une valeur minimale (resp.
valeur maximale) de rappel : 1/4 (resp. 4/4).
Les résultats du tableau 2, nous permettent d’illustrer la courbe de rappel et précision
correspondante :

Figure 31 : Courbe de rappel et précision selon l’exemple.

Les deux mesures : le rappel et la précession ne sont pas des mesures appropriées [157]

pour évaluer un système de recherche d’information. Il y a des autres mesures utilisées par

plusieurs chercheurs est qui sont considérées comme mesures complémentaires [209] au

rappel et à la précision.

12
4.2 Autres mesures
4.2.1 Le bruit

Le bruit B est un facteur qui exprime tout simplement, les documents non pertinents
restitués par le SRI. Cette mesure est une notion complémentaire à la précision P, nous
pouvons les exprimer par :

B=1–P

Lorsque les documents restitués par le SRI sont 100% pertinents (la précision P=1), donc
aucun document n’exprime le bruit (B= 0). Sinon, si la précision P= 0, ce qu’implique que
tous les documents restitués par le système ne sont pas pertinents, dans ce cas le système ne
restitue que les documents bruits (B= 1).
Généralement, si la précision augmente (ou le degré de pertinence est élevée), alors que le
bruit diminue. Sinon, le bruit augmente.

4.2.2 Le silence
Les documents pertinents non restitués par le système, représentent ce qu’on appelle
techniquement le silence (S). Cette mesure est une notion complémentaire au rappel R,
Nous pouvons les exprimer par :
S = 1– R

De même que la mesure bruit, le silence est une mesure variée dans l’intervalle [0, 1]. Elle
tend également vers 0 (où le rappel proche de 1) pour une meilleur performance de SRI.

4.2.3 La mesure Harmonique

La mesure harmonique H est une fonction organisée par un couple de valeur exploitant deux
mesures, un ensemble de rappels et un ensemble de précisions. Où nous examinons une
quantité n de rappels R (n) et une autre quantité de précisions P(n). La fonction H(n)
constituée par ces mesures a des valeurs variées [157] dans un intervalle fermé [0,1]. Telle
que la mesure harmonique est calculée selon la formule suivante
2
H(n) =
(Ou H(n) = F(n) = 2 ( R(n) . P(n) ) / ( R(n) + P(n) ) ) ( 4.14)
1 1
𝑅( 𝑛)+ 𝑃(𝑛)

0 si aucun document pertinent n’est restitué par le SRI.


H(n) =
1 si tous les documents restitués par le SRI sont pertinents.
12
On constate que la précision est globalement décroissante au fur et à mesure que le SRI
restitue des documents, alors que le rappel est globalement croissant [168].

Mathématiquement, Les variations des P(n) et R(n) ont des effets sur la fonction
harmonique H(n). Donc P(n) décroissante et R(n) croissant, ce qu’implique que H(n) tend
vers 0.

Toutefois, [157] les valeurs de rappel R(n) et de précision P(n) sont élevées quand la valeur
de la mesure H(n) est élevée.

4.2.4 La mesure E (E- measure)

D’après Van Rijsbergen, la mesure E permet de combiner le rappel et la précision. Le but de


cette mesure est de permettre à l'utilisateur de spécifier laquelle des valeurs de précision ou de
rappel, est plus intéressante [157]. La mesure d'évaluation E est exprimée par la formule:

1+ 𝑢2
E(n) = 1 –
𝑢2 1 (4.15)
𝑅(𝑛) +𝑃(𝑛)

u est une variable de l’utilisateur pour déterminer notamment, l’importance du rappel ou de la


précision. Plus les valeurs de u sont supérieurs à 1, plus l'importance donnée à la précision
l'emporte sur le rappel et inversement [157]. Si u = 1, alors que la mesure E(n) est égale au
complément de la mesure harmonique H(n).
Généralement, l’évaluation des SRIs ne dépend pas seulement des mesures précédentes, il y
a encore, d’autres critères pour mesurer les performances des SRIs tel que le critère du temps
de réponse d’un SRI et qui a aussi un effet important sur le système qui peut restituer les
documents selon le besoin d’un utilisateur dans un temps très long ou très court.
La comparaison des SRIs basée sur l’utilisation des collections documentaires de test. Cette
collection de documents est représentée par un groupe d’experts qui définissent encore en
parallèle un ensemble de questions types (besoins en information) dont les caractéristiques
diverses reflètent l'ensemble des demandes pouvant être adressées au système (spécialisées,
généralistes et abordant différents sujets thématiques) [197].

Au cours du développement des SRIs, des expéditions apparaissent entre les années 90 et
2000 ont contribuées à l’émergence de nouveaux systèmes [157], parmi ces compagnes
d’évaluation on citera par
exemple le programme américain TREC3 (Text Retrieval Evaluation Conference) qui a entamé
en 1992 (14ème compagne) : ce programme fournit une plate forme comportant des

12
collections documentaires de tests, et des questions-types ainsi que les réponses
correspondantes. et le programme CLEF4 (Cross Language Evaluation Forum) qui en est à sa
sixième (depuis 2000). CLEF encourage la recherche et le développement en fournissant une
infrastructure pour:
 Test du système multilingue et multimodal, de réglage et d'évaluation;
 Enquête sur l'utilisation des données non structurées, semi-structurées, très structurées, et
sémantiquement enrichi en accès à l’information ;
 Création de collections de tests réutilisables pour l'analyse comparative;
 Exploration de nouvelles méthodes d'évaluation et les méthodes innovantes en utilisant des
données expérimentales;
 Discussion des résultats, comparaison des approches, l'échange d'idées, et de transfert de
connaissances.

(3) http ://trec.nist.gov


(4) http ://www.clef-campaign.org/

5 Indexation
5.1 Indexation des documents

L’indexation des documents est une étape primordiale dans le processus de RI. Elle est
associée au SRI dans la mesure où la pose d’index permet d’améliorer la recherche de
documents répondant à une requête donnée. Un document, aujourd'hui ne se limite pas à un
texte, mais c’est un objet largement composite, dans lequel nous trouvons des objets
graphiques, donc des représentations vectorielles, mais aussi des images, donc des tableaux de
pixels, pour lesquels, l'information de segmentation peut devenir très complexe à détecter ou à
calculer [198]. Ce qui concerne notre travail dans cette partie est l’étude des documents
textuels, ainsi que leurs retours automatiques d’une manière pertinents par rapport à une
requête utilisateur comme objectif principal du SRI et qui est mis en œuvre pour rechercher
les documents de la collection dont le contenu associe ou correspond le contenu d’une

12
requête. L’affectation par le SRI comprend le mode de la comparaison et l’analyse des
contenus des documents et ceux de la requête.
Le système compare les deux contenus qui emportent un ensemble de mots représentant des
concepts, ces unités sont comparées par le SRI. Pour développer ce système, il est
nécessairement que l’index doit refléter plus le contenu de la collection. C'est-à-dire et d’une
manière précise : le développement d’un système de recherche nécessite l’amélioration de
l’indexation.

Indexer un document c’est élire ses termes représentatifs afin de générer la liste des termes
d’indexation et ajouter à l’index de la collection, pour chacun de ces termes, la liste des
références de chaque document le contenant. Par référence on entend identifiant, c'est-à-dire
un moyen de retrouver de façon non ambigüe des documents ou un document ou une partie de
document où le terme apparaît [168].

Il y a plusieurs techniques utilisées et fondées sur l’indexation documentaire, par exemple la


création des ontologies au domaine de traitement automatique des langues en générale et la
technique qui est fondée sur l’indexation conceptuelle, comme les termes synonymes et la
traduction en particulier. Ainsi la traduction des termes appartenant à différentes langues (où
l’indexation permettant d’indexer une collection de documents multilingue). Par exemple,
l’indexation des termes l’un de l’autre (« ‫ مدرسة‬/madrassa» : en vocabulaire Arabe, « école » :
en vocabulaire Français, « school » : en vocabulaire Anglais, « schule » : en vocabulaire
Allemand, « escuela » : en vocabulaire Espagnol).

Figure 32 : Représentation de l’indexation conceptuelle permettant d’indexer une collection de documents multilingue
(exemple pour le terme "‫)"مدرسة‬.

La procédure de SRI basé sur l’analyse et la comparaison entre documents et requête


envoyée par un utilisateur signale que ce système est constitué principalement de deux utilités
fondamentales :

12
 Le processus d’indexation qui permet de structurer pour chaque document de la collection ou
chaque requête utilisateur une description interne (descripteur ou index) composée par un
ensemble de mots-clés permettant de représenter le contenu informationnel du document ou
d’une requête.
 Le processus d’appariement document- requête et qui a pour objet de sélectionner les
documents pertinents par rapport à une requête utilisateur. Pour cela ce processus calcul et
compare le degré de correspondance entre la représentation interne de la requête et la
représentation interne des documents de la collection. Les documents qui correspondent au
mieux à la requête, sont considérés comme documents pertinents et retournés à l’utilisateur
dans une liste triée selon l’ordre décroissant de leur degré de pertinence [199].

5.2 Processus d’Indexation

Avant que l’utilisateur interroge le système de recherche d’information à travers une


requête, une certaine phase primordiale doit s’effectuer. Cette phase consiste à analyser et à
créer un ensemble de mots-clés que le système pourra gérer aisément puis utiliser dans le
processus de recherche ultérieur. Cette opération est appelée indexation [200][201][148][202]
[203]. Les mots clés sont rassemblés dans un thésaurus [204] [205] [206], qui est un ensemble
structuré de mots clés, utilisé dans un système de documentation pour rendre de manière
univoque les notions contenues dans un document.

En notion mathématique, un index est une relation qui relie chaque document à l’ensemble
des mots clés ou descripteurs décrivant le thème qu’il traite [165] :

traite
Index : doci {kwj}

La relation inverse permet de capturer, pour chaque mot-clé, le document qu’il décrit :

Principalement et d’après Roussey (Roussey 2001), le SRI est composé par deux processus.

Un processus d’indexation et un processus de recherche. Dans le premier processus, les


documents et la requête sont indexés afin d’extraire des descripteurs. Ces descripteurs
reflètent au mieux le contenu des documents. Cette étape est appelée l’indexation. La
deuxième étape est une étape de recherche qui se traduit par une fonction de correspondance
et qui consiste à comparer les représentions des documents à celle de la requête afin

12
de retrouver des documents recherchés. Cette fonction que l’on a déjà représentée est notée
RSV (Retrieval Status Value) [157].

L’indexation consiste à analyser les documents et la requête afin d’extraire un ensemble de


descripteurs [148] [257]. Ces descripteurs sont des unités textuelles significatives dans le
document. Dans une indexation classique, les descripteurs d’un document peuvent être
des termes simples ou des termes composés

On distingue trois modes d’indexation :

Indexationmanuelle :

Dans ce type d’indexation, l’analyse de chaque document se fait par un spécialiste


(analyste) ou un documentaliste, ce qui prouve que la tâche soit considérée pénible et longue
(exemple, les archives administratives, les décisions tribunaux et qui sont souvent indexées
manuellement,….). L’indexation manuelle demeure assez répondue dans plusieurs services
commerciaux [207].Cleverdon [208], indique dans son étude Cranfield II (1400 documents,
221 requêtes), que l’indexation manuelle limitée à des termes simples choisis librement
s’avère plus performante que l’indexation basée sur des termes et syntagmes extraits
uniquement d’une liste de vocabulaire contrôlé.

L’indexation manuelle fondée sur la lecture humaine et la capacité de comprendre un


document. Elle détermine les sujets importants du document, ce qui pousse à poser la
question : qu’est- ce qu’un sujet pertinent ?

Indexation semi-automatique :

C’est un mode dans lequel le système apporte une aide à l’indexeur humain pour indexer
rapidement. Dans ce cas le processus d’indexation se fait en premier lieu d’une manière
automatique, le documentaliste intervient seulement pour ajouter des mots-clés qu’il trouve
intéressants pour représenter un document [209]. Remarquons que ce mode d’indexation se
divise en deux parties, une partie automatique permettant d’extraire une liste de descripteur, et
une deuxième partie qui est manuelle réalisée par un spécialiste du domaine dont la tâche est
de sélectionner des termes significatifs parmi les descripteurs retournés auparavant. [210]

L’objectif principal de l’indexation semi-automatique est d’aider l'indexeur à choisir plus


rapidement les mots-clés appropriés.

Indexation automatique :

12
L’indexation dans ce cas se fait entièrement par le SR I(Analyseur). Elle est fondée sur la
fréquence des termes trouvés dans un document .Comme ce dernier aura toujours le même
index, ce qui implique que ce type d’indexation présente un avantage de la régularité.

Les auteurs indiquent que l’indexation automatique permet d’améliorer la précision


moyenne du système telle qu’elle présente une performance moyenne supérieure aux deux
autres formes d’indexation, ainsi qu’elle comprend un ensemble de traitements sur les
documents, elle est connue comme une tâche fiable dans la recherche d’information lorsqu’il
s’agit du processus d’indexation. Cela est dû au fait que l’indexation automatique est
forcément cohérente car elle utilise toujours le même processus d’indexation ; par contre la
difficulté d’obtenir une cohérence dans l’indexation humaine. Où la probabilité que deux
personnes différentes puissent choisir le même terme (mots clés) pour décrire un objet est
faible [165].

On ne manque pas l’avantage de l’indexation manuelle, qui permet d’assurer une meilleure
correspondance entre les documents et les termes choisis par les indexeurs pour les
représenter (termes d'indexation) [157]. Ceci a pour conséquence une meilleure précision dans
les documents que le système de RI retourne en réponses aux requêtes des utilisateurs [211].

Chaque indexation a des caractéristiques différentes que l’autre, mais ce qui compte est la
performance et la qualité de chaque indexation quand il vient à la recherche de l’information.

La figure ci-dessous représente une grille de comparaison entre l'indexation manuelle et


l'indexation automatique, d’après Jacques Chaumier et Martine Dejean :

12
Figure 33: Représentation comparative entre l'indexation manuelle et l'indexation automatique.

5.3 Pondération des Termes (terms weighting)

La pondération des termes (”term weighting”) est l’élément principal dans tout modèle ou
processus de recherche d’information. [212][213] [214]. Son principe formel est basé sur cette
hypothèse"lorsqu’un auteur écrit un texte, il répète certains termes pour développer un aspect
du sujet" [215]. A partir de ça, et toutes les approches réalisées en RI, spécifiquement en
étude de pondération, le principe fondamental de cette mesure s’appuie sur l’observation
suivante [148] [216] : ”la fréquence d’apparition des mots dans les textes en langage naturel
est significative de l’importance de ces mots dans le seul but de représenter le contenu de ces
textes”.
Le fonctionnement de la pondération doit fournir un poids aux termes comme indicateurs
d’importance peut représenter le contenu des documents en ce qui concerne les termes des
requêtes et permettent de distinguer les uns des autres. Le poids s’exprimer par une valeur
(quantitative ou qualitative ?) mesurée à partir de la fréquence. Chaque valeur d’un poids du
terme peut former un jugement au degré de la pertinence d’un document en réponse à une
requête utilisateur.

Les chercheurs proposent plusieurs méthodes pour mesurer les poids des termes. Ces
tentatives se basent sur :

- Les mécanismes statistiques [217] [218] : où la grande majorité des approches et systèmes
opérationnelles se fondent sur cet aspect qui considère la loi de Zipf et la conjecture de Luhn
comme base pour décrire la répartition statistique des fréquences d’apparition des différents
termes. Dans cet outil statistique et selon plusieurs approches, l’efficacité de la pondération
est guidée par deux facteurs : l’exhaustivité (ce facteur tend à ce que la description du
document soit la plus complète possible) et la spécificité (ce facteur a pour but une meilleure
différenciation (discrimination) entre les descriptions des documents pour mieux les
distinguer).
- Les mécanismes sémantiques [219] : où les termes indexés sont des concepts (le concept est
représenté par un ou plusieurs termes synonymes) permettant de représenter le contenu
sémantique du document et de la requête.
- Les mécanismes probabilistes [220] : Les auteurs s’intéressent à la distribution des mots pour
déterminer si un mot donné doit être retenu comme terme d’indexation [175]. Cet outil utilisé
en RI pour exprimer une estimation de la probabilité de pertinence d’un document par rapport
à une requête.
12
L'une des applications directes de ce modèle est la méthode de pondération OkapiBM25 [221]
considérée comme l'une des plus performantes dans le domaine.

5.3.1 Loi de Zipf

Dans le domaine technique et linguistique chaque signe (lettre, phonème, image, mot,
catégorie grammaticale,…) revient avec une fréquence stable, donc prévisible [222].

L’initiative d’étude des fréquences et des rangs des mots dans les textes a apparu depuis
l’étude de problème sténographique en 1916 par l’auteur français J.-B. Estoup ( g.st. 4 e éd.,
1916) [223], qui a observé la relation en gros hyperbolique entre le nombre des mots
nouveaux et différents dans des tranches consécutives de 1000 mots de français d’une part, et
l’effectif cumulé des mots d’autre part.

Le problème est plus ancien, où les théoriciens linguistiques et informatiques s’étaient


focalisés sur ces questions fondamentales et importantes : combien de fois, sur un texte d’une
grande longueur (milliers des mots) sont répétés les termes (les mots les plus fréquents) ? Et
combien de mots différents apparaissent dans un texte ou un document long, lorsque la
méthode utilisée dans ce problème basée sur la division (ou la segmentation) de ce long
document en tranches, c'est-à-dire de compter successivement le nombre de mots différents
dans chaque tranche et non rencontrés déjà dans les tranches antérieurs ?

L’évolution dans la RI et particulièrement dans cette partie de pondération a montrée que les
résultats pour la seconde question tendent vers une variation successive de fréquences de
termes différents selon chaque tranche (décroissante de la fréquence). D’autre manière, si on
considère un document de 1000 mots en peut diviser le document en tranches (dix tranches
par exemple), la proportion de mots différents dans la première tranche est x%, dans la
seconde tranche est de y%,…, et dans la 10 e tranche est de z%. : Avec x, y et z sont des
entiers, et z << y < x : la fréquence des mots tombe d’une manière successive à partir du
nombre de mots différents dans la première tranche jusqu’aux dernières.

Enfin, Zipf a cité dans son œuvre [224], publiée en 1949 par J.-B. Estoup, ou il affirme la
note suivante : « la première personne (à ma connaissance) à avoir remarqué la nature
hyperbolique de la fréquence d’usage des mots fut le sténographe français. J.-B. Estoup qui
effectua les études statistiques sur le français, cf. ses gammes sténographique, paris, 4 e éd.
1916 (je n’ai pas vu les éditions antérieures) ». Dans son premier article [225] Zipf énonce
une expression de la distribution par la formule suivante :

13
Y =𝑘
𝑋 où Y est le degré de la difficulté ou complexité,

X est le nombre d’occurrence ou fréquence d’apparition,

K est une constante.

Suite à cette évolution, Zipf [226] propose une méthode appuyée sur l’analyse de l’indexation
des bases de données à partir des lois de distributions des termes indexés.

La fréquence de termes selon Zipf, est inversement proportionnelle à son rang [148], c'est-à-
dire que les termes dans les documents ne s’organisent pas de manière aléatoire mais suivant
une loi inversement proportionnelle à leur rang.

Le rang d’un terme est sa position dans la liste décroissante des fréquences des termes du
corpus. Ainsi, la fréquence du second terme le plus fréquent dans le corpus est la moitié de
celle du premier, la fréquence du troisième terme le plus fréquent, son tiers, etc.

Par une expression formule, la loi s’écrit de la manière suivante :

Fréquence × Rang ≅ Constante (ou en bref, F × R ≅ C). (4.16)

Dans le domaine de la recherche d'information, la loi de Zipf est utilisée pour déterminer les
mots qui représentent au mieux le contenu d'un document [157]. Pour cela, un autre concept
est introduit, il s'agit de la conjecture de Luhn.

5.3.2 La conjecture de Luhn

La loi de Zipf est à la base de la conjecture de Luhn [227]. Cette conjecture considère que
les descripteurs (indexes) de rangs faibles (très fréquents) sont des descripteurs non
pertinents, car ce sont des mots qui reviennent souvent, ils n’ont pas de pouvoir discriminant.

La conjecture consiste en deux seuils opposés : seuil max et seuil min (la Figure 16), ces
deux seuils sont assurés pour éliminer les termes qui ont une informativité faible. Où les
termes qui sont situés entre ces deux seuils et sont considérés pertinent pour représenter les
documents.

13
Figure 34 : Représentation de la conjecture de Luhn.

(i est un entier qui représente une certaine valeur du rang).

Lorsque l’informativité est plus élevé, les mots sont importants. Donc selon la loi de Zipf et
la conjecture de luhn, le terme d’indexation important et que représente le contenu sémantique
d’un document est celui qui a une fréquence intermédiaire. Par contre, le terme d’indexation
qui apparaît trop fréquemment dans un texte est un mot vide qui ne joue aucun rôle
sémantique dans ce texte, son rôle est seulement syntaxique, donc, il ne doit pas être utilisé
dans le langage d’indexation.

Objectivement ce modèle de Luhn a été proposé pour éliminer les mots inutiles et
sélectionner des termes significatifs à partir d’un document.

5.3.3 Pondération TF ×IDF

Par définition, la pondération est une mesure qui concerne l’association d’un poids à un
terme, basée sur une fonction, appelée fonction de pondération organisée par deux facteurs de
mesure : tf et idf. Ces deux mesures expriment respectivement une pondération locale (tf :
term frequency) et une formule de pondération globale (idf : inverse document frequency). La

combinaison (tf * idf), est une méthode d’indexation, qui est basée sur la mesure que
représente l’évaluation d’un terme pour un ensemble de fichiers ou d’un corpus (encore, la
bonne approximation de l’importance d’un terme t dans un document d et qui remarque son
poids par rapport à ce document). (Bien que le problème se pose concerne l’imprécision
(incertitude) du calcule de poids des termes apparaissent dans un document long et des autres
apparaissent au document court).

i) Le facteur de pondération locale tf (term frequency) :


tf est un facteur de pondération locale qui permet de mesurer la représentativité locale d’un
terme. Il permet aussi, de désigner l’importance d’un terme dans un document. L’objectif

13
associé par ce facteur est de chercher automatiquement les mots représentatifs du contenu
d’un document. Ces mots sont choisis selon leurs fréquences d’occurrences, dans laquelle la
croissance ou la décroissance de la fréquence peut produire un intérêt sur l’importance ou
l’insignifiance d’un terme dans un contenu documentaire.
Le poids d’un terme est élevé si celui-ci est fréquent dans le document et décroît si le terme
est fréquent dans la collection.
tfij est la fréquence d’occurrence du terme t i dans le document dj, associe par une fonction
logarithmique [228] suivante : c + log (tfij), où c est une constante. Cette fonction montre
qu’un terme d’une requête, qui est présent un grand nombre de fois dans un document, n’est
pas plus pertinent qu’un document contenant un petit nombre de fois plusieurs termes de la
requête. D’où l’importance qu’un plus grand nombre d’occurrences d’un terme dans un
document ne soit pas prédominant par rapport à un plus petit nombre d’occurrences de
plusieurs termes [165].
La fréquence tfij consiste à calculer la proportion de la fréquence du terme analysé dans le
document par rapport à la somme des fréquences des termes apparaissent dans le même
document :

tfij = ∑ 𝑛𝑛𝑖𝑗 (4.17)


𝑘 𝑘𝑗

Avec𝑛𝑖𝑗 est le nombre de fois dans lequel le terme ti apparaît dans le document dj, ∑𝑘 𝑛𝑘𝑗
est la somme des fréquences des termes apparaissent dans le document dj.

Comment calculer la fréquence d’occurrence tfij d’un terme ti dans un document dj ? Pour
répondre à cette question nous considérons un exemple dans ce contexte :

Soit la collection suivante :

d1 = {2t1, (t2,…, t10), 3t11, 7(t12, t13, t14), 5(t15, t16, t17)} ; d2= {t1, 6t2, 14(t5, t8), 10t13} ;

d3= {20t5, 18(t6, t9), 2t16, 15t17} ; d4= {12t1, (t2,…t14), 4t16} ; d5={4t3, t4, 7t5, t9}

q = {t2, t3, t4, t8, t9, t14, t16, t17}.

On porte sur le document d1et le terme d’analyse soit t11 (on calcule sa fréquence
d’apparition dans le document d1). En détaille :

Dans le document d1, le nombre total de termes est de 50 termes, distribués selon leurs
fréquences. Le grand nombre des termes apparaissent une seule fois, dont 9 termes, puis un

13
terme (t1) est qui apparaît 2 fois, un autre terme (t11) est apparaît trois fois, trois autres termes
qui apparaissent 7 fois (t12, t13, t14) et enfin, trois termes apparaissent 5 fois.

Appliquons la formule (4.16) pour le terme t11 dans le document d1, on obtient :
𝑛11,1 3
Tf = = = 3
= 0.06 c’est la valeur de la fréquence
11,1 ∑5 𝑛5,1 9×1+1×2+1×3+3×7+3×5 50

d’apparition du terme t11 dans le document d1.

On peut calculer les Tfi,j des tous les termes ti dans tous les documents dj passant par la
même manière précédente. Mais pour arriver à une meilleur pondération de termes, il est
nécessaire d’introduire idf pour obtenir un meilleur résultats : tf ×idf .

Remarque :

- La méthode au-dessus et qui est basée sur la formule (4.17) c’est un cas particulier et
n’est pas la seule méthode utilisée.
ii) Le facteur de pondération globale idf (inverse document frequency) :

idf (Inverse of Document Frequencyes) est la fréquence absolu inverse du terme dans une
collection. C’est un facteur de pondération globale qui indique la représentativité globale du
terme dans l'ensemble des documents de la collection. Il varie inversement
proportionnellement au nombre n de documents où un terme apparaît dans une collection de
N documents. Le résultat objectif extrait par le calcul de ce facteur est que l’importance du
poids doit être donné aux termes qui apparaissent moins fréquemment dans la collection : les
termes qui sont utilisés dans de nombreux documents sont moins utiles pour la discrimination
que ceux qui apparaissent dans peu de documents [157].
L’expression de la fréquence absolue inverse, selon Salton [229] est égale à :

idf = log (N/n) (4. 18)

Une autre déclinaison est la suivante : idf =log 𝑁−𝑛


𝑁 (4.19)

Avec N le nombre total de documents dans la collection et n le nombre de documents où le


terme apparaît.

Contre-exemple

Nous prenons l’exemple précédent, avec la même collection suivante :

13
d1 = {2t1, (t2,…, t10), 3t11, 7(t12, t13, t14), 5(t15, t16, t17)} ; d2= {t1, 6t2, 14(t5, t8), 10t13} ;

13
d3= {20t5, 18(t6, t9), 2t16, 15t17} ; d4= {12t1, (t2,…t14), 4t16} ; d5={4t3, t4, 7t5, t9}
q = {t2, t3, t4, t8, t9, t14, t16, t17}.
Le terme d’analyse est le même : t11
Le nombre total de documents dans la collection est : N = 5
Le nombre de documents dans lequel le terme t11 est apparaît est : n = 2 (d1 et d4).
L’application de la formule (4.18) donne :
idf = log (5/2) ≅ 0.398

iii) La fonction de pondération tf * idf :


Cette fonction combine les deux critères qu’on a remarqué précédemment, le facteur de

pondération locale et le facteur de pondération globale. La mesure tf * idf est une meilleure

approximation de l’importance d’un terme dans un document. Où la valeur de mesure tf *

idf est élevée, alors que le terme est important dans le document, mais il apparaît moins
important dans les autres documents de la collection.

Dans notre contribution nous utiliserons spécialement le tf * idf dans le chapitre suivant
(ch.5), où nous calculerons les pondérations des termes définitoires.

Plusieurs formules utilisées dans le calcul de tf * idf. Nous détaillons quelques formules :

Tfi,j* idf = Wi,j = tfij* log (N/ni) (4.20)

Tfi,j* idf = Wi,j = (1 + log(tfij)) * log (N/ni) (4.21)


𝑡𝑓𝑖,𝑗
Tfi,j* idf = Wi,j = (0.5 + 0.5 * ) *log ( 𝑁−𝑛𝑖 ) (4.22)
max 𝑡𝑓 𝑛𝑖

Wi,j est le poids du terme ti dans le document Dj.


Exemple :

Suite à l’exemple précédent, on peut calculer la pondération Tf11,1* idf du terme t11 (qui

remarque son poids) dans le document d1 où on obtient le résultat suivant :

Tf11,1* idf = W11,1≅ 0,06 × 0,398 ≅ 0,024

Cette valeur remarque l’importance du terme t11 dans le document d1.

Remarque :

Lorsque les documents contiennent des poids égaux pour plusieurs termes il est difficile de
donner des importances différentes aux termes [175].

13
6 Requettage

6.1 Enrichissement et Reformulation des Requêtes

La reformulation de requêtes consiste à ajouter des termes aux mots-clés de la requête pour
détecter les termes cherchés. L’objectif de cette technique est représenté par l’extraction des
termes pertinents vis- à – vis au terme de la requête utilisateur.

6.1.1 Pourquoi la reformulation de la requête?

Ce mécanisme apparaît (la première fois par Rijsbergen, 1979 [148]) pour résoudre des

problèmes associés par les lacunes d’indexation (pour pallier à ces lacunes), ainsi pour

résoudre des problèmes liés à un mauvais choix de termes. Cette application nous permet

aussi d’ajuster et modifier les poids de la requête ou à rajouter des termes reliés à ceux de la

requête initiale [168]. La technique de la reformulation peut être manuelle (par intervention

humaine) ou automatique (par le SRI).

6.1.2 Approches et apports sur la reformulation de la


requête et la réinjection de la pertinence :

Plusieurs approches portent sur ce concept et permettent de mieux remédier à quelques

problèmes qui attaquent la pertinence des termes contenant la requête et les documents.

L’approche importante et la plus utilisée par la majorité des chercheurs est la réinjection de
la pertinence (relevance feedback) et qui consiste à modifier la requête utilisateur à l’aide des
documents jugés pertinents et/ou non pertinents par l’utilisateur. Suite à cette technique de
réinjection de la pertinence Ruthven [230] considère que la majorité des techniques
proposées en réinjection de pertinence se base sur la différence entre le contenu des
documents jugés pertinents et les documents jugés non pertinents. Ces derniers se divisent en
deux groupes [101] :

 Ceux jugés par l’utilisateur.


 Ceux qui ne sont pas jugés par l’utilisateur, mais soit non jugés soit rejetés par
l’utilisateur sans fournir une évaluation de performance.
Au cours de la réinjection de la pertinence, on présente à l’utilisateur une liste de documents
jugés pertinents par le système comme réponse à la requête initiale. Puis, l’utilisateur peut
13
indiquer ceux qu’il considère pertinents pour sélectionner les termes importants et pour
augmenter cette importance il doit reformuler une nouvelle requête.
Parmi les approches utilisées au cours de la réinjection de pertinence, nous avons :
- Une approche qui a été proposée par Boughanem [231] et Ruthven [230] consiste à
sélectionner les termes importants appartenant aux documents jugés pertinents par
l'utilisateur, et de renforcer l'importance de ces termes dans la nouvelle formulation de la
requête [101].
- Ben Lahmer et El Younoussi [232][233] ont proposé une technique basée sur la
reformulation par réinjection de pertinence pour la langue arabe et sans intervention humaine :
la réinjection de pertinence d’une manière automatique. Cette approche permet d’augmenter
le coefficient de qualité de SRI et qui dépend de sa capacité de retrouver des documents
pertinents pour l’utilisateur.
- L’approche de Rocchio [234] qui est fondée sur un lien entre la restitution des documents
pertinents et la notion de requête optimale. La réinjection de pertinence doit permettre de
rapprocher le vecteur de la requête initiale du vecteur moyen des documents pertinents et de
l’éloigner du vecteur moyen des documents non pertinents [101].

La formule initiale de Rocchio est donnée par :


1 𝑛𝑟 1 𝑛𝑠
Q1 = Q0 + ∑ 𝑅 − ∑ 𝑠
𝑛𝑟 𝑖=1 𝑖 𝑛𝑠 𝑖=1 𝑖

Avec
o Q0 est le vecteur de la requête initiale.
o Q1 est le vecteur de la nouvelle requête.
o nr est le nombre de documents pertinents.
o ns le nombre de documents non pertinents.
o Ri est le vecteur du nième document pertinent et Si le vecteur du nième document non
pertinent.
L’approche de Carpineto et Romano [235] vise à l’utilisation de l’Analyse Formelle de
Concepts (AFC) dans la RI pour la reformulation de la requête. La question qui se pose dans
ce moment est comment exploiter ou employer les treilles pour atteindre à la reformulation
d’une requête?

- Selon Carpineto et Romano [236], les chercheurs ont proposé un système nommé
REFFINER permettant le raffinement de requête par treillis, cette approche basée sur la

13
construction d’une partie du treillis contenant tous les termes de la requête et centrée autour
du concept formelle correspondant à cette requête.

Dans le même sujet, Priss [237] a proposé une évidence analogique entre la relation binaire
de base objet × propriété (ou attribut) caractérisant l’AFC et la relation documents × termes
caractérisant la recherche d’information pour employer le système AFC en RI de manière que
les documents correspondent aux objets formels et les termes d’indexation correspondentaux
attributs (ou propriétés) formels(ou formelles).Les concepts formels résultant d’une telle
relation peuvent être interprétés comme des paires ({réponse}, {requête}) où la requête
correspond à l’intension du concept formel tandis que la réponse correspond à son extension.

La relation de subsomption (relation d’ordre partiel) entre concepts formels peut être
considérée comme une relation de spécialisation/généralisation entre requêtes [238]. Dans une
application sur le raffinement de requêtes, [238] considère deux affirmations suivantes :

 Un concept formel c d’un treillis quelconque peut être interprété comme une paire (réponse,
requête) où la requête correspond à l’intension de c et la réponse correspond à l’extension de
c.
 Un déplacement à partir d’un nœud du treillis (i.e. une requête), vers le haut (resp. vers le bas)
en suivant les arrêts du treillis, produit tous les raffinements (resp. élargissements) minimaux
de la requête.
Nous pensons dans nos travaux à utiliser le mécanisme d’AFC en RI et au traitement
automatique de la langue naturelle (langue arabe en cas particulier), en prenant en
considération de nombreux auteurs [238][235][239] informent l’utilité et l’efficacité de
l’utilisation de l’AFC en RI pour atteindre des résultats efficaces et performants.

6.2 Appariement requête- document

On parle dans ce cas d’une relation entre le document et la requête, organisée par la
comparaison entre ces deux éléments pour réaliser une adéquation identifiée par le facteur de
pertinence. Cette comparaison est attribuée par le calcul d’un score de similarité représentatif
de la ressemblance entre le document et la requête. le score peut être calculé par la méthode
utilisée dans le calcul de la fonction de correspondance : Retrieval Status Value, entre requête

13
q et document d, RSV (d, q). L’expression de la fonction d’appariement est tributaire du
modèle de RI choisi [210].

L’objectif de cette partie est que pour chaque réception d’une requête par le système [157],
ce dernier a créé une représentation similaire à celle des documents, puis calculer un score de
correspondance entre la représentation de chaque document et celle de la requête. Ce score
traduit un degré de pertinence système qui permet éventuellement de classer les documents
par ordre de pertinence et pour les représenter vis-à-vis au besoin d’un utilisateur pertinence
utilisateur).

Nous avons utilisé dans nos travaux pour réaliser ce processus deux méthodes :

- La première concerne l’étude de termes dans l’espace vectoriel et de mesurer le cosinus de


vecteurs requête et document, comme méthode de comparaison entre ces deux
représentations, afin de déterminer leurs degrés de correspondance.

- la seconde méthode est basée sur la pondération de termes, utilisant les deux facteurs, local
tf et global idf et la fonction de pondération tf× idf et qui combine les deux facteurs.

La fréquence de termes (leurs pondérations) puis l’indexation de ces derniers ont une grande
importance sur le processus d’appariement requête-document.

Généralement, l’objectif de la RI exige la pertinence à la base, des modèles de recherche


efficaces et d’une indexation importante aux documents après d’une pondération suffisante
aux termes que nous voulons les indexés, de plus, un enrichissement de la requête en cas de la
reformulation de cette dernière (la modification de la requête basée sur les vocabulaires issu
des ressources externes, telles que les Ontologies ou les Thesaurus). Puis la réalisation du
processus d’appariement requête- document pour mesurer la pertinence d’un certain
document vis- à- vis d’une certaine requête.

Le processus proposé par Richard K. Belew [158] est récapitulatif général de la RI associée
par ces précédents concepts.

14
Figure 35 : Processus général de recherche d’information [240].

6.3 Utilisation de l’Ontologie


6.3.1 C’est quoi une ontologie

Une ontologie est un réseau de concepts et de relations entre ces concepts spécifiés à un
certain domaine où son rôle principal est figuré par la représentation et l’utilisation des
connaissances. Ces dernières sont représentées dans une ontologie sous forme de deux
natures soit connaissance, comme structure ou comme contenu.

Plusieurs définitions sont attribuées à cette notion, mais la majorité des auteurs font recours
à une définition concrète proposée par Gruber [241], qui stipule : « Une ontologie est une
spécification explicite d'une conceptualisation », ce qui implique que l’ontologie permet de
décrire un certain domaine sans ambiguïsation en terme de concepts et des relations entre ces
concepts. Elle ne se localise pas à un langage ou lexique explicatif et descriptif, mais elle doit
procurer une explication sémantique de ce langage ou ce lexique.

6.3.2 Pourquoi l’ontologie

La création d’une ontologie des domaines n’est pas ancienne par rapport aux autres
techniques informatiques. Elle est nouvellement née pour dénouer les difficultés très
importantes représentées par la désambigüisation des termes et l’organisation des concepts
pour chaque domaine.

14
L’utilisation des ontologies consiste à enrichir au réseau d’internet un espace assuré de
connaissance permettant des recherches d’information au niveau sémantique et non pas au
simple niveau lexical ou syntaxique.

6.3.3 Structure et éléments clés d’ontologie

D’après [242] [243], une ontologie 𝜃 peut être formellement définie par :

𝜃 = {C, R, HC, Rel, Ax}, où :

 C est un ensemble de concepts organisés sous la forme d’une taxonomie (hiérarchie) H C à


travers des relations taxonomiques orientées (is-a par exemple) permettant des héritages
multiples. La relation is-a (est-un) est souvent désignée par hyponymie ou hyperonymie
suivant que l’on considère le concept qui est spécialisé ou celui qui est généralisé.
 R est un ensemble de relations non taxonomiques entre concepts définies par leur domaine et
co-domaine.
 Rel : R × C × C {0, 1} associe à chaque relation non taxonomique dans R, l’ensemble
des couples de concepts satisfaisant cette relation. Si r ϵ R est une relation non taxonomique
et (Cx, Cy) ϵ C2 deux concepts, alors Rel (r, Cx, Cy) =1 s’il existe dans 𝜃 la relation r entre Cx
et Cy. et Rel(r, Cx, Cy) =0 sinon.
 Ax est un ensemble d’axiomes logiques permettant d’inférer des faits implicites et exprimés
dans un langage logique adapté telle que la logique de description.
On peut représenter une ontologie à base des éléments suivants : concept, relation,
subsomption et axiome.

i) Concepts
Le terme concept est dérivé d’un terme latin conceptus qui signifie (contenir, tenir
ensemble), c’est une idée générale et abstraite permettant d’associer l’esprit humain par un
objet de pensé abstrait. Les concepts sont des classes génériques, définies par leurs relations
sémantiques ou leurs propriétés (définition en intension par des conditions nécessaires et
suffisantes) ou par la liste des instances relevant de cette classe (définition en extension)
[157].
Un concept se définit par Bachimont à trois niveaux [244].
Un concept est une signification. Sa place dans un système de significations permet de le
comprendre, de le distinguer et de le différencier par rapport à d’autres concepts.

14
Un concept est une construction. Comprendre un concept revient à construire l’objet dont il
est le concept.

ii) Relations associatives (non taxonomie)


Une relation non taxonomique est une interaction entre les concepts d’un domaine. Elle se
représente par :

R : C1× C2 × …× Cn ; avec R est une relation et Ci (i=1, ….,n) sont des concepts.

Elle permet de lier deux concepts associés par des propriétés qui peuvent être ajoutées à
cette relation. Telle que la transitivité, la symétrie et la fonctionnalité ou l’inverse d’une autre
relation. (La transitivité, la symétrie et la fonctionnalité ou l’inverse d’une autre relation).

iii) Subsomption (Relation taxonomique)


Les relations taxonomiques ontologiques sont des relations hiérarchiques, qui permettent
d’identifier les correspondances entre les concepts et de résoudre des problèmes en
intelligence artificielle (IA), où l’utilisation de cette proposition (subsomption) dans ce
domaine (IA) est considérée nécessaire de pouvoir justifier, non seulement, sur des contextes,
mais également sur les contextes dont un contexte est une partie prenante. Cette relation
taxonomique basée sur l’utilisation de liens de type « est un, part of,… » [240].

Selon [245], il existe trois conceptions possibles de la subsomption :

 Un concept X subsume un concept Y si et seulement si l'ensemble des instances de X est


inclus dans l'ensemble des instances de Y.
 Un concept X subsume un concept Y si tout ce qui est décrit par Y est aussi représenté par la
description plus générale de X.
 Un concept X subsume un concept Y si les dénitions de X et de Y impliquent logiquement
que toute instance de Y est également une instance de X.
Parmi les relations utilisées pour la représentation des concepts dans le système
d’information :

1. Relation d'Identité : relation sémantique qui existe entre deux concepts qui ont la même
syntaxe, les mêmes attributs et les mêmes opérations.

2. Relation de Synonymie : relation sémantique qui existe entre deux noms qui expriment le
même sens.

14
3. Relation de Classification sorte de, entre deux concepts exprimant que l'un est un cas
particulier de l'autre.

4. Relation d'Homonymie : un même nom peut avoir deux sens différents.

5. Relation d'antonymie : relation entre deux concepts totalement disjoints.

iv) Axiome
L’axiome permet de représenter les concepts et les relations correspondantes dans un
langage formel. C’est une affirmation générale sur les fondements de l'ontologie.

Exemples d’axiomes :

o Part-Of est transitive (Un concept X subsume à un concept Y et ce dernier subsume à un autre
concept Z, alors le concept X est subsume à Z)
o Parent-de est l'inverse de enfant-de (X parent de Y si et seulement si Y enfant de X).

6.3.4 Construction d’une ontologie

Plusieurs travaux ont été proposés pour la construction des ontologies pour un certain
domaine [246][247][248][249][250]. Ces travaux sont venus dans le but de traduire les
questions compliquées dans un domaine quelconque en expression formelle simple et précise
afin d’analyser toutes les données correspondantes.

La démarche de la construction d’une ontologie ‘texte’ proposée par Assadi, fondée sur la
transformation d’une spécification en langage naturel en un langage formel se basant sur un
contexte de référence, en structurant et en organisant les concepts.

D’après [247], il existe deux approches pour la construction d’une ontologie. La première
est de commencer à partir de zéro et la second est la construction d’une ontologie à partir des
bases des données existantes comme référence.

Le point de vue de Bachimont [248] est différent. Il ne considère pas les ontologies comme
des systèmes conceptuels, contenant les concepts d’un domaine et les relations liées par ces
concepts dans le même domaine. C'est-à-dire que les ontologies peuvent se baser sur une
terminologie organisée, à formaliser et à déchiffrer dans un langage compréhensible
(déchiffrable) par la machine.

Gandon et Leclère [249][250], n’observent que le processus de conception d’une ontologie


exploitable dans un système à la base de connaissances. Cette observation repose sur une

14
succession de trois étapes permettant de passer des données brutes à l’ontologie
opérationnelle :

o Etape de conceptualisation : consiste à identifier et à extraire les concepts et les relations entre
ces concepts contenues dans un domaine particulier [250].
o L’étape d’ontologisation consiste à modéliser, dans un langage générique, les propriétés
formelles du domaine considéré [250] [251].
o La troisième étape, l’opérationnalisation consiste à équiper l’ontologie, c'est-à-dire la doter de
mécanismes d’inférence, support à la mise en œuvre de raisonnement [251].
Dans [252], on a une autre approche qui propose une base de connaissance, composée de
trois grandes familles d’informations :

 Une ontologie globale. Où, chaque concept d'une ontologie globale sait dans quelles
ontologies locales il peut être trouvé.
 les ontologies locales, définies à partir des ontologies globales et des pages web. Une
ontologie locale correspond à la projection d'une ontologie globale sur un site web.
Chaque concept d'une ontologie locale sait dans quelles pages web il peut être trouvé et de
quelle ontologie globale il relève.
 les informations concernant les pages web.
La figure ci- dessous illustre ces trois familles d’informations, selon [252] :

Figure 36: Architecture des ontologies.

6.3.5. Contribution à l’ontologie lexicale arabe

14
i) Discussion :

Nous pouvons dérouler en détail notre contribution au sein d’une ontologie lexicale arabe
extensible. Ainsi, nous pouvons indexer des concepts (c i) à partir des formules relationnelles
pour enrichir une ontologie lexicale arabe. Cette contribution utilise quelques modèles de
construction et leurs relations représentées par des propriétés. Dans lesquels nous allons
prendre toutes les relations: synonymes, hyperonymes, hoponymes, meronymes, holonyme et
antonymes.

Dans cette approche nous cherchons :

tous les concepts synonymes d’un certain terme (ti) arabe et toutes relations (Ri) qui affirment

que ti et ci sont synonymes (ont le même sens ou deux sens voisins). Tenant compte de la

catégorie morphologique et syntaxique du terme ti (féminin, masculin, singulier, duel, pluriel,

au contexte, etc.). le tableau ci-dessous illustre un exemple pour identifier les synonymes

(sous forme des concepts ci) d’un terme ti et les formules relationnelles associées Ri ainsi que

les catégories grammaticales de chaque terme pour cibler et localiser précisément ses

concepts.

Tableau 11. Les propriétés de relations conceptuelles (relations basée sur les formules définitoires).

14
 Remarque :
Nous remarquons que les relations synonymes peuvent être émergées sous forme de
plusieurs types, nous pouvons les archiver en deux classes :
- Relations définitoires, sont des formules définitoires. Comme l’indique le tableau précédent
( ‫هما‬،‫هو‬،‫ هي‬،‫تعني‬،‫يعتبر‬،)
- Relations contextuelles, sont des relations situées au contexte d’un document et qui prouvent
la liaison entre un terme t et leurs synonymes ci par concordance au fond du texte. Ces
relations sont basées sur la propriété suivante : dans un texte, si c 1 est synonyme de t et c2 est
un synonyme de c1, alors c2 est un synonyme de t. etc. parmi les relations contextuelles en
arabe nous avons déterminé : la particule de choix "‫"أو‬, les particules de conjonction "‫ و‬،‫ثم ف‬،"
et autres relations composées par certaines de ces particules et quelques formules définitoires
comme : ". ‫ وهي‬،‫ هي ما وهو‬،‫ هو ما إال‬،‫إال‬،"
 Exempleappliqué sur le terme"‫ "العلم‬:
‫ وهي مجموعة‬، ‫ات‬‰‰ ‫"العلم هو أن يتع ّلم اإلنسان من علوم الحياة الموجودة وأن يتعلّم مبادئها وهو كل نوع من المعارف أو التطبيق‬

‫ان‬‰‫اإلنس‬ ُ‫ذي يتعّلمه‬‰ ‫وانين لعلم ال‬‰ ‫ّات وق‬‰ ‫د ّرس وتعّلم إلى أن تصل إلى نظري‬‰ ‫اهج ت‬‰ ‫دور حول موضوع معيّن ومن‬‰ ‫تي ت‬‰ ‫من األساسيات ال‬
Analyse : ..."،‫المعرفة‬ ‫تأتي‬ ‫ال‬ ‫العلم‬ ‫غير‬ ‫فمن‬ ‫المعرفة‬ ‫مبدأ‬ ‫هو‬ ‫والعلم‬
o Le terme t= "‫"العلم‬
o Relation R1="‫ "هو‬, type de relation : Relation définitoire.
c1= Concept o " ‫)علوم الحياة( " أن يتعلّم اإلنسان من علوم الحياة الموجودة‬
o Relation R2= "‫"و‬, type de relation : Relation contextuelle.
c2=" Concept o ‫)مبادئ( " أن يتع ّلم مبادئها‬
o Relation R3= "‫ "وهو‬, type de relation : Relation contextuelle.
c3= Concept o " ‫)معارف( " كل نوع من المعارف‬
o Relation R4= " ‫" أو‬, type de relation : Relation contextuelle.
c4=" Concept o ‫" التطبيقات‬
o Relation R5= "‫"وهي‬, type de relation : Relation contextuelle.
c5= Concept o " ‫)أساسيات( " مجموعة من األساسيات التي تدور حول موضوع معّ ين‬
o Relation R6= "‫"و‬, type de relation : Relation contextuelle.
c6=" Concept o "‫)مناهج( مناهج تد ّرس‬
o Relation R7= "‫"و‬, type de relation : Relation contextuelle.
c7=" Concept o " ‫)تع ّلم( تع ّلم إلى أن تصل إلى نظر ّيات وقوانين لعلم الذي يتع ّلمهُ اإلنسان‬
o Relation R8= "‫"و‬, type de relation : Relation contextuelle.
o Le terme t= "‫"العلم‬

14
o Relation R9= "‫ "هو‬, type de relation : Relation définitoire.
c8=" Concept o " ‫)مبدأ( مبدأ المعرفة فمن غير العلم ال تأتي المعرفة‬
….
On peut retenir que le terme "‫ " العلم‬accepte tous les concepts de c1 à c8 comme synonymes
et qui ont différents selon leurs degrés d’approximation.
 Une relation synonyme peut être désignée par la propriété de sens. D’autre manière, un
concept ci est synonyme d’un terme ti, si ci et ti ont le même sens, ou bien deux sens voisins
par rapport à quelques formules relationnelles R i qui prouvent le sens entre le terme et des
concepts. exemple de synonyme suivants : "...‫ ساهم‬،‫ ساعد‬،‫ شارك‬،‫تعاون‬،".
 Une relation hyperonyme représenté par la propriété has- parent. En arabe signifiée
‫األصل‬terme ce de famille la toute et /l’origine ...:،‫ منبع‬،‫ أب‬،‫ أساس‬،‫ جذر‬،‫ سبب‬،‫" " أصل مصدر‬
Par exemple :
Le mot " ‫ " اللون‬est l’hyperonyme de "‫" أحمر‬. Ce qu’explique que l’origine du mot "‫ "أحمر‬est
le mot " ‫" اللون‬.
 La relation hyponyme est représentée par la propriété has-child. En arabe, cette propriété est
proche au terme ‫فرع‬/branche.
Exemple :
L’étudiante est l’hyponyme d’une personne (‫)إنسان‬, qui est lui-même l’hyponyme de l’être
vivant (‫)حي كائن‬. Etc.
 les concepts meronyme, la propriété arabe qui représente la relation meronyme, utilise toute
la famille de l’expression‫" "في يوجد‬, équivalent en anglais la propriété part- of. Parmi ces
à on expression : ." ،‫ يتضمنه‬،‫ ضمن‬،‫ موجود في‬،‫ كائن في‬،‫ يحتوي عليه‬،‫ينتمي إلى‬."
Exemples :
Le mur (‫ )الجدار‬est meronyme de maison (‫; )الدار‬
document Le (‫ )الوثيقة‬web site de meronyme est (‫الموقع اإللكتروني‬.)
 Les propriétés qui représentent la relation holonyme : une propriété de ce type est
l’inverse de la propriété qui concerne la relation meronyme. Nous utilisons en arabe les
propriétés suivantes : ". ‫ يحتوي‬،‫ يوجد على‬،‫ ني تمي فيه‬،‫ إليه‬،‫ ضمنه‬،‫ كائن يتضمن‬،‫"فيه‬
web site Le (‫ )الموقع اإللكتروني‬document de holonyme est (‫الو يث قة‬.)
 Les propriétés qui représentent la relation antonyme utilise le concept « contraire »/‫مضاد‬.
Notre méthode est basée sur la règle suivante : « t1 est l’antonyme de t2 si et seulement si
tous les synonymes de t1 sont antonymes aux synonymes de t2 ».
Exemple :
Le bien (‫ )الخير‬est l’antonyme du mal (‫)الشر‬.

14
Notre travail à faire dans cette partie est le suivant :

14
 cherchons toutes les propriétés arabes qui représentent la relation hyperonyme, hyponyme,
meronyme, holonyme et antonyme, puis nous les classer dans un tableau identique au tableau
précédent (Tableau 11).

ii) les parties des mots arabe :


Nous pouvons utiliser dans cette section, une architecture concernant les parties des mots
(Parts Of Speech(POS)) dans la langue arabe. Soit l’illustration suivante :

Figure 37 : Architecture représente les parties des mots arabes.

15
Chapitre 6 : L’enrichissement de la requête par
l’exploitation des phrases de définition

1. Introduction
Un méta-moteur est un programme qui permet de consulter la base de différents outils
de recherche à travers une requête, pour extraire ses informations cachées dans plusieurs
moteurs de recherche. L’envoie des requêtes par le méta-moteur de recherche suivi par un
retour des résultats par chaque moteur de recherche. Le principe de fonctionnement de cet
ensemble de systèmes est représenté par l’affiche des pages qui contiennent des
informations recherchées comme réponse à une certaine requête utilisateur. Ce type de
processus de la recherche d’information (RI) est une démarche faite par un utilisateur pour
réaliser un travail documentaire qui peut résulter d’un ensemble d’opérations effectuées
par le système de recherche d’information (SRI) pour retrouver enfin, une information
pertinente, lors de la réalisation d’une adéquation entre le contenu des documents
pertinents et la requête reformulée par un utilisateur.
Généralement, les contraintes et les empêchements de la RI varient d’une langue à une
autre, et selon l’équilibre informationnel et la part de la technologie pour chaque langue
dans le marché informatique. En conséquence, que les pays qui suivent actuellement le
chemin de la croissance technologique sont des pays qui ont un atout important dans le
domaine informatique. La quantité documentaire d’une langue naturelle dans le système et
la capacité technique en termes de nombres des sites web et des moteurs de recherche
contenant des milliards de fichiers et des contenus très importants des informations
traitées par une certaine langue, tous ces éléments peuvent contribuer relativement, à la
possibilité d'accès à l'information et sans empêchements. Et pour cela nous pouvons
trouver que la majorité des robots et des logiciels sont fondés sur les langues latines
(anglaises, françaises, japonaises ou d’autres), en parallèle d’une absence presque
complète de ces mécanismes en langue arabe. Ce qu’implique que cette dernière, jusqu’à
nos jours– malgré toutes modestes tentatives- reste sub-standard et ne réalise aucun essor
dans l’étendue de concurrence informatique!
15
La recherche d’information en langue arabe n'a pas atteint le niveau requis, ce que
nécessite à notre avis de discuter quelques points proposés :

 De présenter une critique constructive dans le domaine basée sur un critère de comparaison
avec tous résultats obtenus dans le même domaine informatique par d’autres langues qui sont
considérées pionnières dans ce domaine.
 L’évaluation des résultats acquis pour boucler statistiquement les problèmes qui ont des
influences importantes, soit :
o Au niveau morphologique, par exemple, les résultats de la recherche du mot "‫ "مدرسة‬dans un
moteur de recherche ne peuvent pas être généralisés sur tous les dérivés (surtout le nombre)
de ce mot (duel, pluriel,..), tel que le moteur de recherche n’affiche sur la page que le même
mot "‫"مدرسة‬. Par contre quand il vient d’envoyer le mot « école » ou « school » au moteur de
recherche, le système affiche sur les pages en plus du mot singulier, les pluriels : écoles et
schools. Où le pluriel des mots latins se caractérise tout simplement par l’ajout d’un « s » à la
fin du mot, ce qui fait que le système est programmé d’une manière automatique pour
discriminer entre le nombre des mots, soit par l’ajout ou la suppression de signe « s » à la fin
de ces mots. Différemment dans l’arabe, le pluriel de ce type des mots se caractérise par
l’ajout d’un "‫ « "ا‬alif » au milieu, sous forme d’infixe, puis la suppression de la dernière lettre
"‫"ة‬, pour trouver le pluriel "‫دارس‬‰‰‫("م‬c’est une remarque qui montre particulièrement la
difficulté morphologique de la langue arabe soit au niveau de la RI ou le traitement
automatique de cette langue ).
o Au niveau sémantique, pour remédier aux problèmes correspondants notamment par
l’ambiguïté des termes non voyelle dans la langue arabe, ce qui nécessite pour la résolution de
ce problème, la recherche de nouveaux mécanismes et de nouvelles méthodes à la base des
approches utilisées (l’utilisation : de schèmes, les dérivés, la segmentation des mots : en
préfixes, en suffixes et en infixes,..).
 Le monde arabe englobe une forte proportion de chercheurs qualifiés et une ressource
humaine importante capable de suivre le rythme du développement et assortir aux exigences
de l’époque. Mais malheureusement, nous remarquons une absence presque entière de soutien
et d’encouragement des recherches et des chercheurs arabes pour surmonter certaines
difficultés qui empêchent leurs travaux de recherches. Cela peut contribuer à la privation de la
langue arabe de bénéficier du développement technique actuel.
Notre contribution dans ce chapitre est fondée sur une méthode qui permet d’enrichir les
requêtes dans la langue arabe comme une partie inclus dans l’espace de la RI. L’approche vise
à la mise en place d’une technique qui permet à l’utilisateur de déterminer les définitions des

15
termes arabes, lors de la consultation du moteur de recherche à travers une requête. Avant de
faire cette dernière démarche et dans la première phase notre étude sera centralisée
essentiellement, sur l’analyse morphologique des termes pour les attribuer par les formules
définitoires adéquates. Puis et dans la seconde phase qui est l’objectif de ce modeste travail de
la recherche, l’utilisateur doit effectuer une requête formulée pour récupérer les réponses à
partir du moteur de recherche Google, et en fin de reformuler l’ancienne requête à la base des
formules définitoires sélectionnées et pour l’accès, après une validation de la requête à une
définition pertinente d’un certain terme arabe.

2. Analyse morphologique d’un mot dans une requête

Généralement dans la langue arabe, et en ce qui concerne cette partie d’étude nous pouvons
nos appuyer sur notre méthode des règles et propriétés morphologiques de la langue arabe,
prenant en considération qu’un certain mot arabe m est une unité lexicale constituée par une
chaîne de caractères et qui peut être variée en plusieurs natures morphologiques, selon la
catégorie (nom, adjectif, verbe ou particule), le nombre (singulier, dual ou pluriel) et genre
(féminin ou masculin). Pour cela nous pouvons commencer comme premier pas dans cette
contribution, de prendre en considération l’analyse morphologique du mot clé m avant de
formuler et envoyer la requête. C’est-à-dire, il faut connaître est ce que :
 m c’est un nom ou un verbe ou autre.
 m c’est un féminin ou masculin.
 m c’est un singulier, dual ou pluriel.
 m agglutinant ou non…etc.
Pour formuler une bonne requête constituée par : des mots, des phrases et formules
cohérentes entre elles.

En particulier, le mot arabe peut être accompagné par des différents signes, pour cela, nous
présentons quelques propriétés morphologiques on se basant sur notre précédent travail [253],
proposons les règles suivantes:

o Les mots qui commencent par " ‫ " ال‬sont absolument des noms.
o Les mots qui se terminent par une certaine lettre de féminisation " ‫ " ة‬ou " ‫ " اء‬sont des noms
féminins singuliers (NFS) (à l’exception de quelques cas particuliers pour les mots qui se
terminent par "‫ "اء‬et qui possèdent parfois, des propriétés différentes, exemples :‫أعداء أسماء‬، ...).

15
o Les mots qui se terminent par l’un des morphèmes :"‫ "ان‬ou "‫"ن‬,
‫ ي‬peuvent être considérés, soit
comme des noms féminins ou masculins duels (NFD ou NMD), soit des verbes féminins ou
masculins duels (VFD ou VMD).
o Un mot qui se termine par le morphème "‫ "ات‬ni qu’un nom féminin pluriel(NFP).

o Les mots qui se terminent par l’un des morphèmes : ""‫ ون‬ou "‫ ي"ن‬sont des noms masculins
pluriels (NMP) ou des verbes masculins pluriels (VMP).

3. Reformulation de la requête R

Un utilisateur peut interroger le SRI par la première requête, mais les résultats que lui
accorde le SRI ne conviennent parfois pas. Une impossibilité entrave l’obtention des besoins
d’un utilisateur à partir de la première requête formulée, et ce à cause à l’indétermination de
cette dernière et qui doit être reformulée. Donc il ne faut pas absenter les difficultés
correspondantes par la première requête pour que l’utilisateur puisse acquérir des réponses
pertinentes.
Les difficultés dans un questionnaire de requête pour l’analyse et la recherche d’information
sur un environnement documentaire [254] sont de nature linguistique : lexicale,
morphosyntaxique et le plus importantes sont de nature sémantique.
Nous pouvons étudier dans cette partie d’analyse, comment chercher une définition
pertinente d’un mot clé dans une requête, à partir des formules appropriées et qui sont placées
avant le mot (formules précédées) et/ou placées après le mot (formules succédées).
Une réponse pertinente sera générée à partir d’une requête qui comporte un mot-clé, formé
grâce à l’ajout des formules définitoires appropriées, afin d’avoir une correspondance entre la
pertinence requête et celle de SRI. Dans ce cas, un pas de la reformulation de la requête est
souvent utilisé.

3.1 C’est quoi une formule définitoire ?

Une formule définitoire permet de définir un mot au contexte d’une phrase, et le plus
souvent de délimiter le concept de ce mot. La définition d’un mot à l’aide des formules
définitoires peut être un terme, une notion, un concept ou une phrase. Comme, il ne faut pas
juger absolument, que toutes les formules définitoires cernent un mot au contexte d’une
phrase, peuvent être suivis toujours, par une définition appropriée au mot cherché, tel que nous
pouvons extraire dans certains cas, des phrases ou des termes que ne sont pas considérées
comme des définitions du mot.

15
Exemple :

Soient les deux phrases arabes suivantes, tel que le mot cherché et qui doit être défini
(‫)الفلسفة‬, délimiter par des mêmes formules définitoires (‫ )هي – إن‬:

Ph1 : ..."‫" إن الفلسفة هي علم يهتم بدراسة الكون‬

Ph2 : ..."‫" إن الفلسفة هي أمنيتي في التخصص مستقبال‬

Tout simplement, la phrase (Ph1) explique à l’aide de deux formules définitoires (" ‫ " إن‬et "‫ه‬
‫ )"ي‬une définition relativement claire, pour le mot "‫"الفلسفة‬, et qui est sous la forme de la
phrase suivante: "...‫"الكون بدراسة يهتم علم‬.

Dans la phrase (Ph2) le cas est différent, même si le mot est borné par les mêmes formules
définitoires on ne peut pas considérer la phrase extraite : " ...‫ " مستقبال التخصص في أمنيتي‬comme une
définition du mot: ‫الفلسفة‬. Car elle n’exprime qu’une souhaite d’un interlocuteur.

Un mot m dans le contexte, peut être borné au maximum, par deux formules définitoires (au
minimum par 0 formule), nous les noterons sous forme de deux classes : formules précèdes
(FP) et autres succèdes (FS), comme l’indique le tableau au-dessous :

Tableau 12 : Les relations entre les formules précèdes et succèdes selon la nature,
le genre et le nombre d’un mot m (ou w).
L’écriture 1/0 signifiant, une ou aucune formule précède, et/ou une ou aucune formule suivante.

15
3.2 Reformulation de requêtes R' à base des formules définitoires

Comme dit précédemment, l’obtention des définitions d’un mot à partir d’une requête
initiale est plus difficile, Parce qu'il n’est pas différent du fait que l'utilisateur est à la
recherche d'une aiguille dans une meule de foin. L’acquisition d’une réponse précise et
efficace consiste à poser les bonnes questions, ce qui demande à l’utilisateur de reformuler ses
requêtes et d’ajouter des formules proportionnées.

La reformulation de la requête initiale se fait en deux manières : obtenir les termes extraits
après l’exécution de la requête initiale, puis réutiliser ces termes dans la nouvelle requête R'.

Cette nouvelle requête est considérée comme l’expression d’un ensemble des requêtes R' n (n
est le nombre des requêtes R' reformulées selon les différentes formules définitoires. Où
n>=1), chacune de ses requêtes est caractérisée par sa construction externe : {formule succède
– m – formule précède}. Cette requête et après l’essai, sera envoyée à un moteur de recherche
qui permet de classer les réponses sous forme de listes de documents.

Par exemple, si l’on considère que l’utilisateur va chercher une définition de mot
m= "‫"الفلسفة‬. Par l’ajout d’une forme préfixée Fp ="‫بر‬‰‫"تعت‬, Nous examinerons le terme m pour
succéder une formule appropriée :

Notre première requête, R'1 est la suivante : R'1= {formule succède – ‫}الفلسفة – تعتبر‬.

Le mot m est précédé par l’article défini "‫ "ال‬de plus, il se termine par une lettre qui peut
discriminer les noms féminins singuliers arabes: "‫"ة‬. Par suite m est un nom féminin singulier
(NFS) et la requête R'1 qui se sera envoyée est de la forme : R'1 = {‫}هي – الفلسفة – تعتبر‬.

Généralement, et après l’envoi de la requête finale R f = UR'n, n>=1(on utilise toutes les
formules précèdes et leurs succédées correspondantes), nous pouvons extraire les phrases de
définitions, puis, nous chercherons à identifier la relation associée les phrases et les mots.

Etude de cas :

 Requête générale
Premièrement, supposons qu’on utilise une requête générale, dont les résultats sont
difficiles à trouver. Par exemple, lorsqu’un utilisateur va essayer d’envoyer une requête de
type "‫ "تاريخ‬/histoire. Peut-il obtenir des milliers de résultats sur le web.
Après une étude sur 500 documents extraits, et leurs informations relatives à la
requête"‫"تاريخ‬nous avons conclu les résultats suivants (représentés dans Tabl.13):

15
21%

15
documents contient une classe des objets différents (histoire des arts, sports, fêtes,..) ; 20.6%
documents concernent les histoires des états, des régions et des villes ; 16.6% documents
associés par les sociétés, les fondations et les organisations; 12.2% documents concernant des
articles, des livres et autres objets juridiques et académiques ; 11.4% documents comportent
une classe des objets qui concernent des dynasties, les prophètes, les dirigeants et les
races ; 9.8% documents concernant les dates de jours, des années; 7.6% documents associés
par l’histoire des civilisations ; puis 0.8% documents tout simplement qui peuvent définir le
mot "‫"تاريخ‬/histoire (définitions et synonymes à base de dictionnaire électronique arabe :
"‫)"المعاني قاموس‬. Sur la première page figurent trois liens retrace l’histoire des états : ‫تاريخ‬
.‫ تاريخ الجزائر‬،‫ تاريخ مصر‬،‫ الكويت‬date la comporte qui lien un (sauf liens autres Les
d’aujourd’hui :‫ ) اليوم تاريخ‬restant ne contiennent que des redondances et tautologies, dont ils
comportent des objets qui racontent les histoires de dynasties/‫السااللت‬, les prophètes/‫الرسل‬, les
dirigeants/‫الحكام‬, les races‫األعراق‬/et des civilisations/‫الحضارات‬.
Ces types de réponses obtenues à partir de cette requête ne peuvent rien satisfaire et n’offre
aucune aide à un utilisateur qui cherche une définition du mot "‫"تاريخ‬.

Tableau 13 : Résultats extraits de requête <‫ >تاريخ‬après un essai sur 500 documents.

Soit le graphique qui permet d’illustrer de façon claire les données extraites :

15
Figure 38 : Un graphique qui représente les résultats obtenus par 500 documents, lors de l’envoie d’une requête
"‫"تاريخ‬

 Requête simple (naïve)


Supposons que la requête intéressée est composée comme suit"‫"التاريخ يعتبر‬. Les résultats
obtenus après un essai sur 100 documents, peuvent être décomposées en quatre classes
différentes (Tab. 14) : une classe contenant des définitions fréquentes et homogènes. La
seconde comporte des définitions spécifiques, relatives ou bien proportionnelles (le terme qui
suit la requête se termine par la lettre ‫ي‬/ya : qui implique souvent en arabe un terme relatif par
rapport à un mot masculin précède, et si le mot est féminin, le terme qui le suit se termine par
‫ية‬/yaa). La troisième classe inclue des termes approximativement définitoires (des définitions
proches). La dernière classe se compose d’un ensemble de concepts ambigus, qui n’ont
aucune signification en ce qui concerne la définition du mot ‫( تاريخ‬classe de déchets).
Les résultats obtenus dans les documents concernant la dernière classe sont des expressions
descriptives ou deviennent lorsque la requête commence, soit par un outil de la négation ‫ال ( ال‬
)"‫"التاريخ يعتبر‬, soit par un outil d’interrogation :

..،‫ لماذا‬،‫يعتبر التاريخ" ( هل‬..."‫لماذا‬/‫هل‬, d’autres… soit

Tabl
eau
14 :
Résultats extraits de requête <‫>التاريخ يعتبر‬après un essai sur 100 documents.

 Requête visée (ciblée)


Lorsqu’un utilisateur interroge le système de recherche par la requête précédente < ‫يعتبر‬
‫>التاريخ‬, la réponse définitoire la plus fréquente d’après les résultats figurants sur le tableau 14,
est représentée par le terme ‫علما‬.
15
Supposons qu’on veut composer les deux mots,"‫ " علما التاريخ‬comme une nouvelle requête R'.
Vous trouvez sur les 100 premiers liens 65% informations qui peuvent considérer que
l’histoire est une science comme les autres sciences. 16% des informations qui présentent les
deux mots (‫ التاريخ‬et ‫ )علما‬de la requête R' séparés par des ponctuations (. " ! … ; etc.). Ce type
de réponses ne peut rien réaliser pour le besoin d’un utilisateur qui veut rechercher une
définition clair du mot ‫التاريخ‬. Vous trouvez encore 10% des informations produites par
la requête commencent soit par les outils de négations (...‫ ال‬،‫ لم‬،‫لن‬،), soit par des
noms interrogatifs (..‫ هل‬،‫لماذا‬،). Chacun parmi ces outils peut être séparé par un mot ou
plus avec l’information restituée. Ce type d’informations aussi, ne peut rien satisfaire. Il ne
représente que des incertitudes. Un taux de 6% des informations indiquent que le terme ‫علما‬
est suivi immédiatement par la particule ‫(أن‬ou cette particule agglutinée par des pronoms ou
des propositions : ‫أن‬+‫ هم‬,‫ب‬+‫ أن‬,‫أن‬+ ‫ نا‬,‫أن‬+‫)…ه‬. Exemple :

‫…في ظل أجواء التمييز ضد المرأة وهضم حقوقها حتى من ذكر أسمها في التاريخ علماأن هذا ال ينفي أن بعض‬
.…)5(‫المؤرخين غطى جانباً محدداً من التاريخ ا نل سائي‬

Dans ce cas le terme ‫ علما‬ne signifié pas « science », et ne représente pas une définition
pertinente du mot ‫تاريخ‬. Et pour discriminer ce type comme dit précédemment, il faut prendre
en considération la particule (‫أن‬/anna) qui suit le terme. Comme dans l’exemple ci- dessus.
Les 3% restants sont d’autres résultats ambigus ou n’apportent aucune signification pour le
terme
« Science ». Ils ne représentent dans ce cas, aucune définition pour le mot de la requête (Pour
cette requête ces informations sont des déchets. Mais peuvent être considérées pertinentes
pour des autres requêtes). Exemple :
...‫ليصبح في ذمة التاريخ علما من أعالم اإلنسانية‬...

Dans cet exemple le mot ‫ علما‬signifié « drapeau ». Ce sens identifié à partir du contexte et
précisément à partir du mot ‫أعالم‬qui est le pluriel de terme ‫علما‬/drapeau, et pas du mot ‫ علوم‬qui
est le pluriel de terme ‫علما‬/science. Dans ce cas, cette phrase est considérée comme un déchet
de la recherche. Car on ne peut pas dire que la définition du terme ‫ التاريخ‬est le mot ‫عل‬
‫ما‬/ drapeau!

4. Récupération des réponses des moteurs et extraction


des phrases de définition

16
Dans cette partie d’étude nous voulons enrichir les requêtes de type < FS- ‫ الفلسفة‬-FP>, puis
nous récupérons les résultats pour identifier les termes et les phrases définitoires et pertinente
pour le mot ‫الفلسفة‬. Rappelons qu’on a deux manières pour la reformulation d’une requête :

(5) .
Krisme, Mohamed "‫تم يز آخر‬ ‫تهميش المرأة في التاريخ‬," ‫موقع وكالة أخبار المرأة‬, http://wonews.net/ar/index.php?act=post&id=60

La reformulation manuelle (intervention humaine) et reformulation d’une manière


automatique
(sans intervention humaine). Dans cet objet, nous citons par exemple la méthode d’El Habib
Ben Lahmar et al. [233] qui ont proposés la reformulation par réinjection de pertinence (de
manière automatique) pour la langue arabe.
Nous utilisons au cours de l’application pour la recherche des phrases définitoires un
nombre de formules (FP et FS) limités. Après la validation de requêtes R'n, n>=1(n est
limité), les résultats obtenus sont des phrases s i (s1, s2, …. s10) appartenant aux documents di
(d1, d2,…, d10). Ces phrases si contiennent des différents mots proches [255] qui peuvent
représenter des concepts similaires au mot recherché. Cette similarité identifiée par une
technique de mesure basée sur la pondération tf-idf.

4.1 Traitement des requêtes


4.1.1 Les mesures TF-IDF

Depuis les années 50, les chercheurs utilisent le processus de pondération des termes en
recherche d’information [256]. Cette méthode permet aux chercheurs de déterminer la
fréquence du terme tf (Term Frequency) dans un document, puis la fréquence documentaire
inverse idf (Inverted Document Frequency).
Dans notre étude, nous utilisons ces mesures pour calculer le poids des phrases par
documents et des mots par phrases, où l’idée principale à tf est : si le terme est plus fréquent
dans un document, alors il est plus important dans ce document comme un mot proche du
terme chercher. En parallèle, l’idée principale à idf est que, plus un terme est peu fréquent
dans la collection plus il est important dans le document [257].

4.1.2 Calcule de poids

i) Poids des phrases par documents

Pour évaluer l’importance de termes ou des phrases dans la fouille de textes, il est exigible
de calculer le poids de chaque terme par phrase. Cette mesure faite soit par la similarité, soit

16
par un autre critère de mesure. La technique la plus utilisée dans le domaine de la RI, et qui a
réalisée dans le monde de mesure un grand succès avec les chercheurs est le modèle tf-idf.
Nous essayons dans cette application des requêtes (18 requêtes). Chaque requête est
composée par le mot clés "‫ "الفلسفة‬borné par deux types de formules différentes, où l’une est
nommée formule précède (FP) et l’autre, nommée formule succède (FS) (les formules
représentées précédemment dans le tableau12). Nous obtenons les résultats indiqués dans le
tableau ci-dessous (tab.15), qui représente un ensemble de phrases s i, extraites à partir de
documents dj (cette application effectuée sur un petit nombre de documents restitués comme
modèle d’essai, après la validation de chaque requête par un utilisateur). Soient les résultats
suivants :

Tableau 15 : Calcule de la fréquence des phrases dans plusieurs documents.

Comme dit précédemment, nous allons utiliser la technique de mesure la plus répandue
[256] pour calculer le poids des phrases si par document d j (de la même manière pour
calculer les poids des termes tk dans les phrases si ou bien dans les document d j ). Cette
technique est la mesure de idf, tel que:
N
idfi= log ( ), avec N représente le nombre total de documents et n est le nombre de
ni i

documents dans lesquels la phrase si est apparaît. d’après le tableau précédent nous
remarquons que:
16
𝑁
- Pour la phrase s1 : idf1 = log ( ) = log 10/5 = log 2 = 0.3
𝑛1

- Pour les phrases (s2,s3, s4, s6, s12, s13, s14, s15, s16 et s17) :
10
idf2 = idf3 = idf4 = idf6 = idf12 = idf13 = idf14= idf15 = idf16 = idf17 = log ( ) = log 10= 1
1
𝑁
- Pour les phrases (s5 ets7) : idf5= idf7 = log ( ) = log 10/9 = 0.046.
𝑛5
10
- Pour les phrases (s8 et s10) : idf8 = idf10 = log ( ) = log(3.33) = 0.52.
3
10
- Pour les phrases (s9, s11 et s18) : idf9 = idf11 = idf18= log ( ) = log(5) = 0.7.
2

Avec encore les tfi (si on considère une phrase comme un terme) sont:
5
tf1 = = 5/45= 0.11 ; tf2 = tf3= tf4= tf6 = tf12 = tf13 = tf14= tf15 =
5∗1+1∗10+9 ∗2+3 ∗2+2∗ 3
1
tf16 = tf17 = 9
5∗1+1∗10+9 ∗2+3 ∗2+2∗ 3
= 1/45 = 0.022; tf5 = tf7 = =
5∗1+1∗10+9 ∗2+3 ∗2+2∗ 3
3
9/45 = 0.2 ; tf8 = tf10=
5∗1+1∗10+9 ∗2+3 ∗2+2∗ 3 = 3/45 = 0.067 ; tf9 = tf11 = tf18 =
2
5∗1+1∗10+9 ∗2+3 ∗2+2∗ 3 = 2/45 = 0.044.

ii) poids des termes par phrases


Après de calculer la répartition des termes tk (k=1, …8) dans les phrases si(i=1…18), nous
pouvons représenter les résultats dans le tableau suivant :

Tableau16: Calcule de la fréquence des mots non répétitifs dans les phrases.

Au contexte du calcule, nous considérons que chaque phrase Si est comme un document dj.
Les poids de termes tk par phrase si, avec (k= 1, …,8 et i= 1,…,18) est donnés par :
16
18 7
- Pour le terme t1 : idf1 = log ( ) = 0.65. et tf1 = = 7/22 = 0.32.
4 7∗1+2∗4+3∗1+1∗4
18 4
- Pour le terme t2 : idf2 = log ( ) = 0.65. et tf2 =
= 4/22 = 0.18.
4 7∗1+2∗4+3∗1+1∗4
18 3
- Pour le terme t3 : idf3 = log ( ) = 0.78. et tf3 =
= 3/22 = 0.14.
3 7∗1+2∗4+3∗1+1∗4
18 1
- Pour le terme t4 : idf4 = log ( ) = 1.26. et tf4 =
= 1/22 = 0.045.
1 7∗1+2∗4+3∗1+1∗4
18 1
- Pour le terme t5: idf5 = log ( ) = 1.26. et tf5 =
= 1/22 = 0.045.
1 7∗1+2∗4+3∗1+1∗4
18 4
- Pour le terme t6 : idf6 = log ( ) = 0.78. et tf6 =
= 4/22 = 0.18.
3 7∗1+2∗4+3∗1+1∗4
18 1
- Pour le terme t7 : idf7 = log ( ) = 1.26. et tf2 =
= 1/22 = 0.045.
1 7∗1+2∗4+3∗1+1∗4
18 1
- Pour le terme t8 : idf8 = log ( ) = 1.26. et tf2 =
= 1/22 = 0.045.
1 7∗1+2∗4+3∗1+1∗4

4.2 Résultats du traitement


D’après les résultats obtenus dans la section précédente, le tf.idf pour chaque terme
définitoire associé par le mot clés (‫ )الفلسفة‬de la requête, permet d’identifier l’importance de
terme par rapport à ce mot clés.
Le tableau suivant représente les résultats obtenus et produit par le calcule tf.idf de termes
importants par rapport au mot clés ‫الفلسفة‬:

Tableau 17 : Calcule de TF, IDF et TF.IDF pour trouver le(s) mot(s) définitoire(s) proche(s).

D’après les résultats produits par tf.idf, représentés dans le tableau .17, nous concluons que :
mot au proches plus les termes Les  "‫الفلسفة‬," sont {: ‫ معرفة‬/‫ال‬-‫ بحث‬/‫ال‬-‫ تفكير‬/‫ال‬-‫ علم‬/‫ال‬.}

16
‫ تعتبر الفلسفة‬pertinents termes les contiennent elles qu’ et correspondantes pertinentes phrases Les 
sont précédents : { ‫ علم الحق األول الذي هو علة كل‬:‫ أن الفلسفة هي‬- ‫هي العلم الموضوعي بالحقيقة‬

16
‫ر‬‰‰‫ نظ‬-‫ل‬‰ ‫ئة عن العق‬‰ ‫ة الناش‬‰ ‫ المعرف‬:‫فة هي‬‰ ‫ أن الفلس‬-‫ارا لعمران‬‰‰‫تي استحدثت مع انتش‬‰‰‫من العلوم ال‬/‫الموجودات بماهي موجودة‬‰ ‰‫العلم ب‬/‫حق‬
‫ا بأنها‬‰‰ ‫فة أحيان‬‰ ‰‫ توصف الفلس‬-‫ة كما هو حال العلوم‬‰ ‰ ‫كالعلوم إال أنها نظر يختلف من حيث الغاية فهي تبحث عن العلل األولى وليس األسباب القريب‬
‫فة هي البحث‬‰ ‫ فالفلس‬-‫فة هي بحث اإلنسان عن هلال‬‰ ‫ فالفلس‬-‫ توصف الفلسفة أحيانا بأنها تفكير عقالني نقدي في الوجود والمعرفة واألخالق‬-‫التفكير في التفكير‬
‫ يل ست الفلسفة‬-‫عن الحقيقة عن طريق التفكير المنطقي‬
} ‫ يل ست الفلسفة سوى الفكرة البسيطة لعلم ممكن‬-‫سوى نسق لمعرفة‬
 Les formules définitoires correspondantes sont :-"‫توصف‬...‫"بأنها‬
"-‫هي‬...‫" ان‬-"‫هي‬...‫"تعتبر‬
}"‫ف‬...‫}"هي‬
Selon les résultats du calcul par la fonction de pondération tf.idf, indiqués dans le même
tableau.17, nous déduisons que la distance sémantique entre le mot "‫ "الفلسفة‬et chaque terme
parmi les termes proches {‫ال‬/ ‫علم‬-‫ال‬/ ‫تفكير‬-‫ال‬/ ‫بحث‬-‫ال‬/ ‫}معرفة‬, peut être variée en termes de cette
mesure de tf.idf. Ce qu’implique, l’existence d’une relation associée entre les quatre effets
suivants :

- le mot étudié ;
- les formules définitoires ;
- les termes extraits ;
- la mesure.
Ces effets identifiés le trajet de la requête et son résultat final afin que l’utilisateur est la
reformulée.

4.3 Reformulation de requête formée par les termes extraits


(mots pertinents)

Nous essayons de traiter une requête constituée par les éléments précédemment trouvés (les
termes dans les ensembles : d1, d2, d3, d4 et d5), puis nous extrayons des termes définitoires et
ceux qui sont proches au mot cherché ("‫ )"الفلسفة‬comme résultats final.

La requête dans ce cas est constituée de deux mots (sous forme de deux noms) et sans
formules définitoires pour l’accès à une définition pertinente au premier mot étudié ("‫)"الفلسفة‬.

Nous essayons donc les quatre termes extraits précédemment {‫علم‬- ‫تفكير‬- ‫بحث‬- ‫}معرفة‬. L’ajout
de chacun de ces termes au mot ‫ الفلسفة‬dans une requête, sera sans article défini ‫ال‬. Tout
simplement que l’essai sur deux requêtes comme exemple, "‫ "الكائن اإلنسان‬et " ‫ان‬‰‫ " كائن اإلنس‬ne
donnent pas les mêmes résultats et les réponses sont différentes en terme de degré de
l’importance. Où la deuxième requête, dont le mot ajouté (‫ )كائن‬sans article défini, est mieux
que la première requête pour obtenir une définition précise de mot ‫اإلنسان‬.

16
Avant de traiter les requêtes, remarquez ces points :

- Un utilisateur peut définir à partir d’une requête un nom quelconque suivi par un autre, il est
préférable d’associer le premier nom par un article défini ‫ ال‬et de considérer le second sans
cette particule pour arriver à des réponses convenables.
- L’application d’une règle morphologique dans ce cas n’est pas nécessaire, où le terme ajouté
n’aucun influence sur le mot recherché quelque soit leurs genres.
Exemples, soient les deux requêtes suivantes :
<‫) علم‬masculin( - ‫> الفلسفة‬et (féminin) <‫ معرفة‬-)féminin( ‫)> التاريخ‬masculin(
Par contre, si on utilise une requête constituée par le mot recherché et les deux formules
comme dans le cas précédent, obligatoirement de prendre en compte le genre et parfois le
nombre du mot recherché avant d’ajouter les formules définitoires.
Exemple, soit la requête d’un utilisateur après l’étude du mot recherché : <‫>هي الفلسفة تعتبر‬.
Nous avons expliqué déjà pour quoi l’ajout de formule ‫ هي‬au lieu de formule ‫هو‬.
Simplement, en raison du fait que le mot ‫ الفلسفة‬est féminin (de même que pour la formule ‫تعت‬
‫ بر‬au lieu de ‫)… يعتبر‬.

Applications sur requêtes

Soit la première requête suivante:

Requête  : "‫"الفلسفة علم‬


o Résultats obtenus sur Google :

Tableau 18 : Extraction des phrases après la reformulation de la requête : "‫"علم الفلسفة‬.

 Le poids terme- requête

16
Pour la requête précédente :"‫ "علم الفلسفة‬la méthode de pondération efficace pour calculer le
poids du terme t1= "‫ "علم‬est : idf1 = w1,q = log (N/n1), avec N est le nombre total des documents
et qui a une valeur de 100 documents testés dans cette application. n 1 est le nombre des
documents dans lesquels le terme t1 apparaît. Ce dernier terme est apparaît dans 91 documents
parmi les 100 autres. Donc :
w1,q = log (N/n1) = log ( 100/91) = 0.04
Soit la seconde requête :
Requête  : "‫"الفلسفة تفكير‬
o Résultats obtenus sur Google :

Tableau 19 : Extraction des phrases après la reformulation de la requête : "‫"تفكير الفلسفة‬.

 Le poids terme- requête

Les résultats extraits sur 100 documents après l’envoi de la requête "‫ "تفكير الفلسفة‬confirme l’apparition
du terme t2 96 fois. Donc idf2 = w2,q = log (100/96) = 0.017
Soit la troisième requête suivante :
Requête  : "‫"الفلسفة معرفة‬
o Résultats obtenus :

16
Tableau20: Extraction des phrases après la reformulation de la requête : "‫"معرفة الفلسفة‬

 Le poids terme- requête

Après l’exercice de la requête : "‫ "معرفة الفلسفة‬sur les 100 documents d’essai nous déduisons
que le terme t3 apparaît 90 fois sur le nombre total de documents. ce qu’implique : idf3 = w3,q
= log(100/90 ) =0.045.

Requête  : "‫"الفلسفة بحث‬


o Résultats obtenus :

Tableau 21: Extraction des phrases après la reformulation de la requête : "‫"بحث الفلسفة‬

 Le poids terme- requête

Les résultats extraits sur 100 documents après l’envoi de la requête " ‫ "بحث الفلسفة‬confirme
l’apparence de terme t4 de 71fois. Donc idf4 = w4,q = log (100/71) = 0.146.

 Tableau des résultats

16
Tableau 22 : Résultats de calculs de idf pour les termes définitoires du mot "‫ "ال لف سفة‬après la reformulation de requête.

D’après les résultats obtenus, nous pouvons arranger les termes à partir de leurs idf, selon
l’ordre croissant (de plus pertinent jusqu’à le moins pertinent). D’où :

idf2 ("‫< )"تفكير‬idf1 ("‫ < )"علم‬idf3 ("‫ < )"معرفة‬idf2 ("‫)"بحث‬

(Degré de pertinence élevé)

L’importance des termes définitoires élevés avec la décroissance de leurs idf. Enfin, nous
concluons que les termes proches et qui peuvent définir le mot clé "‫"الفلسفة‬de la requête
précédente sont représentés par ordre dans le tableau 22, où le terme qui a un idf faible est plus
proche que l’autre. On évite le terme"‫ "بحث‬comme un terme de définition, car son idf est plus
grand.

4.4 Représentation
4.4.1 Représentation graphique (graphe bipartite)

Un graphe G (𝖳, ⊥, E ) est dit bipartite, si l’ensemble des noeuds V est séparé en deux sous-
ensembles 𝖳et⊥ , avec V = 𝖳𝖴 ⊥ et 𝖳∩⊥ =∅ , tels que les nœuds d’un même ensemble ne sont
pas connectés par des liens.

Nous consacrerons cette section de notre travail à présenter une étude sur les termes qui
apparaissent dans les phrases (l’étude basé sur les résultats du tableau 18). Pour cela, on peut
représenter un graphe bipartite constitué par des nœuds qui représentent les termes t k et autres
représentent les phrases si. Les arcs entre nœuds- termes et nœuds- phrases (cette méthode
d’analyse peut être appliquée aussi sur les termes et les documents) sont values par les poids
17
des termes apparaissant dans les phrases. Chaque terme peut apparaître dans la phrase plus
qu’une seule fois, pour cela nous représentons dans la figure ci- dessous des liens larges de
type ( ) signifiant que les termes apparaissent plus qu’une fois dans une phrase, et les
liens minces de type ( ) indiquant que le terme apparaît une seule fois dans la phrase. La
figure 35 au-dessous, illustre le résultat de cette étude :

Figure 39. Représentation graphique (graphe bipartite) de la distribution des termes tk dans les phrases si.
Où,

Le graphe bipartite modélisant des termes tk et des phrases sj.


Un lien entre nœud terme et nœud phrase, implique que le terme existe dans la phrase.

D’après les résultats dans le tableau18, le nombre maximal d’un terme fréquent dans une
phrase égal à 3 on peut le noter par tk++ et si le terme apparaît 2 fois dans la phrase on le
représente par tk+, et par tk si il a apparaît une seule fois.

Selon la figure précédente et les résultats trouvés dans (tableau 18), nous pouvons conclure :

G= (𝖳= { t1, t2, t3, t4, t5, t6, t7, t8, }; ⊥ = {s1, s2, s3, s4, s5, s6, s7, s8, s9, s10, s11, s12, s13, s14,
17
s15, s16, s17, s18 }; E = { (t1, s1) ; (t1++, s3) ; (t1+, s4) ; (t1, s17) ; (t2, s2) ; (t2, s4) ; (t2,

s8) ; (t2, s16) ; (t3, s2) ; (t3, s4) ; (t3, s11) ; (t4, s2) ; (t5, s5) ; (t6+, s7) ; (t6, s8) ; (t6, s15) ;

(t7, s17); (t8, s18)}).

4.4.2 Représentation vectorielle basée sur la pondération


tf.idf

Pour représenter la similarité entre la requête qui contient le mot clé "‫ "الفلسفة‬et les documents
contenant des phrases qui comportent aussi des termes qui apparaissent selon leurs fréquences.

Nous Considérons dans ce cas, que chaque ensemble de phrases contenants les mêmes
termes tk est un document di,k. où i est l’indice qui désigne le nombre d’ensembles des phrases
(dans ce cas : i= 1, …, 5), et k indique l’indice du terme apparaît dans le même
ensemble(l’ordre des termes tk est selon leurs poids). Tel que : t 1 apparaît dans l’ensemble
représenté par d1 et t6 apparaît dans l’ensemble représenté par d2 et t2 apparaît dans l’ensemble
représenté par d3 et t3 apparaît dans l’ensemble représenté par d4. Enfin, t4, t5, t7 et t8
apparaissent dans l’ensemble représenté par d5(dans ce dernier ensemble les termes
n’apparaissent qu’un seul fois dans les différentes phrases).

D’où:

d1 = { 1s1, 3s3, 2s4, 1s17}, d2 = { 2s7, 1s8, 1s15 }, d3 = { 1s2, 1s4, 1s8, 1s16}, d4 = { 1s2, 1s4, 1s11 }
et d5 = {1( s2𝖴 s5 𝖴 s17 𝖴 s18)}. L’expression nsj, signifiée que le terme existe n fois dans la
phrase sj , où n= {1, 2, 3} et j= { 1, 2, 3, 4, 5, 6, 7, 8, 11, 15, 16, 17, 18}. Les résultats
précédents nous donnent :

Avec les mesures tf.idf :

tf.idf (‫ = )علم‬0.208. le terme est appartient à d1

tf.idf (‫ = )تفكير‬0.1404. le terme est appartient à d2

tf.idf (‫ = )معرفة‬0.117. le terme est appartient à d3

tf.idf (‫ = )بحث‬0.1092. le terme est appartient à d4

tf.idf (‫ = )ممارسة‬tf.idf (‫ = )اكتشاف‬tf.idf (‫=)فكر‬tf.idf (‫ = )محاولة‬0.0567. 𝜖d5

Considérons que le poids de la requête q est fixé à une valeur de coordonnée (0,1) est qui

17
implique sa mesure, et les poids des ensembles : d1, d2, d3, d4 et d5 impliquent les mesures

17
correspondantes à leurs termes les plus fréquents (selon les mesures tf.idf précédentes). La
similarité entre requête q et ensemble de phrases di (i= 1,..,4) est donnée par :

Cos (d1, q) = cos (x1) = 0.208/1 ≅ 0.2 d’où x1≅78.5° ; Cos (d2, q) = cos (x2) = 0.14/1 ≅ 0.14
d’où x2≅82° ; Cos (d3, q) = cos (x3) = 0.12/1 ≅ 0.12 d’où x3≅83.1° ; Cos (d4, q) = cos (x4) =
0.11/1 ≅ 0.11 d’où x4≅83.7°; Cos (d5, q) = cos (x5) = 0.06/1 ≅ 0.06 d’où x5≅86.6°.

Soit la représentation approximative suivante :

Figure 40. Représentation vectorielle.

5. Conclusion

La recherche d’information se compose de trois parties essentielles, il s’agit de : la


construction de la requête, la construction de la réponse de cette requête et l’évaluation de
résultats. Ce type de procédure est fondé sur deux pôles essentiels, l’utilisateur et le SRI. Ces
pôles représentent la clé et la porte de chaque opération de la recherche. Le SRI a pour but de
traiter les documents et distinguer les plus pertinents par rapport à une requête formée par un
utilisateur qui veut satisfaire son besoin. Le souci de cet article et d’aider l’utilisateur pour
traiter la majorité des documents web (cluster de documents) et d’enrichir des requêtes dans la
langue arabe à partir des formules définitoires, et pour réaliser cette tâche nous employons des
méthodes et modèles pour classer les termes proches à partir de leurs poids, puis leurs degrés
de pertinence.

Cette technique nécessite le développement et plus d'enrichissement, et pour cela nous avons
décidé de poursuivre la recherche dans cette piste et d’utiliser des méthodes efficaces qui
17
consistent à enrichir les requêtes à partir d’ontologies de domaine pour trouver les concepts
des différents termes, qui correspondent aux termes définitoires d’un certain mot dans une
requête. Cette dernière proposition est l'objet de notre étude dans un article ultérieur.

Conclusion générale

Nous avons proposé un modeste travail, qui comporte deux piliers fondamentaux d’une
recherche basée sur une partie de linguistique qui aboutit étroitement à travers l’objet de
traitement avec une autre partie informatique sur la recherche d'information. Ce fruit étant
représenté par : le traitement automatique de la langue arabe (TALA) pour la recherche
d’information (RI) sur le web.

Le travail que nous avons proposé dans cette thèse est met l'accent sur les méthodes pour
traiter une masse de problèmes dans les domaines morphologiques, syntaxiques et
sémantiques en langue arabe.

Le traitement automatique de la langue arabe a pour objectif d’informatiser les règles


grammaticales et syntaxiques pour générer des règles sémantiques et enfin, pour enrichir les
connaissances de l’utilisateur dans ces domaines.

Nous avons commencé par une introduction qui comporte des définitions et des points de
vues de quelques chercheurs sur le traitement automatique de la langue naturelle (TALN) en
général et du traitement automatique de la langue arabe (TALA) en particulier.

Ensuite, nous avons présenté une étude linguistique sur les niveaux d’analyse. Dans ces
domaines nous avons réalisé une analyse morphologique où nous avons précisé les différents
aspects et caractéristiques représentées par une étude sur les parties de morphèmes et de
lexèmes ainsi que la complexité des termes aux niveaux orthographique, phonologique et
grammaticaux. A la suite de ces notions morphologiques dans ce niveau d’étude, l’analyse a
comporté des détails sur les difficultés de la morphologie flexionnelle et dérivationnelle. Dans
la partie de la morphologie flexionnelle, nous avons étudié les flexions des verbes, et ce qui
intéresse les variations sur les verbes en personne, nombre, genre, temps, voix et mode, entre
autres possibilités. Ainsi nous avons analysé les flexions des noms arabes qui sont confirmés
par la déclinisation nominale et qui comportent les trois cas différents : la nominative "‫"الرفع‬
(arrafaâ), l’accusative "‫( "النصب‬annasub) et la génitive "‫( "الجر‬aljaàr).

17
Dans la partie de la morphologie dérivationnelle, l’étude s’est focalisée sur la relation entre
les lexèmes considérés comme des éléments appartenant au même ensemble (même famille
de mots).

Puis nous nous sommes penchés vers un autre niveau d’analyse représenté par l’analyse
syntaxique, en citant dans ce cas, plusieurs approches concrètes de différents auteurs (Horst
Isenberg, Harweg, Irena Bellert et autres).

Nous avons présenté à la suite, une étude sémantique comme un pivot dans notre travail,
tant que l’ambigüité morphologique domine d’une manière intensive en langue arabe et que la
majorité des approches ne peuvent pas aborder ce phénomène pour proposer des solutions
concrètes et plus pratiques (utilisation des algorithmes, des analyseurs. Etc.), tel que leurs
importances forcées sur l’apport théorique. En rapport avec ce niveau et afin de mettre en
application nos diverses approches, nous avons présenté une technique qui permet de
transformer les noms arabes (noms non propre) en schèmes puis de détecter leurs sémantiques
par le système d’automate à l’état fini déterministe (AEFD).

Nous avons réalisé comme dernier niveau d’analyse une étude pragmatique où nous avons
démontré l’insuffisance de l’influence sur ce domaine.

En langue arabe l’étude pragmatique est plus compliquée si l’on compare ce domaine avec
l’espace sémantique au contexte du traitement automatique, et qui est plus confuse aussi que
la morphologie et la syntaxe.

Nous avons proposé une autre approche qui utilise la technique d’automate à état fini
déterministe (AEFD), et qui combine l’analyse morphologique avec l’analyse syntaxique et
qui a pour objectif de trouver les significations des noms arabes à la base de leurs schèmes, en
prenant en considération les termes qui sont unifiés aux niveaux de schèmes et dés unifiés aux
niveaux sémantiques. Dans ce dernier cas, nous avons présenté une autre méthode d’analyse
fondée sur l’étude contextuelle pour obtenir les sens des noms à partir du contexte.

Puis, nous avons abordé à la suite dans un paragraphe d’étiquetage concernant la langue
arabe, où nous sommes basés en détails sur trois approches : symbolique, statistique et
hybride. Notre contribution dans ce paragraphe est exprimée par une méthode basée sur le
système (AEFD) pour étiqueter les mots arabes, en nous appuyant sur les différentes règles
grammaticales, où nous avons utilisé toutes les parties morphémique de mots, soit collées par
les mots (comme les affixes et les clitiques) ou séparées (comme les particules de
prépositions, les particules de conjonctions etc.). L’utilisation de ces parties morphémiques a

17
pour objectif de discriminer les catégories des mots (nom, verbe ou particule), leurs genres
(féminin ou masculin) et leurs nombres (singulier, duel ou pluriel). Et grâce à cette approche,
nous avons extrait une autre méthode qui permet d’effectuer une analyse morphosyntaxique
des mots arabes par le système automate à état fini déterministe.

Dans la dernière partie de la tâche étiquetage nous avons contribué par un sous algorithme
enrichi par une architecture pour pousser le traitement arabe associé par ce domaine.

Nous avons étudié en détails la tâche de la racinisation en langue naturelle, en se penchant


sur les difficultés qui sont liées étroitement à la morphologie linguistique. Ensuite nous avons
abordé la particularité de la langue arabe, en entourant les difficultés de racinisation dans cette
langue. Ces difficultés sont apparues essentiellement à cause des affixations, de la
manipulation des mots composés fréquentés dans les textes par la plus part des analyseurs
morphologiques. Ainsi que la caractéristique exceptionnelle de la langue arabe qui permet
d’affleurer forcement plusieurs problèmes au niveau de la racinisation, d'autant plus que
l'arabe est une langue infixée qui comporte plusieurs mots comportant des infixes. En ce qui
concerne les problèmes de la racinisation arabe, nous avons proposé un autre phénomène qui
a dominé les textes arabes, il implique les outils utilisés dans les verbes à l’inaccompli (‫)أنيت‬.

Ce phénomène peut être associé par la difficulté d’affixation.

Et pour enrichir cette partie de racinisation, nous avons exposé les diverses approches
proposées par des chercheurs, tels que les algorithmes et les analyseurs permettant de
supprimer les affixes des mots arabes. Par exemples : l’algorithme (Al-Stem) de Karim
Drwich, l’algorithme de Aitao Chen et Frederic Gey qui a de la même fonction que (Al-
Stem), l’algorithme de Leah Larkey, l’analyseur de Tim Buckwalter et l’analyseur de
Seebowi crié par Karim Drwich, l’algorithme de Keneth Beesley et l’approche de Shereen
Khoja représenté par un analyseur qui permet d’éliminer les affixes et chercher les schèmes
correspondants afin d’extraire les racines à la base d’une liste contenant plusieurs autres
racines.

L'un des objectifs de cette partie est d’identifier les domaines de la recherche d’information,
de remédier aux problèmes associés et d’analyser les différents niveaux proposés en ce qui
concerne l’enrichissement des requêtes utilisateurs.

Dans ce travail de thèse nous avons commencé par des concepts et processus de base de RI,
où notre tâche s’est focalisée sur les domaines fondamentaux de RI :

17
- Le processus de RI. Dans ce domaine, l’étude se compose de trois processus élémentaires,
telle que la requête, exprimée par une question posée par un utilisateur basé sur ses besoins
d’information ; cluster ou collection des documents, défini par la construction d’une réponse
basée sur la requête correspondante ; décision des documents restitués ce qui explique
l’évaluation de la réponse.
- Documents et collection de documents. dans ce cas nous avons parlé d’un ensemble
d’informations dans un répertoire paramétré et qui peut être manipulé par le système de
recherche d’information, cet ensemble est nommé collection de documents et comporte un
cluster d’informations organisées, constitué par un ensemble de termes index associés à des
poids et exploités par le SRI pour les comparer avec une autre représentation interne de la
requête.
- Besoins en information. Nous avons exposé dans ce domaine les trois types de besoins selon
Ingwersen : 1) Besoin vérificatif, tel que quand l’utilisateur cherche à vérifier le texte avec les
données possédées. L’objectif de ce type de besoin est de rechercher une information stable.
2) Besoin thématique connu, l'utilisateur cherche à clarifier, et à trouver de nouvelles
informations dans un sujet et domaine connus. Le besoin dans ce cas peut être stable ou
variable. 3) Besoin thématique inconnu, dans ce type, l’utilisateur cherche de nouveaux
concepts ou de nouvelles relations hors des sujets ou domaines qui lui sont familiers. Le
besoin est intrinsèquement variable.
- La pertinence. C’est un facteur essentiel dans la recherche d’information et nous avons
souligné que cet élément représente une adéquation entre les documents pertinents et la
requête utilisateur à la base d’une vérification par un modèle de comparaison géré par le SRI.

Nous avons détaillé aussi, les différents types de modèles de recherche d’information RI,
tels que : le modèle booléen qui se base sur les trois opérateurs logiques et se caractérise par
une faiblesse au niveau de la performance, lorsqu’on le compare aux autres modèles de
RI. Le modèle vectoriel et qui consiste spécialement à la pondération des termes de
documents grâce à une formalisation géométrique. Dans ce modèle les documents et les
requêtes sont représentés sur un plan vectoriel avec les coordonnés 0 et 1. La plupart des
travaux s’appuyaient sur le modèle vectoriel pour calculer la similarité entre un document et
une requête grâce à sa précision, sa simplicité et son rendement au niveau de la mesure. Le
dernier modèle discuté dans notre travail est celui dit probabiliste, qui introduit la technique
de probabilité pour désigner les documents pertinents ou non pertinents.

Tout d'abord, nous avons montré l'importance de la similarité entre requête et documents et
à propos de ça, nous avons présenté une approche basée sur des techniques permettant de

17
calculer la similarité entre la requête et l’ensemble de phrases. Puis nous avons contribués par
notre méthode à calculer algébriquement cette similarité en utilisant la méthode cos, de plus
nous avons représentés géométriquement les résultats à la base de la représentation
vectorielle. Et pour enrichir cette approche nous avons utilisés encore, une représentation
graphique (graphe bipartite) symbolisée par deux couches de nœuds (couche supérieur :
nœuds termes, et autre inférieur : nœuds phrases) associés par des liens qui permettent de
mettre en valeur par les poids, les termes apparaissant dans les phrases.

En outre, nous avons soulignés la représentation de la similarité entre une requête qui contient
un certain mot-clé et les documents contenant des phrases qui comportent aussi des termes qui
apparaissent selon leurs fréquences (nous avons considéré les phrases comme des documents).

Dans notre contribution à la recherche d’information en langue arabe nous avons insistés sur
une partie du requêtage, qui concerne la formulation et la reformulation des requêtes pour
chercher les définitions pertinentes des termes inclus dans ces requêtes, et identifier les
formes définitoires attribuées à ces termes. Les définitions des mots clés dans une requête,
sont indexées sous forme de termes ou de phrases (index) dans les documents visés et
classifiés (Ranking) par le (SRI). Le souci d’un utilisateur qui exécute une requête adéquate à
son besoin en information, est de trouver une réponse pertinente à chaque terme demandé
dans la requête. Cette réponse est attachée fréquemment à une requête qui exprime le besoin
d’un utilisateur et motive sa recherche pour l’accès à une information demandé avec une
valeur de pertinence. Le degré de pertinence peut être élevé à la base de l’amélioration de la
requête reformulée par un utilisateur. Les réponses restituées sont regroupées et mesurées
pour déterminer leurs importances à la base de leurs fréquences et de leurs poids dans le
document et la collection. Le processus de calcul se repose sur le produit de deux fonctions
mathématiques Tf. Idf : si ce produit est plus élevé, le terme associé est important. Le mot-clé
de la requête peut être associé par plusieurs termes proches. Pour cela, nous pouvons exploiter
ces résultats pour une autre approche ayant pour objectif l’enlèvement de l’ambiguïté des
textes arabes. Tel que les définitions des mots liés par des requêtes qui peuvent identifiés les
sens des textes arabes, si ces derniers contiennent ces définitions aux contextes.

17
18
18
Bibliographie
[1] Bonnel N. et Moreau F. (2005). Quel avenir pour les moteurs de recherche? Actes de
MajecSTIC ’05.
[2] Benséfia A., Paquet T. et Heutte L. (2003). Documents Manuscrits et Recherche
d'Information, Revue Document Numérique, vol. (7) : 47-60.
[3] El Habib Ben Lahmar et al. « Enrichissement sémantique des requêtes multi-mots », The5th
International Conference on Information and Communication Technologies for Amazigh,
Rabat.
[4] Tazzite, N., Yousfi, A., Bouyakhf, H. Conception et réalisation d’un système de recherche
d’informations intégrant des connaissances sémantiques dans la phase d’indexation.NTIC’08,
Les Technologies de l’information: statuts ET opportunités pour l’amazighe. Rebat,
MAROC. Retrieved from 28 Nov 2008. 2008.
[5] Gasmi, M. Utilisation des ontologies pour l’indexation automatique des sites Web en
Arabe. Mémoire de magister, Université Kasdi Merbah Ouargla. 2009.
[6] CHOMSKY N., 1975, Introduction 1973, The logical structure of linguistic theory, Chicago:
The University of Chicago Press.
[7] Mohammed El Amine ABDERRAHIM, « Reconnaissance des unités linguistiques signifiantes »,
thèse de Doctorat, Université Abou Bekr BELKAID TLEMCEN, Algérie, 08 Juillet 2008.
[8] J-H. JAYEZ, Compréhension automatique du langage naturel le cas du groupe nominal en
français, Masson, 1985.
[9] BENLAHMAR EL Habib. (2006). A New Solution for Data Extraction: GENE/LONE
Method, IJCSNS International Journal of Computer Science and Network Security, Vol 6, N°
7.
[10] Christian Jacquemin, Pierre Zweigenbaum, « Traitement automatique des langues pour l’accès
au contenu des documents ». In Jacques Le Maître, Jean Charlet et Catherine Garbay, éditeurs,
Le document en sciences du traitement de l’information, chapitre 4, pages 71–109. Cepadues,
Toulouse, 2000.
[11] Hoceini Y.: Un système d’analyse morphologique de la langue arabe, mémoire magister,
école nationale supérieure d’informatique, (2002).
[12] Lamia Hadrich Belghuith, Nouha Chaalan, « analyse et désambiguisation morphologiques
de textes arabes non voyellés », TALN 2006, leuven, 10- 13 avril 2006.
[13] Alain Polguère, « Notions de base en lexicologie », Observatoire de Linguistique Sens-Texte
(OLST), Université de Montréal Montréal (Québec), août 2001.
[14] Zwicky, A. M. (1977): On clitics. Bloomington: Indiana University Linguistic Club.
[15] Zwicky, A. M. & G. K. Pullum (1983): Cliticization vs. Inflection : English n’t. Language
59: 502–513.
[16] Miller, Philip H. et Ivan A. Sag. 1995. ‘Une analyse lexicaliste des affixes pronominaux
en Français’. Revue québécoise de linguistique 24:135-171.
[17] Miller, Philip H. et Ivan A. Sag. 1997. ‘French clitic movement without clitics or movement’.
Natural Language and Linguistic Theory 15:573-639.
[18] Christophe Parisse. La morphosyntaxe : Qu’est ce qu’est ? - Application au cas de la
langue Française? Réeducation Orthophonique, 2009, 47 (238), pp.7-20.
[19] Blachère et M.Gaudefroy-Demombynes, Grammaire de l’arabe classique (morphologie
et syntaxe), G.P. Maisonneuve & Larouse, Editeurs à Paris, 508 p. (1975).
[20] Slim Mesfar, « Analyse morpho-syntaxique automatique et reconnaissance des entités nomées
en arabe standard », Thèse de doctorat, Université Franche –Comte, le 24 nouvembre 2008.
[21] M. Chairet, « fonctionnement du système verbal en arabe et en français », Gap, Ophrys, 1996.
[22] Dina EL kassas, « une etude contrastive de l’arabe et du français dans une perspective de generat-
ion multilingue », thèse de doctorat, soutenue le 16 décembre 2005.
[23] Rey-Debove, J. 1984. Le domaine de la morphologie lexicale. Cahiers de lexicologie, no 45, p. 3-
19.
[24] Singson, M., Mahony, D. et Mann, V. A. 2000. The relation between reading ability and morpho-
logical skills: Evidence from derivational suffixes. Reading and Writing: AnInterdiscipli-
nary Journal, vol. 12, no 3-4, p. 219-252.
[25] Carlisle, J. F. 2000. Awareness of the structure and meaning of morphologically complex words
:Impact on reading. Reading and Writing: An Interdisciplinary Journal, vol. 12, no 3-4, p. 169-
18
190.
[26] Doris Allard, « connaissances lexicales et en morphologie dérivationnelle chez des apprenants

18
adultes avancés en français langue seconde », Mémoire en Juillet 2008.
[27] A. Aho, R. Sethi & J. Ullman : « COMPILATEURS: Principes, techniques et outils », Inter- Edit-
ions, 1989.
[28] Isenberg, H. Uberlegungen zur Texttheorie. ASG – Bericht 2, 1968.
[29] François-Régis Chaumartin, Sylvain Kahane, « Une approche paresseuse de l’analyse
sémantique ou comment construire une interface syntaxe-sémantique à partir d’exemples »,
Modèle de document pour TALN 2008.
[30] Harweg, R. Pronomina und textkonstitution. München, 1968, 392 p.
[31] Bellert, I. On a condition of the coherence of texts. In : semiotica 2, 1970, p. 335 – 363.
[32] MEL’CUK I. (1988a). Dependency Syntax: Theory and Practice, SUNY Press, Albany.
[33] CANDITO M.-H., KAHANE S. (1998). Can the derivation tree represent a semantic graph?
An answer in the light of Meaning-Text Theory”. Actes de TAG+4, Philadelphie, 21-24.
[34] KAHANE S. (2002). Grammaire d’Unification Sens-Texte : Vers un modèle mathématique
articulé de la langue naturelle, Document de synthèse de l’Habilitation à diriger des recherches,
Université Paris 7.
[35] MEL’ČUK I. (1988b). Paraphrase et lexique dans la théorie linguistique Sens-Texte : vingt ans
après, Revue internationale de lexicologie et lexicographie, Vol. 52/53, pp. 5-50/5-53.
[36] MILIĆEVIĆ J. (2007). La paraphrase - Modélisation de la paraphrase langagière. Bern : Peter
Lang.
[37] IORDANSKAJA L., KITTREDGE R., POLGUÈRE A. (1988). Implementing a Meaning-Text
Model for Language Generation. Actes de COLING 1998.
[38] BOHNET B., WANNER L. (2001). On using a parallel graph rewriting formalism in
generation. Actes du Workshop on Natural Language Generation, ACL 2001, Toulouse.
[39] APRESJAN J. ET AL. (2003). ETAP-3 Linguistic Processor: a Full-Fledged NLP
Implementation of the MTT. Actes de MTT, Paris, 279-288.
[40] COPESTAKE A. (2009). Slacker semantics : Why superficiality, dependency and avoidance
of commitment can be the right way to go. Actes d’EACL 2009, Invited Talk, 1–9, Athènes .
[41] BEDARIDE P., GARDENT C. (2009). Semantic Normalisation: a Framework and an
Experiment. Actes d’IWCS’09: 8th International Conference on Computational Semantics,
Tilburg, Netherland.
[42] Lita Lundquist , « La cohèrence textuelle : Syntaxe, Sémantique, Pragmmatique », Nyt
Nordisk Forlag Arnold Busk, Kobenhavn 1980.
[43] Dubois, J. et al. Dictionnaire de linguistique. Paris, 1973, 516 p.
[44] Moeschler, J. et Reboul, A. (1994). Dictionnaire encyclopédique de pragmatique. Paris : Seuil
[45] Trognon, A. et Ghiglione, R. (1993). Où va la pragmatique ?. Grenoble : Presses Universitaires
de Grenoble.
[46] Verschueren, J. (1998). Understanding pragmatics. London : Edward Arnold.
[47] Verschueren, J., Östman, J-A. et Blommaert, J. (Eds.). (1995). Handbook of
Pragmatics, Amsterdam: John Benjamins Publishing Compagny.
[48] Bernicot, J. (2000). La pragmatique des énoncés chez l’enfant. In M. Kail et M. Fayol
(Eds.), L’acquisition du langage, Tome 2. (pp 45-82). Paris : Presses Universitaires de
France.
[49] James, William. (1911). Le pragmatisme. Paris : Flammarion.
[50] EL Habib BENLAHMAR, Adil ENAANAI, Aziz SDIGUI DOUKKALI, « An hybrid method for
the Arabic queries disambiguasation to improve the relevance calculation in the IRS ». (IJACSA)
International Journal of Advanced computer science and applications, vol.3, NO.5, 2012.
[51] J. Dichy, pour une lexicomatique de l’arabe : l’unité lexicale simple de l’inventaire du mot,
META – Journal de traduction, vol. 42, n° 2, pp. 291-306,(1997).
[52] Ramzi ABBES, Malek BOUALEM ICAR(2008), « Dissymétrie entre l’indexation des
documents et le traitement des requêtes pour la recherche d’information en langue arabe ».TALN
2008, Arigon13 juin 2008.
[53] Nina Catach, Nathan. L'orthographe française, QCM Français Mathématiques. J. Fournier-
Bergeron et al. 2005. Hatier. Paris.
[54] Siham Boulaknadel, «Utilisation des syntagmes nominaux dans un système de recherche
d’information en langue arabe » LINA FRE CNRS 2729- Université de Nantes cedex 03.
[55] Ahmed Hamdi (2012), « Apport de la diacritisation dans l’analyse morphosyntaxique de
l’arabe ». Actes dela conférence conjointe JEP-TALN-RECITAL 2012, volume 3,RECITAL,
18
page 247-254, Grenoble, 4au 8juin 2012.

18
[56] D. Cohen, Essai d’une analyse automatique de l’arabe. Dans : David Cohen. Etudes de liguistique
sémitique et arabe. Paris : Mouton, p. 49- 78, (1970).
[57] Slim MESFAR, « Analyse lexicale et morphologique de l’arabe standard la platforme
linguistique Nooj ». Actes de la 13ème conférence sur le TALN RECITAL/TALN 2006, presses
université de Louvain Louvain- la- Neuve, Belgique, Avril 2006.
[58] S. Baloul, M. Alissali, M. Baudry, P. Boula de Mareüil, « Interface syntaxe-prosodie dans un
système de synthèse de la parole à partir du texte en arabe ». Laboratoire d'Informatique de
l',Université du Maine, F-72085, Le Mans CEDEX 9; LIMSI-CNRS, F-91403, Orsay CEDEX;
Elan Informatique, F-31400, Toulouse.
[59] FRANCOIS, D. & F. FRANCOIS. 1968. L’ambiguïté linguistique. Word 23.
[60] Catherine Fuchs. L’ambiguïté : du fait de langue aux stratégies interlocutives. L’ambiguïté, Jun
2009, Nanterre, France. 50, pp.3-16, 2009.
[61] MARTIN, R. 1972. Esquisse d’une analyse formelle de la polysémie. Travaux de Linguistique
et de Littérature 10. 125-136.
[62] MARTIN, R. 1979. La polysémie verbale : esquisse d’une typologie formelle. Travaux de
Linguistique et de Littérature 17. 251-261.
[63] FUCHS, C. 1994. Paraphrase et énonciation. Paris : Ophrys.
[64] VICTORRI, B. & C. FUCHS. 1996. La polysémie : construction dynamique du sens.
Paris : Hermès.
[65] Francis Bédard, Hélène Bodson et Jessica Hould-Fortin, « Le traitement des ambiguïtés
syntaxiques en contexte chez les bilingues », Colloque des étudiantes et étudiants en sciences
du langage 2011.
[66] Cuetos, F., et Mitchell, D.C. (1988). Cross-linguistic differences in parsing : Restrictions on
the use of late closure strategy in Spanish. Cognition, 30, 73-105.
[67] C. Aloulou, Un modèle multi-agent pour l’analyse syntaxique de la langue arabe, Thèse de
doctorat en Informatique, Ecole Nationale des Sciences de l’Informatique de Tunis, Juin 2005.
[68] Fodor, J. D. (1998). Learning to parse? Journal of Psycholinguistic Research, 27(2), 285-319.
Ford, M., Bresnan, J. W., & Kaplan, R. M. (1982). A competence based theory of syntactic
closure. In J. W. Bresnan (Ed.), The mental representation of grammatical relations, (pp. 727-
796). Cambridge, MA: MIT Press.
[69] Quinn, D., Abdelghany, H., & Fodor, J. D. (2000). More evidence of implicit prosody in silent
reading: French, English, and Arabic relative clauses. Poster presented at the 13th annual
CUNY conference on human sentence processing, La Jolla, March 30- April 1.
[70] Schafer, A., Carter, J., Clifton, C., & Frazier, L. (1996). Focus in relative clause
construal. Language and Cognitive Processes, 11(1/2), 135-163.
[71] CHOMSKY N., 1972 – Studies on Semantics in Generative Grammar, La Haye: Mouton & Co.,
NV. Publishers (trad. fr. Questions de sémantique, Paris: Seuil, 1975).
[72] Paroubek, P., Rajman, M. (2000). « Etiquetage morpho-syntaxique ». In Pierrel, J.-M. (ed.),
Ingéniérie des langues, Informatique et systèmes d'information, ch. 5, pages 131-150. Hermès
Science, Paris.
[73] Catherine Fuchs, Benoît Habert, « Introductionle traitement automatique des langues : des
modèles aux ressources », Article paru dans Le Français Moderne LXXII : 1, 2004.
[74] Reinert, M. (1996). « Un logiciel d'analyse lexicale : ALCESTE ». Les cahiers de
l'Analyse des Données, (4):471-484.
[75] Véronis, J. (2000b). « Annotation automatique de corpus : panorama et état de la technique ». In
Pierrel, J.-M. (ed.), Ingéniérie des langues, Informatique et systèmes d'information, ch. 4, pages
111-130. Hermès Science, Paris.
[76] Slodzian, M. (1999). « WordNet et EuroWordNet : questions impertinentes sur leur pertinence
linguistique ». Sémiotiques, (17):51-70. Dépasser les sens iniques dans l'accès automatisé aux
textes, B. Habert (resp.).
[77] Fellbaum, C. (ed.) (1998). WordNet: an electronic lexical database. Language, Speech and
Communication. The MIT Press, Cambridge, Massachusetts.
[78] Fellbaum, C. (1999). « La représentation des verbes dans le réseau sémantique WordNet ».
Langages, (136):27-40. Sémantique lexicale et grammaticale - Yvette Yannick Mathieu (ed.).
[79] Christelle Tiana Rabary, Thomas Lavergne, Aurélie Névéol, « Etiquetage morpho-syntaxique en
domaine de spécialité: le domaine médical », 22ème Traitement Automatique des Langues
Naturelles,Caen, 2015.
18
[80] Ahmed Amrani, Yves Kodratoff, Oriane Matte-Tailliez, « Un systéme dédié à l’étiquetage
morpho- syntaxique des corpus de spécialité », 22 actes de CIFT 2004, pages 21 à 32.
[81] Brill, E. (1994) Some Advances in Transformation- Based part of Speech Tagging, AAAI, vol.
l, pp 722-727.
[82] Dhaou Ghoul. Outils génériques pour l'étiquetage morphosyntaxique de la langue arabe : segmen-
tation et corpus d’entraînement linguistique 2011Grenoble 3-UFR des Sciences du langage.
[83] Sigogne Anthony, « De l'étiquetage morpho-syntaxique au super-chunking : Levée d'ambiguïtés à
l'aide de méthodes hybrides et de ressources lexicales riches » laboratoire d'informatique de
l'institut Gaspard Monge, 2009.
[84] Anne Abeille, Lionel Clement and Fabien Toussenel. 2001. ''A treebank for French: some experi-
mental results''. In Corpus Linguistics Conference, CL01, Lancaster.
[85] Jaakkola T., M. Diekhans, D. Haussler (1999). Using the Fisher kernel method to detect
remote protein homologies. International Conference on Intelligent Systems for Molecular
Biology.
[86] Bahlmann C., B. Haasdonk, H. Burkhardt (2002). On-line Handwriting Recognition using
Support Vector Machines - A kernel approach. International Workshop on Frontiers in
Handwriti- ng Recognition.
[87] Moreno P. J., P.P. Ho, N. Vasconcelos (2003). A Generative Model Based Kernel for SVM
classi- fication in Multimedia applications. NIPS.
[88] Do T.M.T. (2005). Champs de Markov conditionnels pour le traitement de séquences.
Rapport de stage, Master Recherche, Université Paris 6, Septembre 2005.
[89] Scott M. Thede and Mary P. Harper. 1999. ''A second-order Hidden Markov Model for part-of-
speech tagging'' In proceedings of the 37th annual meeting of the Association for
Computational Linguistics on Computational Linguistics, College Park, Maryland : pp. 175-
182.
[90] Thorsten Brants. 2000. ''TnT - A statistical part-of-speech tagger''.
[91] Helmut Schmid. 1995. ''Probabilistic part-of-speech tagging using decision trees''.
[92] TLILI-GUIASSA Y. (2006). Hybrid Method for Tagging Arabic Text. Journal of
Computer Science 2(3): 245-248.
[93] LIN J., VITTER S, J., HELLERSTEIN L. (1994). A Theory for Memory-Based Learning.
Machine Learning 17(2-3): 143- 167.
[94] ZRIBI C., TORJMEN A., BEN AHMED M. (2006). An Efficient Multi-agent System Combining
POS- Taggers for Arabic Texts. In Proceedings of 7th international conference of Computational
Linguistics and Intelligent Text Processing, LNCS Volume 3878, Springer, 121-131.
[95] COLLINS M. (2002). Discriminative training methods for hidden Markov models: theory
and experiments with perceptron algorithms. In Proceedings of the ACL-2 nd conference on
Empirical methods in natural language processing, Stroudsburg, PA, USA, 1-8.
[96] KHOJA SH. (2001). APT: Arabic part-of-speech tagger. In: Proceedings of Student Workshop at
the Second Meeting of the North American Association for Computational Linguistics, Carnegie
Mellon University, Pennsylvania, USA.
[97] FORNEY G.D. (1973). The Viterbi algorithm. Proceedings of IEEE 61: 268-278.
[98] FETTWEIS G., MEYR H. (1991). High-speed parallel Viterbi decoding: algorithm and
VLSI- Architecture. IEEE Communications Magazine, 46- 55.
[99] Anthony Sigogne, « HybridTagger : un étiqueteur hybride pour le Français », MajecSTIC. Actes
de Majec- STIC 2010, Oct 2010, Bordeaux, France. pp.8.
[100]S. Paumier. Unitex manual. In http ://igm.univ-mlv.fr/ unitex/UnitexManual2.0.pdf, Université
Paris-Est, 2008.
[101] Yacine El Younssi, « Vers un méta-moteur de recherche en langue arabe : Racinisation et extens-
ion de requêtes», thèse de doctorat, Université Hassan II, Faculté des sciences Ben m’sik, Casa,
Maroc.
[102] Fadoua Ataa Allah Siham Boulaknadel, « Pseudo-racinisation de la langue amazighe »,TALN
2010, Montréal, 19-23 juillet 2010.
[103] El Habib BEN LAHMAR, Yacine ElYunoussi, Abd Elaziz SDIGUI DOUKKALI, « la racinisat-
ion de la langue arabe par l’automate à l’état fini déterministe : un seul mot, plusieurs racines »,
Journal of Computer Science and Engineering, in Arabic–vol 3 2009.
[104]R. Krovetz. "Viewing morphology as an inference process," in R. Korfhage et al., Proc.16th
ACM SIGIR Conference, Pittsburgh, June 27-July 1, 1993; pp. 191-202.
18
[105] Union Latine-Furnredes. Langues et cultures sur la Toile 2007, Paris, 2007. http:
//dtil.unilat.org/ 2007/index_fr.htm.

18
[106]Daniel Prado, « Présence des langues dans le monde réel et le cyberespace », un article de
l’ouvra- ge coordonné par le réseau MAAYA, Net. Lang, réussire le cyberespace multilingue, En
librairie ou sur http://cfeditions.com.
[107]Hassoun, Mohamed, Dichy, Joseph et Abbès, Ramzi : « Traitement de l’arabe écrit et web
arabe, l’apport de l’équipe lyonnaise SILAT», contribution à l’Atelier sur les contenus arabes
sur la
Toi-le (Arabic Content on the Internet) organisé par la Société syrienne d’informatique
(Syrian Comp- uter Society), Damas, les 13-14 Avril 2008. Présentation orale non publiée.
[108]Joseph DICHY. 1984/89. “Vers un modèle d’analyse automatique du mot graphique non
vocalisé en arabe”, in Dichy et Hassoun, eds., 1989: 92-158.
[109]Joseph DICHY.1990. L’Écriture dans la représentation de la langue : la lettre et le mot en arabe.
Thèse d’État (en linguistique), Université Lumière-Lyon 2.
[110]Joseph DICHY. 1997. “Pour une lexicomatique de l’arabe : l’unité lexicale simple et
l’inventaire fini des spécificateurs du domaine du mot”. Meta 42, printemps 1997, Québec,
Presses de l’Univ- ersité de Montréal: 291-306.
www.erudit.org/revue/meta/1997/v42/n2/002564ar.pdf.
[111]Joseph DICHY, Abdelfattah BRAHAM, Salem GHAZALI, Mohamed HASSOUN. 2002. “La
base de connaissances linguistiques DIINAR.1 (DIctionnaire INformatisé de l’Arabe, version
1)”, in Abdelfattah Braham, ed. Colloque international sur le traitement automatique de l’arabe-
Proc- of the International Symposium on The Processing of Arabic (Avril 18-20, 2002). eedings
Université de la Manouba, Tunis (en Arabe, Français et Anglais).
[112]Joseph DICHY et Mohamed HASSOUN, 2005. « The DIINAR.1-« ‫ » معالي‬Arabic Lexical
Resource, an outline of contents and methodology », in The ELRA Newsletter, Vol. 10,
n°2, April-June 2005, pp. 5-10.
[113]Mohamed HASSOUN.1987. Conception d’un dictionnaire pour le traitement automatique
de l’arabe dans différents contextes d’application. Thèse d’État, Université Lyon 1.
[114]Najim ABU AL-CHAY. 1988. Un Système expert pour l’analyse et la production des verbes
arabes dans une perspective d’Enseignement Assisté par Ordinateur. Thèse de doct.
Université Lyon 1.
[115]Nabil GADER. 1992. Conception et réalisation d’un prototype de correcteur orthographique
de l’arabe. Mémoire de DEA en Sciences de l’information et de la communication, ENSSIB/
Univer- rsité Lumière-Lyon 2.
[116]Malek GHENIMA. 1998. Analyse morpho-syntaxique en vue de la voyellation assistée
par ordin- ateur des textes écrits en arabe. Thèse de doct., ENSSIB/Université Lyon 2.
[117]Joseph DICHY.1987. “The SAMIA Research Program, Year Four, Progress and Prospects”.
Proc-essing Arabic Report 2, T.C.M.O., Nijmegen University: 1-26.
[118]Joseph DICHY. 2000. “Morphosyntactic Specifiers to be associated to Arabic Lexical Entries –
Methodological and Theoretical Aspects”. Proceedings of ACIDA’ 2000 (Monastir, Tunisia, 22-
24.03.00), Corpora and Natural Language Processing volume: 55- 60.
[119]Joseph DICHY et Ali FARGALY. 2007. “Grammar-lexis relations in the computational
morphol- ogy of Arabic”. In Abdelhadi Soudi, Guenter Neumann and Antal Van den Bosch,
eds., Arabic Computational Morphology: Knowledge-based and Empirical Methods, Dordrecht:
Kluwer/ Spri- nger (series on Text, Speech, and Language Technology), chapter 7, p. 115-140.
[120]Jean-Pierre DESCLÉS, dir. 1983. (H. Abaab, J.-P. Desclés, J. Dichy, D.E. Kouloughli,
M.S. Ziadah). Conception d’un synthétiseur et d’un analyseur morphologiques de l’arabe,
en vue d’une utilisation en Enseignement assisté par Ordinateur, Rapport rédigé à la
demande du Ministère des Affaires étrangères.
[121]Habash N., Arabic Natural Language Processing, Synthesis Lectures on Human
Language Technologies, organ & Claypool Publishers, 2011.
[122]Ben LAHMAR El Habib, Abd Elaziz SDIGUI DOUKKALI, " la recherche sur Internet:
nouveau concept- nouveaux outils" in in "The 4th ACS/IEEE International Conference on
Computer Systems and Applications"(AICCSA-06), Mars 2006, Dubai/Sharah, UAE.
[123]Ben LAHMAR El Habib, Abd Elaziz SDIGUI DOUKKALI, El ouerkhaoui Asmaa, "A solution
for data extraction by a new approach :The method of gene/clone", inInternational conference
on information and communication technology for the muslim world 2006(ICT4M) 21-23
Nouvemb- er 2006, Kuala Lumpur ,Malaysia.
[124]Beesley, Kenneth, 2001. Finite-State Morphological Analysis and Generation of Arabic at Xerox
18
Research: Status and Plans in 2001. In ACL 39th Annual Meeting. Workshop on Arabic
Language Processing; Status and Prospect, Toulouse, pp. 1-8

19
[125]Dichy J, Fargaly A (2003): Roots & Patterns vs. Stems plus Grammar-Lexis Specifications: on
what basis should a multilingual lexical database centred on Arabic be built?, Proceedings of
the MT-Summit IX workshop on Machine Translation for Semitic Languages. New-Orleans.
[126]Navigli, R. (2009). Word Sense Disambiguation : a Survey. ACM Computing Surveys 41(2),
ACM Press, 1-69. Ng, T. H. (1997). Getting serious about word sense disambiguation. In
Proceed- ings of the ACL SIGLEX Workshop on Tagging Text with Lexical Semantics: Why,
What and How ? (Washington D.C.), 1–7. Ng, H. T., Lee, H. B. (1996). Integrating multiple
Knowledge sources to disambiguate word sense: An examplar- based approach. Proceedings of
the 34th Annual Meeting of the Association for Computational Linguistics, University of
California, Santa Cruz, California, 40-47.
[127]Ide, N., Véronis, J. (1998). Word sense disambiguation: The state of the art. Computat. Ling. 24,
1, 1–40. Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries
: how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annual international
conference on Systems documentation, SIGDOC '86, NewYork, NY, USA : ACM, 24–26.
[128]Yamina Tlili- Guiassa, Hayat Farida Merouani (2007), « Désambiguïsation sémantique
d’un texte arabe ». Laboratoire LRI/Equipe SRF, Université Badji Mokhtar Annaba.
[129]El Habib BENLAHMAR, El Hassan Labriji, Aziz Chara, Kamel Et Guemmat, Mohamed
Rachdi, « Reformulation des requêtes pour le domaine de l’enseignement, cas des cours de
l’algorithmique ». 5ème conférence internationale sur les TIC pour l’amazighe.
[130]Inès Zribi, Souha Mezghari Hammami, Lamia Hadrich Belguith, « L’apport d’une approche
hybride pour la reconnaissance des entités nommées en langue arabe ».TALN2010, Montréal,
19- 23 juillet 2010.
[131]Abdelatif ASSAID « grammaire de la langue arabe "3 ,'' ‫كتاب‬: ‫المبسطة العربية اللغة قواعد‬ème édition
2006, N° d’édition : 75321.
Morabitte, El [132]Abdelwahed 2010. « 137" ‫ ص‬،‫ السيمياء العامة وسيمياء األدب‬:‫ "كتاب‬,» Fés(MAROC),1èrre
édition
[133]Faaza A, Almarsoomi, James D, O’Shea, Zuhair A, Bandar andKeeley A, Crockett, «Arabic
Word Semantic Similarity », World Academy of Science, Engineering and Technology 70 2012.
[134]S. Ravi, and M. Rada, « Unsupervised graph-based Word sense disambiguation using measures
of Word semantic similarity », In Proceedings of ICSC, 2007.
[135] Baloul S. (2003). « Développement d’un système automatique de la parole à partir du texte arabe
standard voyellé ». Thèse de doctorat de l’université du MAINE, Le Mans, France.
[136] Aïda Khemakhem, Bilel Gargouri, « Modélisation des paradigmes de flexion des verbes
arabes selon la norme LMF - ISO 24613 », TALN 2007, Toulouse, 5–8 juin 2007.
[137] Chergui Mohamed Amine, " une analyse morphologique de la langue arabe basé sur
l’aide multicritère à la décision", CTIC 2012(21 nouvembre 2012), Université d’Adrar,
Algérie.
[138] Tlili-Guiassa, Y.: 2005, "Memory-based-Learning et Base de règles pour un étiqueteur du
Texte Arabe", RECITAL 2005, 6-10 juin Dourdan.
[139] Mohamed A. Attia," Devloping Robust Arabic Morphological Transducer Using Finite State
Technology", The University of Manchester To be submitted to the 8 th annual CLUK Research
Colloquium (2005).
[140] Mohamadi, T.S. Mokhnache," Design and development of Arabic speech synthesis",WSEAS
2002, Greece, Sept. 25-28, (2002).
[141] Bessou Sadik & Touahria Mohamed, " Morphological Analysis and Generation for Machine
Translation from and to Arabic", International Journal of Computer Applications (0975 – 8887),
Volume 18– No.2, March 2001, Sétif- Algeria.
[142] Hammad Ballaoui, El Habib Ben Lahmer, Nasser Labani, "Morph- Syntactic Analysis of
Arabic Words by Deterministic Finite Automaton (DFA)" , Journal of Theoretical and Applied
Information Technology, Vol.88. No.3, JATIT & LLS. All rights reserved, 30th June 2016.
[143] El Habib Ben Lahmer, Abd Elaziz Sdigui Doukkali, Mohammed OUMSIS, " Towards An
Automatic Extraction Of Data from Half- Structured Documents", The second IEEE- EURASIP
International Symposium on Control, Communications, and Signal Processing" (ISCCSP 2006),
Mars 2006, Marrakech, Maroc.
[144] Gilles Hubert, « Recherche d'information et contexte », mémoire en vue de l’obtention de
l’Habilitation à diriger des recherches, soutenue le 9 décembre 2010 à l’UniversitéToulouse 3 –
Paul Sabatier, https://tel.archives-ouvertes.fr/tel-00556791, Submitted on17 Jan 2011.
19
[145]J. Vilares-Ferro, F.M. barcala et m.a. alonso. Using syntactic dependency-pairs conflation to

19
improve retrieval performance in spanish. In Proceedings of the 3th.
[146] Mariam DAOUD, «Accés personnalis´e `a l’information : approche basée sur l’utilisation
d’un profil utilisateur sémantique dérivé d’une ontologie de domaines à travers l’historique des
sessions de recherche», Thèse de Doctorat, univérsité Paul Sabatier de Toulouse, Le 10
décembre 2009.
[147] Salton, G., Automatic Text Processing, The Transformation, Analysis, and Retrieval
of Information by Computer. Addison-Wesley, 1983.
[148]C.J. Van Rijsbergen. « Information Retrieval ». Butterworth-Heinemann, Newton, MA, USA,
2nd édition, 1979.
[149]Ben LAHMAR El Habib, Abd Elaziz SDIGUI DOUKKALI, Mohammed OUMSIS "Méta
recherche générique : vers une génération automatique des moteurs de recherche", in "1ère
Conférence Pleinière du Pôle de Compétence STIC " CoPSTIC’03 Décembre 2003, Rabat Rabat
Maroc.
[150]A. Michard. XML langage et applications. Paris : Eyrolles, 1999.- 361p.
[151] Soraya Zaidi, « Expansion de requête à l'aide d'une ontologie Arabe dans le domaine Juridique »,
Université Badji Mokhtar- Annaba, Thèse 2006 ?, algérie.
[152] Ramzi ABBÈS(1), Malek BOUALEM, « Dissymétrie entre l'indexation des documents et le
traitement des requêtes pour la recherche d’information en langue arabe», TALN 2008, Avignon,
9-13 juin 2008.
[153] Siham Boulaknadel. Traitement Automatique des Langues et Recherche d'Information en langue
arabe dans un domaine de spécialité : Apport des connaissances morphologiques et syntaxiques
pour l'indexation. Thèse de Doctorat, Université de Nantes, France, le 18 Octobre 2008.
[154]O. ALJLAYL, M.AND FRIEDER. On arabic search: Improving the retrieval effectiveness via a
light stemming approach. In 11 the International Conference on Information and Knowledge
Management (CIKM), pages 340–347, Virginia, USA, 2002.
[155] Winograd, Terry, Understanding Natural Language, (191 pp.) New York: Academic Press, 1972.
Also published in Cognit Psychology, 3:1 (1972),pp. 1-191.
[156] Minsky, M., Semantic Information Processing, MIT Press, Cambridge, Massachusetts
(1968). [157]Mustapha BAZIZ, « indexation conceptuelle guidee par ontologie pour la recherche
d’information », Centre National de Recherche Scientifique (UMR 5505) – Institut National
Polytechnique – Université Paul Sabatier, thèse soutenue le 14 décembre 2005.
[158] Richard K. Belew. Finding Out About: A Cognitive Perspective on Search EngineTechnology
and the WWW. New York: Cambridge University Press, 2000. Review published in Information
Retrieval, Vol. 5, Issue 2-3, April-July 2002.
[159] David Genest, Vers un systeme de recherche documentaire base sur les graphes
conceptuels, Laboratoire d’Informatique, de Robotique et de Micro- electronique de
Montpellie, CNRS – Universite Montpellier II, Montpellier cedex 5.
[160] Nawel Nassr, « Croisement de langues en recherche d’information: traduction et
désambiguïsation de requêtes », Centre National de la Recherche Scientifique – Institut National
Polytechnique – Université Paul Sabatier, 118 Route de Narbonne, 31062 Toulouse Cedex.
Thèse soutenue le 09 décembre 2002.
[161]N. J. Belkin, W. B. Croft, Information retrieval and information filtering: Two sides of the same
coin?. CACM, pages : 29-38, 1992.
[162] Abbas Nacira, « vers une extension sémantique de l’analyse formelle de concepts : application à
la recherche d’information », Université Mouloud Mammeri, Faculté de génie électrique et
d’informatique, Tizi- Ouzou, Algérie, thèse soutenue le 03/07/2014.
[163] Dictionnaire de la langue française de Emile Littré 2eme édition (1872-1877).
[164]T. Saracevic. Relevance reconsidered. International Conference on Conceptions of Library and
Information Science (COLIS), 39(3):201–218, 1996.
[165] Soheila KARBASI,« Pondération des termes en Recherche d’Information: Modèle de
pondération basé sur le rang des termes dans les documents », Thèse de Doctorat,
Université Paul Sabatier -Toulouse III, thèse soutenue le 14 Septembre 2007.
[166] Fuhr N. « information retrieval- from information access to contextial retrieval ». In M. Eibl, C.
Wolf, and C. Womser- Hacker, editors, designing information systems. Festschrift für jürgen
krause, pp.47- 57. UVK Verlagsgesellschoft, 2005.
[167] Salton, G.,E . A. Fox, H. Wu. « Extended Boolean information retrieval system». CACM
26 (11), pp. 1022- 1036, 1983.
19
[168] Yaël Champclaux, « Un modèle de recherche d’information basé sur les graphes et les
similarités structurelles pour l’amélioration du processus de recherche d’information », Thèse de
Doctorat, UniversitéToulouse III - Paul Sabatier, le 4 décembre 2009.
[169]P. Ingwersen. « Information retrieval interaction ». London, Taylor Graham, 1992.
[170]Froehlich, T., and Eisenberg, M. Special topic issue on relevance research. Journal of the
American Society for Information Science (JA-SIS) 45, 3 (1994), 124–134.
[171] Mizzaro, S. Relevance : the whole history. Journal of the American Society for Information
Science (JASIS) 48, 9 (1997), 810–832.
[172] Borlund, P., and Ingwersen, P. Measures of relative relevance and ranked half-life : performance
indicators for interactive ir. In Proc. of the International ACM-SIGIR conference (1998), pp. 24–
28.
[173] Christophe Brouard, « Comparaison du modèle vectoriel et de la pondération tf*idf associée
avec une méthode de propagation d'activation », UPMF-Grenoble2/CNRS LIG UMR
5217/équipe AMA Grenoble, France.
[174] Abdelbaki Issam, El Habib Ben Lahmar, El Houssine Labriji, « conception et réalisation
d’un méta- moteur Recherche sémantique », Université Hassan II Mohammedia, Casablanca,
le
[175] Asma Hedia Brini, «Un Modèle de Recherche d’Information basé sur les Réseaux Possibilistes »,
Thèse de Doctorat, Université Paul Sabatier de Toulouse, Toulouse le 07 December 2005.
[176] Cooper, W. A definition of relevance for information retrieval. Dans Information Storage and
Retrieval, 1971.
[177] Hammache Arezki, « Recherche d’information : un modèle de langue combinant mots simples
et mots composés », Thèse de Doctorat, Université Mouloud Mammeri, Tizi Ouzou, le 2011,
Tizi Ouzou, Algerie.
[178] Hammad Ballaoui, El Habib Ben Lahmar, Nasser Labani, Redouan Adil, « Information
Retrieval in Arabic Language: an Approach Based on the Defining Clauses», International
Review on Computers and Software (I.RE.CO.S.), Vol. 11, N. 6 ISSN 1828-6003, June 2016.
[179] Nie, Jian-Yun, Xun, Endong, Zhang, Jian, Zhou, Ming, Huang, Changning (2001): Improving
query translation for cross-language information retrieval using statistical mod. In:
Proceedings of the 24th Annual International ACM SIGIR Conference on Research and
Development in Information Retieval, 2001.
[180] Kraft, D.H.and Buell, D.A.« Fuzzy sets and generalized Boolean retrieval systems ».
International Journal on Man- Machine Studies, 19 : pp.49- 56, 1983.
[181] Radecki, T. « Fuzzy set teoretical approach to documment retrieval ». Information
Processing and Management, 15 : pp. 247- 259, 1979.
[182]L. Zadeh. Fuzzy sets. Information and Control, 8:338{353, 1965.
[183] GUY DESJARDINS, « modélisation connexionniste du repérage de l'information », Thèse de
Doctorat, Université Du Québec À Montréal, Canada, Aout 2006.
[184] Lv, Y., Zhai.c.Positional Relevance Model for pseudo- Relevance Feedback, proceedings of
the 33rd , international ACM SIGIR conference on research and development in information
retieval, pp. 579- 586, 2010.
[185] Jean Martinet, « Un modèle vectoriel relationnel de recherche d’information adapté aux
images », Thèse de Doctorat, Université Joseph Fourier – Grenoble I, France, 22décembre 2004.
[186]Manning C., Raghavan D., Prabhakar; Schütze H., Introduction to Information Retrieval,
Cambridge University Press. 2008.
[187] Amati G., Van Rijsbergen C.J, Probabilistic models of information retrieval based on
measuring the divergence from randomness, ACM Trans. Inf. Syst., 20(4), 357–389, 2002.
[188] Grossberg S., Adaptive pattern classification and universal recoding. I. Parallel development
and coding of neural feature detectors, Biol. Cyber., vol. 23, 117-140, 1976.
[189] Baeza-Yates, R. et Ribeiro-Neto, B. (1999) “Modern Information Retrieval”, Addison
Wesley, ACM Press, ISBN 0-201-39829-X.
[190]M.E. Maron and J.L. Kuhns. « on relevance, probabilistic indexing and information retrieval.
J.ACM, 7(3) : 216- 244, July 1960.
[191]S. Robertson, M. Maron, and W. Cooper Probability of relevance: a unification of two competing
models for document retrieval. Information Technology: Research and Development, 1: p. 1-21,
1982.
[192] Bookstein A.. Outline of a general probabilistic retrieval model. Journal of Documentation, vol.

19
39(2): p. 63-72, 1983.

19
[193] Fuhr, N. Models for retrieval with probabilistic indexing. Information processing
and management, vol. 25(1), p. 55–72, 1989.
[194] Joachims, T., L. Granka, B. Pan, H. Hembrooke, and G. Gay Accurately interpreting
clickthrough data as implicit feedback. In Proceedings of the 28th ACM SIGIR Conference
on Research and Development in Information Retrieval (SIGIR’05), p.154–161, 1997.
[195] Savoy, J. « Stemming of French words based on grammatical categories », Journal of
the American Society for Information Science, 44(1), p. 1-9, 1993.
[196] Spärck Jones, Karen, Walker S.,and Stephen E.Robertson « A probabilistic model of
information retrieval: Development and comparative experiments », Information Processing and
Management p.779–808, p. 809–840, 2000.
[197] Laine-Cruzel S. HDR: Conception de systèmes de recherche d'informations: accès aux
documents numériques scientifiques. Habilitation à diriger des Recherches soutenue le 22 juin
2001, Université Claude Bernard Lyon 1. [En ligne].http://www.recodoc.univ
lyon1.fr/hdr_SLC. Pdf.
[198] Joël GARDES, « Le document numérique : la complexité des formes et les formes de la comple-
xité », Thèse de Doctorat, L'Institut National des Sciences Appliquées de Lyon, Lyon, France,
2009.
[199] Wassila Azoug, « contribution à la définition d’une approche d’indexation sémantique de
documents testuels», Mémoire de Magister, Université Mhamed Bougarra, Faculté des
sciences, Boumardass, Algérie, 2012- 2013.
[200]G. Salton, A Comparison between manual and automatic indexing methods. Journal of the
American Documentation, 20(1), pp. 6171, 1971.
[201] Karen Sparck Jones: Experiments in relevance weighting of search terms. Inf. Process. Manage.
15(3): 133-144, 1979.
[202] Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas and Richard A.
Harshman, 1990. "Indexing by Latent Semantic Analysis". In Journal of the American Society
of Information Science, Vol. 41:6, 391-407.
[203] Chantal Soule-Dupuy. Systèmes de recherche d'information : le système Videotex Infodiab.
Mecanismes d'indexation et d'interrogation. Thèse de Doctorat, Université Paul Sabatier,
Toulouse, France.
[204] Crouch, D. B., Crouch, C. J., and Andreas, G. 1989. The use of cluster hierarchies in hypertext
information retrieval. In Proceedings of the Second Annual ACM Conference on Hypertext
(Pittsburgh, Pennsylvania, United States). HYPERTEXT '89. ACM Press, New York, NY, 225-
237.
[205] Carolyn J. Crouch, Bokyung Yang: Experiments in Automatic Statistical Thesaurus
Construction. SIGIR 1992: 77-88.
[206] William B. Frakes and Ricardo Baeza-Yates (eds.), 1992. Informa-tion Retrieval Data
Structures & Algorithms. Prentice-Hall. ISBN.
[207] Milstead, J.L., « Methodologies for subject analysis in bibligraphic databases »,
Information Processing & Management, vol. 28, N°3, 1992, p. 407- 431.
[208] Cleverdon, C.W., « The Cranfield tests on index language devices », Aslib proceedings, vol.
19, 1967, p. 173-192.
[209] Mohamed Ben Aouicha, « Une approche algébrique pour la recherche d’information
Structurée », Thèse de Doctorat, Université Paul Sabatier, Toulouse, France, 08 Janvier
2009.
[210] Boucham Souhila, Une approche basée Ontologies pour l’indexation automatique et la
recherche d’information Multilingue, mémoire de magister, Université M’hamed Bougara
Boumerdes, 2009.
[211] Fuji Ren, Lixin Fan, Jian-Yun Nie, SAAK Approach: How to Acquire Knowledge in an
Actual Application System, IASTED International Conference on Artificial Intelligence and
Soft Computing, Honolulu, 1999, pp.136-140.
[212]A. Singhal, G. Salton, M. Mitra, and C. Buckley. Document length normalization. Information
Processing and Management, 32(5) :619– 633, 1996.
[213]K. Spark-Jones. Automatic keyword classification for information retrieval. Archon, 1971.
[214]S. E. Robertson and K. Sparck Jones. Relevance weighting of search terms. Journal of the
American Society for Information Science, 27 :129–146, 1976.
[215]H. Luhn. The automatic creation of literature abstracts. IBM Journal of Research and
19
Development, 2(2) :159–165 and 317, April 1958.

19
[216]G. Salton and M.J. McGill. Introduction to Modern Information Retrieval. McGraw- Hill, New
York, 1983.
[217]K. Sparck-Jones. A statistical interpretation of term specificity and its application in retrieval.
Journal of Documentation, 28(1) :11–21, 1972.
[218]H. Luhn. A statistical approach to mechanized encoding and searching of literary information.
IBM Journal of Research and Development, 4(1) :309–317, 1957.
[219]G. Salton. Syntactic approaches to automatic book indexing. In Proc. of the annual meeting on
Association for Computational Linguistics (ACL) (1988), pages 204–210, Department of
Computer Science, Cornell University, Ithaca, New York, 1988.
[220]M. Maron. Automatic indexing : an experimental enquiry. Journal of the ACM, 24(8) 404–417,
1961.
[221]S. Robertson, S. Walker, M. M. Beaulieu, M. Gatford, and A. Payne. Okapi at TREC-4. In NIST
Special Publication 500-236: The Fourth Text REtrieval Conference (TREC- 4), pages 73 – 96,
Gaithersburg, MD, 1995.
[222]Guiraud, les Structures étymologiques du lexique français, Larousse, Paris, 1967.
[223]Guiraud, P., Bibliographie critique de la statistique linguistique, Utrecht, Spectrum,1954.
[224]Zipf, G.K., Human Behavoir and the principale of least effort : An introduction to human
ecology, New Yourk, Hafner, 1949.
[225]Zipf, G.K., Relative frequency as a determinant of phonetic change, Harvard studies in classical
Philology, vol. 40, Cambridge, Mass., Harvard University Press, 1929.
[226]G. K. Zipf. Human Behavior and the Principle of Least Effort. Ed Addison Wesley Publishing,
1949.
[227] Luhn, H. (1958). The automatic creation of literature abstracts. IBM Journal of Research
and Development, 2(2), 159–165.
[228] Gerard Salton and Christopher Buckley. Term-weighting approaches in automatic text retrieval.
Information Processing and Management, 24(5) :513–523, 1988.
[229] Gerard Salton, Chris Buckley, Term Weighting Approaches in Automatic Text Retrieval,
Cornell University, Ithaca, NY, 1987.
[230] Ruthven and M. Lalmas. A survey on the use of relevance feedback for information
access systems. Knowl. Eng. Rev., 18(2) :95-145, 2003.
[231]M. Boughanem, C. Chrisment, and C. Soule-Dupuy. Query modification based on relevance
backpropagation in adhoc environment. Information Processing and Management, 35 :
pages 121-139, 1999.
[232] Ben Lahmer El Habib, El younoussi Yacine, Doukkali Sdigui Abdelaziz,."Promoting the
relevance of the research information systems via a query reformulation process".The
6th International Computing Conference in Arabic (ICCA'10) Mai 2010, Tunes
(Tunisie).
[233] Ben Lahmer El Habib, Doukkali Sdigui Abdelaziz, El younoussi Yacine . "The research
of terms definitions by metasearch". The 6th International Computing Conference in
Arabic (ICCA'10) Mai 2010, Tunes (Tunisie).
[234] Rocchio, J. Relevance feedback in information retrieval. In The smart retrieval system
Experiments in automatic document processing (pp. 313–323). Englewood Cliffs, NJ: Prentice-
Hall. (1971).
[235] Claudio Carpineto and Giovanni Romano, « Exploiting the Potential of concept lattices for
information retreival with credo », Journal of universal computer science, 10 : 958- 1013,2004.
[236] Claudio Carpineto and Giovanni Romano, «effective reformulation of bolean queries withe
concept lattices. In traeles andreasen, henning christiansen, and henrik ligind larsen, editors,
flexible query answering systems, third international conference, FQAS 98, roskilde,
Denmark, may 13-15, 1998, proceedings, volume 1495 of lecture notes in computer science,
pages 83-94, springer, 1998.
[237] Priss U., « Lattice-based information retrieval », Knowledge Organization, vol. 27, n˚3, p. 132-
142, 2000.
[238] Messai N., Devignes M.-D., Napoli A., Smaïl-Tabbone M., « Treillis de concepts et ontologies
pour l’interrogation d’un annuaire de sources de données biologiques (BioRegistry) », Actes
du XXIIIème Congrès INFORSID, 24-27 mai, 2005, Grenoble, France, p. 587-602, 2005.
[239] Ganter B., Wille R., Formal Concept Analysis, Springer-Verlag, 1999.
[240] Kamal El Goumate, « Indexation Sémantique des Ressources Textuelles d’Enseignement et

19
d’Apprentissage », thèse doctorat, Université Hassan II, Faculté des sciences ben m’sik,
Casa

19
blanca, Maroc, 2015.
[241]T. Gruber. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition,
1993, 5, pp. 199-220.
[242] Maedche, Alexander, and Steffen Staab. 2001. ’Ontology learning for the Semantic
Web.’IEEE Intelligent Systems 16(2), pp. 72.79.
[243] Aussenac-Gilles, Nathalie. 2008. ’Le web sémantique, quel renouvellement pour la
recherche d.information_?’. In Recherche d.information_: état des lieux et perspectives,
Recherche d.information et web, Mohand boughanem, Jacques Savoy pp. 231.266.
[244]B. Bachimont, Arts et sciences du numérique : Ingénierie des connaissances et critique de la
raison computationnelle, Mémoire d'Habilitation à Diriger des Recherches, Université de
Technologie de Compiègne, 2004.
[245] Amedeo Napoli. Subsumption and classication-based reasoning in object-based representations.
In ECAI, pages 425429, 1992.
[246] Assadi H., Bourigault D., analyses syntaxique et statistique pour la construction d'ontologies à
partir de textes, Ingénierie des connaissances, évolution récentes et nouveaux défis, chapter 15,
Eyrolles, collection technique et scientifique des Télécommunications. p. 243- 255, 2000.
[247] Benslimane D., Arara A., Yetongnon K., Gargouri F., Ben Abdallah H. « Two approaches for
ontologies building :From-scratch and From existing data sources », the 2003 International
Conference on Information Systems and Engineering ISE 2003, Montreal, Canada, 20-24 July
2003.
[248] Bachimont B., Baneyx A., Malaisé V., Charlet J., Zweigenbaum P., « Synergie entre analyse
distributionnelle et patrons lexico-syntaxiques pour la construction d'ontologies différentielles »
Terminologie et Intelligence Artificielle (TIA'2005), Rouen, France, 4-5 avril 2005.
[249] Gandon F., Dieng-Kuntz R., « Ontologie pour un système multiagents dédié à une mémoire
d’entreprise », In Actes des journées francophones d’Ingénierie des Connaissances IC’2001,1-
20, Presses Universitaires de Grenoble, 2001.
[250] Leclère L., Trichet T., Frûst F., « Construction of an ontology related to the projective
geometry » RFIA 13th congrès des Reconnaissance des Frames et Intelligence Artificielle, 2002,
France.
[251] Mohamed Ben Ahmed Mhiri, Faïez Gargouri, Djamal Benslimane, « Détermination automatique
des relations sémantiques entre les concepts d’une ontologie», Laboratoire MIRACL Institut
supérieur d’informatique et du multimédia de Sfax, TUNISIE.
[252] Marie-Sophie Segret, Pierre Pompidor, Danièle Hérin, Michel Sala, « Utilisation
d’ontologies pour décrire les données semi-structurées issues du web », Marché Université
Montpellier II CNET no 981B129, France.
[253] Hammad Ballaoui, Ben Lahmer El Habib, Labani Nasser, Khadir laamrani, «Labeling of the
Arabic Words», Int.J.Computer Technology & Applications (IJCTA),Vol 6(5),705-711, Sept-
Oct 2015 .
[254] Sahbi Sidhom, "Modèle d'analyse morpho-syntaxique adaptatif au web usages: ré – indexation
sociale dans une norme syntagmatique",HAL, archives- ouvertes. Communication au congrès,
Laboratoire Paragraphe Université de Paris 8 (France). CNPLET/MEN- Laboratoire P8, Novbr.
2013 Ghardaïa, Algérie. 1, 2013, CNPLET/MEN
(Algérie) et LABORATOIRE PARAGRAPHE Univer; La Néologie, les corpus informatisés
et les processus d'élaboration des langues de moindre diffusion.
[255] Mohamed Rachdi, El Habib Ben Lahmar, El Houcine Labriji,”Semantic Enrichement of Queries
With Generic and Specific Terms in the Definition Sentences”, journal of theoretical and applied
information technology, 31january 2014, vol.59 no. 3.
[256]G. Salton. The SMART Retrieval System. Prentice Hall, 1971.
[257]Soheila KARBASI, " Pondération des termes en Recherche d’information : Modèle de pondérati-
on basé sur le rang des termes dans les documents", thèse soutenue le 14 septembre 2007 à
l’Université Paul Sabatier - Toulouse III, France.

179

View publication stats

Vous aimerez peut-être aussi