Académique Documents
Professionnel Documents
Culture Documents
Ecole Doctorale
Mathématiques, Informatique, Sciences et Technologies de la Matière
THESE
présentée et soutenue publiquement
le samedi 09 Juin 2012
pour l’obtention du
par:
Ibrahim BOUNHAS
Composition du jury:
Khaled BSAÏES, Professeur, Université de Tunis El Manar Président
Abdelmajid BEN HAMADOU, Professeur, Université de Sfax Rapporteur
Jean-Marie PINON, Professeur, INSA de Lyon Rapporteur
Rafik BOUAZIZ, Maitre de Conférence, Université de Sfax Examinateur
Yahya SLIMANI, Professeur, Université de Tunis El Manar Directeur de thèse
A la mémoire de mon père…
A ma mère,
En témoignage de ses sacrifices et de mon amour…
A Hafsa…
En témoignage de mes meilleurs vœux…
Remerciements
Introduction Générale 1
Problématique de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
A Etat de l’art 5
I Organisation et accès à l’information 6
1 Problématique et objectifs de l’accès à un fonds documentaire . . . . . . . 6
2 Les visions du Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1 Le Web sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Le Web social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Le Web socio-sémantique . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Comparaison des trois visions . . . . . . . . . . . . . . . . . . . . . 11
3 Les systèmes d’organisation des connaissances . . . . . . . . . . . . . . . . 12
3.1 Les thésaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Les systèmes d’indexation collaboratifs . . . . . . . . . . . . . . . . 13
3.3 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Comparaison des SOC . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Les systèmes d’accès à l’information . . . . . . . . . . . . . . . . . . . . . . 19
4.1 Les systèmes de recherche d’information . . . . . . . . . . . . . . . 19
4.2 Les bibliothèques virtuelles . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 La cartographie des connaissances . . . . . . . . . . . . . . . . . . . 24
4.4 Comparaison des systèmes d’accès à l’information . . . . . . . . . . 27
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
II Evaluation de l’information 29
1 Les critères de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2 Méthodologies d’évaluation de la fiabilité de l’information . . . . . . . . . . 30
2.1 La fiabilité dans les sciences du hadith . . . . . . . . . . . . . . . . 31
2.2 La fiabilité dans les sciences de l’histoire . . . . . . . . . . . . . . . 34
2.3 La fiabilité dans les sciences de l’informatique . . . . . . . . . . . . 35
2.4 Comparaison des méthodologies . . . . . . . . . . . . . . . . . . . . 39
3 Evaluation automatique de la fiabilité des hadiths . . . . . . . . . . . . . . 41
3.1 Méthodes d’évaluation des critères de fiabilité du hadith . . . . . . 41
3.2 Approches existantes . . . . . . . . . . . . . . . . . . . . . . . . . . 42
i
4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
B Contributions 69
IV Modèle de cartographie multidimensionnelle des documents arabes 70
1 Modèle d’une carte socio-sémantique multi-critères . . . . . . . . . . . . . 70
2 L’apport de la structure des documents . . . . . . . . . . . . . . . . . . . . 71
3 Les réseaux petits mondes hiérarchiques . . . . . . . . . . . . . . . . . . . 73
4 La théorie des possibilités et ses applications . . . . . . . . . . . . . . . . . 74
4.1 Distribution de possibilité . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Les mesures de possibilité et de nécessité . . . . . . . . . . . . . . . 75
4.3 Les réseaux possibilistes . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Les classifieurs possibilistes . . . . . . . . . . . . . . . . . . . . . . . 76
4.5 Les SRI possibilistes . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5 Processus de cartographie de documents arabes . . . . . . . . . . . . . . . 79
5.1 Choix du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Etude sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3 Analyse de la structure des documents . . . . . . . . . . . . . . . . 82
5.4 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . 83
5.5 Analyse morphosyntaxique et extraction de termes . . . . . . . . . 83
5.6 Analyse distributionnelle . . . . . . . . . . . . . . . . . . . . . . . . 84
5.7 Evaluation de la fiabilité de l’information . . . . . . . . . . . . . . . 84
5.8 Navigation et recherche d’information . . . . . . . . . . . . . . . . . 85
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
ii
V Extraction de connaissances socio-sémantiques 86
1 Choix du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.1 Structure des livres du hadith . . . . . . . . . . . . . . . . . . . . . 86
1.2 Caractéristiques du corpus du hadith . . . . . . . . . . . . . . . . . 88
2 Etude sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3 Analyse de la structure des documents . . . . . . . . . . . . . . . . . . . . 92
3.1 La structure des chaı̂nes de narrateurs . . . . . . . . . . . . . . . . 92
3.2 Analyse automatique des livres du hadith . . . . . . . . . . . . . . 94
4 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.1 Le modèle d’indexation des noms propres arabes . . . . . . . . . . . 96
4.2 Le modèle d’indexation des chaı̂nes de narrateurs . . . . . . . . . . 98
4.3 Le modèle d’appariement . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 La fonction de filtrage . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Résultats d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Analyse morphosyntaxique et extraction de
termes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1 L’indexation qualitative . . . . . . . . . . . . . . . . . . . . . . . . 102
5.2 L’information contextuelle . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Les distributions de possibilité . . . . . . . . . . . . . . . . . . . . . 104
5.4 Le termhood possibiliste . . . . . . . . . . . . . . . . . . . . . . . . 105
5.5 Le unithood possibiliste . . . . . . . . . . . . . . . . . . . . . . . . 106
5.6 La pertinence au domaine possibiliste . . . . . . . . . . . . . . . . . 107
5.7 Exemple de désambigüisation . . . . . . . . . . . . . . . . . . . . . 107
5.8 Expérimentation et évaluation . . . . . . . . . . . . . . . . . . . . . 109
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
iii
Bibliographie 167
Annexes 168
A Implémentation de l’analyseur de textes semi-structurés et exemple
d’application 169
1 Exemple de document de référence . . . . . . . . . . . . . . . . . . . . . . 169
2 Un analyseur générique de textes semi-structurés . . . . . . . . . . . . . . 169
2.1 L’interface graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 170
2.2 Le composant d’apprentissage . . . . . . . . . . . . . . . . . . . . . 173
3 Analyse automatique des hadiths et reconnaissance des entités nommées . 174
3.1 La grammaire des versets . . . . . . . . . . . . . . . . . . . . . . . 174
3.2 La grammaire des noms propres arabes . . . . . . . . . . . . . . . . 175
3.3 La grammaire des chaı̂nes de narrateurs . . . . . . . . . . . . . . . 176
3.4 La grammaire des commentaires sur les acteurs . . . . . . . . . . . 178
3.5 La grammaire des commentaires sur les hadiths . . . . . . . . . . . 178
3.6 La grammaire des indications de versions . . . . . . . . . . . . . . . 179
3.7 La grammaire des titres . . . . . . . . . . . . . . . . . . . . . . . . 179
3.8 La grammaire des hadiths . . . . . . . . . . . . . . . . . . . . . . . 179
3.9 Calcul des taux d’intervention . . . . . . . . . . . . . . . . . . . . . 180
iv
Index 200
v
Table des figures
vi
VI.1 Interface de recherche et de navigation dans la carte socio-sémantique des
hadiths. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
VI.2 Exemple de réseau syntaxique. . . . . . . . . . . . . . . . . . . . . . . . . . 125
VI.3 Exemple de réseau distributionnel contenant toutes les relations syntaxiques.125
VI.4 Exemples de réseaux distributionnels relatifs à des relations syntaxiques
différentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
VI.5 Exemple de graphe de co-occurrence. . . . . . . . . . . . . . . . . . . . . . 126
VI.6 Interface de validation des groupes de co-hyponymes. . . . . . . . . . . . . 127
VI.7 Valeurs moyennes du rappel, de la précision et de la F-mesure pour cinq
types de distance pour la liaison des termes. . . . . . . . . . . . . . . . . . 128
VI.8 Comparaison de différentes approches de liaison de termes. . . . . . . . . . 128
VI.9 Résultats obtenus pour différents types de relations syntaxiques. . . . . . . 129
VI.10Aperçu sur la carte sémantique du domaine des boissons. . . . . . . . . . . 130
VI.11Zoom sur le groupe numéro 5 de la carte sémantique de la Figure VI.10. . 131
VI.12Résultats d’expansion des requêtes dans le domaine des boissons. . . . . . 132
VI.13Résultats d’expansion des requêtes dans le domaine du mariage. . . . . . . 132
VI.14Résultats d’expansion des requêtes dans le domaine de la purification. . . . 132
VI.15Graphe social des narrateurs du hadith sous forme d’arbre radial. . . . . . 133
VI.16Résultat de la transformation basée sur les arcs du réseau social des nar-
rateurs dans le domaine des boissons (l’attribut ”génération” affiché aux
nœuds). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
VI.17Résultat de la transformation basée sur les arcs du réseau social des nar-
rateurs dans le domaine des boissons (l’attribut ”nisba” affiché aux nœuds). 136
VI.18Exemple de cartographie d’une chaı̂ne. . . . . . . . . . . . . . . . . . . . . 140
B.1 Exemple de chaı̂ne avant et après indexation des noms de narrateurs. . . . 183
vii
C.3 Exemple de résultat de l’analyse morphologique après désambiguisation par
seuil de pertinence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
C.4 Pseudo-code de la méthode Java qui permet de reconnaı̂tre les syntagmes
annexés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
viii
Liste des tableaux
ix
VI.7 Distribution de possibilité selon le critère de fiabilité de transmission. . . . 138
VI.8 Moyennes des scores attribués pour les trois classes de fiabilité selon l’al-
gorithme à base de minimum [6]. . . . . . . . . . . . . . . . . . . . . . . . 141
VI.9 Moyennes des scores attribués pour les trois classes de fiabilité selon l’al-
gorithme à base de produit. . . . . . . . . . . . . . . . . . . . . . . . . . . 141
VI.10Valeurs moyennes et minimales des critères de fiabilité dans les six livres. . 141
VI.11Comparaison des résultats du système par rapport aux décisions des savants
[6]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
x
Introduction Générale
Quelle que soit la perfection des SOC, l’utilisateur reste incapable de maı̂triser son
espace vu la complexité de ses besoins et la quantité d’informations disponibles [212]. Les
fonds documentaires doivent donc être munis, en plus des SOC, de systèmes de recherche
et de navigation qui permettent de filtrer et d’évaluer les informations en fonction de
contraintes imposées par l’utilisateur. Dans leur développement, ces systèmes ont subi
plusieurs changements. D’une part, il a fallu développer des mécanismes sophistiqués
d’expression des besoins et de présentation des résultats qui favorisent l’interaction avec
l’utilisateur impliqué dans une démarche d’enquête. D’autre part, les critères d’évaluation
se sont diversifiés afin de tenir compte à la fois des besoins sociaux et sémantiques des
utilisateurs. Ainsi, il est nécessaire de considérer toutes les dimensions de la qualité de
l’information. Cependant, l’une des principales dimensions qui suscite des inquiétudes vis-
à-vis du contenu du Web concerne la fiabilité de l’information [175]. Assurer la confiance
entre les fournisseurs et les bénéficiaires de l’information est une préoccupation primordiale
de toutes les conceptions récentes du Web [75, 109, 227].
1
INTRODUCTION
Problématique de la thèse
Le processus de cartographie commence par une étape d’analyse qui vise à indexer
les documents et à extraire les connaissances qui s’y trouvent. Les concepts véhiculés
dans les fonds documentaires sont représentés par des expressions linguistiques. Ainsi,
cette première étape nécessite des outils d’analyse linguistique capables de reconnaı̂tre les
attributs et les constituants de ces expressions. Malgré l’effort de recherche considérable
dans le domaine du traitement automatique de textes en langue arabe (voir par exemple,
[66, 127, 164]), les outils existants restent limités face à l’ambigüité et à la richesse de ces
textes et donc difficilement intégrables dans les systèmes d’extraction de connaissances et
de Recherche d’Information (RI) existants.
Les SRI arabes existants se basent sur des heuristiques ou des méthodes statistiques
afin de diminuer l’effet de l’ambigüité sur les autres étapes [133, 153]. De telles solutions
ne permettent pas à un système d’interpréter efficacement le sens des documents, ce qui
réduit significativement la qualité des SOC que nous sommes capables de développer.
Ceci dit, les travaux de recherche, dans le domaine du développement des SOC et des
SRI arabes, se concentrent sur l’axe sémantique en privilégiant la pertinence thématique.
Ces systèmes se trouvent démunis face à la diversité des besoins des utilisateurs et de la
nécessité de prendre en considération d’autres critères. En particulier, et malgré l’existence
d’une méthodologie solide pour la fiabilité de l’information, représentée par les sciences
du hadith, les SRI arabes n’intègrent pas cette dimension.
En tant que produit, nous générons des cartes socio-sémantiques dont chacune corres-
pond à un domaine. Une carte est constituée par un ensemble de fragments de docu-
ments indexés selon plusieurs dimensions. Pour modéliser ces dimensions, nous adoptons
le type de SOC le plus utilisé dans les visions récentes du Web, à savoir les ontologies
[109, 225]. Chaque ontologie est constituée d’entités sociales ou sémantiques organisées
par un ensemble de relations spécifiques à leur type. Ces ontologies sont reliées au fonds
documentaire par des réseaux possibilistes qui modélisent les liens de dépendance entre les
fragments et les entités. Les mécanismes de propagation dans ces réseaux constituent un
modèle d’appariement capable d’évaluer chaque fragment, étant donné un besoin exprimé
par l’utilisateur sous forme de requête. En plus, les cartes ainsi conçues permettent la
navigation entre les différentes dimensions et les ressources du fonds documentaire.
2
INTRODUCTION
En tant que processus, nous donnons une importance particulière aux problèmes d’ana-
lyse et de désambiguı̈sation linguistique. Ainsi, la première étape de ce processus consiste
en l’extraction des entités sémantiques et sociales. Dans l’axe sémantique, il est nécessaire
d’extraire les termes pertinents à chaque domaine, ce qui nous impose d’affronter les am-
biguı̈tés morphosyntaxiques. Dans l’axe social, nous extrayons les entités nommées qui
représentent les noms des acteurs impliqués dans le processus de production et de trans-
mission de l’information. Les noms propres arabes étant aussi ambigus, nous procédons
à une étape de désambiguı̈sation qui permet d’identifier d’une manière précise chaque
acteur.
Notons enfin que le développement des SOC et des SRI arabes est limité par le manque
de standards d’évaluation requis pour valider et comparer différentes approches. Dans le
cadre de nos travaux, nous avons tenu à évaluer, étape par étape, notre processus de car-
tographie en analysant l’efficacité de nos choix au niveau de l’extraction, de l’organisation
des connaissances et de la recherche d’information.
Organisation de la thèse
La présente thèse est organisée en deux parties dont la première constitue un état de
l’art sur notre problématique et la deuxième détaille nos contributions. Ces deux parties
contiennent six chapitres que nous récapitulons comme suit. Le premier chapitre présente
la problématique d’organisation et de l’accès à l’information. Ainsi, nous commençons par
analyser le processus de gestion de l’information et les défis qu’il suscite dans le contexte
du Web actuel. Ensuite, nous étudions et nous comparons les différentes visions du Web
qui tentent de relever ces défis. Chacune de ces visions propose un type de SOC cohérent
avec ses fondements théoriques. En outre, les modalités d’accès aux documents se sont
développées en commençant par les SRI classiques de type requête-liste de résultats pour
arriver à la cartographie des connaissances en passant par les bibliothèques virtuelles.
Enfin, ce chapitre identifie les critères de choix entre les différentes visions, les systèmes
d’organisation et d’accès à l’information.
Etant donné que l’objectif final est de servir l’utilisateur avec une information perti-
nente, le second chapitre commence par définir la notion de pertinence et ses critères.
Nous nous focalisons en particulier sur le critère de fiabilité qui constitue un besoin cri-
tique vu le contexte ouvert du Web. Dans ce cadre, nous énumérons et nous comparons
les méthodologies d’assurance de la fiabilité existantes, afin d’identifier les critères et les
exigences de son évaluation. Enfin, ce chapitre présente une étude des applications infor-
matiques existantes et qui ont touché essentiellement le corpus hadithien.
3
Le troisième chapitre est consacré à l’étude des étapes nécessaires pour passer d’un fonds
documentaire arabe brut à un fonds documentaire structuré. L’extraction et l’organisation
des connaissances nécessitent plusieurs types d’analyses. Le processus commence au niveau
des mots et des expressions qui constituent les entités de base. Dans l’axe sémantique, il
s’agit d’énumérer les approches de construction d’ontologie en se focalisant sur l’extraction
de termes et de relations sémantiques à partir des corpus textuels. Dans l’axe social, nous
présentons un état de l’art des approches d’extraction des entités nommées arabes et de
reconnaissance de l’identité des acteurs.
Un aperçu général sur notre contribution est présenté dans le quatrième chapitre. Nous
proposons un modèle générique d’une carte socio-sémantique multi-dimensions comme un
réseau de fragments reliés à un ensemble d’ontologies par des réseaux possibilistes. Nous
discutons les composantes principales de ce modèle avant de proposer un processus de
cartographie composé de huit étapes.
4
Première partie
Etat de l’art
5
Chapitre I
Organisation et accès à l’information
L ’organisation d’un fonds documentaire est une étape préliminaire pour faciliter
l’accès aux documents qui le constituent. L’émergence du Web, comme fonds do-
cumentaire international, a engendré plusieurs problèmes liés essentiellement à la quantité
de l’information et à la diversité de ses fournisseurs. Plusieurs solutions ont été proposées
par les communautés de la recherche d’information et de l’ingénierie des connaissances
[226]. Ce chapitre fait un état de l’art des approches proposées pour modéliser et accéder
à un fonds documentaire ainsi qu’aux connaissances qu’il contient. Dans la section 1,
nous identifions les objectifs et les problèmes d’accès à un fonds documentaire. Nous
discutons par la suite les solutions proposées pour appréhender les fonds documentaires
en étudiant les différentes visions du Web (section 2). En effet, chacune des ces visions
propose des systèmes d’organisation des connaissances particuliers (section 3). En outre,
avec le développement de ces visions, plusieurs modèles d’accès à l’information ont été
proposés. La section 4 dresse un état des caractéristiques de ces modèles.
6
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Activité Type
Le tuteur met l’information à la disposition de l’apprenant Transmission
Un apprenant transforme une information en connaissance Interprétation
Le tuteur vérifie ou corrige le travail d’un apprenant Vérification
Le tuteur évalue un apprenant Jugement
Analyser, synthétiser, annoter, indexer un cours Synthèse
Un apprenant enrichit ou adapte un cours Adaptation
Un tuteur compose un cours Sélection, organisation,
rédaction, révision
7
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
D’après cette analyse, nous pouvons identifier quatre besoins qui concernent l’accès à
un fonds documentaire relatif à un domaine :
8
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Cependant, cette architecture fortement formelle n’est pas la seule conception du Web
sémantique. D’autres auteurs tels que Zacklad [65] distinguent une deuxième approche
qu’ils appellent le ”Web cognitivement sémantique”. C’est une alternative à l’approche
présentée précédemment qu’ils qualifient de ”computationnelle”. Selon Zacklad, cette forte
formalisation, qui avait pour objectif d’automatiser la manipulation du sens par des agents
logiciels, néglige les besoins humains des utilisateurs. En outre, elle ne permet pas de faire
face au caractère évolutif et multi-points de vue des ressources, ce qui se traduit par
la difficulté de mise à jour des ontologies [225]. Comme solution, le Web cognitivement
sémantique propose que ”la structuration des contenus, si elle peut permettre une semi-
automatisation de certaines tâches, vise tout autant à accroı̂tre l’intelligibilité du Web pour
des utilisateurs humains engagés dans des pratiques de navigation et d’enrichissement
des contenus” [65]. En effet, le Web cognitivement sémantique donne une priorité à une
indexation permettant de guider la recherche et la navigation d’un acteur humain. C’est
une indexation partiellement manuelle de contenus évolutifs à travers des langages de
description normalisés mais suffisamment souples et ergonomiques [229].
9
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
10
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Le choix d’une vision parmi ces trois peut se faire selon les critères suivants :
– La nature du corpus : plus le corpus est complexe et évolutif, plus il devient
difficile d’utiliser des systèmes formels.
– La nature des besoins : si les besoins sont plutôt informationnels, nous pouvons
adopter des solutions qui s’approchent de la vision du Web sémantique. Si nous
voulons nous concentrer sur les besoins de communication, nous adopterons des
11
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
12
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
les notions (par exemple relation générique/spécifique)”. La même norme définit un lan-
gage d’indexation comme ”un ensemble contrôlé de termes choisis dans une langue natu-
relle et utilisés pour représenter, sous forme condensée, le contenu des documents” [198].
Un thésaurus englobe un ensemble de termes qui constituent un lexique et qui sont
destinés à être utilisés par les indexeurs comme descripteurs des documents. Ils incluent
aussi un ensemble de relations dont la typologie diffère d’un thésaurus à un autre. WordNet
est l’exemple le plus célèbre de thésaurus disponible en plusieurs langues dont les langues
des pays européens [184] et la langue arabe [100].
Pour comprendre la nature des thésaurus, il est nécessaire de faire la distinction entre
”terme” et ”concept”. Selon Zacklad [226], les concepts correspondent à un ensemble
restreint de notions associées aux ressources cognitives d’une collectivité. Un terme est
une expression linguistique qui représente un concept. Etant donné qu’un concept peut
avoir plusieurs représentants, la construction d’un thésaurus consiste à sélectionner, pour
chaque concept, le meilleur représentant, à savoir celui qui sera le plus adéquat pour
indexer les documents.
Zacklad distingue deux caractéristiques des thésaurus [226] :
1. Les thésaurus sont crées pour des fins d’indexation et non pour un objectif de
représentation des connaissances.
2. Ils utilisent une représentation des concepts qui les font dépendre des langues et
des mises en discours. Ceci engendre des ambiguı̈tés et des incohérences dans le
thésaurus quand il est appréhendé comme un SOC.
13
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
la divergence des points de vue concernant cette évolution, il est difficile de donner une
définition du terme ontologie. Nous pouvons remarquer le degré de divergence en lisant
l’état de l’art de Gaëlle [112], qui considère les lexiques, les glossaires et les thésaurus
comme des ontologies. Cependant, nous pouvons distinguer deux points de vue concer-
nant la nature des ontologies et leurs rôles. Le premier est celui du Web sémantique
formel et le deuxième est celui du Web socio-sémantique. Avant de détailler ces deux
points de vue, il nous semble utile de présenter une typologie des ontologies selon l’objet
de conceptualisation.
14
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Les relations : Nous pouvons retrouver dans une ontologie divers types de relations.
Nous distinguons comme dans [68], la relation hiérarchique ”is-a” (ou hyperonymie) qui
est utilisée pour structurer les ontologies des autres relations. La relation ”is-a” permet -
au sens du formel - l’héritage de propriétés entre les concepts. Les autres relations unissent
les concepts ensemble pour construire des représentations conceptuelles complexes. Par
exemple, si nous définissons ”appendicite” comme une ”inflammation localisée-sur l’ap-
pendice”, ”localisée-sur ” est une relation entre ”inflammation” et ”appendice”.
15
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Ces connaissances peuvent être des faits, des règles ou des contraintes. L’énoncé ”l’en-
treprise E compte 20 salariés” est un exemple de fait. Une règle permet d’inférer de nou-
velles connaissances et contient donc une implication. La règle ”si une entreprise compte
X salariés, alors elle paye X*100 DT de charges” permet de calculer les charges d’une
entreprise. Comme exemple de contrainte, il est possible d’imposer que toute société im-
portante possède obligatoirement un conseil d’administration.
16
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
– Hypertopic : c’est un méta-modèle proposé par Zacklad et al. [230] qui hérite de
celui des cartes topiques [9]. Il représente un ensemble de ressources organisées en
des hiérarchies de thèmes (ou thématisations) multi-points de vue construites d’une
manière coopérative par des experts [64].
– Les réseaux de description : ce sont des graphes orientés acycliques dont les
nœuds sont des descripteurs et les arcs sont des spécialisations. Un nœud A spécialise
un nœud B si tout objet documentaire décrit par B l’est aussi par A. Aucune
sémantique ni contrainte n’est imposée sur la nature des connaissances à encoder
dans un tel réseau. Cependant, on y définit des facettes qui sont des descripteurs
non généralisables utilisés pour représenter les différents points de vue [39].
17
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
se distinguent par un ensemble de critères que nous pouvons déduire de l’article de Za-
cklad [226] qui les compare du point de vue de la ROI. Le tableau I.2 synthétise cette
comparaison.
18
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Occ(ti , dj )
T Fi,j = PN (I.1)
i=1 Occ(ti , dj )
19
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Dans cette formule, Occ(ti , dj ) est le nombre d’occurrences de ti dans dj . Il est di-
visé par la somme des nombres d’occurrences de tous les termes dans le document. Ces
fréquences sont souvent normalisées (en divisant par le maximum) pour tenir compte de
la différence de longueur entre les documents. Le terme ti est pondéré en utilisant TF-IDF
comme suit [200] :
20
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Le modèle probabiliste [172] se base sur l’hypothèse suivante : le résultat idéal d’une
requête est constitué de documents qui peuvent être caractérisés par un sous-ensemble de
termes d’indexation. L’appariement probabiliste permet de trier les documents en fonction
de la présence ou l’absence des termes appartenant à ce sous-ensemble. L’identification
des termes, ayant une forte probabilité d’être caractéristique de l’ensemble idéal des do-
cuments, se fait dans une étape d’apprentissage.
Tous ces modèles sont dits de ”première génération” [98] par opposition aux modèles
bayésien [157] et possibiliste [60] qui sont des modèles de la deuxième génération. Le
premier est basé sur les réseaux bayésiens et la formule de Bayes pour le calcul des
probabilités de pertinence. Selon Elayeb [98], la notion de pertinence est difficilement
raffinable dans ce modèle. En plus, l’évaluation des documents par rapport à une requête
ne prend en compte que les termes d’indexation présents à la fois dans les documents et
dans la requête. Le modèle possibiliste, basé sur la théorie des possibilités [232] et que
nous adoptons dans cette thèse, est présenté dans le chapitre IV (section 4, page 74).
|P ert| ∩ |Res|
Rappel = ∈ [0, 1] et Silence = 1 − Rappel (I.4)
|P ert|
|P ert| ∩ |Res|
P récision = ∈ [0, 1] et Bruit = 1 − P récision (I.5)
|Res|
(1 + β 2 ) ∗ P récision ∗ Rappel
F-mesure = (I.6)
(β 2 ∗ P récision) + Rappel
Dans cette formule, le facteur β a été introduit pour pondérer les deux métriques.
Généralement sa valeur est fixée à 1 pour donner le même poids aux deux métriques.
21
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
i) Le projet ICCARS
Iksal et Garlatti [140] proposent un modèle générique pour les DVP. Il a été appliqué dans
le projet ICCARS, dont le but est d’aider les journalistes à créer des dossiers thématiques
adaptatifs. Dans ce modèle, chaque fragment est indexé par des méta-données et par des
22
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
concepts provenant d’une ontologie de domaine (qui résument le sens de son contenu) et
les concepts d’une ontologie d’application (qui précisent son type).
L’auteur d’un document lui associe un ensemble de structures narratives. Une telle
structure est un graphe orienté dont les nœuds sont des spécifications de fragments et les
liens sont des relations sémantiques typées. Une spécification de fragment contient des
contraintes sur ses méta-données, sa description conceptuelle ou son type. La génération
d’un document destiné à être lu par un utilisateur est une instanciation d’une structure
narrative.
23
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
24
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
– L’espace informationnel brut : c’est l’espace initial qui correspond dans notre
cas aux fonds documentaires.
– L’espace informationnel représenté : cet espace associe des structures visuelles
aux éléments de l’espace brut. Chaque structure visuelle possède des caractéristiques
graphiques correspondant à des variations des différentes variables visuelles (forme,
position, taille, etc.). Par exemple, nous pouvons associer au nombre sept le symbole
”7” ou ”VII”. Ainsi, pour chaque espace brut correspondent plusieurs représentations
possibles.
25
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
26
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
27
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
son espace et les relations complexes qui peuvent exister entre ses éléments. C’est pour-
quoi, certains moteurs de recherche proposent de construire des cartes à partir des résultats
de recherche. Citons à titre d’exemples, les moteurs Exalead, Kartoo et MapStan décrits
dans [216].
En fonction de ces critères, nous pouvons dire que c’est l’approche de cartographie
qui tend à englober les techniques utilisées dans les SRI et les bibliothèques virtuelles,
surtout si nous l’appliquons à un domaine particulier. Nous voyons qu’il est possible de
généraliser cette approche en implémentant des mécanismes d’interaction qui permettent
de faire participer l’utilisateur dans le processus de structuration ainsi que de fournir
des services de recherche, de navigation et d’assemblage adaptés. En plus, elle permet
de traiter l’espace informationnel à plusieurs échelles et selon des vues différentes, ce qui
permet d’analyser des collections relativement grandes. Les paradigmes de visualisation et
d’interaction permettent de réduire la charge cognitive de l’utilisateur et donc de faciliter
l’accès aux ressources.
5 Conclusion
Nous avons considéré, dans ce chapitre, la problématique de l’accès à un fonds docu-
mentaire dans le cadre du processus de gestion de l’information. Ce processus devient de
plus en plus complexe avec l’accroissement de la quantité d’informations, de la diversité
des points de vue et des attentes des acteurs. Nous avons étudié les différentes visions
et approches qui proposent des solutions pour gérer les fonds documentaires. En effet, la
complexité du processus de gestion de l’information nous oblige à concevoir des systèmes
capables d’organiser et de faciliter l’accès aux connaissances. Comparée aux SRI et aux
bibliothèques virtuelles, l’approche de cartographie est la plus générique puisqu’elle per-
met de traiter tous les aspects de modélisation des connaissances et des documents. En
plus, les cartes proposent des mécanismes de visualisation et d’interaction qui soutiennent
la cognition de l’utilisateur dans son activité de recherche et de navigation.
L’objectif de tous ces systèmes est la satisfaction de l’utilisateur en fournissant l’in-
formation qui complète son état des connaissances suite à un besoin qu’il a exprimé. Il
est donc nécessaire d’évaluer les informations disponibles dans un fonds documentaire en
fonction des besoins des utilisateurs. Cette évaluation est basée sur un ensemble de critères
de pertinence. Dans ce chapitre, nous nous sommes focalisés sur le critère de pertinence
thématique, qui permet d’évaluer les ressources en fonction de leur sujet ou leur sens.
En plus de l’aspect thématique, il existe d’autres critères aussi importants dont il faudra
tenir compte, comme par exemple le critère de fiabilité. Ces critères seront discutés dans
le chapitre suivant.
28
Chapitre II
Evaluation de l’information
29
CHAPITRE II. EVALUATION DE L’INFORMATION
Dans la même perspective, Mizzaro [168] récapitule les différents aspects de la perti-
nence en la définissant comme une relation entre des entités de deux groupes. Dans le
premier, nous trouvons le document, la description et l’information, et dans le deuxième
le problème, le besoin d’information, la question et la requête.
D’après ces différentes classifications, nous remarquons que les critères de pertinence
restent assez vagues. En résumé, nous pouvons conclure, comme le font remarquer Scham-
ber et al. [201], que la pertinence englobe tous les critères de la qualité d’information.
Dans la même perspective, nous considérons que la fiabilité (ou la crédibilité au sens
de Bateman [33]) est un critère de qualité. Dans ce cadre, nous pouvons nous référer à
plusieurs travaux qui présentent des taxonomies des critères de qualité de l’information
[149, 173, 194, 209, 210]. Nous pouvons aussi déduire que la fiabilité est l’un des critères les
plus importants de la pertinence de l’information [45, 80, 194]. Comme cela est mentionné
par Zacklad [227], un lecteur ne peut exploiter un document sans ressentir une certaine
confiance envers son auteur. En outre, la fiabilité est liée à plusieurs autres critères. Par
exemple, plus l’information est présentée d’une manière ergonomique, plus l’utilisateur lui
accordera une plus grande confiance.
30
CHAPITRE II. EVALUATION DE L’INFORMATION
ù
£ñ J
Ë@ ) 2 ont contribué à l’évolution
de l’histoire comme science. Cette évolution a
continué en occident dans l’ère de la renaissance. Enfin, avec l’émergence d’Internet, plu-
sieurs travaux de recherche se sont intéressés à la fiabilité de l’information dans le cadre
des sciences de l’informatique. Ainsi, nous étudions et nous comparons les méthodologies
de la fiabilité de l’information dans trois disciplines, à savoir les sciences du hadith, les
sciences de l’histoire et les sciences de l’informatique.
la même méthodologie pour les textes littéraires ou les histoires non religieuses. Ensuite,
les sciences du hadith ont été développées au fil des siècles par d’autres savants, tels que
Ë@ I J ¢ m Ì '@ ) 7, Ibn Al-Salah ( hC Ë@ áK @ ) 8, Al-Dhahabi (
Al-khatib Al-Baghdadi ( ø X@ Y ªJ
. .
.
®ªË@
ú
æ.ë YË@) , Al-Iraqui ( ú
¯@QªË@) 10 et Ibn Hajar ( ú
GC
9 Qmk áK @) 11. Enfin, cette méthodologie
. .
a fait l’objet de plusieurs études contemporaines [4, 29, 61].
31
CHAPITRE II. EVALUATION DE L’INFORMATION
Pour être accepté, un hadith doit être transmis par des personnes crédibles. En effet, un
narrateur doit être adulte (au moment de la transmission), sain mentalement et qualifié
en tant que témoin honorable. Etant donné que les personnes se distinguent par leur
capacité de mémorisation, un narrateur est dans l’obligation d’apprendre par cœur ou
d’écrire les hadiths qu’il rapporte pour éviter l’oubli et la déformation des hadiths. Ainsi,
nous distinguons deux qualités pour les narrateurs, à savoir l’honnêteté ( é Ë@ Y ª Ë@ ) et
l’exactitude ( ¡ J. Ë@ ). La méthodologie du hadith tient compte du fait que ces capa-
cités peuvent se dégrader avec l’âge ou à cause d’une maladie. Ces qualités sont évaluées
par des savants spécialisés et reconnus comme experts. Etant proches historiquement et
géographiquement des narrateurs, ils étudient en détail les capacités de chacun d’eux et
distinguent leurs styles de narration.
En troisième lieu, il ne faut pas qu’il y ait un gap temporel ou géographique entre
deux narrateurs successifs. De plus, le hadith doit être transmis d’une manière fiable.
Huit classes de verbes ont été utilisées pour la transmission des hadiths. Le tableau II.1
rapporte les différentes manières de transmission et les verbes correspondants.
Par écrit ( éK. AJºË@) ¯ úÍ@ IJ» (x m’a écrit)
àC
.
Par notification ( ÐC«B@ ) ¯ úæÒÊ«
àC @ (x m’a mis au courant)
Par recommandation ( éJ
ñË@)
àC¯ úÍ@ úæð
@ (x m’a recommandé)
àC¯ ¡m ' HYg
Par découverte ( èXAg. ñË@)
. . ð (J’ai trouvé écrit par x)
Tableau II.1 – Les manières de transmission du hadith [4].
Parmi ces manières, les trois premières sont considérées comme fiables. La quatrième
(la transmission main en main) est acceptée si elle est accompagnée par une permission.
La cinquième est considérée comme fiable par certains experts et rejetée par d’autres.
Enfin, les trois dernières sont considérées comme étant non fiables.
32
CHAPITRE II. EVALUATION DE L’INFORMATION
En fonction de ces critères, les hadiths sont classés par degré d’acceptation ( é k. P X
). En effet, nous distinguons deux classes de hadiths, à savoir les hadiths acceptables
ÈñJ.®Ë@
et les hadiths inacceptables. Sous chacune de ces deux classes, nous retrouvons plusieurs
sous-classes [4].
Il est à noter qu’un hadith bon (respectivement inacceptable) peut devenir authentique
Q iJ
m ) (respectivement bon ( èQ
ªË á k )) s’il a plusieurs chaı̂nes de narrateurs [4].
( è
ªË
33
CHAPITRE II. EVALUATION DE L’INFORMATION
– Le hadith dit ”suspendu” ( ʪ Ü Ï @ ) 15 : c’est un hadith qui présente une coupure
au début de la chaı̂ne de narrateurs.
– Le hadith ”problématique” ( ɪ Ü Ï @) 16 : c’est un hadith qui présente une coupure
de deux ou plusieurs personnes successives au milieu de la chaı̂ne de narrateurs.
– Le hadith ”coupé” ( ©¢ ® JÖ Ï @) : c’est un hadith qui contient l’un des autres cas de
coupure [4].
– Le hadith inacceptable à cause des caractéristiques des narrateurs : c’est un hadith
rejeté en raison d’un défaut imputé à l’un de ses narrateurs. Pour chaque type de
défaut, nous avons une classe de fiabilité comme indiqué dans le tableau II.2.
La conception de l’histoire, en tant que science, n’a été instaurée qu’à partir du 17ème
siècle. En effet, au 15ème siècle, les européens ont commencé à revoir leur histoire et à
critiquer les citations. Malgré les efforts fournis, une méthodologie de critique élaborée
n’est apparue que vers la fin du 17ème siècle avec les efforts de plusieurs savants tels que
Descartes. Cette méthodologie n’a été appliquée en sciences sociales et psychologiques
15. Q»
A¯ ð@P èXAJ@
Z
YJ. Ó
áÓ ¬ AÓ ñë ʪ
Yg Ï @ Q.m Ì '@ [4]
Ü
16. ú
Í@ñ JË@ úΫ Q» A¯ àA J K@
èXAJ@
áÓ
¡® AÓ ñë ɪÖÏ @ Q.mÌ '@ [4]
34
CHAPITRE II. EVALUATION DE L’INFORMATION
que vers la fin du 19ème siècle. En 1898, Langlois et Seignobos [151] ont évalué les livres
de méthodologie de l’histoire qui les ont précédés comme ”très mauvais”, malgré le fait
qu’ils contenaient certaines règles et remarques importantes. Ainsi, les citations orales
grecques et romaines n’ont pas été bien critiquées à cause du manque de principes pour
l’évaluation de telles citations, ce qui a poussé Langlois et Seignobos [151] à soupçonner
les documents qui rapportent de telles citations.
Les mêmes auteurs expliquent que la connaissance historique est une connaissance indi-
recte. Selon Ginzburg [119], traces, archives, témoignages, documents sont les matériaux
et les objets de la discipline historique, qui ne permet ni expérimentation, ni observation
immédiate. Les histoires véhiculées dans un livre sont donc séparées historiquement des
évènements et des personnes ayant participé aux faits historiques. En analysant un do-
cument ou un vestige, l’historien contemple une image, prise depuis longtemps, d’un fait
historique. Cette image risque d’être partielle ou de manquer de certains détails impor-
tants, ce qui pousse les historiens à imaginer le reste. Dans ce cadre, Langlois et Seignobos
[151] affirment que les faits historiques sont imaginés et que presque tous les historiens,
sans s’en rendre compte, ne travaillent que sur des images.
D’autre part, la critique interne s’occupe du contenu pour identifier les informations
fiables. Elle englobe une étude linguistique qui vise à comprendre les termes du document
dans leur contexte historique et géographique, ce qui facilite la compréhension du texte
dans sa globalité. Ensuite, elle considère des éléments rattachés au contenu tels que la
cohérence logique et la rigueur de la présentation, des choix et des argumentations. En
outre, cette étude tient compte de la crédibilité de l’auteur pour s’assurer de son objec-
tivité et de sa neutralité. En plus, les historiens préconisent de diagnostiquer la situation
sanitaire, intellectuelle et psychologique du narrateur aux moments de la collecte et de la
transmission des histoires.
35
CHAPITRE II. EVALUATION DE L’INFORMATION
Dans la littérature informatique, la fiabilité est considérée comme l’un des critères de
qualité de l’information. Selon Naumann et Rolker [173], elle est définie comme le degré
de croyance que nous avons envers une information. Ainsi, elle est liée à la notion de
crédibilité qui traduit le degré à partir duquel l’information peut être vue comme vraie
et crédible [149]. En plus, l’assurance de la fiabilité nous amène à étudier la notion de
confiance dans les différentes visions du Web [175]. Du Web social au Web sémantique,
cette notion est perçue dans le cadre d’un réseau distribué et dynamique, qui lie des agents
(humains ou logiciels). Parmi ces agents, certains jouent le rôle de fournisseurs de service
alors que d’autres jouent le rôle d’agents de recommandation qui ont pour tâche de juger
les fournisseurs de service en fonction de la qualité des services qu’ils offrent.
36
CHAPITRE II. EVALUATION DE L’INFORMATION
37
CHAPITRE II. EVALUATION DE L’INFORMATION
réputation d’un autre en se basant sur les transactions qu’il a eu avec lui. Ainsi,
plus nous aurons fait de transactions réussies avec un agent, plus sa réputation
augmente. Dans d’autres cas, nous pouvons nous baser sur des informations four-
nies par un témoin qui a déjà évalué l’agent en question. Enfin, les relations et les
rôles joués par les agents peuvent déterminer leur réputation. Généralement, nous
avons tendance à croire les agents qui nous sommes socialement proches ou qui
ont des rôles particuliers (par exemple, les agents qui appartiennent à une autorité
gouvernementale).
3. Définir des scores/métriques pour chaque critère. Selon Naumann et Rolker [173],
le score doit être précis, pratique et connu par l’utilisateur et rapide à calculer pour
le système.
4. Trouver une méthode ou une formule d’agrégation des critères dans une seule mesure
[210].
5. Développer des mécanismes de visualisation adaptés à l’utilisateur qui tiennent
compte en particulier de son expertise. L’évaluation de la fiabilité ne se réduit pas
à un calcul d’indices, mais s’étend à une stimulation du processus cognitif de l’uti-
lisateur par des mécanismes de visualisation et d’interaction. Cette conclusion nous
permet de situer ce processus dans le cadre de la cartographie des connaissances.
Ces étapes sont influencées par la nature du système qui assure le calcul. Les approches
existantes peuvent être classées selon l’architecture ou la localisation des informations sur
la réputation [175]. Dans une première approche, un seul agent possède ces informations
(par exemple Yahoo Internet Life dans le travail de Zhu et Gauch [235]). Cette centra-
lisation est critiquée du fait qu’elle contredit le caractère dynamique et ouvert du Web.
Dans un système ouvert et dynamique, voire à large échelle, il est difficile d’établir un
consensus sur un seul agent de recommandation. La deuxième approche considère que
tout agent peut jouer le rôle de recommandation. C’est le cas du SRI multi-critères de
Da Costa Pereira et Pasi [80]. La décentralisation complète et l’absence d’une autorité de
contrôle peut ralentir le processus d’établissement de la confiance. De tels systèmes sont
aussi sensibles aux intrusions qui permettent à des agents non crédibles de publier des
jugements non fiables sur les autres. Une dernière solution, considérée comme hybride,
permet de profiter des avantages des deux approches précédentes en permettant à un
ensemble limité d’agents de fournir des recommandations.
– Autorité : c’est l’ensemble des indicateurs qui prouvent (ou qui peuvent être ex-
ploités pour vérifier) la crédibilité des acteurs. Par exemple, pour évaluer la fiabilité
d’un site, nous devons vérifier l’existence d’informations telles que les noms des
auteurs, leurs affiliations, les textes de copyright, etc.
– Objectivité : c’est la qualité d’une information qui n’est pas biaisée, préjugée ou
partielle [149]. L’objectivité d’une information est analysée en identifiant sa nature
(un fait ou une opinion) et son objectif (publicité commerciale, discours politique,
travail de recherche, etc.).
– Vérifiabilité : elle traduit l’existence d’éléments intrinsèques ou extrinsèques qui
aident à vérifier la fiabilité du point de vue autorité et objectivité.
38
CHAPITRE II. EVALUATION DE L’INFORMATION
En plus de ces éléments, Chen et al. [69] ont montré l’importance du moyen de trans-
mission. Par exemple, ils ont déduit que le format papier est plus fiable que la transmission
orale. Ils affirment que plus le flux de l’information est rationalisé, plus l’information est
fiable. D’autres études soulignent l’importance du flux pour la fiabilité dans le domaine
médical [180] et en e-learning [196]. D’autres encore ont utilisé des critères liés au processus
d’édition des documents [70].
39
CHAPITRE II. EVALUATION DE L’INFORMATION
plus précise, en proposant une taxonomie exhaustive des classes de fiabilité. En résumé,
la présence des chaı̂nes de narrateurs dans les hadiths permet un accès direct à la connais-
sance et une évaluation facile et précise de la fiabilité, alors que l’absence de témoins a
obligé les historiens à étudier les histoires d’une manière indirecte, voire à imaginer les
parties manquantes. Cette comparaison nous permet de confirmer le point de vue d’Al-
Omri [2] qui stipule que les sciences du hadith offrent une méthodologie plus consistante
pour la fiabilité de l’information.
Nous arrivons aussi à positionner la méthodologie du hadith par rapport aux dimen-
sions de la fiabilité dans les sciences de l’informatique [6]. D’abord, la dimension autorité
est prise en compte étant donné que tous les narrateurs de l’histoire sont explicitement
cités. En plus, les narrateurs sont évalués par des experts qui constituent des autorités
de contrôle. Notons à ce stade que certaines plate-formes existantes pour l’assurance de
la qualité de l’information manquent de méta-données suffisantes sur les acteurs. Par
exemple, Stivilia [209, 210] a proposé une plate-forme générique mais n’a pas expliqué
comment il juge la crédibilité des contributeurs. Pour les articles de Wikipedia, il considère
uniquement le fait que l’utilisateur, ayant édité un article, est inscrit ou non dans cette
encycolopédie. Comme mentionné par Lynch [156], connaitre l’identité de la source d’in-
formation n’est pas suffisant. Une étude approfondie de la biographie et du comportement
doit être alors effectuée pour évaluer chaque source.
Par rapport aux systèmes d’assurance de la confiance dans le Web moderne [175],
les narrateurs du hadith constituent des fournisseurs de service, alors que les savants
constituent des agents de recommandation. Du point de vue localisation des informations
sur la réputation, il ne s’agit ni d’un système centralisé ni d’un système complètement
décentralisé, mais plutôt d’un système hybride. En effet, seuls les savants reconnus ont
le droit de juger les narrateurs et les hadiths. En contre partie, aucun de ces savants
ne prétend connaı̂tre tous les narrateurs ni tous les hadiths. Du point de vue source
d’information sur la réputation, les savants du hadith ont combiné plusieurs approches.
Leur méthodologie tient compte des expériences passées avec les narrateurs, et de leurs
relations sociales et des témoignages des autres savants.
Nous pouvons donc conclure que la méthodologie du hadith tient compte de toutes les
dimensions de la fiabilité de l’information. Les savants du hadith ont bâti un système
d’assurance de la confiance adapté à la nature de leur tâche et des réseaux sociaux de leur
époque.
40
CHAPITRE II. EVALUATION DE L’INFORMATION
En examinant la troisième colonne du tableau II.3, nous pouvons remarquer que l’éva-
luation des critères de fiabilité des hadiths requiert des méta-données qui contiennent les
évaluations des experts sur la crédibilité de chaque narrateur, ce qui permet d’assurer la
première dimension, à savoir l’autorité. La comparaison de versions permet de détecter
les anomalies et l’excentricité, ce qui assure l’objectivité. Pour vérifier la présence des
informations nécessaires sur le processus de transmission des informations, il est nécessaire
d’analyser la structure des chaı̂nes des narrateurs en identifiant les noms de narrateurs et
les verbes indiquant les manières de transmission. Enfin, il faut reconnaı̂tre l’identité de
chaque narrateur afin de pouvoir l’évaluer.
41
CHAPITRE II. EVALUATION DE L’INFORMATION
Aydemir [28] a proposé un modèle probabiliste pour juger de la fiabilité des hadiths.
Le modèle n’utilise pas les données sur les narrateurs. Il considère initialement que tous
les narrateurs sont inconnus et qu’ils possèdent tous une probabilité d’être crédibles égale
à 1/2. Cette probabilité augmente si d’autres narrateurs rapportent le même hadith de la
même manière. Elle diminue si les autres narrateurs racontent des versions qui divergent.
Ce calcul est illustré par un exemple dans [28]. Cela signifie que le jugement de la fiabilité
est basé uniquement sur la comparaison de versions. En outre, ce modèle est fortement
récursif étant donné que la fiabilité d’un narrateur dépend de la crédibilité d’autres nar-
rateurs, qui peuvent aussi être inconnus. En plus, il n’y a aucun moyen pour juger de la
continuité d’une chaı̂ne. Ainsi, une transmission composée de deux narrateurs fiables qui
ont vécu dans des périodes complètement séparées est considérée comme fiable.
Ghazizadeh et al. [117] ont présenté un système basé sur la logique floue pour évaluer
la fiabilité des hadiths. Les règles floues sont basées sur trois variables scalaires, à savoir
la continuité, le nombre de narrations de chaque narrateur et sa crédibilité. Par exemple,
le nombre de narrations est valué par ”élevé”, ”moyen” ou ”bas”. En tout cas, les auteurs
n’expliquent pas comment ces variables sont calculées, ni la source des données nécessaires
à ce calcul. Une règle floue contient des contraintes sur les trois variables et produit la
classe de fiabilité pouvant prendre l’une des cinq valeurs possibles en plus d’un taux de
certitude. Par exemple, si la chaı̂ne est continue, le nombre de narrations est moyen et
que la crédibilité du narrateur est élevée, alors le hadith est dit ”correct” et le taux de
certitude est égal à 0.9. Les tests ont été effectués sur le livre ” ú¯A¾Ë@” 17 qui contient plus
que 1900 hadiths. Les auteurs affirment qu’ils ont atteint un taux de réussite égal à 94%.
Cependant, ils n’expliquent pas si tous les hadiths de ce livre en été évalués.
17. á
Ê¿ éJK
YÓ ú
¯ ø
Qj.êË@ IËA
JË@ àQ®Ë@ áÓ ú
GAJË@ JË@ ú
¯ XñËñÖÏ @ ú
æJ
ʾË@ H ñ áK YÒjÖÏ ú¯A ¾Ë@
®ªK
. Ï @ ñëð PA
. ë 329 éJ ú¯ñJÖÏ @ úæJ
ʾË@ ÐCB @ é®. JK. ¬ðQªÖ
®K
.
Le livre ”Al-kefi” de Mohamed ibn Yakoub Al-Kellini né dans le deuxième moitié du troisième
siècle hégirien dans la ville de Kellin en Iran connu sous le nom de ”thikat Allah Al-Kellini”
décédé en 329 hégirien
42
CHAPITRE II. EVALUATION DE L’INFORMATION
Le tableau II.4 compare les trois approches citées précédemment en récapitulant les
techniques d’évaluation, le type de résultat, les critères pris en compte lors du calcul de
la fiabilité et le taux de réussite.
Les approches existantes supposent que les chaı̂nes sont déjà analysées et que les nar-
rateurs sont identifiés. Si nous les comparons du point de vue besoin en données, nous
trouvons que l’approche de Ghazizadeh et al. [117] est la plus coûteuse, étant donné qu’il
est nécessaire de connaı̂tre le nombre de narrations de chaque narrateur, ce qui n’est
pas toujours possible. Al-Rizzo [3] utilise uniquement la crédibilité des narrateurs et la
continuité de la chaı̂ne. L’approche d’Aydemir [28] est la moins coûteuse du point de vue
besoin en données mais exige que les versions différentes d’un hadith soient alignées. Du
point de vue complexité, son implémentation nécessite des calculs récursifs coûteux. Par
rapport aux dimensions de fiabilité, la comparaison de versions permet d’évaluer l’objecti-
vité. Cependant, il est nécessaire de spécifier les mécanismes d’alignement qui ne semblent
pas faciles à mettre en œuvre. En effet, la détection des anomalies nécessite une analyse
logique du sens et du contexte du hadith, ce qui n’est pas possible dans l’état actuel des
travaux d’analyse automatique des textes en langue arabe (voir chapitre III). C’est pour-
quoi ce critère n’est pas pris en compte d’une manière directe par les approches d’Al-Rizzo
[3] et Ghazizadeh et al. [117] qui se concentrent sur la dimension ”autorité”.
Enfin, nous identifions trois limites des approches existantes :
43
CHAPITRE II. EVALUATION DE L’INFORMATION
4 Conclusion
Dans ce chapitre, nous avons étudié les méthodologies et les applications dans le do-
maine de l’évaluation de la fiabilité, qui est considérée comme un critère de la pertinence
de l’information. Malgré la diversité des domaines d’application, nous avons pu recenser
une démarche générique qui combine les méthodologies classiques des sciences de l’histoire
et du hadith avec les développements modernes dans les sciences de l’informatique. En
guise de conclusion, nous pouvons dire que l’évaluation de la fiabilité est un processus
qui réunit toutes les étapes du processus de cartographie des connaissances. Du point de
vue résultat d’évaluation des critères de fiabilité, nous avons insisté sur l’importance de
la précision des métriques, des indices de fiabilité et de l’ergonomie de leur affichage. En
effet, pour pouvoir calculer ces indices, il faut passer par des étapes d’étude et d’analyse
qui permettent d’identifier et de structurer les informations nécessaires à ce calcul. Ces
étapes sont aussi indispensables pour évaluer les autres critères de pertinence dont la per-
tinence thématique. Ainsi, le chapitre suivant se focalisera sur les mécanismes d’analyse
nécessaires à la structuration des fonds documentaires arabes.
44
Chapitre III
Extraction et organisation des
connaissances à partir des
documents arabes
L ’objectif de ce chapitre est d’étudier les étapes nécessaires pour obtenir une struc-
turation socio-sémantique d’un fonds documentaire exploitable par un système
de recherche ou de navigation. Afin d’indexer les documents ou d’en extraire les connais-
sances, il est nécessaire de les analyser à plusieurs niveaux. Le processus d’analyse inclut
tous les niveaux du traitement automatique du langage naturel (TALN). Ce processus
commence au niveau morphologique qui analyse les caractéristiques et les constituants
des mots. La découverte de connaissances plus complexes et leur organisation nécessite
le passage au niveau syntaxique. Sur la base de ce travail préliminaire, il est possible de
mettre en place des mécanismes d’analyse socio-sémantique. Une revue des travaux de
recherche pour la langue arabe (par exemple à travers la conférence ICCA 2010 [17]),
montre que ces travaux se concentrent sur les deux premiers niveaux. Cependant, certains
travaux ont abordé le niveau sémantique et le niveau social. Ce chapitre présente un état
de l’art sur les approches et les outils d’analyse de documents arabes en consacrant une
section pour chacun des quatre niveaux d’analyse, à savoir le niveau morphologique, le
niveau syntaxique, le niveau sémantique et le niveau social. Il faut mentionner ici que ces
niveaux sont liés et que le processus d’analyse n’est pas forcément séquentiel. Avant de
conclure ce chapitre, nous présenterons, dans la section 5, une critique de l’existant en
évaluant l’état de la langue arabe dans le Web socio-sémantique.
1 Le niveau morphologique
La langue arabe possède une morphologie dérivationnelle et flexionnelle. L’élément de
base du lexique arabe est la racine (P Ym.Ì '@), à partir de laquelle il est possible de générer
des lemmes puis des mots. Mesfar [164] distingue les racines simples qui correspondent au
) ” ɪ ¯ ” (fa’ala), à partir desquelles il est possible de générer des racines
schème ( à PñË@
augmentées en utilisant des schèmes plus complexes. Par exemple, à partir de la racine
simple ” à ”, il est possible de générer le verbe à racine augmentée ” J@” (inspirer)
en appliquant le schème ” É ª ® J @ ”. Dans un tel schème, les trois dernières lettres
représentent les lettres de la racine simple. A partir des racines simples et augmentées,
45
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
nous pouvons dériver des noms. Par exemple, à partir de la racine précédente, nous pou-
vons dériver le nom ” A J@
” (inspiration). Les particules, verbes non conjugués et les
noms non déclinés constituent les lemmes [164]. L’inflexion change la forme d’un lemme
et ajoute des préfixes et des suffixes. Par exemple, le verbe précédent peut être conjugué
à l’inaccompli avec la troisième personne du masculin singulier comme suit : ” J
” (il inspire). Selon le rôle et la position du mot dans une phrase, des enclitiques et des
proclitiques peuvent être ajoutés [24]. Par exemple, à partir du verbe précédent, nous
pouvons
générer l’expression ” é® J
@” (Est-ce qu’il l’inspire). Dans ce cas, le proclitique
” @ ” et l’enclitique ” è ”ont été ajoutés. Les textes arabes contiennent aussi d’autres ca-
ractères appelés voyelles courtes ou signes diacritiques ( ɾË@ ) qui aident à prononcer les
mots. Par exemple, le mot précédent peut être voyellé comme suit : ” é® J
@”.
Pour réduire les ambiguı̈tés, deux solutions sont envisageables. La première consiste
à utiliser le contexte. Etant donnée une entité qui a plusieurs interprétations possibles,
il s’agit, dans une première étape, d’associer à chaque interprétation un ou plusieurs
contextes par apprentissage dans un corpus étiqueté. Dans une deuxième étape, les en-
tités sont désambiguı̈sées dans un corpus de test par comparaison des nouveaux contextes
à ceux appris dans la première étape. La deuxième solution consiste à résoudre les am-
biguı̈tés d’un niveau en passant au niveau suivant. Par exemple, un analyseur syntaxique
46
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
peut filtrer les solutions proposées par un analyseur morphologique pour ne garder que
les solutions compatibles avec les règles de la grammaire [23].
Les approches et les outils qui traitent les aspects morphologiques peuvent donc être
classés en deux principales catégories. La première regroupe des outils d’analyse qui visent
à identifier toutes les solutions possibles pour un mot donné indépendamment de son
contexte. Dans cette catégorie, nous distinguons essentiellement les lemmatiseurs [82, 146]
et les analyseurs morphologiques [14, 24, 35, 128]. La deuxième catégorie englobe les outils
de désambigüisation qui utilisent des informations extra-mot pour choisir la bonne solution
morphologique [86, 127]. Il ne s’agit pas d’outils purement morphologiques du fait qu’ils
dépassent le cadre du mot, mais nous les décrivons dans cette section car leur résultat
est morphologique. Parmi ces outils, nous distinguons les étiqueteurs grammaticaux qui
ne permettent d’identifier que la catégorie grammaticale [86]. D’autres outils, tels que
MADA, permettent à la fois l’analyse morphologique complète et la désambiguı̈sation
[127].
Par exemple, le lemmatiseur de Khoja [146] permet de retrouver la racine d’un mot. La
première étape consiste en l’élimination des préfixes et des suffixes. La deuxième étape
permet d’identifier le schème de dérivation qui correspond au lemme du mot pour identifier
sa racine. L’outil a été utilisé dans le Système de Recherche d’Information (SRI) en langue
arabe développé par Larkey et al. [153]. Ces derniers affirment que le lemmatiseur a
commis beaucoup d’erreurs mais il a permis d’améliorer les résultats de recherche en
termes de rappel et de précision.
Parmi les outils qui permettent de retrouver le lemme d’un mot arabe, citons le lem-
matiseur développé par Darwish [82]. Il faut rappeler ici que la lemmatisation fait partie
des fonctionnalités des analyseurs morphologiques.
47
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
deuxième est accessible à travers une interface Web 2 . Nous avons testé d’autres analyseurs
morphologiques disponibles et nous avons abouti à la même conclusion qu’Attia [24] en
confirmant que ces deux outils sont les plus performants. Par exemple, nous avons testé
l’analyseur morphologique du laboratoire de recherche en informatique de l’université de
New Mexico [77] qui permet d’analyser des textes en arabe, persan et urdu. Il produit
beaucoup plus d’erreurs que l’analyseur de Buckwalter, qui est en plus mieux documenté
et plus facilement intégrable. Attia [24] énumère les limites de ces deux analyseurs (celui
de Buckwalter et celui de Xerox) et propose son propre analyseur. En plus de ces outils,
un nouvel analyseur nommé ”Alkhalil” est récemment apparu [14].
– Le dictionnaire des préfixes : il contient les préfixes qui peuvent être ajoutés lors de
la flexion et les proclitiques.
– Le dictionnaire des suffixes : il contient les suffixes qui peuvent être ajoutés lors de
la flexion et les enclitiques.
– Le dictionnaire des radicaux : il englobe des lexèmes (formes graphiques) qui ne
contiennent ni préfixes ni suffixes. Pour chaque lexème, le dictionnaire énumère les
lemmes possibles, leurs catégories grammaticales et leurs traductions en anglais.
Trois tables de compatibilité sont définies, à savoir :
Cet analyseur, considéré comme la meilleure ressource de son type, souffre de quelques
limites comme cela a été mentionné par Attia [24]. Parmi ces limites, notons la non prise en
compte de certaines formes de verbes (par exemple, les formes passives et impératives).
Attia [24] affirme que les dictionnaires de cet analyseur contiennent des entrées de la
langue arabe classique, ce qu’il considère comme étant une limite. Nous considérons plutôt
qu’il s’agit d’une caractéristique de cet analyseur qui pourra être utilisé avec des textes
classiques.
D’après Attia [24], cet analyseur commet beaucoup d’erreurs lors de la génération, ce
qui amplifie son taux d’ambigüité. En outre, il est moins adapté pour interopérer avec un
analyseur syntaxique, car la liste de catégories morphosyntaxiques qu’il définit est réduite
par rapport à celle d’AraMorph. Cependant, il contient moins d’entrées de la langue arabe
classique.
2. http ://www.arabic-morphology.com
48
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
1.2.5 Synthèse
Dans cette section, nous comparons les outils précédemment décrits sur la base des
critères suivants : le type d’entrées (racines ou lemmes), la couverture (nombre d’entrées),
le type de la langue arabe considérée (classique ou moderne), le degré d’ambiguı̈té (nombre
moyen de solutions pour chaque mot) et la disponibilité. Le tableau III.1 présente les
caractéristiques des quatre outils présentés dans ce chapitre en fonction de ces critères.
49
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
L’analyseur développé par Diab [86] est cependant disponible avec les ressources néces-
saires 4 . L’étape d’apprentissage a été effectuée sur le corpus ATB (Arabic Treebank [158]).
L’analyseur est composé de modules qui permettent de faire la lemmatisation pour en-
suite attribuer les catégories grammaticales aux mots. Ces catégories ont été définies en
réduisant les 135 catégories d’AraMorph.
50
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
2 Le niveau syntaxique
L’analyse syntaxique est censée reconnaı̂tre la structure d’une phrase et les fonctions
grammaticales de ses constituants. Elle peut être limitée à l’analyse ou à l’extraction de
certaines expressions utiles pour des fins d’indexation ou d’extraction de concepts. C’est
ainsi que plusieurs outils, dans le domaine de l’ingénierie ontologique, considèrent les syn-
tagmes nominaux comme les meilleures entités qui représentent le sujet d’un document
[47, 161]. Nous distinguons donc deux types d’analyse syntaxique. L’analyse superficielle
permet la découverte des constituants principaux des phrases (syntagmes en général)
et leurs têtes ainsi que la détermination des relations syntaxiques (sujet, objet) entre
les verbes et les têtes des autres constituants [38]. L’analyse profonde inclut, en plus
de ces tâches, l’affectation des fonctions aux syntagmes distingués, la désambiguı̈sation
syntaxique et l’attribution d’une structure syntaxique globale [38]. Si ce type d’analyse
garantit la qualité des résultats, il est plus complexe et plus coûteux en terme de connais-
sances linguistiques requises [38]. Les analyseurs superficiels gagnent du terrain vu la
facilité de leur mise en œuvre surtout dans les applications d’extraction de connaissances
et la recherche d’information qui traitent des données volumineuses.
Cette section présente des éléments de la grammaire arabe liés à la constitution des
syntagmes nominaux, avant d’étudier les problèmes d’ambiguı̈té syntaxique et les travaux
existants dans ce domaine.
Les syntagmes peuvent être composés de deux ou plusieurs noms simples et adjectifs.
Selon le type des mots qui composent un syntagme, nous pouvons identifier son type
comme suit :
JË@ I»QÖÏ @), composé d’un nom (simple ou composé)
– Le Syntagme adJectival (SJ ) ( úæª
.
appelé ” Hñª JÓ ” (le nom modifié) et un adjectif (” Iª K ”). Les deux composantes
Ég. QË@” : l’homme savant)
doivent être toutes les deux définies (par exemple ” ÕËAªË@
ou indéfinies (par exemple ” ÕËA « Ég. P” : un homme savant). En plus, elles doivent
aussi avoir le même genre et le même nombre (” XQ®Ó” : singulier, ” ©Ôg.” : pluriel ou
51
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
” úæ JÓ” : duel).
– Le Syntagme Annexé (SA) ( ú¯A B@
I. »QÖÏ @ ), composé d’un nom indéfini appelé ”
¬A Ö Ï @” (l’annexé) et d’un terme défini ” éJ
Ë@
¬A Ö Ï @” (la base d’annexion). Exemple :
” PYË@ I
. KA¿” (le rédacteur de la leçon).
– Le Syntagme Conjonctif (SC ) ( ù ®¢ªË@ I . »QÖÏ @) : composé d’une suite de noms liés
par la conjonction ”ð ” (et) ou ” ð @ ” (ou). Exemple : ” É ®¢Ë@ð Ég. QË@ ” (l’homme et
l’enfant).
– Le Syntagme Prépositionnel (SP ) ( ú¯QmÌ '@ I
. »QÖÏ @), composé de deux noms séparés
par une préposition. Exemple : ” Z@ñÊm ¨ñK ” (un type de bonbon).
Ì '@ áÓ
– Le Syntagme Nominal Complexe (SNC ) dans lequel deux ou plusieurs connecteurs
(par exemple les conjonctions et les prépositions) sont utilisés pour lier les noms.
úÍ@ñmÌ P@QÒJB@” : Continuer à peu près une année.
Exemple : ” éJ
part, un nom arabe peut prendre le rôle d’un verbe, d’une préposition, d’un adverbe ou
d’un adjectif. Par exemple, le mot ” IjJ . Ë@” dans la phrase ” èQÒ JÓ l. '
A J K á« . Ë@ QÖß
@”
IjJ
(la recherche a donné des résultats prometteurs) joue le rôle d’un nom. Cependant, il a le
. Ë@ ÈðAg ” (Il a essayé de
rôle d’un nom verbal dans la phrase suivante : ”Qk @ Ég á« IjJ
chercher une autre solution).
52
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
”Préposition”. Il est nécessaire dans ce cas d’identifier tous les arbres syntaxiques pos-
sibles et de sélectionner celui qui correspond à l’analyse correcte, car cela influence la
sémantique des syntagmes extraits.
3 Le niveau sémantique
Cette section présente les enjeux de construction des ontologies en tant que système
d’organisation des connaissances sémantiques. Notre étude concerne le cycle de vie et les
approches d’extraction de construction des ontologies à partir de corpus textuels.
53
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
En réalité, ces étapes se chevauchent, ce qui est implique que ce cycle de vie n’est
pas séquentiel. Par exemple, il n’est pas possible de séparer les étapes de construction et
d’utilisation selon le point de vue du Web socio-sémantique. En examinant ce processus
et pour des raisons de clarté, nous pouvons réorganiser ces étapes en distinguant trois
phases : (i) l’évaluation des besoins ; (ii) la construction et l’utilisation ; et, (iii) l’évaluation
de l’ontologie.
Il convient donc de définir la notion de domaine. Nous pouvons citer la définition sui-
vante [129] : ”A domain is a culturally bounded segment of the social world containing
producers/products, audiences and a language that tells to whom these distinctions apply
and what they mean” .
A partir de cette définition, il est possible de conclure qu’un domaine est composé
d’items reliés (les produits). Il correspond à un intérêt commun d’une communauté (des
producteurs et une audience partageant des perceptions, des intérêts, des activités, des
valeurs, etc.). Cette communauté partage aussi un ensemble de concepts et une terminolo-
gie définie par ses membres. Selon Spradley [208], un domaine est représenté à l’aide d’un
terme principal, un ensemble de termes et des relations sémantiques entre les termes. Il
faut aussi définir des critères qui permettent de distinguer les connaissances qui entrent
dans les limites du domaine de celles qui doivent être écartées. Il est clair que ce processus
dépend des besoins et des interactions sociales entre plusieurs acteurs. Vu la complexité
de ces interactions, le Web socio-sémantique propose de construire les ontologies d’une
manière collaborative [225].
54
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
55
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
Ensuite, il est possible d’utiliser les métriques d’évaluation des SRI, à savoir le rappel,
la précision et la F-mesure (voir section 4.1.4 du chapitre I, page 21). Néanmoins, la
difficulté réside au niveau de la définition d’une ontologie de référence. De telles ressources
peuvent être fournies directement ou construites par un expert par validation manuelle.
Par exemple, il est possible de trouver, pour certains domaines, des listes de référence
qui peuvent être utilisées pour évaluer les approches d’extraction de concepts (voir par
exemple [81]). De telles listes peuvent être construites par des experts qui examinent des
corpus et extraient les éléments valides. Si les listes de références ne sont pas disponibles, il
est possible d’opter pour la méthode de validation où un expert valide élément par élément
les connaissances extraites (voir par exemple [20, 166]). De telles approches sont coûteuses
en terme de temps. En outre, l’intervention humaine est influencée par la subjectivité et
l’interprétation personnelle des termes et des relations. Pour remédier à ces inconvénients,
nous pouvons recourir à une validation automatique qui consiste à utiliser l’ontologie dans
un cadre applicatif et à examiner son effet sur les résultats. Par exemple, il est possible
de l’intégrer dans un SRI puis d’évaluer son impact sur ses résultats.
3.2.1 Terminologie
Etant donné que l’unité de base d’un Système d’Organisation de Connaissances (SOC)
est le terme, il est nécessaire de définir cette notion. Jacquemin [142] la définit comme
une représentation de surface d’un concept du domaine. Tel que nous l’avons spécifié dans
la section 3.1.1 (page 54), un domaine est représenté à l’aide d’un ensemble de termes
qui constituent sa terminologie. Ces deux définitions étant circulaires, il est nécessaire
d’identifier les critères qui permettent de décider si une expression est ou non un terme.
Des recherches récentes ont permis de dégager deux propriétés des termes, à savoir le
”termhood ” et le ”unithood ”. Selon Pazienza et al. [181], le termhood exprime à quel
point (le degré) une unité linguistique est reliée aux concepts d’un domaine. Le uni-
thood exprime la force et la stabilité des collocations syntagmatiques. Cette propriété
concerne les termes qui sont des expressions composées. Pour être considérée comme une
expression composée, une suite de mots doit répondre à des contraintes syntaxiques et
sémantiques. Attia [24] dénombre plusieurs propriétés de telles expressions comme la stabi-
lité lexogrammaticale (l’expression est rigide ou non décomposable) et la paraphrasabilité
(l’expression peut être remplacée par un seul mot). Cependant, la principale propriété
qui distingue ces expressions est la non-compositionnalité qui signifie que le sens de ces
expressions ne peut pas être dérivé de leurs composantes. Par exemple, ”être calme”
est une expression compositionnelle. Par contre, ”avoir le sang froid” est une expression
non-compositionnelle parce que son sens n’est relié à aucun des mots qui la constituent.
Malgré le fait qu’il soit difficile de calculer la compositionnalité des expressions, seules les
56
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
Ces calculs de fréquences s’appliquent aussi bien pour les termes simples que com-
posés. Cependant, pour calculer le unithood des expressions composées, nous avons be-
soin d’autres types de mesures qui permettent de calculer le degré d’association entre
les composantes d’une expression. Parmi les mesures utilisées pour les documents arabes
[48, 185], citons T-score (TS) [72], le score LLR [97], le coefficient de Dice (DF) [207] et
l’information mutuelle (MI) [81].
Ces mesures utilisent une table de contingence (voir tableau III.2) qui contient des
statistiques sur deux éléments u et v qui représentent dans ce cas, les composantes d’une
expression. O11 est le nombre d’occurrences de u avec v. O12 est le nombre d’occurrences
de u avec un élément autre que v, etc.
t1 = v t1 6= v
t2 = u O11 O12
t2 6= u O21 O22
57
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
N = R1 + R2 = C1 + C2 (III.5)
Nous calculons aussi la fréquence attendue (ou espérance) de collocation comme suit
[181] :
r = R1 /N (III.9)
O11 − E11
T S(u, v) = √ (III.13)
O11
O11
DF (u, v) = 2 ∗ (III.14)
R1 + C1
58
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
Dans les deux cas, nous pouvons distinguer trois principales étapes [52] :
1. Analyse du corpus : des outils d’analyse linguistiques sont utilisés pour permettre
au moins de reconnaı̂tre les catégories grammaticales des mots.
2. Extraction de candidats termes : dans cette étape, on se limite généralement aux
syntagmes nominaux [181].
3. Filtrage : éliminer les mots vides et les expressions fréquemment utilisées.
L’extraction de termes composés arabes nécessite des grammaires syntaxiques [46]. Par
exemple, Attia [24] propose un analyseur purement linguistique pour la reconnaissance
des termes composés. En entrée, un lexique de termes composés construit manuellement
est fourni. Le système essaie d’identifier des variantes de ces termes en utilisant un analy-
seur morphologique. Des règles précises permettent de tenir compte des caractéristiques
morphologiques telles que le genre et le nombre. Les termes composés extraits sont décrits
sous forme d’arbres syntaxiques qui précisent le rôle de chaque constituant. Vu que l’ob-
jectif est d’améliorer les performances d’un analyseur syntaxique, Attia [24] n’a pas évalué
son outil dans un cadre applicatif tel que la recherche d’information.
59
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
En ce qui concerne la langue arabe, Boulaknadel et al. [48] ont présenté une approche
hybride pour extraire les termes composés à partir d’un corpus représentant le domaine
J Ë@ ). Ils ont défini des patrons qui exploitent la catégorie gram-
de l’environnement ( é J
.
maticale pour sélectionner les candidats termes. L’approche n’intègre pas un analyseur
morphologique mais un étiqueteur grammatical [86], ce qui ne permet pas de lemmatiser
les textes et extraire les lemmes des noms et des adjectifs. Ainsi, cette approche est in-
capable de prendre en compte les caractéristiques morphologiques dans la définition des
patrons. Par exemple, il n’est pas possible de vérifier la correspondance en genre entre un
nom et son adjectif lors de la reconnaissance des syntagmes adjectivaux. De plus, elle ne
permet pas de reconnaı̂tre les rôles respectifs des constituants d’un terme et sa structure.
Enfin, les expérimentations ont été effectuées sur un seul corpus en utilisant des mesures
d’association, ce qui implique que les auteurs n’évaluent que le unithood des termes.
Les relations qui permettent de structurer un SOC peuvent être extraites de diverses
manières [51]. Nous pouvons exploiter plusieurs types d’informations telles que les infor-
mations morphologiques, syntaxiques et contextuelles. Il est aussi possible d’exploiter des
informations provenant de ressources multilingues.
60
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
La structure des termes peut être exploitée pour inférer des relations d’hyperonymie
[143]. Généralement le syntagme composé est considéré comme l’hyponyme de sa tête ;
par exemple le terme ” É«” (miel) est l’hyperonyme de ” ÈA®KQ.Ë@ É«” (miel d’orange).
Cette approche a été appliquée sur les documents Web arabes par Hazman et al. [137],
mais elle reste limitée par le fait qu’elle ne permet pas de retrouver des relations entre les
termes simples indépendamment des termes composés.
Nous avons ensuite essayé d’expérimenter la même approche sur les documents du
hadith [5]. Nous avons réussi à retrouver l’hyperonyme commun de certains groupes de
termes tel que le terme ” ZA «ð ” (conteneur) pour le groupe qui contient les types de
conteneurs. Cependant, dans ce type de documents les liens entre les fragments sont plutôt
thématiques. Il nous était donc difficile de généraliser les résultats obtenus. Néanmoins, la
hiérarchie de titres constitue une carte de thèmes qui facilite l’accès et la compréhension
des textes.
61
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
Les approches basées sur la co-occurrence : ces approches considèrent que les
termes qui co-occurrent dans le même document sont sémantiquement proches. Elle est
largement appliquée pour les documents arabes. Par exemple, Al-Qabbany et al. [20] ont
proposé d’indexer les termes par les documents en utilisant une variante de la mesure TF-
IDF, appelée TF-ITF. Chaque terme est représenté par un vecteur dont les composantes
représentent les poids du terme pour les documents en utilisant cette mesure. La similarité
de deux termes est égale au produit scalaire de leurs vecteurs respectifs. Boulaknadel [47] a
adopté une approche similaire en appliquant la méthode LSA (Latent Semantic Analysis)
[84]. Dans cette méthode, un fonds documentaire est représenté à l’aide d’une matrice dont
les lignes sont les mots et les colonnes sont les documents. La similarité de deux mots
est proportionnelle à la distance euclidienne entre leurs vecteurs respectifs. Mokbel et al.
[169] ont proposé d’améliorer la méthode LSA en étendant l’index de chaque document
par les documents qui lui sont proches, avant de procéder à une étape de clustering. Pinto
et al. [185] ont utilisé l’information mutuelle basée sur la co-occurrence pour calculer la
similarité de deux termes. Yousfi et al. [223] ont exploité les liens de co-occurrence pour
désambiguı̈ser les mots d’une phrase. L’objectif consiste à identifier la classe sémantique
d’un mot en fonction des sens des mots qui apparaı̂ssent dans la même phrase que lui.
En guise de conclusion, nous pouvons dire que les approches à base de co-occurrence ont
été largement utilisées avec divers types de distance. Cependant, elles sont plus orientées
vers des besoins d’indexation et de recherche d’information que vers l’organisation des
connaissances, car les graphes de co-occurrence sont fortement connexes. Ainsi, des termes
non-similaires peuvent apparaı̂tre dans le même document, ce qui produit des liens erronés.
Les approches basées sur le contexte syntaxique : Bourigault [57] a proposé d’uti-
liser l’analyse distributionnelle étendue qui consiste à considérer les termes composés en
plus des termes simples. Il a dévelopé un outil, appelé Upery [57], qui exploite un réseau
de dépendances syntaxiques généré par l’analyseur syntaxique Syntex [58]. L’idée de base
consiste à regrouper les têtes qui partagent la même expansion qui représente le contexte
commun. D’une manière analogue, nous pouvons relier les expansions qui partagent la
même tête. L’outil Upery calcule le degré de similarité entre deux termes t1 et t2 selon
trois mesures [57] :
62
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
3.2.4 Synthèse
Qu’il s’agisse d’extraire les termes d’un domaine ou de trouver des relations entre
ces termes, deux approches sont possibles, à savoir l’approche statistique et l’approche
linguistique. D’après les exemples d’outils que nous venons de présenter dans les sections
précédentes, il est nécessaire d’hybrider ces deux approches. En effet, l’approche statistique
permet d’éliminer les mots vides ou ceux qui ne sont pas pertinents pour le domaine
(par exemple en calculant la pertinence au domaine). L’approche linguistique permet de
contrôler la précision lors de l’extraction par exemple en imposant des contraintes sur la
structure des termes. Dans ces deux approches, nous distinguons trois critères pour juger
de la pertinence d’un terme ou pour identifier ses relations : la fréquence, le contexte et
la structure des termes.
4 Le niveau social
A ce niveau, nous nous intéressons aux entités sociales, leurs relations et leurs interac-
tions. Ces connaissances sont représentées dans les textes à travers des entités nommées
qui sont des expressions linguistiques désignant des noms propres (noms de personnes,
de lieux ou d’organisations), des expressions liées à la date, au temps ou à la monnaie.
Il est reconnu que ces expressions jouent un rôle important dans l’extraction et la re-
cherche d’information [152]. En outre, leur identification permet la navigation dans de
larges collections de documents [79]. Abuleil [16] et Chinchor [71] ont montré que les
informations importantes sont souvent localisées autour des noms propres. Ceci montre
encore une fois le degré de corrélation entre les connaissances sociales et les connaissances
sémantiques. Il s’agit de confirmer le fait que les informations dépendent de leurs sources
qui en constituent des indexes qui facilitent l’accès aux documents [71].
Dans ce cadre, la civilisation arabe a ses spécificités au niveau des règles de dénomination.
L’analyse sociale est aussi un processus qui commence par la reconnaissance des noms des
entités sociales dans les textes. Cette analyse peut être étendue pour couvrir la reconnais-
sance des expressions linguistiques qui dénotent des relations ou des interactions sociales.
Enfin, comme les termes arabes, les noms arabes sont ambigus du fait que plusieurs per-
sonnes peuvent partager le même nom. Une étape préalable à l’analyse des réseaux sociaux
consiste donc à identifier d’une manière précise chaque entité.
63
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
d’Ali) est la konia d’un homme dont le premier fils s’appelle ” úÎ « ” (Ali). Dans
d’autres cas, il est attribué pour d’autres raisons.
– Le nasab ( I
. Ë@) : il indique les antécédents de la personne en utilisant le terme ”
áK . ” (fils de) ou ” I K . ” (fille de). Par exemple, une personne nommée ” ÐX @” (Adam)
et dont le père s’appelle ” YÔg @” (Ahmed) est référencée par ” YÔg @ áK . ÐX @” (Adam
fils d’Ahmed).
– Le laqab ( I
Ê Ë@ ) : c’est une description, souvent religieuse, d’une personne qui
®
.
indique par exemple l’une de ses qualités. Exemple : ” YJ
QË@ ” (sensé ou rationnel).
– La nisba ( éJ.Ë@) : un nom dérivé de la tribu, de la profession, du lieu de résidence
ou de naissance ou de l’affiliation religieuse. Exemples : ”PA j.J Ë@ ” (Al-Najjar : le
menuisier), ” úæñJË@” (Al-Tounsi : le Tunisien).
En plus de ces éléments, certains narrateurs sont référencés par rapport à leurs maı̂tres.
Il s’agit d’indiquer les relations d’esclavage ou d’alliance qui existent entre les personnes
et les tribus arabes en utilisant le mot ” úÍñÓ”. Par exemple ”’ YÒm× úÍñÓ YÔg @” (Ahmed
dont le maı̂tre est Mohamed) signifie que Ahmed était l’esclave de Mohamed ou son allié.
Sans prétendre présenter un état de l’art exhaustif sur les travaux dans ce domaine,
nous tenons à noter que la reconnaissance des entités nommées utilise des techniques
d’analyse de textes semi-structurés [203, 204]. Dans ce domaine, nous pouvons distinguer
deux principales étapes. La première consiste en une analyse qui permet d’attribuer des
64
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
balises aux expressions ou aux mots d’un texte. Dans cette étape, nous avons besoin
de dictionnaires qui indiquent la catégorie de chaque expression. Ces dictionnaires sont
construits à partir de corpus étiquetés manuellement ou à partir de ressources existantes
telles que les dictionnaires de la langue. Dans une deuxième étape, il s’agit d’établir l’ordre
de combinaison de ces entités pour reconnaı̂tre la structure de la totalité ou d’une partie
du texte. Par exemple, Zitouni et al. [236] ont utilisé les chaı̂nes de Markov pour modéliser
la structure des entités nommées. Shaalan et Raza [203, 204] ont choisi les expressions
régulières pour le même objectif. Fehri et al. [104] ont utilisé des grammaires implémentées
dans la plate-forme Nooj pour faire face à la complexité et à la récursivité des entités
nommées. Viola et Narasimhand [217] ont fait un état de l’art sur les approches d’analyse
de textes semi-structurés. Selon ces auteurs, les grammaires hors contexte gagnent du
terrain par rapport aux modèles Markoviens et aux expressions régulières à cause de leur
flexibilité. En outre, ces grammaires sont capables de reconnaı̂tre la structure des textes,
notamment quand ils contiennent des relations et des contraintes complexes entre les
entités. Ces relations auront une importance particulière si elles sont utilisées dans des
traitements plus avancés, tels que la recherche d’information ou la cartographie sociale
[105].
Comme exemple d’application de l’extraction des entités nommées, Azmi et Bin Ba-
dia [30] ont proposé une architecture qui permet d’analyser le texte d’un hadith pour
reconnaı̂tre ses chaı̂nes de narrateurs et les représenter sous forme d’arbre. La phase
d’analyse se compose de deux étapes. La première est une analyse lexicale qui permet
de supprimer la ponctuation, les espaces inutiles et les voyelles courtes. La deuxième est
une analyse syntaxique qui implémente une grammaire hors contexte permettant de re-
connaı̂tre les verbes de transmission et les noms de narrateurs. Cependant, ces noms ne
sont pas analysés, ce qui veut dire qu’il n’est pas possible d’identifier leurs composantes
élémentaires. Les règles de la grammaire sont apprises par apprentissage supervisé à partir
d’une base d’exemples.
L’identification des personnes arabes est une tâche difficile, surtout pour les noms
propres fréquemment utilisés ou pour les personnes inconnues à l’échelle publique [50, 54].
En outre, nous avons déjà expliqué qu’un nom propre arabe a une structure complexe qui
peut être composée de plusieurs éléments de types différents. La même personne peut être
désignée de plusieurs manières dans des textes différents. Certaines des composantes des
noms d’une personne peuvent être célèbres et d’autres sont rarement utilisées.
”Takrib al-tehdhib”, ahmed ibn Ali ibn Hajar Al-Askalani, Maison des
livres scientifiques,
Beirut, Libanon, 2008
65
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
Cette situation a poussé certains chercheurs à utiliser des techniques du type pseudo-
racinisation [47, 133, 153]. Par exemple, Larkey et al. [153] ont utilisé des heuristiques
pour supprimer les préfixes et les suffixes. Ces techniques ont été ensuite adoptées par
d’autres chercheurs, tels que Boulaknadel [47] et Harrag et al. [133]. L’absence d’une
analyse morphologique approfondie ou d’une voyellation génère des candidats termes for-
tement ambigus, ce qui influence les performances du système de recherche. En outre,
une telle solution ne convient pas pour les systèmes qui ont besoin de connaı̂tre les ca-
ractéristiques des mots pour aller vers des niveaux d’analyse plus complexes. Sans analyse
morphologique efficace, il serait même difficile d’extraire les termes composés, ce qui est
une limite dont souffrent certains travaux de ce domaine [48]. Un SRI plus ”intelligent”,
qui utilise une analyse morphologique profonde, a été proposé par Hattab et al. [136].
Ce SRI devait démontrer l’importance de l’analyse linguistique mais aucune évaluation
ou comparaison quantitative n’a été effectuée. Nous rappelons que l’évaluation des SRI
nécessite des corpus de référence (voir chapitre I, section 4.1.4, page 21), et les les livres
du hadith peuvent constituer un standard d’évaluation. Par exemple, Harrag et al. [133]
ont utilisé 340 hadiths comme base de test. Pour évaluer leur SRI, les auteurs génèrent
une requête à partir d’un hadith donné, puis ils évaluent la capacité de leur système à
retrouver le même hadith en exécutant cette requête.
Cependant, il faut reconnaitre que certains chercheurs ont considéré des traits sémanti-
ques dans la conception des bases de connaissances linguistiques, telles que DIINAR
[87, 89]. Néanmoins, ces traits doivent être étendus pour représenter des connaissances
spécifiques à un domaine. Dans ce cadre, Lelubre [155] a proposé de construire une base
66
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
de termes scientifiques arabes aux dessus de DIINAR. De tels efforts pourront aider à
l’interprétation sémantique des documents à condition de couvrir d’autres domaines. Le
manque de ressources de ce type limite les travaux existants qui suivent, d’une manière ou
d’une autre, les technologies développées pour d’autres langues, sans tenir compte parfois
des spécificités de la langue arabe. Certains chercheurs ont même tenté de construire des
ontologies dans d’autres langues puis de les traduire. Citons à titre d’exemple, Qawaqneh
et al. [188] qui se sont proposés de trier les résultats des moteurs de recherche en utilisant
les concepts d’une ontologie. L’ontologie est générée en anglais en utilisant la plate-forme
KAON puis elle est traduite en arabe. Dans la phase d’expérimentation, les auteurs ont
utilisé une ontologie relative au domaine du commerce électronique composée uniquement
de 32 concepts. Cette ontologie contient aussi peu de relations sémantiques, ce qui soulève
un problème de couverture. D’autres ont construit leurs ontologies manuellement [234].
Cependant, certains travaux ont adopté une approche automatique sans avoir recourt
à la traduction. Ces travaux manquent d’outils d’analyse linguistique sophistiqués. Nous
pouvons voir l’effet de ce manque en examinant les groupes de mots générés par Al-
Qabbany et al. [20]. Par exemple, nous trouvons, dans le même groupe, les deux mots
” ø Xñª” (un saoudien) et ” ø XñªË@” (le saoudien). Hazman et al. [137] ont proposé d’ex-
En passant au dernier niveau de l’axe sémantique, notons qu’il existe des outils d’ap-
prentissage et d’édition d’ontologies qui pourraient être utilisables si nous arrivons à ex-
traire les informations nécessaires. Bergman [40] estime que parmi les 250 outils du Web
sémantique qu’il a recensé, 12% seulement supportent la langue arabe.
Pour résumer, nous dénombrons les problèmes auxquels il faut faire face pour une
analyse socio-sémantique des documents arabes :
67
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
Ces problèmes influencent les SRI arabes qui possèdent plusieurs limites que nous
résumons comme suit :
– Les limites des outils d’analyse influencent les performances de ces SRI, qui se
trouvent confrontés aux spécificités et à la richesse de la langue arabe.
– Vu les limites des approches d’extraction de connaissances, les SRI existants man-
quent d’une structuration des fonds documentaires, que ce soit au niveau des do-
cuments ou au niveau des connaissances. Par exemple, peu de travaux ont exploité
la structure des documents pour fournir une recherche précise. Cependant, les ap-
proches appliquées sur les hadiths font l’exception.
– Les SRI existants sont monocritères dans le sens où ils considèrent une seule di-
mension des documents. Les travaux existants se focalisent sur l’axe sémantique
en fournissant une recherche par mots ou termes clés. Nous avons montré dans le
chapitre II que les critères de recherche doivent être diversifiés.
– Les SRI existants manquent de mécanismes de visualisation et d’interaction.
6 Conclusion
Dans ce chapitre, nous avons présenté un état de l’art sur le processus d’extraction de
connaissances à partir de documents arabes. Ce processus requiert des traitements linguis-
tiques, ce qui nous oblige à tenir compte des caractéristiques de la langue arabe. En effet,
il faut réutiliser ou développer les outils de traitement automatique du langage naturel.
C’est pourquoi nous avons mené une étude des caractéristiques des outils disponibles pour
l’analyse des textes en langue arabe. Cette étude nous a permis de conclure que l’extrac-
tion de connaissances à partir de documents en langue arabe est une tâche complexe vu
les spécificités de cette langue et la non disponibilité d’outils robustes pour l’analyse des
textes arabes. Nous pensons tout de même que les outils existants pourront être utilisés
dans certaines étapes du processus d’extraction de connaissances. Ainsi, ces outils feront
partie de la solution que nous proposons dans le chapitre suivant pour cartographier les
fonds documentaires arabes.
68
Deuxième partie
Contributions
69
Chapitre IV
Modèle de cartographie
multidimensionnelle des documents
arabes
F ace aux limites des systèmes d’extraction de connaissances et des SRI arabes, il
est nécessaire de développer des modèles et des outils pour analyser et représen-
ter les documents arabes dans le Web socio-sémantique. Pour cela, nous proposons d’uti-
liser la cartographie comme approche d’analyse, de représentation et d’accès aux fonds
documentaires arabes. Du point de vue modélisation, il faut garantir la qualité des cartes
en tant que produit. Le modèle doit donc répondre aux exigences de l’utilisateur en lui
fournissant une recherche multi-critères et en l’aidant à appréhender son espace informa-
tionnel par une structuration du fonds documentaire et par des mécanismes de recherche
et de navigation intelligents. La définition de ce modèle fera l’objet de la première section
de ce chapitre. Les sections 2, 3 et 4 se focalisent sur les éléments de base de ce modèle,
à savoir la structure des documents, les réseaux petits mondes hiérarchiques [219] et les
réseaux possibilistes [96]. Du point de vue processus, la cartographie fournit les outils
nécessaires pour garantir la qualité du produit. Dans notre cas, ce processus devra tenir
compte de la spécificité de la langue arabe (voir section 5)
70
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Cependant, nous n’imposons aucune contrainte sur la nature de ces ontologies ni sur
leurs constituants. Il est donc possibile de représenter librement le fonds documentaire
selon plusieurs approches de modélisation et selon différents points de vue. Dans cette
perspective, il est envisageable d’utiliser à la fois plusieurs SOC (par exemple une onto-
logie sémiotique sous forme de carte de thèmes et une ontologie différentielle constituée
de termes pertinents au domaine). Pour pouvoir assurer cette généricité, nous utilisons le
language XML [12] pour encoder les connaissances, que ce soit au niveau des fragments
ou au niveau des ontologies. Ce langage standardisé fait l’objet de consensus entre toutes
les visions du Web. Sa structure arborescente facilite le parcours automatique des docu-
ments. Cette facilité de manipulation est augmentée avec la possibilité de représenter les
connaissances sous forme de graphes en utilisant le langage GraphML [8] qui est de la
même famille que XML. A ce sujet, rappelons que les algorithmes de manipulation de
graphes constituent un outil puissant dans le domaine de la manipulation des connais-
sances et de la recherche d’information [165].
Le modèle que nous proposons offre aussi la possibilité d’implémenter plusieurs scénarios
de recherche et/ou de navigation. Avec des mécanismes de visualisation diversifiés, l’uti-
lisateur peut naviguer dans le fonds documentaire en se déplaçant entre les différentes
ontologies et les fragments. Nous pouvons, en plus, imaginer un scénario de recherche
multi-critères. L’utilisateur peut choisir des éléments d’ontologies différentes pour compo-
ser plusieurs requêtes, dont chacune correspond à une dimension ou à un critère. Chaque
requête peut être reformulée en utilisant les liens de l’ontologie correspondante. Ensuite,
le système peut calculer et aggréger les scores de pertinence pour les différentes requêtes.
Pour cela, nous avons besoin d’un modèle d’appariement et d’agrégation qui est représenté
dans notre système par les réseaux possibilistes [96].
Comme l’illustre la Figure IV.1, notre modèle regroupe deux éléments, à savoir les onto-
logies et les fragments de documents liés par des réseaux possibilistes. A titre d’exemple,
nous prenons les articles scientifiques comme cas d’application en nous limitant au do-
maine informatique. Nous pouvons envisager de construire trois ontologies : (i) une ontolo-
gie sémiotique de type carte de thèmes multi-points de vue qui intègre plusieurs systèmes
de classification possibles (dont celui d’ACM 1 par exemple) ; (ii) une ontologie formelle
qui regroupe les concepts informatiques ; et, (iii) un réseau social qui modélise les auteurs
et leurs relations (par exemple, deux auteurs sont liés s’ils ont corédigé des articles ou
s’ils appartiennent à un même organisme de recherche). Il est clair qu’une telle structu-
ration permet une certaine flexibilité lors de la recherche, étant donné qu’un utilisateur
peut combiner plusieurs critères et peut visualiser l’espace informationnel constitué des
articles selon différentes vues.
71
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
les projets de bibliothèques virtuelles (voir section 4.2.2, page 23) et de cartographie de
connaissances (voir section 4.3.2, page 25) dont l’objectif est d’adapter la recherche et la
navigation aux besoins des utilisateurs. Notons aussi que la structure des documents peut
être utilisée pour structurer les connaissances d’un fonds documentaire (voir section 3.2.3,
page 60). Elle permet soit d’inférer des relations taxonomiques entre les concepts d’une
ontologie soit d’extraire des relations thématiques dans une carte de thèmes.
Dans le Web actuel, il existe une grande masse de documents au format XML ou
qui contiennent des éléments qui permettent de reconnaı̂tre leur structure (tels que les
articles scientifiques). Les SRI classiques (non structurés) ne tiennent pas compte de
cette structure ni au niveau de la requête ni au niveau des résultats. Or, dans certains
cas, il devient nécessaire de retourner une partie du document et non pas sa totalité.
Nous pouvons citer l’exemple d’un livre constitué d’un millier de pages et l’utilisateur
s’intéresse uniquement à un chapitre ou à une section donnée. En reprenant l’exemple
des articles scientifiques, certains lecteurs débutants, qui sont en phase d’exploration de
leurs domaines, s’intéressent à la totalité du papier. D’autres lecteurs, expérimentés et
connaissant les principales contributions dans leurs domaine, lisent juste la section qui
véhiculent de nouvelles idées ou les résultats obtenus.
72
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
des besoins, il faut donner à l’utilisateur la possibilité de choisir les types de fragments
à retourner. Au niveau de l’appariement, si un fragment est pertinent, il faut décider s’il
faut retourner uniquement ce fragment, le fragment qui le contient (son père) ou tout
le document. A ce stade, il faut choisir le niveau de granularité minimum ou en d’autres
termes répondre à la question suivante : ”Quel est le fragment le plus fin que nous pouvons
retourner ?”.
Du point de vue social, la généralisation du Web induit un nouveau concept qui est ap-
pelé ”manière de lecture” ou ”type d’usage” [54]. Ce concept a été introduit par Aussenac-
Gilles et Condamines [26] qui affirment qu’il faut modéliser à la fois les textes et les usages
sachant que les types d’usage ne sont pas aussi nombreux que les utilisateurs. D’autres
chercheurs ont proposé des notions proches telles que la notion de ”rôle pédagogique” dans
le projet Sybil [78] et la notion de ”service” dans la bibliothèque virtuelle de Fellah et al.
[106]. Nous pensons que le concept de type d’usage est plus générique vu qu’il considère
le point de vue de l’utilisateur et non pas celui du système. Ce concept permet donc de
voir les documents dans une perspective sociale, ce qui veut dire qu’une communauté
d’utilisateurs partagent la même manière de lecture. Les besoins des utilisateurs et leurs
actions sur les fragments dépendent donc de leur appartenance à des communautés de
pratique [54, 220].
Nous pensons que la notion de type d’usage permet de résoudre les problèmes de gra-
nularité dans les SRI structurés. En effet, l’utilisateur serait intéressé par un fragment ou
par un autre selon ses besoins et son appartenance sociale. Ainsi, cette notion établit le
lien entre les utilisateurs et les fragments. Nous proposons donc de conduire une étude
sociale qui identifie les pratiques des utilisateurs avant de procéder à l’analyse et à la
modélisation des documents (voir section 5.2, page 81). Ceci implique que la même collec-
tion de documents peut être modélisée de plusieurs manières selon les usages potentiels et
l’organisation sociale des utilisateurs. Notons enfin que les usages peuvent être modélisés
sous forme d’une ontologie de tâches comme proposé par Fellah [106].
En revenant à notre cas d’application, nous pouvons considérer, qu’une référence biblio-
graphique qui figure dans un article scientifique est un bloc élémentaire, si le seul objectif
des lecteurs est d’explorer un nouveau domaine. Pour d’autres usages, qui nécessitent
l’évaluation de la biométrie, il serait indispensable de segmenter les références et de mettre
en place des systèmes intelligents d’indexation qui permettent d’évaluer leur impact et
leur nouveauté.
73
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Ce qui fait la force des RPMH c’est leur caractéristique classificatoire qui permet de
découvrir des clusters de nœuds. Elayeb [98] a proposé de regrouper les termes d’un
dictionnaire structuré sous forme d’un RPMH en utilisant le nombre de circuits comme
distance. En partant d’un dictionnaire, qui représente la langue française, un graphe de
termes est construit. Deux termes sont liés si l’un d’eux apparaı̂t dans la définition de
l’autre. La proximité entre deux termes est calculée en utilisant la formule suivante [98] :
N ombre de circuits(T1 .T2 )
Similarite Semantique(T1 .T2 ) = (IV.1)
N ombre maximum de circuits dans RP M H
L’utilisation de ce type de réseau, dans notre système, est justifiée par plusieurs argu-
ments. Il s’agit d’abord d’un outil flexible qui permet d’analyser les connaissances pour
en inférer d’autres. La flexibilité vient de la théorie des graphes qui offre une panoplie
d’algorithmes [165], ce qui répond à notre besoin de personnalisation et d’adaptation. En
plus, les RPMH peuvent être utilisés pour divers types de connaissances qu’elles soient
sémantiques [98] ou sociales [219]. Ils sont aussi génériques du point de vue source de
données. Par exemple, nous pourrons facilement extraire les termes d’un réseau à partir
d’un thésaurus au lieu d’un dictionnaire. Rappelons aussi que la capacité classificatoire
est fondamentale dans le modèle que nous proposons, étant donné qu’elle permet à l’utili-
sateur de comprendre la structure de son espace informationnel et donc de l’appréhender.
74
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Notre choix s’appuie sur les résultats obtenus dans des recherches récentes qui ont
appliqué cette théorie à la RI et à la classification. Par exemple, Brini [60] a développé
le premier SRI possibiliste et démontré ses performances par rapport aux autres modèles
de RI. Ce modèle a été ensuite repris par d’autres chercheurs tels que Elayeb [98]. La
théorie des possibilités permet aussi de pallier au problème d’imprécision, d’incertitude
et de manque de données dans les attributs des instances lors de la classification. Par
exemple, Haouari et al. [130] ont développé un classifieur possibiliste qui tient compte
de ces phénomènes. Par rapport à notre problématique, l’évaluation de la qualité ou de
la fiabilité de l’information est souvent modélisée comme un problème de classification.
En effet, l’évaluation des sources d’information est basée sur des méta-données dont la
collecte n’est pas toujours évidente, ce qui conduit à des cas de manque, d’imprécision
ou d’incertitude. Les algorithmes classiquement utilisés (tel que l’algorithme C4.5 [141]
utilisé par Stvilia et al. [210]) sont incapables de faire face à ces phénomènes, ce qui nous
incite à adopter le modèle possibiliste.
Par convention, π(ωi ) = 1 signifie qu’il est parfaitement possible que ωi soit du monde
réel. π(ωi ) = 0 signifie que ωi est impossible. La flexibilité est modélisée en permettant de
donner un degré dans l’intervalle ]0,1[. Dans la théorie des possibilités, les cas extrêmes
sont modélisés par [93] :
Connaissance complète :
∃ωi ∈ Ω|π(ωi ) = 1 et ∀ωj 6= ωi , π(ωj ) = 0 (IV.2)
Ignorance totale :
∀ωi ∈ Ω, π(ωi ) = 1 (IV.3)
/ (1 − Π(Ā))
N (A) = minw∈A (IV.5)
Π(A) évalue à quel niveau l’évènement A est consistant avec nos connaissances représen-
tées par π, alors que N (A) évalue à quel degré ce même évènement est certain selon nos
connaissances. La différence entre N (A) et Π(A) évalue le taux d’ignorance sur A [93].
75
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Les réseaux et les distributions possibilistes peuvent être interprétés d’une manière
quantitative en utilisant l’opérateur produit (PROD) ou d’une manière quantitative en
utilisant l’opérateur minimum (MIN).
N
Y
πp (V1 , V2 , ..., VN ) = π(Vi |P arV i ) (IV.6)
i=1
Plusieurs théories de l’incertitude ont été proposées pour traiter les données incertaines
et imprécises. Nous citons la théorie de l’évidence [205], la théorie des ensembles flous
[231] et la théorie des possibilités [94]. L’utilisation des réseaux possibilistes est encouragée
par leur simplicité et leur performance dans le traitement des données imparfaites [130].
Dans ce cas, le graphe relie les attributs aux classes possibles. Les poids des arcs sont
estimés dans l’étape d’apprentissage. La Figure IV.2 illustre ce type de réseaux où les Ci
représentent les classes et les Ai les attributs.
76
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Dans ce réseau, les arcs sont quantifiés par les mesures de possibilité et de nécessité,
ce qui permet au SRI de retourner les documents ”plausiblement” ou ”nécessairement
pertinents” à un utilisateur. En effet, un SRI possibiliste est capable de générer des pro-
positions du genre [98] :
1. Il est plausible, à un certain degré, que le document di constitue une bonne réponse
pour une requête Q.
2. Il est nécessaire ou certain, à un degré donné, que le document di soit pertinent
pour une requête Q.
3. Le document di est plus pertinent que dj pour une requête Q.
4. Un ensemble {di , dj } répond mieux à une requête Q qu’un autre ensemble {dk , dl }.
77
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Le modèle possibiliste suppose qu’il est difficile de traduire la notion de pertinence ayant
un caractère vague et imprécis avec une seule mesure de probabilité. En effet, la théorie
des probabilités permet uniquement de mesurer la certitude d’un événement et de son
contraire. En outre, les modèles probabilistes de RI ne tiennent pas compte des termes
de la requête qui sont absents dans les documents lors du calcul des scores de pertinence.
Face à ces limites restrictives, Prade et Testemale [187] ont proposé d’utiliser la théorie
des possibilités en RI. Brini [60] a présenté une première application de ce modèle qui a
été ensuite développé par Elayeb [98], afin de tenir compte de la structure des documents
et des préférences entre les termes d’une requête. Ce modèle permet de calculer un score
de ressemblance entre une requête et un document comme suit :
Soit une requête Q composée par des termes qui représentent des contraintes. Prenons le
cas général où ces termes sont pondérés (par exemple selon les préférences de l’utilisateur) :
Q = [(t1 , w1 )...(tm , wm )]
où wi représente le poids du terme ti .
Etant donné une requête Q, le Degré de Pertinence Possibiliste (DPP) d’un document
Dj est calculé par les deux mesures de possibilité (Π) et de nécessité (N ). Notre modèle
de base est inspiré des travaux de Elayeb et al. [99] qui montrent que Π(Dj |Q) est pro-
portionnelle à :
Les distributions de possibilité Π(ti |Dj ) sont estimées par les fréquences F reqij de
chaque terme ti dans chaque document Dj . Nous avons donc :
La mesure de nécessité de Dj pour la requête Q, notée N (Dj |Q), est calculée comme
suit :
où :
avec :
78
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Dans cette formule, |D| est le nombre de documents de la collection et nDi est le nombre
de documents de la collection contenant ti (i.e. avec une fréquence F reqij > 0).
79
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
(ou fermeture) sémiotique déterminent le cadre théorique dans lequel nous nous plaçons
par rapport aux différentes visions du Web (voir section 2.4, page 11).
80
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Dans ces sous-étapes, qui permettent d’obtenir une première modélisation des connais-
sances sociales, nous pouvons combiner plusieurs techniques. Par exemple, dans les deux
premières sous-étapes, il est possible d’interroger des experts (comme proposé par Blom-
qvist et Ohgren [44]) ou de consulter leurs publications. Dans la troisième sous-étape, il
est envisageable d’analyser le comportement des utilisateurs dans des cas réels. Les deux
dernières étapes peuvent être effectuées en analysant, d’une manière manuelle ou semi-
automatique, un échantillon de documents. Le processus qui peut être manuel au départ
devient de plus en plus automatisé en utilisant des outils d’analyse.
Afin de concrétiser ces sous-étapes, nous les appliquons sur l’exemple des articles scienti-
fiques. En effet, la production scientifique est un phénomène social, puisqu’il fait intervenir
plusieurs acteurs ayant des profils, des responsabilités et des rôles différents (le rédacteur,
le traducteur, l’encadreur, le responsable de recherche, etc.). Ensuite, l’article doit être pu-
blié, ce qui fait intervenir d’autres acteurs comme les relecteurs, les éditeurs et les comités
des conférences. Une fois publié, l’article est accessible à une communauté plus étendue,
ce qui élargit son usage. En analysant les activités de ces acteurs, nous pouvons distinguer
deux types de pratiques. La première est reliée à la recherche et l’évaluation de la perti-
nence des articles du point de vue thème. La deuxième pratique concerne l’évaluation de
l’impact des articles scientifiques et la veille scientifique. L’impact d’un article dépend,
entre autres, du nombre de papiers qui l’ont cité. La veille scientifique consiste à découvrir
les nouveautés dans un domaine donné. En étudiant ces deux pratiques et en analysant les
éléments constitutifs d’un article scientifique, nous pouvons dire que le titre de l’article,
son résumé puis son corps, constitué de sections, sont les éléments les plus importants pour
la première pratique. La deuxième pratique nécessite une analyse approfondie des infor-
mations biographiques, des références bibliographiques et de la conclusion (pour étudier
les perspectives).
81
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Nous nous focalisons avec plus de détails sur l’analyse micro-logique qui consiste à
identifier et à organiser les entités logiques élémentaires des documents. La typologie
de ces entités dépend des besoins sociaux précédemment étudiés. Cette tâche nécessite le
développement de plusieurs analyseurs dont chacun est spécialisé dans l’analyse d’un type
de fragments. Par exemple, l’analyse d’une référence bibliographique diffère de l’analyse
des informations biographiques qui figurent dans l’entête d’un article scientifique.
– Analyse complète : la grammaire est utilisée pour analyser tout le fragment pour
reconnaı̂tre sa structure.
– Analyse partielle : la grammaire est utilisée pour identifier, dans un fragment donné,
une entité particulière.
82
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Etant donné un nom extrait d’un document, nous voulons connaı̂tre l’identité de la
personne correspondante. Notre modèle suppose l’existence d’une base de biographies où
les noms complets sur les personnes sont stockés. La reconnaissance de l’identité peut être
vue comme un calcul de distance entre un nom extrait du texte (qui constitue la requête)
et tous les noms de la base (qui constituent les documents). La personne ayant le score le
plus élevé sera sélectionnée. Il suffit donc d’instancier le modèle d’appariement possibiliste
présenté dans la section 4.5 (page 77).
Les noms propres arabes étant ambigus, la phase d’appariement peut générer plu-
sieurs personnes candidates pour le même nom. Il faut donc procéder à une étape de
désambiguı̈sation dont le principe général consiste à exploiter le contexte basé sur les
relations sociales. Par exemple, si deux frères sont cités dans un texte, l’identification de
l’un facilite l’identification de l’autre. Etant donné que la typologie des relations diffère
d’un domaine d’application à un autre, nous préférons reporter les détails de l’étape de
désambiguı̈sation au chapitre V (voir section 4.4, page 101).
Notre approche essaie d’éviter les limites des approches existantes que nous avons
détaillées dans la section 3.2.2 (page 57). Ces approches manquent soit d’outils d’ana-
lyse linguistique sophistiqués, soit d’une évaluation des deux propriétés fondamentales
83
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
des termes. En effet, nous distinguons deux types de traitements qui sont considérés
dans la littérature comme différents, à savoir la désambiguı̈sation morphosyntaxique et
l’évaluation des expressions en terme de termhood et de unithood . Dans les deux cas, il
s’agit d’évaluer des expressions linguistiques.
Nous proposons donc une approche hybride qui fusionne ces deux traitements [52].
Cette approche possède les caractéristiques suivantes :
– Nous effectuons une analyse morphosyntaxique complète des expressions suscep-
tibles d’être des syntagmes nominaux.
– Nous utilisons plusieurs corpus représentant des domaines différents afin d’évaluer
le termhood des expressions.
– Nous utilisons les mesures possibilistes pour évaluer les deux dimensions.
– La pertinence des termes n’est pas liée uniquement à leur distribution dans les
corpus, comme avec TF-IDF, mais à des relations contextuelles complexes.
Dans notre cas, la résolution des ambiguı̈tés et le calcul de la pertinence au domaine sont
vus comme une tâche de RI, où nous évaluons les solutions (les documents) en fonction
des informations contextuelles (la requête). Comme résultat de cette évaluation, nous
générons, pour chaque domaine, un réseau de termes reliés par des relations syntaxiques
selon la typologie des syntagmes nominaux arabes (voir section 2.1, page 51).
84
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Dans ce processus, il y a une évaluation de la pertinence des fragments qui est as-
surée par le modèle d’appariement possibiliste. Ce modèle peut tenir compte de plusieurs
requêtes en utilisant l’agrégation à base de minimum ou à base de produit. De ce fait, il
constitue l’un des outils d’interaction les plus importants dans la carte. Quoique la visuali-
sation doit faciliter la composition de requêtes, nos cartes offrent une aide supplémentaire
à l’utilisateur en permettant une expansion automatique des requêtes basée sur les RPMH.
Les nœuds du graphe sont reliés à travers des cricuits qui définissent une similarité graduée,
ce qui permet d’ajouter, à une requête, les éléments les plus proches à ceux qui existaient
initialement.
6 Conclusion
Dans ce chapitre, nous avons modélisé les connaissances d’un fonds documentaire
arabe sous forme de cartes multi-dimensions. Le modèle que nous avons proposé est rela-
tivement neutre par rapport aux différentes visions du Web reportant certaines décisions
sur la nature des SOC à une étude des paramètres du cas d’application. Du point de vue
processus, nous avons donné un aperçu général sur toutes les étapes de la cartographie.
La mise en œuvre et l’expérimentation dépendent du corpus à choisir et des besoins des
utilisateurs. Les deux chapitres suivants instancient notre modèle et notre processus de
cartographie en présentant de plus amples détails sur leur conception et leur évaluation.
85
Chapitre V
Extraction de connaissances
socio-sémantiques
1 Choix du corpus
Malgré l’importance des corpus dans plusieurs types d’applications, aucun des corpus
arabes existants ne semble constituer une référence consensuelle. Plusieurs corpus arabes
ont été construits dans le but de pallier à ce manque [21]. Par rapport à ces corpus,
nous trouvons que le corpus du hadith est plus adapté à notre cas, vu sa structure et sa
richesse socio-sémantique. S’ajoute à cela l’existence d’une méthodologie pour l’évaluation
de la fiabilité. Avant d’appliquer notre processus de cartographie sur les documents de ce
corpus, nous allons commencer par étudier leur structure et leurs caractéristiques.
86
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
hadith comme étant les plus authentiques. Ils sont cités dans l’ordre comme suit : ”
ø
PAjJ . Ë@ iJ
m” (sahih Al-Bukhari), ” ÕÎÓ iJ
m” (sahih Muslim), ” Xð@X ú
G. @ á ” (Sunan
abou daoud), ” ø YÓQË@ á ” (Sunan Al-Termidhi), ” úGA Ë@ á ” (Sunan Al-Nasai) et ”
AÓ áK á
ék
” (Sunan ibn Mejeh) 1 [1]. Ces six livres contiennent plus de 2.5 millions de
. .
mots.
Les livres du hadith sont organisés par thèmes, sauf pour certains recueils appelés ”
YJ
KA Ö
Ï @ ” (les livres assignés) qui sont organisés par narrateurs. Cette classification est
la première étape vers la compréhension des hadiths. En plus, les savants ont ajouté des
commentaires reliés soit à l’explication et à l’interprétation des hadiths, soit à l’évaluation
de leur fiabilité. La première catégorie de commentaires englobe les définitions des termes
étranges, rarement utilisés ou difficiles à comprendre ( éJ. K
Q ªË@ A ®Ë B@ ), l’explication du
sens global du hadith en arrivant jusqu’à l’extraction de lois juridiques ( éJ
ê ® ®Ë@ ÐA¾k B@
). En plus, les livres du hadith contiennent des versets du Coran dans les titres des cha-
pitres et sous-chapitres, dans le contenu des hadiths ou à titre d’explication. La deuxième
catégorie permet de donner des informations sur les narrateurs du point de vue identité ou
crédibilité, en arrivant jusqu’à l’évaluation de la fiabilité du hadith dans sa globalité. Le
hadith peut être aussi suivi par des indications, qui contiennent des références à d’autres
livres où d’autres versions du même hadith existent.
Les collecteurs du hadith ont adopté des stratégies différentes lors de la constitution de
leurs livres. Certains présentent des explications détaillées des hadiths alors que d’autres
se sont limités à une classification thématique. Cette classification est elle-même objet de
divergences entre les spécialistes. Par exemple, le livre ” ø PA jJ. Ë@ iJ
m ” [1] contient
quatre-vingts chapitres alors que ” Xð@ X ú
G. @ á ” [1] n’en contient que quarante-deux. Du
point de vue fiabilité, certains se sont engagés de ne mettre, dans leurs livres, que les
textes qu’ils jugent fiables. D’autres se sont limités à la collecte en laissant tout ou un
sous-ensemble de hadiths sans jugement.
Les livres du hadith documentent d’une manière fidèle toutes les transactions du pro-
cessus de transmission, d’interprétation et d’évaluation. Ce processus est riche en acteurs
puisque nous retrouvons les personnes citées dans le contenu du hadith et ses narrateurs,
en plus des experts qui ont collecté ou commenté les hadiths du point de vue sens ou
fiabilité. Ces livres font aussi l’objet de divergences et d’échanges de points de vue. Ils
constituent en outre une encyclopédie riche en connaissances qui n’est pas limitée aux
thèmes religieux mais les dépasse pour illustrer des aspects importants de la civilisation
et de la culture arabe et même des connaissances universelles. Ainsi, ils représentent un
fonds linguistique et scientifique important pour l’humanité. L’existence d’une interaction
entre l’axe social et l’axe sémantique nous laisse considérer ces documents, du point de
vue du Web socio-sémantique, comme des productions sémiotiques.
1. Ces livres peuvent être téléchargés à partir de https://sites.google.com/site/kirtase/
downbook/allbooks/19-moutoun
87
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
De plus, l’importance de la technologie pour les sciences du hadith est un fait reconnu
[3]. Plusieurs logiciels et sites Web sont dédiés aux livres du hadith et beaucoup de cher-
cheurs se sont intéressés à ces livres [15]. La majorité des encyclopédies du hadith ont été
produites manuellement, ce qui demande des efforts considérables. Il nous suffit de citer
l’encyclopédie la plus large à notre connaissance dénommée ” ÕÎ¾Ë @ ©Ó@ñk . ” 2. Elle contient
1400 livres qui ont été traités, durant trente années, par des centaines de spécialistes.
2. http://www.islamWeb.net/mainpage/hadith.php
88
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Etant conscient de la difficulté engendrée par les traitements manuels, plusieurs cher-
cheurs en informatique ont essayé d’automatiser l’analyse des livres du hadith mais les
travaux existants souffrent de certaines limites. Tout d’abord, certains travaux passent
par une étape manuelle qui consiste à analyser la structure des livres, ce qui englobe la
reconnaissance des titres et la séparation des chaı̂nes de narrateurs considérées comme
des éléments qui ne relèvent pas du contenu. Nous pensons que l’automatisation de cette
étape permettra de préparer les livres du hadith à ces types d’applications afin de maximi-
ser leur exploitation. Ensuite, comme nous l’avons détaillé dans le chapitre III (section 5,
page 66), les SRI basés sur ce corpus souffrent d’outils d’analyse linguistique sophistiqués
et/ou d’une étape d’évaluation. En outre, aucun des travaux existants ne considère l’axe
sémantique et l’axe social à la fois. Enfin, les éléments grisés dans la troisième colonne du
tableau V.1 représentent des domaines qui n’ont pas été explorés à notre connaissance.
Ainsi, il nous semble intéressant d’extraire les connaissances de ces documents et de les
modéliser selon les deux axes sémantique et social.
2 Etude sociale
Dans cette section, nous suivons la démarche composée de cinq étapes présentée dans
la section 5.2 du chapitre IV (voir page 81) afin d’étudier la cartographie des livres du
hadith du point de vue social [54] :
1. Le hadith représente un phénomène socio-historique caractérisé par l’intervention de
plusieurs acteurs ayant des rôles différents. Ces acteurs peuvent être classés comme
suit :
– Les acteurs qui participent dans l’histoire véhiculée par le hadith.
– Les narrateurs.
– Les collecteurs.
– Les experts qui ont jugé les narrateurs ou les hadiths.
– Les experts qui ont interprété les hadiths.
2. Nous pouvons identifier deux types de relations entre ces acteurs, à savoir les re-
lations de parenté et les relations de transmission (cheikh-disciple). En plus, les
acteurs peuvent être liés à travers d’autres attributs sociaux tels que les lieux de
résidence et l’appartenance aux tribus arabes.
3. Nous pouvons identifier deux types de pratiques liées à l’étude des hadiths. La
première concerne l’étude de la fiabilité qui se décline en quatre types d’usage :
– L’étude des biographies des narrateurs.
– L’étude de la continuité des chaı̂nes de narrateurs.
– La comparaison de versions.
– L’étude des commentaires sur la fiabilité.
Comme deuxième pratique, d’autres utilisateurs sont intéressés par les connais-
sances véhiculées par le contenu des hadiths ou dans les titres des chapitres et
sous-chapitres. Ainsi, nous pouvons dégager deux principaux types d’usage :
89
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Dans cette DTD, nous considérons qu’un livre de hadith est composé de thèmes et
de hadiths. Un thème possède un titre qui peut être suivi de commentaires d’in-
terprétation sur ses hadiths. Chaque hadith est défini par une ou plusieurs chaı̂nes
de narrateurs, un contenu et éventuellement des commentaires, des indications de
versions et/ou des interprétations. Nous rappelons que des versets du Coran peuvent
être cités dans les interprétations ou dans le contenu des hadiths.
Pour pouvoir identifier les narrateurs des hadiths et disposer des méta-données
nécessaires à l’évaluation de la fiabilité, nous intégrons une base de données qui
contient les descriptions de 8858 personnes connues par la narration des hadiths 3 .
Cette base englobe les narrateurs des six livres du hadith les plus reconnus. A travers
les tables et les champs, elle fournit plusieurs informations sur chaque narrateur
dont :
– Le nom complet : certains noms contiennent des indications sur des liens de pa-
renté avec d’autres narrateurs.
– Les dates et les lieux de naissance et de décès.
– La génération : les narrateurs sont classés en 12 générations.
– Les jugements de crédibilité : la base contient les jugements de ” Q m.k áK .@
úGC®ªË@
” (ibn Hajar al-Askalani).
90
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
5. Le tableau V.2 établit le lien entre les différents types d’usage et les catégories de
fragments et d’informations. Les éléments mis en italique font partie du modèle de
documents de la Figure V.1 et les autres sont issus de la base des biographies.
Tableau V.2 – Correspondance entre les types d’usage, les catégories des fragments et les
informations de la base des narrateurs.
L’étude des acteurs et leurs interactions avec les fragments de documents nous aide
à nous situer par rapport aux différentes visions du Web, selon les critères énumérés
dans le chapitre I (section 2.4, page 11). En premier lieu, notons que le corpus hadithien
est relativement évolutif étant donné que ses documents sont sujets d’études continues,
que ce soit dans l’axe sémantique ou social. En second lieu, les besoins des utilisateurs
s’inscrivent dans une démarche d’enquête. Il ne s’agit pas de besoins purement informa-
tionnels qui peuvent être satisfaits par un système du type requête-résultat mais plutôt
de besoins de navigation, d’analyse, d’inspection et d’évaluation. Ce genre de besoins
nécessite des mécanismes plus ouverts qui favorisent la participation de l’utilisateur. En
troisième lieu, nous remarquons que la méthodologie des savants du hadith est basée sur la
documentarisation, dans le sens où toutes les transactions sont précisément documentées.
Cette documentarisation suit des règles relativement strictes mais permet un certain degré
d’ouverture étant donné que les acteurs peuvent ajouter librement des commentaires en
langage naturel. En quatrième lieu, le corpus hadithien attire et fait intervenir des com-
munautés hétérogènes avec des droits, des intérêts et des points de vue différents. En
dernier lieu et en guise de résumé des éléments précédents, la cartographie des livres
du hadith se caractérise par une certaine ouverture sémiotique. En effet, notre tâche ne
91
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
consiste pas à développer des programmes informatiques qui automatisent tous les trai-
tements, mais plutôt à soutenir l’utilisateur dans sa démarche d’enquête. Ceci implique
que l’utilisateur n’est pas supposé adopter les décisions d’un système fermé, mais exploi-
tera des mécanismes de recherche et de navigation pour arriver à une décision. Ainsi,
les caractéristiques du corpus du hadith et les besoins des utilisateurs nous conduisent à
nous placer dans la vision du Web socio-sémantique et dans la démarche semi-formelle de
modélisation des pratiques des utilisateurs, de la structure des documents et des connais-
sances.
92
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Dans cet exemple, la chaı̂ne de narrateurs est composée de trois personnes : ” YÔg @ ”
(Ahmed), ” lÌ 'A ” (Saleh) et ”QK. Ag.” (Jaber). Etant donné que la préposition ” á«
” (selon)
précède le premier nom, la voyelle courte ” @ ” lui est ajoutée. Le deuxième nom est en
mode nominatif ( ¨ñ ¯QÓ ) puisqu’il représente le sujet d’une phrase verbale dont le verbe
est ” AJ KYg” (X nous a dit). Dans le dernier cas, le verbe ”Q.g @” (informer) vient après le
nom du narrateur qui est en mode accusatif ( H
. ñ J Ó ) et prend, à sa fin, une lettre
supplémentaire et une voyelle courte (” @”).
Ali est largement utilisé, ce qui conduit à une ambiguı̈té. Ces ambiguı̈tés peuvent être
résolues si la personne est référencée en même temps par d’autres composantes de son
nom.
Dans certains cas, les narrateurs sont référencés sans aucune composante de leurs noms.
C’est le cas quand un narrateur indique qu’il a reçu le hadith de l’un de ses proches. Par
exemple, un narrateur peut rapporter qu’il a reçu un hadith de son grand père comme
suit : ” ø Yg. úæ KYg” (Mon grand père m’a dit).
m’a dit). En plus des liens de parenté, d’autres types de relations peuvent être invoquées.
Par exemple, un narrateur peut rapporter qu’il a reçu un hadith d’un ami.
Enfin, un narrateur peut citer deux ou plusieurs de ses cheikhs en utilisant les conjonc-
tions ”ð ” (et) et ” ð @ ” (ou). La première est utilisée si le narrateur a reçu le hadith de
deux ou plusieurs personnes à la fois et la deuxième est utilisée quand il a un doute sur
la source du hadith.
93
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
– Le caractère ” h” qui indique que la chaı̂ne est composée de deux sous-chaı̂nes, ce qui
signifie que le narrateur a reçu le hadith de deux chemins différents. Dans l’exemple
suivant, le narrateur a reçu l’histoire de deux personnes (” Õæ
ë@QK .
@ áK . H. ñ ® ª K
”
(Yakoub fils d’Ibrahim) et ” ÐX @ ” (Adam)) qui l’ont reçu, eux-mêmes de deux per-
” (fils d’Olaya) et ” éJ ª” (Cho‘ba)).
sonnes
différentes (” éJ
Ê« áK
h @ á« . YJ.« á«
I.J
îD áK . QK
QªË@ éJ
Ê«
áK . .AJ KYg ÈA Õæë@QK @ áK H ñ®ªK
¯ AJ KYg
@ á« èXAJ¯ á« éJ . ª
AJ KYg ÈA¯ ÐX@
AJ KYgð
.
. .
Traduction : Yakoub fils d’Ibrahim nous a dit que le fils d’Olaya lui a dit selon
Abdelaziz fils de Sohayb selon Anas H et Adam nous a dit que Cho‘ba lui a dit
selon Katada Selon Anas ...
Dans [54], nous avons présenté une évaluation empirique effectuée sur 1600 hadiths
extraits de quatre livres. En effet, nous avons commencé par les 400 premiers hadiths des
”.
livres suivants : ” ø PA jJ. Ë@ iJ
m ”, ” ÕÎ Ó iJ
m ”, ” Xð@X úG @ á ”, et ” ék. AÓ áK
. á
.
Nous avons utilisé 80% des hadiths dans la phase d’apprentissage (i.e. 1280 hadiths) et le
reste dans l’étape de test. La phase d’apprentissage nous a permis d’obtenir une suite de
grammaires qui correspondent aux éléments mis en gras dans la Figure V.1.
Dans l’annexe A, nous présentons, d’une manière détaillée, les grammaires que nous
avons obtenues. Nous tenons ici à mentionner que :
– La grammaire des acteurs tient compte des différentes composantes d’un nom propre
arabe. Elle considère aussi le nom du maı̂tre quand il est cité dans le nom de la
personne.
– La grammaire des chaı̂nes de narrateurs tient compte des différentes configura-
tions des références des narrateurs et des verbes de transmission. Elle modélise
les différents types de références, y compris le cas où le narrateur est référencé par
une relation à une autre personne.
– Chacune des grammaires utilisées génère un résultat au format XML, qui est utilisé
par d’autres grammaires selon l’ordre de priorité. Le résultat final d’un analyseur
micro-logique est structuré au format XML en utilisant la dernière grammaire dans
la table de priorité.
94
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Ces grammaires sont utilisées par deux analyseurs micro-logiques. Le premier permet
de reconnaı̂tre la structure d’un titre et le deuxième analyse un hadith avec toutes ses
composantes. Les tables de priorité de ces deux analyseurs sont illustrées par les tableaux
V.3 et V.4, respectivement 4 .
Nous commençons donc par identifier les versets coraniques puis les acteurs, qui sont les
éléments les plus fins en terme de granularité. Nous remarquons aussi que les grammaires
correspondantes sont communes aux deux analyseurs, ce qui illustre les possibilités de
réutilisation.
4. Nous rappelons que nous définissons la priorité et le type d’usage pour chaque grammaire (voir
section 5.3, chapitre IV, page 82).
95
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Nous remarquons que les taux de reconnaissance des acteurs et des chaı̂nes sont supé-
rieurs à ceux obtenus pour les autres éléments. En effet, les chaı̂nes et les noms suivent
une structure relativement régulière. Par contre, les experts s’expriment librement en
commentant les hadiths, ce qui rend l’identification des indications de versions et des
commentaires plus difficile.
Nous pouvons comparer ces résultats par rapport à ceux obtenus par d’autres cher-
cheurs. Le tableau V.6 récapitule les résultats de certains travaux existants par rapport
à nos résultats dans la reconnaissance des noms de personnes. Nos résultats montrent
une amélioration significative des performances. En effet, les corpus utilisés pour tes-
ter les approches existantes sont constitués essentiellement d’articles de magazines et
de journaux. Les chaı̂nes de narrateurs ont une structure plus régulière, ce qui explique
l’amélioration obtenue. Cependant, les travaux existants se limitent à l’identification des
entités nommées. Notre contribution réside au niveau de l’analyse de la structure de
chaque entité, ce qui permet d’inférer des relations sociales entre les personnes et facilite
la reconnaissance des identités. A notre connaissance, aucune des approches existantes
n’a considéré la reconnaissance des entités nommées de cette manière.
Tableau V.6 – Etude comparative des approches de reconnaissance des entités nommées.
96
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Nous considérons qu’un nom propre arabe est constitué d’un ensemble d’items iti . Un
item est composé d’un ou plusieurs couples clé-valeur, notés (ci ,vi ). Les valeurs corres-
pondent aux composantes d’un nom arabe comme détaillé dans la section 4.1 du chapitre
III (page 64). Les clés sont des symboles qui indiquent le type de chaque composante.
Le tableau V.7 donne toutes les valeurs et les désignations des clés. Dans ce modèle, les
clés P1 ,..., Pn correspondent aux noms des antécédents d’une personne. P1 correspond au
père, P2 au grand père et ainsi de suite.
Composante Clé
Le prénom ( Õæ
B@) N
)
La konia ( éJ
JºË@ K
Le laqab ( I
. ®ÊË@ ) L
La nisba ( éJ.Ë@) B
Le nasab ( I
. Ë@) P1 ...Pn
Le prénom du maı̂tre MN
La konia du maı̂tre MK
Le laqab du maı̂tre ML
Le nisba du maı̂tre MB
La nasab du maı̂tre M P1 ...M Pn
Selon le modèle d’indexation que nous avons défini ci-dessus, son index est représenté
par la Figure V.3.
Nous remarquons que le second item de cet index contient deux paires, car il y a un
doute concernant le père de la personne.
97
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
En effet, nous considérons qu’une chaı̂ne est composée de deux types d’items, à sa-
voir ”riwaya” et ”separateur ”. Pour chaque item du premier type, nous calculons trois
attributs :
– tahamoul : la manière de transmission.
– Rawi : une référence à un narrateur qui contient un ou deux noms propres (indexés
selon le modèle de la Figure V.2) et éventuellement une relation sociale comme
décrit dans la section 3.1.2 (page 93).
YJ
QË@ éJ
K.
@ á«
úG
@ I K . Õç'
QÓ á« AJ KYg
ÐAë
.
Qui peut être traduite comme suit : ”Hichem nous a dit, selon son père, selon Myriam
fille d’Abou Al-Rachid”.
Cette chaı̂ne est composée de trois éléments de type ”riwaya”. Le premier possède
deux attributs : ”tahamoul : (sama3 : A J KY g )” qui signifie que le premier narrateur a
rapporté une histoire oralement et ”(N, ÐA ë )” qui indique le nom du narrateur. La
manière de transmission du deuxième et du troisième composant est ”tahamoul : (An :
)” qui signifie ”Selon”. Le deuxième narrateur est référencé par une relation relative-
á«
ment au précédent narrateur ”( éJ
K. @ , Abouh)” (son père). Le dernier narrateur est une
femme référencée par son prénom ”(N , úG
@)”.
Õç'
QÓ)” et son père ”(P1, YJ
QË@
.
98
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Nous modélisons ce problème par les tables de correspondance définies par les tableaux
V.8, V.9 et V.10 [50].
N K L B MN MK ML MB
N
K
L
B
MN
MK
ML
MB
Les matrices doivent être lues de la gauche vers la droite. Ainsi, une cellule dont le fond
est gris signifie que la clé en ligne peut être remplacée par la clé en colonne. Par exemple,
dans la deuxième matrice, la clé P1 peut être remplacée par P2 . Par contre P2 ne peut
pas être remplacée par P1 . Notons par Qname un nom qui apparaı̂t dans une chaı̂ne et
par personj , une personne de la base. Qname et personj sont indexés par un ensemble
99
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Comme tout SRI possibiliste, notre outil encode des liens de dépendance entre les items
de la requête et les personnes à travers un réseau possibiliste et quantifie ces liens par les
deux mesures de possibilité et de nécessité [50]. Les personnes retrouvées sont celles qui
sont possiblement ou nécessairement pertinentes étant donné le nom de la chaı̂ne.
La pertinence d’une personne personj de la base, étant donné un nom Qname, est
calculée comme suit, sachant que les items de la requête ne sont pas pondérés :
Selon les formules IV.8 et IV.9 (voir page 78), l’expression Π(personj |Qname) est pro-
portionnelle à :
Π0 (personj |Qname) = Π(itQ1 |personj )∗...∗Π(itQm |personj ) = F req1j ∗...∗F reqmj (V.1)
Dans cette formule, F reqij est la fréquence de l’item numéro i de Qname (itQi ) dans
le nom de la personne numéro j de la base. Elle est calculée comme suit :
(V.2)
En effet, la fréquence est fixée à 0.5 s’il y a une ambiguı̈té, car les deux items ne sont
pas exactement équivalents. Selon la formule IV.10 (page 78), la nécessité de retourner
une personne (personj ) pour un nom Qname est donnée par :
Selon la formule IV.13 (voir page 78), Π(¬personj |Qname) est estimée par :
100
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
où :
– |DP | est le nombre de personnes dans la base.
– nP i représente le nombre de personnes dans la base pour lesquelles F reqij n’est pas
nulle.
En appliquant la formule IV.15 (voir page 79), le degré de pertinence possibiliste (DP P )
n’est autre que la somme des deux mesures Π et N :
Nous considérons aussi le cas où le narrateur est référencé par une relation sociale
avec une autre personne. Pour illustrer ce cas, nous prenons comme exemple, le cas de la
relation ”père”. Quand un père transmet un hadith à son fils, l’identification du premier
requiert la reconnaissance du deuxième. Si le fils est identifié, nous procédons comme suit :
1. Générer l’index du fils à partir de la base.
2. Générer l’index du père qui constitue une requête.
3. Appliquer le calcul possibiliste pour la nouvelle requête.
101
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Précision 80.88%
Rappel 98.97%
F-mesure 89.01%
Etant donné que notre fonds composé des livres du hadith est segmenté en domaines,
notre objectif consiste à extraire les termes pertinents à chaque domaine, qui seront or-
ganisés dans un réseau de dépendances syntaxiques. Contrairement aux approches qui
extraient uniquement les bi-grammes [48], nous extrayons des termes composés de deux
ou plusieurs mots. Ces termes sont liés aux fragments dans la phase d’indexation. A
ce stade, nous proposons l’indexation qualitative par rapport à l’indexation quantitative
classiquement utilisée dans les SRI [60]. En effet, nous extrayons deux types d’entités :
– Les termes simples : ce sont les noms simples (composés d’un seul mot) valides en
terme de termhood .
– Les termes composés : ce sont les syntagmes composés de plus d’un mot et valides
en terme de unithood et de termhood . Il s’agit d’expressions non-compositionnelles
mais aussi d’expressions compositionnelles utiles pour l’indexation et la recherche
(Voir section 3.2.1 du chapitre III, page 56 où nous avons introduit ces notions).
Les termes simples et les termes composés constituent les termes pertinents au domaine
(TPD). En outre, nous extrayons les syntagmes dont la tête est un TPD, qui nous servirons
pour inférer des liens entre les TPD.
Nous rappelons que notre approche consiste à désambiguı̈ser les solutions morphosyn-
taxiques et à les évaluer en une seule étape. Cette évaluation est basée sur le modèle
d’appariement possibiliste qui permet de calculer la distance entre chaque solution et
son contexte. En effet, nous utilisons différents types d’informations contextuelles. Nous
commençons donc par apprendre les distributions de possibilité initiales. Ensuite, nous
évaluons les deux dimensions en proposant une mesure de termhood et une mesure de
unithood . Enfin, les deux mesures sont agrégées dans une seule mesure de pertinence. Des
exemples illustratifs de notre approche seront présentés dans la section 5.7.
102
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
des documents. Ces derniers sont traités comme des documents texte et l’information
structurelle n’est pas exploitée. Le nombre d’occurrences d’un terme ti , dans un docu-
ment dj composé de N nœuds, est calculé comme suit :
N
X
occ(ti , dj ) = occ(ti , ndk ) (V.7)
k=1
La valeur occ(ti , ndk ) est le nombre d’occurrences du terme ti dans le nœud ndk .
Nous proposons une indexation qualitative qui consiste à tenir compte des positions
des termes dans le calcul des fréquences. Ainsi, le nombre d’occurrences se calcule comme
suit [52] :
N
X
occ(ti , dj ) = occ(ti , ndk ) ∗ niveau(ndk ) (V.8)
k=1
Dans cette formule, niveau(ndk ) est le niveau du nœud ndk dans la structure du do-
cument. Nous attribuons donc un poids plus élevé aux termes qui apparaı̂ssent dans les
nœuds de plus haut niveau par rapport aux termes qui apparaı̂ssent dans les paragraphes.
(V.9)
chemin(ndk , ndl ), niveau(ndk ) > niveau(ndl ),
ti ∈ ndk , tj ∈ ndl , ti 6= tj
Ceci signifie que deux termes ti et tj sont liés par une relation ”Sup” si les conditions
suivantes sont satisfaites [52] :
– ti ∈ ndk : ti apparaı̂t dans le titre du nœud ndk .
– tj ∈ ndl : tj apparaı̂t dans le nœud ndl .
– ti 6= tj : ti et tj sont différents.
– chemin(ndk , ndl ) : il existe un chemin entre le nœud ndk et le nœud ndl dans l’arbre
de la structure du document.
– niveau(ndk ) > niveau(ndl ) : ndk est dans un niveau supérieur par rapport à celui
de ndl .
103
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
L’existence d’un terme T composé des deux termes t1 et t2 liés par une relation sy, nous
permet de déduire deux relations contextuelles. En effet, [sy , t2 ] (respectivement [sy , t1 ])
constitue un contexte pour t1 (respectivement pour t2 ). Le poids de la relation est alors
égal à la fréquence du terme T dans le corpus.
Les syntagmes non symétriques sont composés d’une relation syntaxique (ns), d’une
tête (h) et d’une expansion (e) :
T = (e, h, ns) ⇒ R(h, [ns expansion, e]) = R(e, [ns head, h]) = F req(T ), ∀T (V.12)
Dans le cas non symétrique, nous considérons que l’expansion (e) apparaı̂t dans un
contexte composé de la relation syntaxique en tête (ns head ) et de la tête (h). De manière
analogue, la tête apparaı̂t dans un contexte composé de la relation syntaxique en expansion
(ns expansion) et de l’expansion (e). Les deux relations ont un poids égal à la fréquence
du terme composé (T ) dans le corpus.
Chaque relation contextuelle est composée d’un terme (ti ) et d’un contexte (cj ). Ce
dernier est composé d’une relation (du type sy, ns head , ns expansion ou Sup) et d’un
autre terme. Les relations contextuelles sont vues comme un réseau possibiliste qui lie les
termes et les contextes. Nous définissions les distributions initiales de possibilité comme
suit [52] :
π(ti |cj ) = R(ti , cj ) (V.13)
104
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Nous calculons les fréquences des termes et les distributions de possibilité avec les
approches quantitative et qualitative comme cela est détaillé dans les deux tableaux V.12
et V.13.
Nous remarquons que la relation ”Sup” entre ” AJ.Ë” et ” h. @ð P ” se répète deux fois. C’est
pourquoi nous calculons la moyenne entre les poids de deux occurrences. Nous rappelons
que ”SA” (dans le tableau V.13) signifie Syntagme Annexé.
105
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
requête Q est constituée de tous les termes qui apparaı̂ssent dans le chemin qui lie n à la
racine. Ces termes sont pondérés selon la différence de niveau entre les nœuds correspon-
dants (voir l’exemple de la section 5.7, page 107). Le termhood d’un terme T est égal au
degré de pertinence possibiliste de T étant donné la requête Q, calculé selon la formule
IV.15 (page 79) :
DP P (t1 |[s, t2 ]) ∗ DP P (t2 |[s, t1 ]) si s est symétrique
unithood(T ) =
DP P (t1 |[s expansion, t2 ]) ∗ DP P (t2 |[s head, t1 ]) sinon
(V.15)
Nous considérons donc que les deux constituants sont liés si chacun d’eux est pertinent
pour l’autre. C’est pourquoi nous calculons le produit des deux DPP.
106
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
P DP (T ) = termhood(T ) (V.16)
Nous désambigüisons le mot ” Ég. QË@” qui a deux lemmes possibles : ” Ég. P” (homme)
et ” Ég. P” (pied). Pour cela, nous utilisons l’information structurelle à travers la requête
suivante :
Q = ([Sup, ” AJ. Ë”], 1)([Sup, ” Q«”], 1)([Sup, ” QªË@ AJ. Ë”], 1)([Sup, ” h. @ð P ”], 0.5) (V.18)
Le poids du terme ” h. @ð P ” dans cette requête est égal à 0.5, car la différence de niveau
entre les deux nœuds (le titre principal et le paragraphe) est de 2. Nous calculons le DPP
de chaque solution en utilisant les distributions de possibilité du tableau V.13. Selon la
formule IV.9 (voir page 78), nous avons :
Π(” Ég. P”|Q) =
π([Sup, ” AJ. Ë”]|” Ég. P”)∗1∗π([Sup, ” Q«”]|” Ég. P”)∗1.0∗π([Sup, ” QªË@ AJ. Ë”]|” Ég. P”)∗
1.0 ∗ π([Sup, ” h. @ð P ”]|” Ég. P”) ∗ 0.5 =
0.05 ∗ 1 ∗ 0.05 ∗ 1 ∗ 0.05 ∗ 1 ∗ 0.05 ∗ 0.5 = 0.175
107
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
En utilisant la formule V.14 (voir page 106), nous obtenons le résultat suivant :
termhood(” Ég. P”) = DP P (” Ég. P”|Q) = 0.175 + 0.073 = 0.248
En ce qui concerne le termhood , nous obtenons les mêmes résultats précédents, à savoir :
AJË”) = 0.248
termhood(” Ég. QË@
. ”) = 0.0
termhood(” ¬Q k Q Ü Ï @ Ég. QË@
108
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Enfin, nous sélectionnons la première solution ( Ég. QË@ AJ. Ë), étant donné qu’elle possède
le DPP le plus élevé.
Comme nous l’avons détaillé dans [52], nous intégrons l’outil MADA qui permet à la
fois de faire l’analyse morphologique et de trier les solutions morphologiques d’un mot par
ordre de pertinence selon son contexte dans la phrase en cours d’analyse. Cependant, nous
n’adoptons pas la première solution choisie par MADA, car ce dernier commet certaines
erreurs à ce niveau. Au niveau syntaxique, nous intégrons les règles déjà développées dans
[53] qui permettent de reconnaı̂tre les différents types de syntagmes nominaux arabes.
La taille de cet échantillon est comparable à certains corpus utilisés dans d’autres
travaux dans le domaine. Par exemple, MADA a été testé avec un corpus composé de 51
K-mots. Diab et al. [86] ont testé leur étiqueteur grammatical sur 400 phrases. L’évaluation
manuelle du résultat d’un analyseur morphologique ou d’un étiqueteur grammatical est
une tâche fastidieuse et coûteuse en terme de temps. Les approches qui n’effectuent pas une
analyse complète peuvent être évaluées en utilisant des corpus plus larges. Par exemple,
Boulaknadel et al. [48] ont évalué leur approche d’extraction de termes composés dans un
corpus contenant 475148 mots.
109
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Tableau V.14 – Statistiques sur les fragments et les termes de trois domaines.
Nous proposons donc deux méthodes d’évaluation que nous appelons respectivement
”validation par l’expert” et ”validation par le système”. La première utilise les listes de
référence et la deuxième évalue l’impact d’intégration de la terminologie dans un SRI. En
utilisant ces deux méthodes d’évaluation, nous comparons les trois approches suivantes : (i)
une approche probabiliste dans laquelle nous adoptons la solution morphologique choisie
par MAD ; dans nous évaluons le termhood en utilisant TF-IDF [200] et le unithood
avec le score LLR [97] ; (ii) une approche possibiliste quantitative ; et, (iii) une approche
possibiliste qualitative.
110
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
présentent les courbes du rappel versus précision, respectivement, dans les trois domaines.
Nous remarquons que les approches possibilistes (quantitative et qualitative) donnent de
meilleurs résultats que l’approche probabiliste (MADA + TF-IDF + LLR). Ceci implique
que la pertinence au domaine n’est pas reliée uniquement à la distribution des termes dans
les corpus mais à des relations contextuelles complexes. En outre, le fait que la courbe
de l’approche qualitative soit au dessus de celle de l’approche quantitive montre que les
termes sont mieux évalués quand leurs fréquences sont calculées selon leurs positions dans
la structure des documents [52].
Figure V.8 – Courbes rappel vs. précision relatives au domaine des boissons.
Ces statistiques montrent que les titres sont les fragments les plus représentatifs du
sens des documents. Malgré le fait qu’ils constituent seulement 3.92% du nombre de mots
(voir tableau V.14), la moyenne sur les trois domaines montre que 15.52% des termes
pertinents n’existent que dans ces fragments. Ceci explique l’amélioration réalisée par
l’approche qualitative par rapport à l’approche quantitative.
111
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
Nos résultats montrent aussi que MADA commet certaines erreurs lors de la désambigüi-
sation morphologique. La solution correcte n’existe pas forcément dans la première posi-
tion selon le tri proposé. Ces erreurs influencent à la fois l’extraction des termes simples
et composés. Dans le but d’illustrer ce constat, nous évaluons séparément le taux de re-
connaissance des termes simples et composés pour les trois domaines. Les figures V.11,
V.12 et V.13 illustrent les valeurs de rappel, de précision et de F-mesure pour ces trois
domaines. Dans ces figures, l’axe des abscisses est libellé par les types des termes et les
approches d’évaluation de la pertinence. En ce qui concerne les types des termes, les ex-
pressions ”simple”, ”composé” et ”Tout” signifient, respectivement, que nous évaluons
les résultats d’extraction des termes simples, des termes composés ou les deux à la fois.
Pour chacun de ces types, nous évaluons l’approche probabiliste (MADA + TF-IDF +
LLR) et l’approche possibiliste. Nous remarquons que, pour les trois domaines, l’approche
possibiliste améliore les résultats d’extraction aussi bien pour les termes simples que pour
les termes composés.
112
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
113
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
en adoptant l’approche possibiliste par rapport à celle probabiliste. Nous remarquons aussi
la contribution de l’approche qualitative par rapport à l’approche quantitative. En effet,
en passant de ”MADA + TF-IDF + LLR” à l’approche quantitative possibiliste, nous
enregistrons une amélioration moyenne de la F-mesure de 8.98% et 6.87% respectivement
pour les deux phases. L’approche qualitative réalise une amélioration supplémentaire de
7.26% et 4.62%.
Ces améliorations sont remarquées dans les trois domaines, ce qui montre la contri-
bution de nos approches possibilistes par rapport à l’approche probabiliste. En plus, ces
114
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
résultats révèlent que les termes composés constituent des entités importantes pour l’in-
dexation et la recherche de documents [52].
6 Conclusion
Dans ce chapitre, nous avons appliqué les premières étapes de notre processus de car-
tographie. Nous avons présenté des approches d’analyse qui permettent de reconnaı̂tre la
structure des documents et d’extraire les entités nécessaires à l’indexation socio-sémantique.
En effet, nous avons analysé la structure des livres du hadith afin d’identifier les différents
fragments que ce soit au niveau macro-logique ou micro-logique. La reconnaissance des
identités permet de lier chaque hadith aux biographies de ses narrateurs. En outre, chaque
fragment est lié aux termes pertinents du domaine auquel il appartient. Cependant, les
connaissances extraites doivent être organisées et munies de mécanismes de recherche et
de navigation afin de les rendre accessibles aux utilisateurs. Ceci nous mène à réaliser
les étapes restantes du processus de cartographie, étapes que nous allons décrire dans le
chapitre suivant.
115
Chapitre VI
Organisation de connaissances et
recherche d’information
multi-critères
116
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Ensuite, la théorie des graphes offre une panoplie d’algorithmes qui permettent de
fouiller les connaissances pour en découvrir d’autres [165]. Par exemple, le calcul de circuits
dans un graphe permet de découvrir des liens implicites entre les nœuds. Enfin, les outils
de gestion des graphes proposent divers paradigmes de visualisation aussi variés que les
attentes des utilisateurs. Par exemple, il est possible de contrôler les distances entre les
nœuds, leurs couleurs, leur aménagement ou regroupement dans des clusters, etc. Nous
choisissons donc les graphes vu leur généricité et parce qu’ils permettent de représenter
tous les paradigmes de cartographie, en commençant par les opérations de structuration
jusqu’aux opérations de navigation et de recherche. En effet, nous ne faisons pas une
séparation explicite entre les opérations de structuration et les mécanismes d’accès, étant
donné qu’ils peuvent se chevaucher. Nous modélisons donc le processus de cartographie
comme un ensemble d’opérations (voir section 1.2).
Dans la théorie des graphes [165], un graphe G est défini par un couple (V, E), où V
est l’ensemble des sommets ou nœuds de G et E est un ensemble de paires d’éléments
de V . Les liens entre les paires s’appellent des ”arêtes” dans les graphes non-orientés et
des ”arcs” dans les graphes orientés. Les graphes que nous utilisons contiennent ces deux
types de liens.
Nous instancions cette définition pour modéliser une carte multi-critères comme suit.
Une carte multi-critères C peut être définie par :
C = (GF , Go1 , Go2 , ..., Gon , Vp1 , Vp2 , ..., Vpn )
où GF est le graphe des fragments de documents, Goi est un graphe qui représente
l’ontologie numéro i dans la carte et V pi est un graphe orienté qui représente un réseau
possibiliste qui lie les sommets de Goi aux sommets de GF .
Etant donné que les graphes qui constituent une carte sont hétérogènes, nous définissions
pour chaque nœud, arête ou arc un ensemble d’attributs dont deux sont obligatoires. Ainsi,
nous définissions pour chaque élément, un label et un type qui permet de distinguer les
éléments des différentes ontologies. En outre, les arcs des réseaux possibilistes (Vpi ) doivent
forcément avoir un attribut poids qui contient une valeur numérique, comprise entre 0 et
1, représentant la distribution de possibilité.
Pour représenter tous les éléments des graphes et être en cohérence avec nos choix
ultérieurs, nous avons opté pour le langage GraphML [8]. En effet, plusieurs outils de
manipulation de graphes utilisent ce langage. Citons à titre d’exemples GUESS (The
Graph Exploration System) 1 et InfoVis Toolkit 2 qui sont deux APIs d’exploration de
1. http ://graphexploration.cond.org/
2. http ://ivtk.sourceforge.net/
117
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
graphes. Cependant, nous avons opté, pour des raisons techniques, pour l’outil Prefuse 3
qui est un package Java en code source libre qui se distingue par ses performances. Par
exemple, les calculs sur les graphes se déroulent sans bloquer l’interface d’affichage. Ce
package intègre aussi un ensemble plus large d’algorithmes bien documentés, illustrés par
des exemples et exploités par plusieurs utilisateurs. Enfin, son affichage se caractérise par
une meilleure organisation spatiale en deux et en trois dimensions.
i) La transformation distributionnelle
Cette opération permet d’inférer des liens distributionnels à partir des connaissances en-
codées dans les arcs et les arêtes ou dans les attributs des nœuds d’un graphe. Les nou-
veaux liens sont représentés par des arêtes ajoutées dans le même graphe ou exportés dans
un nouveau graphe. Nous distinguons donc la transformation basée sur les attributs et la
transformation basée sur les arcs. La première permet de lier deux nœuds s’ils possèdent
la même valeur d’un attribut donné en paramètre. Le nouveau lien aura comme label le
nom de l’attribut. Par exemple, dans un réseau social il est possible de lier deux personnes
si elles habitent au même endroit.
3. http ://www.prefuse.org/
118
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
La transformation basée sur les arcs et les arêtes procède comme suit. Les arêtes qui
représentent des relations symétriques sont gardées. Les arcs qui encodent des relations
non-symétriques sont transformés en relations symétriques. Nous considérons qu’un arc
relie une tête (sa source) et une expansion (sa destination). Inférer un lien distribution-
nel consiste à lier deux têtes qui partagent la même expansion ou deux expansions qui
partagent la même tête. Dans le cas où les arcs sont pondérés, la nouvelle arête prend
comme poids le minimum des poids des deux arcs qui relient les deux têtes (respective-
ment les deux expansions) à la même expansion (respectivement tête). Les labels sont
aussi modifiés en ajoutant une indication qui permet de distinguer les relations en tête et
les relations en expansion. Par exemple, si deux têtes (respectivement expansions) sont
reliées par des arcs dont le label est ”R” à une même tête (respectivement expansion), le
nouveau lien distributionnel est étiqueté ”R expansion” (respectivement ”R head ”).
En plus, les graphes distributionnels sont considérés comme des RPMH [219] sur les-
quels nous pouvons appliquer l’approche à base de circuit pour le calcul de distance [98].
Nous supposons que les nœuds maintiennent des relations qui, dans certains cas, se tra-
duisent par des circuits dans le graphe. Ceci suppose aussi que des nœuds non reliés par
aucune arête peuvent être similaires. L’approche à base de circuit permet donc d’éliciter
des connaissances implicites que les autres types de mesures ne peuvent pas dégager.
Etant donné que l’objectif final est de grouper les nœuds d’une manière cohérente, nous
supposons que les nœuds d’un même groupe constituent une unité fortement reliée par
des circuits, même si ces nœuds ne sont pas reliés deux à deux par des arêtes.
119
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Nous commençons par construire une matrice de similarité à partir du graphe distribu-
tionnel. Le contenu d’une cellule (ni , nj ) représente le score de similarité entre ni et nj .
Selon le type de distance, il est égal au score LLR, M I, DF , T S ou la distance à base de
circuit.
Quel que soit le type de distance, nous normalisons les scores de similarité en divisant
chaque cellule par le maximum de la matrice. Ensuite, nous extrayons les couples de nœuds
ayant un score de similarité supérieur au seuil d’acceptation qui correspond selon Elayeb
[98] à la moyenne de la matrice. Enfin, nous appliquons les algorithmes de regroupement
et de fusion proposés par Elayeb [98] comme suit :
Le choix de cette démarche en deux étapes est justifié par le fait que, dans un même
graphe, nous pouvons avoir plusieurs types de relations. Nous pouvons donc effectuer
l’étape de regroupement plusieurs fois en considérant que chaque type de relation constitue
un graphe. Les groupes issus de plusieurs graphes peuvent être fusionnés en utilisant
l’algorithme de fusion.
La navigation entre les différentes fenêtres est possible grâce aux réseaux possibilistes
qui les lient. Ces fenêtres permettent de (re)formuler des requêtes simples ou multi-critères.
Dans chaque fenêtre, qui représente une ontologie Goi , un utilisateur peut choisir un
ensemble de nœuds qui constituent une requête. Ensuite, il peut ajouter automatiquement
les nœuds les plus proches aux nœuds de la requête initiale (selon un type de distance)
120
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
afin de la reformuler. Enfin, il peut lancer le processus de recherche qui retourne les
nœuds du graphe GF triés par ordre de pertinence possibiliste décroissant. Dans le cas
où l’utilisateur a sélectionné des nœuds d’ontologies différentes, les mesures de pertinence
relatives aux différentes requêtes sont agrégées en utilisant l’opérateur produit. Ceci dit,
des exemples plus détaillés sur les interactions possibles sur l’interface graphique sont
présentés dans l’annexe D.
La carte de thèmes multi-points de vue est extraite à partir des titres des thèmes des
différents livres. Elle représente un axe vertical qui permet à l’utilisateur d’explorer les
hadiths d’une manière hiérarchique. Cette cartographie est inspirée des modèles proposés
dans le courant du Web socio-sémantique [230]. Par rapport à Hypertopic [39, 230] inspiré
du modèle des topic maps [9], les items dans notre cas représentent les hadiths. Comme
dans Hypertopic, les thèmes des livres du hadith constituent plusieurs thématisations
potentiellement concurrentes d’un item [228]. Cependant, dans notre cas, les thèmes sont
extraits directement du corpus, alors que dans les projets du Web socio-sémantique ils
sont construits d’une manière coopérative par un ensemble d’experts. Néanmoins, si dans
nos expérimentations nous adoptons les classifications des collecteurs, qui sont des acteurs
internes, rien n’empêche à l’avenir de construire de nouvelles thématisations. Par rapport
aux réseaux de description [39], nos cartes de thèmes sont des graphes acycliques et leurs
thèmes constituent des descripteurs qui indexent les hadiths.
121
122
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Figure VI.1 – Interface de recherche et de navigation dans la carte socio-sémantique des hadiths.
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Notons que cette structuration tient compte des différents axes d’organisation des
connaissances. L’axe sémiotique est représenté à l’aide des cartes de thèmes multi-points
de vue et à travers le modèle d’indexation des hadiths et des chaı̂nes qui représente tous
les détails sur l’acheminement de l’information. L’axe différentiel est représenté à l’aide
des liens distributionnels de la carte sémantique et de la carte sociale. L’axe référentiel
est représenté au niveau social étant donné que chaque nom arabe réfère à une per-
sonne. Notre algorithme de reconnaissance de l’identité permet d’identifier ces liens (voir
la section 4 du chapitre V, page 96). Cependant, nous considérons que les éléments de la
carte sémantique sont des termes et non pas des concepts. Structurer ces connaissances
dans l’axe référentiel nécessite le développement d’outils d’analyse et de désambiguı̈sation
sémantique. De tels outils se basent souvent sur des ressources électroniques (comme les
dictionnaires) qui donnent les sens de chaque mot. Malheureusement, de telles ressources
ne sont pas disponibles pour la langue arabe. Enfin, notre processus de cartographie offre
certains mécanismes de raisonnement tels que l’analyse distributionnelle basée sur les
RPMH et un algorithme de calcul de la fiabilité. De tels mécanismes permettent d’inférer
de nouvelles connaissances sans pour autant adopter des choix hautement formels tels que
les formalismes logiques et les langages formels du Web sémantiques [109]. Cependant,
la structuration différentielle est une première étape qui pourra être complétée par une
analyse formelle des concepts si les ressources sémantiques nécessaires sont développées.
Pour organiser les connaissances hadithiennes selon ce modèle, nous utilisons les opéra-
tions génériques précédemment détaillées. Les sections suivantes présentent les résultats
obtenus dans l’analyse distributionnelle sémantique et sociale et l’évaluation de la fiabilité.
123
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
3.1 Exemple
Le tableau VI.1 présente les textes arabes (qui sont des fragments de livres du hadith)
utilisés dans cet exemple. Le tableau VI.2 présente les syntagmes nominaux extraits de
ces textes. Nous rappelons que ”SA” et ”SC” signifient respectivement, Syntagme Annexé
et Syntagme Conjonctif. La Figure VI.2 illustre le réseau syntaxique constitué à partir de
ces syntagmes.
Tableau VI.2 – Les syntagmes nominaux extraits des textes du tableau VI.1.
124
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
ajouter le terme ” èQk.” (jarre) à ce groupe (voir Figure VI.3). Nous évitons ce problème
en construisant un réseau distributionnel par type de relation syntaxique comme illustré
par la Figure VI.4. Enfin le graphe de co-occurrence (voir Figure VI.5) connecte tous les
nœuds.
Figure VI.3 – Exemple de réseau distributionnel contenant toutes les relations syn-
taxiques.
125
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Nous tenons aussi à noter que nous utilisons une méthodologie d’évaluation similaire
à celle que nous avons utilisée pour évaluer les termes pertinents au domaine (voir 5.8.2,
page 110). Nous rappelons qu’il n’existe pas une ontologie de référence avec laquelle nous
pouvons nous comparer. Nous avons donc eu recours aux mêmes méthodes, à savoir la
validation par l’expert et la validation par le système.
126
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
L’enregistrement partiel est utile dans le cas où le groupe affiché correspond à deux
ou plusieurs groupes valides. Dans ce cas, l’utilisateur aura à cocher les éléments des
sous-groupes pour les valider chacun à part avant de passer au groupe suivant.
A partir de cette interaction, nous inférons, pour chaque domaine, une liste de référence
composée des couples valides. Cependant, nous ne pouvons pas calculer avec ces listes
une valeur objective du rappel. Néanmoins, ces listes permettent de comparer relative-
ment différentes approches. C’est pourquoi nous parlons de rappel relatif. En suivant
cette méthode, nous présentons les résultats de deux phases d’évaluation qui consistent
respectivement, à comparer la distance à base de circuit aux autres types de distance et
l’approche basée sur le contexte syntaxique à celle basée sur la co-occurrence [51].
127
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
de bruit que les arêtes. Nous avons donc tendance à croire plus la validité d’un couple
de termes quand ils sont liés par un circuit, que quand ils sont liés par une simple arête.
La Figure VI.7 illustre les valeurs moyennes du rappel, de la précision et de la F-mesure
pour les cinq types de distance dans les trois domaines pour les relations syntaxiques
symétriques. Nous avons obtenu des résultats similaires pour d’autres types de relations
[51].
Ces résultats valident nos hypothèses de départ. D’une part, l’approche à base de
contexte syntaxique donne de meilleurs résultats par rapport à celle basée sur la co-
occurrence. Ceci révèle que les termes sont plus liés au contexte syntaxique qu’au contexte
128
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
de co-occurrence. Nous avons aussi remarqué que certains hadiths parlent à la fois de plu-
sieurs thèmes, ce qui implique que les réseaux de co-occurrence contiennent beaucoup de
bruit. D’autre part, nous obtenons des résultats relativement faibles en combinant tous les
types de relations syntaxiques dans un seul graphe (comme cela a été proposé par Bouri-
gault [57]). Nous concluons que les liens distributionnels obtenus par différentes relations
syntaxiques ont des sémantiques différentes et doivent donc être interprétés séparément.
En comparant les résultats des différents types de relations syntaxiques, nous remar-
quons que les relations symétriques ont donné les meilleures performances. Ceci s’explique
par le fait que ces relations relient les termes directement. Cependant, le fait de lier les
termes partageant la même tête ou la même expansion peut engendrer du bruit. En outre,
nous n’avons pas enregistré de bons résultats pour les relations adjectivales et les valeurs
des trois métriques étaient négligeables pour ces relations. Ceci signifie que les adjectifs
dans nos corpus relient des termes sémantiquement différents. Enfin, nous enregistrons
de petites valeurs de rappel pour la majorité des types de relations. Ceci implique que
chaque relation couvre une partie du domaine et qu’aucune d’elles ne permet de lier tout
les co-hyponymes.
En appliquant l’approche ”unique-fusion”, nous obtenons les groupes les plus cohérents.
Le tableau VI.3 donne des exemples de groupes pour les trois domaines. La Figure VI.10
illustre la carte sémantique du domaine des boissons où les groupes sont numérotés
conformément au tableau VI.3. La Figure VI.11 est un raffinement de la partie cadrée
de la Figure VI.10 en mettant l’accent sur le groupe 5 de cette carte.
129
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
130
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Figure VI.11 – Zoom sur le groupe numéro 5 de la carte sémantique de la Figure VI.10.
131
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Figure VI.12 – Résultats d’expansion des requêtes dans le domaine des boissons.
Ces courbes montrent que l’approche à base de circuit a donné des résultats meilleurs
132
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
que les autres approches, ce qui valide nos hypothèses et confirme les résultats obtenus
avec la validation par l’expert. Ces résultats montrent aussi l’importance de nos ontologies
étant donné que les valeurs de la F-mesure se sont améliorées de manière significative.
Ainsi, nous confirmons les résultats obtenus pour d’autres langues concernant l’intégration
des ontologies dans les SRI [206].
A titre de comparaison, Harrag et al. [133], qui ont appliqué leur SRI dans le corpus du
hadith, ont rapporté une valeur de F-mesure égale à 0.47, alors que nos courbes atteignent
des valeurs supérieures dès l’ajout du premier terme. Ceci ne donne qu’une évaluation
relative de notre contribution, car nous n’utilisons pas les mêmes requêtes et les mêmes
hadiths que Harrag et al. [133].
Figure VI.15 – Graphe social des narrateurs du hadith sous forme d’arbre radial.
133
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
arcs représentent les relations (cheikh-disciple). Ainsi, le prophète (PBSL) ( é<ÊË@ ÈñP
ÕÎ ð é J
Ê « é <Ë@ úÎ ) figure au centre. Les nœuds sont colorés en fonction des degrés
de fiabilité des narrateurs. La couleur verte est utilisée pour les narrateurs fiables. Les
personnes non crédibles et suspectes sont respectivement représentées en rouge et en
orangé. En effet, les narrateurs proches du prophète (PBSL) sont ses compagnons. Plus
nous nous éloignons du centre, plus la couleur converge vers l’orangé.
En appliquant la transformation basée sur les arcs, les disciples partageant le même
cheikh sont liés et nous obtenons le graphe de la Figure VI.16.
Dans ce graphe, les nœuds sont étiquetés par les générations des narrateurs. Par rap-
port aux paradigmes de représentation étudiés dans le chapitre I (section 4.3.3, page 26),
il s’agit d’inférer des structures temporelles. Nous remarquons que les narrateurs appar-
tenant à la même génération ont tendance à partager les mêmes cheikhs. En effet, dans
cette figure, les narrateurs en haut sont les compagnons du prophète (PBSL). Ceux situés
en bas de la figure correspondent aux cheikhs des rédacteurs des six livres. Cependant,
nous remarquons qu’il n’y a pas une séparation complète entre les générations. Etant
donné que les générations sont temporellement proches les unes des autres, il arrive dans
certains cas, que des narrateurs de générations différentes reçoivent des hadiths du même
cheikh. Ce graphe prouve que les hadiths ont été transmis d’une manière continue et qu’il
n’y pas eu une rupture temporelle entre les différentes générations.
De la même manière, la Figure VI.17 illustre le même graphe mais avec les nœuds
étiquetés par l’attribut nisba. Nous remarquons une correspondance entre les résultats
d’analyse distributionnelle et la dispersion géographique. En effet, le hadith était au début
limité aux compagnons du prophète (PBSL) qui habitait à Médine ( éJK
YÖÏ @) ou à la Mecque
( éºÓ). C’est pourquoi nous trouvons des nisba qui se rapportent aux tribus de ces deux
villes (par exemple, ” úk P Q mÌ '@ ” : Al-khazraji). Les narrateurs commencent ensuite à
.
s’éloigner de ces endroits notamment en allant vers les villes de l’Iraq qui abritait la
capitale de l’état à l’époque.
134
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Figure VI.16 – Résultat de la transformation basée sur les arcs du réseau social des
narrateurs dans le domaine des boissons (l’attribut ”génération” affiché aux nœuds).
135
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Figure VI.17 – Résultat de la transformation basée sur les arcs du réseau social des
narrateurs dans le domaine des boissons (l’attribut ”nisba” affiché aux nœuds).
136
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Les relations sociales sont chargées à partir de la base des biographies. Pour calculer
le gap temporel, nous utilisons les dates de naissance et de décès des narrateurs. Si la
date de naissance (respectivement la date de décès) est inconnue, nous la remplaçons par
la date de naissance la plus ancienne (respectivement la date de décès la plus récente)
de la génération du narrateur. Cet attribut peut donc prendre l’une des quatre valeurs
suivantes :
– Oui : aucune donnée n’est manquante et il existe un gap temporel.
– Oui-manquant : certaines données sont manquantes et il existe un gap temporel.
– Non : aucune donnée n’est manquante et il n’existe pas un gap temporel.
– Non-manquant : certaines données sont manquantes et il n’existe pas un gap tem-
porel.
Nous calculons le gap géographique entre deux narrateurs comme suit. Soit v1 (respec-
tivement v2 ) un vecteur composé des informations suivantes sur le premier narrateur (res-
pectivement le deuxième) : le lieu de naissance, le lieu de décès et la valeur du composant
nisba de son nom. Le gap géographique peut prendre l’une des trois valeurs suivantes :
– Oui : v1 et v2 ne sont pas nuls et n’ont aucun élément en commun.
– Non : v1 et v2 ne sont pas nuls et ont au moins un élément en commun.
– Inconnu : v1 ou v2 est nul.
137
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Pour les trois paramètres (RS, GT et GG), nous utilisons la valeur minimale de tous
les liens de la chaı̂ne. S’il y a une relation sociale entre deux narrateurs, la distribution de
possibilité est indépendante des deux autres paramètres (GT et GG). Sinon, nous donnons
une plus grande importance au gap temporel. Ainsi, si deux narrateurs ont vécu dans la
même période, nous estimons qu’ils pouvaient se rencontrer même s’ils n’ont pas vécu au
même endroit. Nous calculons la continuité de la chaı̂ne (cc) comme cela est illustré par
le tableau VI.5 et la distribution de possibilité est donnée par le tableau VI.6.
Tableau VI.5 – Valeurs du critère de continuité selon la relation sociale, le gap temporel
et le gap géographique.
Pour le critère de continuité, nous avons une seule valeur du critère qui permet d’assu-
rer la fiabilité (cc = 13 qui signifie qu’il y a une relation sociale entre les deux narrateurs).
Les cas où il y a un gap temporel sont considérés comme non fiables. Si les narrateurs ont
vécu dans la même période mais n’ont pas une relation sociale, nous considérons que la
chaı̂ne est plutôt suspecte.
138
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Dans les deux cas, la classe à choisir (c*) est celle qui a le score le plus grand, soit
[50, 130] :
En effet, une chaı̂ne est un graphe orienté où les nœuds représentent les narrateurs et
les arcs indiquent le cheminement de l’information. Les labels des arcs représentent les
manières de transmission. Chacun de ces trois éléments (les nœuds, les arcs et leurs labels)
peut prendre l’une des trois couleurs comme indication de fiabilité (vert, orangé et rouge).
Ainsi, la couleur d’un nœud indique la crédibilité du narrateur (c). Le critère continuité
(cc) est illustré par la couleur de l’arc. Le label de l’arc est coloré selon la fiabilité de
transmission. La Figure VI.18 illustre la cartographie de la chaı̂ne suivante :
èQªÖ Ï @ á«
, ½K Qå
á« , é <Ë@ YJ« AK Qg
@ ÈA¯ , Qå áK YK ñ AK Qg
@
. . .
.
Qui peut être traduite comme suit : ”Soayd ibn Nasr nous a informé que Adb Allah
l’a informé que, selon Charik, selon Al-moughira.”
Cette chaı̂ne est extraite du livre de ” úG A Ë@” qui est le dernier narrateur (en bas de
la figure). Le prophète (PBSL) se trouve en haut de la figue comme la première source
de l’information. L’utilisateur peut remarquer facilement le suspect dans cette chaı̂ne au
niveau du narrateur coloré en orangé, ainsi que celle de l’arc qui le relie avec son cheikh.
Il est clair que la chaı̂ne est suspecte du point de vue crédibilité et continuité.
139
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Les tableaux VI.8 et VI.9 donnent les moyennes des scores de trois classes dans les six
livres du hadith respectivement, pour les algorithmes à base de minimum et à base de
produit. Nous remarquons que les deux livres les plus authentiques ont eu les scores les
plus élevés de la classe fiable. En outre le livre ” ø PAjJ.Ë@ iJ
m” s’avère le plus authentique.
Nous concluons donc que le résultat que nous avons obtenu correspond à la réalité.
Pour comprendre plus précisément ce résultat, nous les analysons attribut par attribut.
Notons d’abord que le critère de fiabilité de transmission n’a aucun effet dans les hadiths
que nous avons examinés, étant donné que les six savants ont toujours utilisé des manières
fiables de transmission. A travers le tableau VI.10, nous analysons les deux autres critères,
à savoir la crédibilité (c) et la continuité (cc), en donnant les valeurs moyennes et minimales
pour chaque livre.
Nous remarquons, encore une fois, que nos résultats correspondent à la réalité. Ainsi,
les deux livres authentiques possèdent les meilleures valeurs pour ces deux critères. En
140
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Tableau VI.8 – Moyennes des scores attribués pour les trois classes de fiabilité selon
l’algorithme à base de minimum [6].
Tableau VI.9 – Moyennes des scores attribués pour les trois classes de fiabilité selon
l’algorithme à base de produit.
Tableau VI.10 – Valeurs moyennes et minimales des critères de fiabilité dans les six livres.
effet, le degré minimal de leurs narrateurs est de 8. Dans les autres livres, nous trouvons
des narrateurs
des classes 5, 6 et 7. Ceci confirme que Al-Bukhari( ø PA jJ. Ë@) et Muslim (
ÕÎ Ó ) sont plus exigeants en terme de crédibilité. Cette remarque
est valable pour le
141
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
critère de continuité. Notons que ø PAjJ.Ë@ a une valeur idéale de ce critère à savoir 13. Ceci
nous rappelle que ce savant vérifie que le disciple a rencontré son cheikh pour accepter
ses narrations.
Afin d’avoir une évaluation globale, nous comparons les résultats de notre système
par rapport aux décisions des savants. Le tableau VI.11 présente, pour chaque classe
de fiabilité, le pourcentage de hadiths de la base de test (dans la deuxième colonne), le
pourcentage des hadiths qui ont été jugés fiables (F), suspects (S) et non fiables (NF)
(respectivement dans les trois dernières colonnes). Les dernières lignes, avec un fond gris,
contiennent les classes rares dont nous ne pouvons pas interpréter les résultats.
Classe % %F %S %NF
iJ
m(authentique) 84.33% 78.76% 21.24% 00.00%
iJ
m ák (entre bon et authentique) 01.74% 71.43% 28.57% 00.00%
iJ
m (chaı̂ne authentique)
XAJB@ 03.48% 64.29% 35.71% 00.00%
ák
XAJB@ (chaı̂ne bonne) 01.00% 50.00% 50.00% 00.00%
éJ« HñºÓ
(inconnu) 01.49% 33.33% 66.67% 00.00%
J
ª (faible) 04.98% 20.00% 70.00% 10.00%
(bon)
ák 00.75% 66.67% 33.33% 00.00%
èQ
ªË iJ
m(Authentique en vertu d’autres hadiths) 00.75% 33.33% 66.67% 00.00%
XAJB
¨ñ¢®Ó @ iJ
m (la chaı̂ne est authentique 00.50% 100.00% 00.00% 00.00%
mais le contenu est assigné à un disciple)
XAJB
¨ñ¢®Ó @ ák(la chaı̂ne est bonne 00.25% 100.00% 00.00% 00.00%
mais le contenu est assigné à un disciple)
XAJB @ iJ
m ák(bon avec chaı̂ne authentique) 00.25% 100.00% 00.00% 00.00%
h. PYÓ XAJB @ iJ
m(la chaı̂ne est authentique mais 00.25% 100.00% 00.00% 00.00%
certaines expressions ont été ajoutées au contenu)
Tableau VI.11 – Comparaison des résultats du système par rapport aux décisions des
savants [6].
Nous remarquons aussi que la majorité des hadiths (95.02%) sont réellement fiables
avec des degrés différents. Ceci prouve la valeur théologique des six livres en tant que
sources de hadith. Notons aussi que notre système attribue la classe ”Suspect” à un
pourcentage important de hadiths fiables. Ceci est dû au fait que certains narrateurs ont un
degré de crédibilité compris entre 5 et 9. En effet, les savants traitent ces narrateurs d’une
manière sélective. Autrement dit, ils acceptent certains de leurs hadiths et en rejettent
d’autres. Ce fait est confirmé si nous examinons les hadiths non fiables dont 70% ont
été classés comme suspects vu l’existence de ce genre de narrateurs. Nous concluons que
les narrateurs suspects existent aussi bien dans les hadiths fiables que non fiables ; ceci
démontre à la fois l’expertise des savants du hadith et la difficulté d’automatisation de
leur méthodologie.
Le tableau VI.11 trie les classes de fiabilité (colonne numéro 1) selon la moyenne des
scores attribués à la classe ”fiable”. Nous déduisons que l’ordre établi correspond à la
142
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
143
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
telles anomalies requiert des mécanismes plus poussés d’analyse permettant d’évaluer la
cohérence logique d’un ensemble de versions du même hadith.
6 Conclusion
Dans ce chapitre, nous avons présenté et discuté des résultats de différentes expérimentations
afin de structurer les connaissances extraites des livres du hadith selon les axes socio-
sémantiques. Nous avons aussi décrit les mécanismes nécessaires à la recherche et à la
navigation dans les cartes socio-sémantiques. Ces mécanismes permettent d’évaluer la
pertinence de l’information selon des contraintes multi-critères spécifiées par l’utilisateur.
En effet, le système évalue chaque hadith et fournit des informations analytiques sur les in-
dicateurs de fiabilité. Etant donné que plusieurs opérations sont communes aux différentes
étapes et axes de structuration, nous avons défini et implémenté une plate-forme de car-
tographie multi-critères réutilisable, qui pourra éventuellement être utilisée pour d’autres
types de connaissances. Cette plate-forme n’est que l’un des modules développés tout au
long du processus de cartographie. Ces modules constituent une boite à outils réutilisable,
dont les détails d’implémentation et de test seront présentés dans les annexes de cette
thèse.
144
Conclusion Générale et Perspectives
Les travaux récents en RI [92, 103, 145, 161, 212] s’orientent vers des mécanismes plus
développés qui dépassent le scénario (requête - liste de résultats). En effet, la RI est vue
comme une démarche d’enquête qui tient compte de plusieurs critères. En outre, un espace
informationnel devrait être structuré et présenté d’une manière appréhensible qui permet
une vue globalisante et détaillée de cet espace. Une variété de mécanismes de visualisation
et d’interaction permettraient un accès personnalisé aux ressources documentaires. Ainsi,
les tâches d’extraction, de représentation et d’accès à la connaissance s’inscrivent dans un
processus de cartographie qui implique l’utilisateur dans ses différentes étapes.
145
CONCLUSION GENERALE ET PERSPECTIVES
Pour répondre aux nouvelles exigences de la RI moderne, nous avons proposé un pro-
cessus de cartographie qui puisse tenir compte de la richesse et des spécificités de la
langue et de la civilisation arabes. Dans ce cadre, nous avons défini des approches d’ana-
lyse et de désambigüisation de textes arabes, afin de faciliter l’intégration de cette langue
dans les systèmes d’ingénierie des connaissances. Nous avons remarqué qu’il est nécessaire
d’intégrer différents axes d’analyse en considérant les aspects sémantiques et sociaux à
la fois. A ce stade, nous soulignons l’importance de l’évaluation de la fiabilité comme
critère important de la pertinence de l’information. Pour tenir compte de ce critère, nous
avons adopté les sciences du hadith comme méthodologie d’évaluation de la fiabilité. Cette
méthodologie est parfaitement cohérente avec les visions récentes du Web qui insistent
sur le concept de confiance. En outre, elle tient compte des critères reconnus dans la
littérature relative à la qualité de l’information [173].
Choix principaux
Le choix des livres du hadith comme cas d’application de la cartographie socio-
sémantique est justifié par leurs caractéristiques. En effet, ces livres possèdent une struc-
ture qui facilite plusieurs étapes dans le processus de cartographie. Cette structure repré-
sente l’empreinte du processus de production des documents qui est fondamentale dans
les livres du hadith qui documentent toutes les transactions sémiotiques de transfert et
d’interprétation des informations. En outre, la structure est exploitée afin de modéliser
les connaissances et de permettre une recherche précise et personnalisée de l’informa-
tion. L’organisation thématique des hadiths permet un accès multi-points de vue adap-
table selon les pratiques des utilisateurs. De plus, la taille de ces livres et leur richesse
permet le développement et le test d’approches d’extraction de connaissances et de RI
multi-critères. En fait, il ne s’agit pas uniquement d’un fonds riche en thèmes et en
connaissances socio-sémantiques, mais sa constitution a été accompagnée par l’élaboration
d’une méthodologie rigoureuse pour l’évaluation de la fiabilité de l’information. Vu ces
caractéristiques, le corpus hadithien a été sujet de plusieurs études et applications infor-
matiques [19, 22, 133, 224].
Etant donné que nos contributions sont basées sur les fondements du Web socio-
sémantiques, nous avons fait le choix d’utiliser une approche semi-formelle de représenta-
tion des connaissances en adoptant le langage XML et ses dérivés. Ce choix est compa-
tible avec la démarche d’enquête dans laquelle s’inscrit la recherche d’information dans le
Web socio-sémantique en général [226] et dans les livres du hadith en particulier. Cette
démarche offre un certain équilibre entre les besoins humains et les traitements automa-
tiques et permet d’affronter la complexité des documents et la divergence des points de
vue.
146
CONCLUSION GENERALE ET PERSPECTIVES
En ce qui concerne l’organisation des livres du hadith, nous avons choisi de garder les
thématisations proposées par les collecteurs du hadith dans leurs livres, chacune étant
considérée comme une carte de thèmes [64]. Afin de diversifier les mécanismes d’accès aux
hadiths, nous avons développé des outils d’organisation et d’évaluation automatique des
connaissances qui sont utilisés conjointement à une recherche arborescente dans les cartes
de thèmes. Pour cela, nous avons exploité deux types de réseaux récemment combinés
dans le domaine de la RI [98], à savoir les Réseaux Petits Mondes Hiérarchiques (RPMH)
et les réseaux possibilistes. Les RPMH représentent un outil d’organisation des connais-
sances qui permet à la fois d’éliciter les liens implicites et d’avoir une vue globalisante
des connaissances. Leur généricité permet de représenter n’importe quelle dimension d’un
espace informationnel. Pour lier les différentes dimensions d’un tel espace, nous avons
utilisé les réseaux possibilistes. La théorie des possibilités a été proposée comme modèle
efficace de classification et de RI dans des études comparatives récentes [60]. En effet, cette
théorie permet de traiter les données d’une manière quantitative ou qualitative. En outre,
elle tient compte des phénomènes d’imperfection dans les données tels que l’imprécision,
l’incertitude et l’incomplétude [130].
Contributions
Nous avons proposé un modèle générique d’une carte socio-sémantique multi-critères
où les fragments de documents sont indexés par plusieurs ontologies, dont chacune repré-
sente une dimension de la carte. Le processus de cartographie lié à ce modèle est guidé
par la codétermination des besoins sociaux et sémantiques des utilisateurs. Nous pensons
que les pratiques des utilisateurs et les mécanismes que le système doit fournir dépendent
de l’organisation sociale des utilisateurs et de leurs besoins. Ceci nous a conduit à mener
une étude sociale en amont du processus d’analyse. Cette étude retrace le processus de
production/transmission des documents vus comme des productions sémiotiques. Elle
détermine entre autres les outils d’analyse nécessaires et le niveau de granularité lors
de la segmentation des documents. La structure des documents a donc une importance
fondamentale dans notre approche. Afin de favoriser la réutilisation des outils d’analyse,
nous avons proposé une analyse micro-logique basée sur les grammaires hors contexte
[54]. Cette solution permet de pallier à la complexité des textes en traitant chaque type
de fragment à part et en simplifiant l’apprentissage semi-automatique des règles de ces
grammaires.
Etant donné les limites des travaux existants [20, 47, 188, 234], nous avons donné une
importance particulière aux aspects linguistiques, notamment aux ambiguı̈tés morphosyn-
taxiques [52]. En effet, nous essayons, à travers cette thèse, d’introduire la langue arabe
aux environnements de l’ingénierie ontologique [40]. Dans ce cadre, nous avons adopté la
même démarche que d’autres chercheurs [143] en effectuant une analyse linguistique appro-
fondie pour la construction d’ontologies [51]. Ainsi, à l’inverse de certains autres systèmes
(ex. OntoLearn [166], Text2Onto [73] et le système de Rajaraman et Tan [190]), nous
exploitons les informations morphosyntaxiques dans les différentes étapes de construc-
tion d’ontologies. Les informations morphologiques permettent de reconnaı̂tre les termes
simples et sont exploitées dans les règles d’analyse syntaxique pour extraire les termes
composés. L’analyseur syntaxique que nous avons développé [53] reconnaı̂t la structure de
chaque syntagme sous forme d’arbre d’analyse qui spécifie le rôle de chaque constituant. A
ce stade, nous ne sommes pas limités aux termes composés de deux mots, mais nous avons
147
CONCLUSION GENERALE ET PERSPECTIVES
considéré des N-grammes dont la taille peut atteindre 10 mots. Notons que la structure
des documents du hadith a joué un rôle important dans la désambiguı̈sation morpho-
syntaxique [52]. En effet, les titres des thèmes constituent un contexte sémantique utile
pour la désambiguı̈sation. En outre, la pondération des termes en fonction de leurs posi-
tions dans la structure a permis une évaluation qualitative de leur pertinence au domaine.
Ainsi, la désambiguı̈sation et l’évaluation de la pertinence au domaine sont effectuées en
une seule étape. Cette solution constitue une contribution dans le sens où nous avons
accéléré le processus d’analyse, prouvé l’apport de la structure dans la désambiguı̈sation
morphosyntaxique et démontré l’interdépendance des différents niveaux d’analyse. En
fait, le réseau de dépendances syntaxiques a été exploité afin de tester plusieurs alterna-
tives lors de l’analyse distributionnelle qui a permis de grouper les termes d’une manière
cohérente. Lors de cette analyse, il a été montré que les relations syntaxiques arabes ont
des sémantiques différentes, ce qui nous a amené à les interpréter séparément [51].
Par opposition aux SRI monocritères, nous avons aussi considéré l’axe social à tra-
vers la reconnaissance des entités nommées et des identités des personnes comme étapes
préliminaires à l’étape d’évaluation de la fiabilité [50]. Il est à signaler qu’à l’heure actuelle,
aucune des approches existantes n’a considéré toutes ces étapes à la fois [3, 28, 30, 117].
Ajoutons que l’utilisation des grammaires hors contexte nous a permis d’extraire la struc-
ture de chaque entité nommée au format XML et de représenter explicitement les relations
sociales. En outre, notre outil de reconnaissance de l’identité représente un véritable SRI
social qui exploite le réseau social afin de lever les ambiguı̈tés dans les noms arabes. Enfin,
nous avons renforcé l’analyse de la fiabilité en utilisant des indices graphiques en plus du
calcul automatique de la classe de fiabilité [50].
Du point de vue environnement, nous avons développé une boite à outils générique qui
traite la structure, la morphologie, la syntaxe et les entités nommées dans les documents
arabes. Ces outils, étant développés en Java, pourront être intégrés dans les plate-formes
d’ingénierie ontologique, telles que KAON [176] et TERMINAE [85]. Nous avons exploité
les réseaux générés par ces outils pour construire les ontologies qui composent nos cartes.
Ayant remarqué que ces réseaux ne sont autres que des graphes, nous avons proposé un
processus d’analyse distributionnelle générique qui permet de structurer les connaissances
en ontologies. Ainsi, nous avons pu, à travers des opérations basiques sur les graphes tels
que le filtrage, la transformation et le clustering, produire des modèles qui servent à un
utilisateur pour appréhender son espace informationnel et au système d’automatiser cer-
taines tâches de RI, telles que la reformulation de requêtes [51]. Le processus d’organisation
des connaissances a été enrichi par l’implémentation d’un modèle d’appariement possibi-
liste multi-critères, afin d’évaluer les informations en fonction de contraintes spécifiées de
manière interactive par l’utilisateur. L’ensemble de ces éléments constitue une plate-forme
qui fournit les mécanismes de base pour la cartographie multi-critères.
A l’inverse de certains travaux existants [30], nous avons évalué les étapes intermédiaires
en plus des résultats finaux, afin de mettre l’accent sur les sources d’erreurs et de fournir
une interprétation plus détaillée des résultats. Cependant, notre travail était limité par le
manque de standards d’évaluation surtout au niveau sémantique où nous étions obligés
de construire manuellement des listes de référence. Vu les limites de ces listes, nous avons
renforcé notre évaluation par une validation automatique dans le cadre de la RI [51, 52].
148
CONCLUSION GENERALE ET PERSPECTIVES
Perspectives
L’implémentation des outils d’analyse de textes arabes a nécessité des traitements
manuels, que ce soit dans les phases d’apprentissage ou d’évaluation. Malgré notre souci
de réduire les taux d’intervention de l’utilisateur, ces phases demeurent coûteuses du point
de vue temps et effort. L’ambigüité morphologique a constitué pour nous le principal
challenge que nous avons rencontré dans nos expérimentations. La source principale de
ce type d’ambigüité est l’absence des voyelles courtes dans les textes. Pour relever ce
challenge, l’utilisation de textes partiellement ou complètement voyellés serait une solution
envisageable. Le corpus hadithien offre cette opportunité, vu que certains de ses livres
sont voyellés. Nous estimons qu’il serait possible d’améliorer l’analyse linguistique si les
principales entités logiques (principalement les titres et les sous-titres) étaient voyellées.
149
d’interaction. Par exemple, le prototype dans son état actuel ne permet de chercher que
des hadiths. Il serait intéressant de fournir à l’utilisateur des fragments plus ou moins
complexes tels que les sous-chapitres ou les commentaires associés aux hadiths. En outre, il
est possible d’implémenter différentes stratégies d’adaptation, qui guident l’utilisateur lors
de la navigation [140] ou qui lui permettent de constituer de nouveaux documents [103].
Cependant, la personnalisation des cartes nécessite aussi la prise en compte des profils des
utilisateurs. A priori, il serait envisageable d’inclure deux aspects fondamentaux dans le
profil. Le premier permet d’adapter le contenu affiché selon l’expertise de l’utilisateur. Par
exemple, les utilisateurs novices ont tendance à négliger les longues chaı̂nes de narrateurs
et certains commentaires. Le deuxième considère l’organisation sociale des utilisateurs en
adoptant par exemple les approches qui distinguent le profil d’une communauté de ceux
de ses membres [91].
Nos expériences avec les livres du hadith nous a amené à proposer une démarche qui
vise à les transformer en un corpus de référence [6]. Un tel corpus permettra entre autres
d’étudier l’évolution historique et géographique de la langue arabe étant donné que les
hadiths ont été sujet d’études et d’interprétation au fil des siècles et dans plusieurs régions.
Pour atteindre cet objectif, nous pensons qu’il est nécessaire de rassembler les différentes
versions de ces livres disponibles sous divers formats. Ces versions sont hétérogènes du
point de vue taille, couverture, richesse en commentaires et même en terme crédibilité de
leurs sources. A l’heure actuelle, aucune des ces versions ne semble surpasser les autres ni
quantitativement ni qualitativement. Ainsi, il serait intéressant de rassembler toutes les
versions fiables et les combiner afin de bénéficier des avantages de chacune. En outre, pour
constituer un corpus standard de test de SRI, il serait indispensable de définir un ensemble
de requêtes types et d’identifier les fragments de documents qui leurs sont pertinents. Cette
tâche peut être effectuée d’une manière semi-automatique et collaborative.
En tant que méthodologie pour la fiabilité de l’information, les règles des sciences du
hadith pourraient être appliquées dans d’autres domaines où l’aspect fiabilité est critique.
Ainsi, certains chercheurs ont appliqué cette méthodologie pour faire face aux crimes
électroniques [224]. Il est donc envisageable de réutiliser cette méthodologie pour assurer
la confiance dans le cadre du Web socio-sémantique. En outre, certains types de textes,
comme les articles de journaux, contiennent des expressions qui ressemblent aux chaı̂nes
de narrateurs qui pourront être analysés avec les outils que nous avons proposés afin
d’évaluer leur fiablité.
150
Bibliographie
JË@ ð QåJ ÊË ÐCË@ P@X . éJË@ I.JºË@ : qJ
Ë@
È @ .
[1] 1999 , úÍð B@ éªJ.¢Ë@ , ©K
Pñ
S. Al-chikh. Les six livres du hadith, édition Dar Al-salam, Première édition, 1999.
[2] éJË@
Hñm éÊm .× . éJ
K. QªË@
'. Q»QÓ AJ
k. ñËðXñJJ
ÖÏ AK. AKPA
®Ó á KYjÖÏ @ YJ« Y® JË@ iîDÓ : ø QÒªË@ .
@
.
. 1988 , 134 - 107 . , 3
, èQ
Ë@ð
A. Al-Omri. Méthodologie de critique dans les sciences du hadith comparée à la
méthodologie occidentale. Journal du centre de recherche en sunna et sira, 3 :107-
134, 1988.
ÊË IñjÖÏ @ h XñÖ
[3]
,ú
Í B@ I.AjÊË Qå« ©K. AË@
ú
æ£ñË@ QÖ ßñÖ
Ï @ . éK
ñJ.JË@ éJ . .
éÓY
ß B@
g ú¯:
.h
ð PQË@
2004 ÉK
Q¯ @ , èPñJÖ Ï @ éJK
YÖÏ @ , éK
XñªË@ , áÔ gQË@ ¬ñJ
éJ
KAÓñʪÖÏ @
151
BIBLIOGRAPHIE
152
BIBLIOGRAPHIE
153
BIBLIOGRAPHIE
[41] T. Berners-Lee, J. Hendler, and O. Lassila. The Semantic Web. Scientific American,
2001.
[42] D. Bikel. Multilingual statistical parsing engine. http://www.cis.upenn.edu/
~dbikel/software.html#stat-parser, 2008.
[43] C. M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press,
New York, 1996.
[44] E. Blomqvist and A. Ohgren. Constructing an enterprise ontology for an automotive
supplier. Engineering Applications of Artificial Intelligence, 21(3) :386–397, 2008.
[45] G. Bordogna and G. Pasi. A flexible multi criteria information filtering model. Soft
computing - A fusion of foundations, methodologies and applications, 14(8) :799–809,
2009.
[46] I. Boujelbene, S. Mesfar, and A. Ben Hamadou. Arabic Compound Nouns Proces-
sing : Inflexion and Tokenization. In Proceedings of NooJ Conference, Komotini,
Greece, May 27-29, 2010.
[47] S. Boulaknadel. Utilisation des syntagmes nominaux dans un système de recherche
d’information en langue arabe. In Conférence Francophone en Recherche d’Infor-
mation et Applications (CORIA), pages 341–346, Lyon, France, 15-17 Mars, 2006.
[48] S. Boulaknadel, B. Daille, and D. Aboutajdine. A multi-word term extraction pro-
gram for arabic language. In Proceedings of the 6th International Conference on
Language Resources and Evaluation (LREC), pages 1485–1488, Marrakech, Mo-
rocco, May 17-23, 2008.
[49] I. Bounhas. Un analyseur de contenu des documents scientifiques du web. Mémoire
de Mastère, Ecole Nationale des Sciences de l’Informatique, Universté de la Ma-
nouba, 2006.
[50] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Toward a computer study of
the reliability of arabic stories. Journal of the American Society for Information
Science and Technology, 61(8) :1686–1705, 2010.
[51] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Arabonto : Experimenting a
new distributional approach for building arabic ontological resources. International
Journal of Metadata, Semantics and Ontologies (IJMSO), 6(2) :81-95 , 2011.
[52] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Organizing contextual know-
ledge for arabic text disambiguation and terminology extraction. Knowledge Orga-
nization, 38(6) :473–490, 2011.
[53] I. Bounhas and Y. Slimani. A hybrid approach for arabic multi-word term ex-
traction. In Proceedings of the IEEE International Conference on Natural Language
Processing and Knowledge Engineering (IEEE NLP-KE), pages 429–436, Dalian,
China, August 21-23, 2009.
[54] I. Bounhas and Y. Slimani. A social approach for semi-structured document mo-
deling and analysis. In Proceedings of the International Conference on Knowledge
Management and Information Sharing (KMIS), pages 95–102, Madeira, Portugal,
October 6-8, 2009.
[55] I. Bounhas and Y. Slimani. A hierarchical approach for semi-structured document
indexing and terminology extraction. In Proceedings of the International Conference
on Information Retrieval and Knowledge Management (CAMP), pages 314–319,
Shah-Alam, Malaysia., March 16-18, 2010.
154
BIBLIOGRAPHIE
155
BIBLIOGRAPHIE
156
BIBLIOGRAPHIE
[86] M. T. Diab, H. Kadri, and D. Jurafsky. Automatic tagging of arabic text : From raw
text to base phrase chunks. In Proceedings of The 5th Meeting of the North Ame-
rican Chapter of the Association for Computational Linguistics/Human Language
Technologies Conference (HLT-NAACL04), pages 149–152, Boston, Massachusetts,
USA, May 2-7, 2004.
[87] J. Dichy. Spécificateurs engendrés par les traits [±ANIME], [±HUMAIN],
[±CONCRET] et structures d’arguments en arabe et en français. In Actes du col-
loque ”De la mesure dans les termes”, pages 151–181, Université Lumière Lyon 2,
France, 23-25 Septembre, 2005.
[88] J. Dichy, A. Braham, S. Ghazali, and M. Hassoun. La base de connaissances lin-
guistique DIINAR 1 (dictionnaire informatisé de l’arabe - version 1). In Colloque
international sur le traitement automatique de l’arabe, pages 45–56, Tunis, Tunisia,
18-20 Avril, 2002.
[89] J. Dichy and A. Fargaly. Roots & patterns vs. stems plus grammar-lexis specifi-
cations : on what basis should a multilingual lexical database centred on arabic be
built ? In Proceedings of the Workshop on Machine Translation for Semitic Lan-
guages : Issues and Approaches, pages 1–8, New-Orleans, USA, September 23-27,
2003.
[90] R. Dieng, O. Corby, F. Gandon, A. Giboin, J. Golebiowska, N. Matta and M. Ri-
biere. Méthodes et outils pour la gestion des connaissances : une approche pluridis-
ciplinaire du knowledge management. Dunod Edition, 2ème édition, 2001.
[91] L. Ding, X. Li, and Y. Xing. Pushing scientific documents by discovering interest in
information flow within e-science knowledge grid. In 4th International Conference on
Grid and Cooperative Computing (GCC), pages 498–510, Beijing, China, November
30 - December 3, 2005.
[92] O. Dridi. Plate-forme de Recherche Intelligente dans un Référentiel de Ressources
Contextualisées et Annotées sémantiquement à base d’Ontologies : Application au
domaine médical. Thèse de doctorat, École Nationale des Sciences de l’Informatique,
Université de la Manouba, Tunisie, 2010.
[93] D. Dubois and H. Prade. Théorie des possibilités : application à la représentation
des connaissances en informatique. Masson, Paris, 1987.
[94] D. Dubois and H. Prade. Possibility Theory. Plenum Press, New York, 1988.
[95] D. Dubois and H. Prade. Possibility Theory : An Approach to Computerized Pro-
cessing of Uncertainty. Plenum Press, New York, 1994.
[96] D. Dubois and H. Prade. Possibility theory. qualitative and quantitative aspects.
In D. Gabbay and P. Smets, editors, Handbook on Defeasible Reasoning and Uncer-
tainty Management Systems, pages 169–226. Kluwer Academic, Dordrecht, 1998.
[97] T. Dunning. Accurate methods for the statistics of surprise and coincidence. Com-
putational Linguistics, 19(1) :61–74, 1994.
[98] B. Elayeb. SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste
des Documents Web. Thèse de doctorat, Institut National Polytechnique de Tou-
louse, France & Ecole Nationale des Sciences de l’Informatique, Université de la
Manouba, Tunisie, 2009.
[99] B. Elayeb, F. Evrard, M. Zaghdoud, and M. Ben Ahmed. Towards an intelligent
possibilistic web information retrieval using multiagent system. The International
157
BIBLIOGRAPHIE
Journal of Interactive Technology and Smart Education (ITSE), Special issue : New
learning support systems, 6(1) :40–59, 2009.
[100] S. Elkateb, W. J. Black, P. Vossen, H. Rodriguez, A. Pease, M. Alkhalifa, and
F. Christiane. Building a WordNet for arabic. In The 5th Conference on Language
Resources and Evaluation (LREC), pages 29–34, Genoa, Italy, May 24-26, 2006.
[101] O. Ertzscheid and G. Gallezot. Etude exploratoire des pratiques d’indexation sociale
comme une renégociation des espaces documentaires. vers un nouveau big bang
documentaire ? In Document numérique et société, pages 1–11, Fribourg, Suisse,
20-21 septembre, 2006.
[102] G. Falquet and J. P. Hurni. Content and interface models for multi point of view
scientific hyperbooks. Technical report, University of Genova, 2001.
[103] G. Falquet, C. L. M. Jiang, and J. C. Ziswiler. Intégration d’ontologies pour l’accès
à une bibliothèque d’hyperlivres virtuels. In 14ème Congrès Francophone AFRIF-
AFIA de Reconnaissance des Formes et Intelligence Artificielle (RFIA 2004), Tou-
louse, France, 28 - 30 Janvier, 2004.
[104] H. Fehri, K. Haddar, and A. Ben Hamadou. Proposal of a framework for the re-
presentation of Arabic named entities to use the transfer approach with NooJ. In
Proceedings of NooJ Conference, Komotini, Greece, May 27-29, 2010.
[105] H. Fehri, O. Piton, and A. Ben Hamadou. Extraction of relations between Arabic
Named Entities using NooJ platform : Case of sport domain. In Proceedings of NooJ
Conference, Komotini, Greece, May 27-29, 2010.
[106] M. Fellah. Modélisation et implantation d’une bibliothèque virtuelle pour un Intra-
Web Communautaire. Thèse de doctorat, École Nationale des Sciences de l’Infor-
matique, Université de la Manouba, Tunisie, 2010.
[107] M. Fernandez, A. Gomez-perez, and N. Juristo. Methontology : from ontological
art towards ontological engineering. In Spring Symposium Series on Ontological
Engineering (AAAI’97), pages 33–40, Stanford, USA, March 24-26, 1997.
[108] A. Freeman. Brill’s POS tagger and a morphology parser for arabic. In ACL
Workshop on Arabic Language Processing, Toulouse, France, July 6, 2001.
[109] F. Fürst. L’ingénierie ontologique. Rap. tech., Institut de Recherche en Informatique
de Nantes, France, 2002.
[110] G. Salton The SMART retrieval system. Prentice-Hall, Englewood Cliffs, N J, 1971.
[111] G. Salton, E. A. Fox, and H. Wu. Extended boolean information retrieval. Com-
munications of the ACM, 26(12) :1022–1036, 1983.
[112] L. Gaëlle. Etat de l’art ontologies et intégration/fusion d’ontologies. Rap. tech.,
Centre de Recherche et Développement de France Télécom (FTR&D), Paris, France,
2002.
[113] B. Gaume. Balades aléatoires dans les petits mondes lexicaux. Information Inter-
action Intelligence (I3), 4(2) :39–96, 2004.
[114] B. Gaume, K. Duvignau, and J. M. Mas. Petits mondes hiérarchiques et dynamiques
d’acquisition pour l’enseignement du lexique. In Technologies langagières et appren-
tissage des langues : Actes du colloque les nouvelles technologies et le traitement
automatique des langues au coeur des dispositifs d’apprentissage, 72ème Congrès de
l’ACFAS, pages 105–123, Montréal, Canada, 11-12 Mai, 2006.
158
BIBLIOGRAPHIE
159
BIBLIOGRAPHIE
[130] B. Haouari, N. Ben Amor, Z. Elouedi, and K. Mellouli. Naı̈ve possibilistic network
classifiers. Fuzzy Sets and Systems, 160(22) :3224–3238, 2009.
[131] F. Harrag, E. El-Qawasmeh, and P. Pichappan. Improving arabic text categoriza-
tion using decision trees. In First International Conference on Networked Digital
Technologies (NDT’09), Ostrava, Czech Republic, July 29 - 31, 2009.
[132] F. Harrag and A. Hamdi-Cherif. UML modeling of text mining in arabic language
and application to prophetic traditions ”hadith”. In Proc. of 1st Int. Symp. on
Computers and Arabic Language, pages 11–20, Riyadh, Arabie Saudite, November
10-12, 2008.
[133] F. Harrag, A. Hamdi-Cherif, A. M. S. Al-Salman, and E. El-Qawasmeh. Experiments
in improvement of arabic information retrieval. In 3rd International Conference on
Arabic Language Processing (CITALA), Rabat, Morocco, May 4-5, 2009.
[134] Z. Harris. Mathematical Structures of Language. John Wiley & Sons, New-York,
1968.
[135] T. Z. Hasanain. Automatic question answering system for arabic language textual
data. Master’s thesis, Faculty of Computing and Information Technology, Arabie
Saoudite 2009.
[136] M. Hattab, B. Haddad, M. Yaseen, A. Duraidi, and A. Abu Shmais. Addaall arabic
search engine : Improving search based on combination of morphological analysis
and generation considering semantic patterns. In Proceedings of the 2nd Interna-
tional Conference on Arabic Language Resources & Tools, pages 159–162, Cairo,
Egypt, April 22-23, 2009.
[137] M. Hazman, S. R. El-Beltagy, and A. Rafea. Ontology learning from domain speci-
fic web documents. International Journal of Metadata, Semantics and Ontologies,
4(1/2) :24 – 33, 2009.
[138] T. Helmy and A. Daud. Intelligent agent for information extraction from arabic text
without machine translation. In Proceedings of the 1st International Workshop on
Cross-Cultural and Cross-Lingual Aspects of the Semantic Web, volume 1, Shanghai,
China, November 7-8, 2010.
[139] T. Herrmann, M. Hoffmann, G. Kunau, and K.-U. Loser. A modeling method for
the development of groupware applications as socio-technical systems. Behaviour &
Information Technology, 23(2) :23, 2004.
[140] S. Iksal and S. Garlatti. Spécification déclarative pour des documents virtuels per-
sonnalisables. In Actes du congrès Documents Virtuels Personnalisables (DVP),
pages 127–140, Brest, France, 2002.
[141] J. Quinlan. C4.5 : Programs for machine learning. San Francisco : Morgan Kauf-
mann, 1993.
[142] C. Jacquemin. Variation terminologique : Reconnaissance et acquisition automa-
tiques de termes et de leurs variantes en corpus. Thèse d’habilitation, Université
de Nantes, France, 1997.
[143] X. Jiang and A.-H. Tan. CRCTOL : A semantic-based domain ontology learning
system. Journal of the American Society for Information Science and Technology
(JASIST), 61(1) :150–168, 2010.
[144] M. R. Kala Jih and H. S. Knibi. Dictionary of Jurists- language. Dar Ennafeis,
Beirut, Libanon, 2nd edition, 1988.
160
BIBLIOGRAPHIE
161
BIBLIOGRAPHIE
162
BIBLIOGRAPHIE
[177] P. Pantel, E. Crestan, A. Borkovsky, A.-M. Popescu, and V. Vyas. Web-scale distri-
butional similarity and entity set expansion. In Proceedings of the 2009 Conference
on Empirical Methods in Natural Language Processing, pages 938–947, Singapore,
August 6-7, 2009.
[178] P. Pantel and D. Ravichandran. Automatically labeling semantic classes. In Procee-
dings of North American Chapter of the Association for Computational Linguistics -
Human Language Technologies (HLT/NAACL), pages 321–328, Boston, MA, USA,
May 2-7, 2004.
[179] G. Paquette, I. de la Teja, K. Lundgren-Cayrol, M. Léonard, and D. Ruelland. La
modélisation cognitive, un outil de conception des processus et des méthodes d’un
campus virtuel. Journal of distance education, 17(3) :4–28, 2002.
[180] M. Parker, C. Stofberg, and R. De la Harpe. Data quality : how the flow of data
influences data quality in a small to medium medical practice. In Community Infor-
matics for Developing Countries : Understanding and organizing for a participatory
future information society, Cape Town, South Africa, August, August 31 - Septem-
ber 02, 2006.
[181] M. T. Pazienza, M. Pennacchiotti, and F. M. Zanzotto. Terminology extraction : An
analysis of linguistic and statistical approaches. In S. Sirmakessis, editor, Knowledge
Mining Series : Studies in Fuzziness and Soft Computing, pages 255–279. Berlin,
Heidelberg : Springer, 2005.
[182] J. Pearl. Probabilistic reasoning in intelligent systems : networks of plausible infe-
rence. Morgan Kaufmann, San Francisco, California, 1988.
[183] F. Peguiron and O. Thiery. Modélisation des acteurs, des ressources documentaires :
application à un entrepôt universitaire. In Colloque Veille Stratégique, Scientifique
et Technologique (VSST), Lille, France, 16-17 Janvier, 2006.
[184] V. Piek, W. Peters, and J. Gonzalo. Towards a universal index of meaning. In
Proceedings of the ACL-99 Siglex workshop, pages 81–90, University of Maryland,
USA, June, 1999.
[185] D. Pinto, P. Rosso, Y. Benajiba, A. Ahachad, and H. Jiménez-salazar. Word sense
induction in the arabic language : A self-term expansion based approach. In Pro-
ceedings of the 7th Conference. on Language Engineering, The Egyptian Society Of
Language Engineering (ESOLE), pages 235–245, Cairo, Egypt, December 5-6, 2007.
[186] Y. Portrait. Modélisation de la structure du langage. Rap. tech., Institut de Re-
cherche en Informatique de Toulouse (IRIT), France, 2003.
[187] H. Prade and C. Testemale. Application of possibility and necessity measures to
documentary information retrieval. In R. Bouchon, B. Yager, editors, Uncertainty
in Knowledge-Based Systems, pages 265–274. Berlin, Springer-Verlag, 1987.
[188] Z. Qawaqneh, E. El-Qawasmeh, and A. Kayed. New method for ranking arabic
web sites using ontology concepts. In Proceedings of Sixth International Conference
on Digital Information Management, pages 649–656, The University of Melbourne,
Australia, September 26-28, 2007.
[189] J. R. Quinlan. Introduction to decision trees. Machine Learning, 1(1) :81–106, 1986.
[190] K. Rajaraman and A.-H. Tan. Mining semantic networks for knowledge discovery.
In Proceedings of the 3rd IEEE International Conference on Data Mining, pages
633–636, Washington, DC, USA, November 19-22, 2003.
163
BIBLIOGRAPHIE
[191] S. Ranwez and M. Crampes. Conceptual document and hypertext documents are
two different forms of virtual document. In Workshop on Virtual Document, Hy-
pertext Functionality and the Web, pages 35–44, Toronto, May 11, 1999.
[192] E. Ravasz and A. L. Barabasi. Hierarchical organisation in complex networks.
Physical Review E, 67 :026112-026118, 2003.
[193] M. Richardson, R. Agrawal, and P. Domingos. Trust management for the semantic
web. Lecture Notes in Computer Science, 2870 :351–368, 2003.
[194] S. Y. Rieh. Judgment of information quality and cognitive authority in the
web. Journal of the American Society for Information Science and Technology,
53(2) :145–161, 2002.
[195] H. Rodriguez, D. Farwell, J. Farreres, M. Bertran, M. Alkhalifa, and M. A. Marti.
Arabic WordNet : Semi-automatic extensions using bayesian inference. In Procee-
dings of the the 6th Conference on Language Resources and Evaluation (LREC),
pages 1702–1706, Marrakech, Morocco, May 17-23, 2008.
[196] M. Romney and G. W. Romney. Security & reliability are provided by a web-
based classroom electronic document management process. In Proceedings of the
6th International Conference on Information Technology Based Higher Education
and Training (ITHET), pages T3A/1 – T3A/4, Piscataway, USA : IEEE, July 7-9,
2005.
[197] R. Roth, O. Rambow, N. Habash, M. T. Diab, and C. Rudin. Arabic morphological
tagging, diacritization, and lemmatization using lexeme models and feature ranking.
In Proceedings of Association for Computational Linguistics (ACL), pages 117–120,
Columbus, Ohio, June 15-20, 2008.
[198] L. Saadani and S. Bertrand-Gastaldy. Cartes conceptuelles et thésaurus : essai de
comparaison entre deux modèles de représentation issus de différentes traditions
disciplinaires. In congrès des sciences sociales et humaines du Canada, Université
d’Alberta Edmonton, Alberta, Canada, 28-30 Mai, 2000.
[199] M. Sahami. Learning limited dependence bayesian classifiers. In Proceedings of the
2nd International Conference on Knowledge Discovery and Data Mining (KDD),
pages 335–338, Portland, August 2-4, 1996.
[200] G. Salton and M. J. McGill. Introduction to modern information retrieval. McGraw-
Hill, Inc., New York, USA, 1986.
[201] L. Schamber, M. Eisenberg, and S. M. Nilan. A re-examination of relevance to-
ward a dynamic, situational definition. Information Processing and Management,
26(6) :755–776, 1990.
[202] F. Scharffe. Croisements sémantiques dans les graphes petits mondes. Thèse de
doctorat, Université Paul Sabatier Toulouse III, Toulouse, France, 2004.
[203] K. Shaalan and H. Raza. Person name entity recognition for arabic. In Proceedings
of the Workshop on Computational Approaches to Semitic Languages, pages 17–24,
Prague, Czech Republic, June 28-29, 2007.
[204] K. Shaalan and H. Raza. NERA : Named entity recognition for arabic. Journal
of the American Society for Information Science and Technology, 60(8) :1652–1663,
2009.
[205] G. Shafer. A mathematical theory of evidence. Princeton University Press, 1976.
164
BIBLIOGRAPHIE
[206] T. Slimani, B. Ben Yaghlane, and K. Mellouli. SSERank : semantic search engine
for page ranking based on the relations weight. International Journal of Metadata,
Semantics and Ontologies, 5(1) :72 – 84, 2010.
[207] F. Smadja, K. R. McKeown, and V. Hatzivassiloglou. Translating collocations for
bilingual lexicons : a statistical approach. Computational Linguistics, 22(1) :1–38,
1996.
[208] J. P. Spradley. The Ethnographic Interview. New York : Holt, Rinehart and Winston,
1979.
[209] B. Stvilia. A workbench for information quality evaluation. In Proceedings of the 8th
ACM/IEEE-CS Joint Conference on Digital libraries, page 469, Pittsburgh, USA,
June 16-20, 2008.
[210] B. Stvilia, L. Gasser, M. B. Twidale, and L. C. Smith. A framework for information
quality assessment. Journal of the American Society for Information Science and
Technology, 58(12) :1720–1733, 2007.
[211] S. Tazi and Y. Altawki. Création de documents virtuels : Cas des support de cours.
In Atelier Documents Virtuels Personnalisables : De la Définition à l’Utilisation,
11ème Conférence Francophone sur l’Interaction Homme-Machine (IHM), Mont-
pellier, France, 22-26 Novembre, 1999.
[212] C. Tricot. Cartographie des connaissances, des connaissances à la carte. Thèse de
doctorat, Université de Savoie, France, 2006.
[213] M. Uschold and M. King. Towards a methodology for building ontologies. In
Workshop on Basic Ontological Issues in Knowledge Sharing, International Joint
Conferences on Artificial Intelligence (IJCAI), Montréal, Canada, August 20-25,
1995.
[214] C. V. van Rijsbergen. Information Retrieval. 2nd Edition. London, Boston : But-
terworth, 1979.
[215] P. Velardi, M. Missikof, and P. Fabriani. Using text processing techniques to au-
tomatically enrich a domain ontology. In 2nd International Conference on Formal
Ontology in Information Systems (ACM FOIS), pages 270–284, Ogunquit, Maine,
USA, October 17-19, 2001.
[216] G. Vignaux. La recherche d’information : Panorama des questions et des recherches.
Rap. tech., Paris : CNRS-MSH, 2005.
[217] P. Viola and M. Narasimhand. Learning to extract information from semi-structured
text using a discriminative context free grammar. In Proceedings of the 28th Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval, pages 330–337, Salvador, Brazil, August 15-19, 2005.
[218] C. Watters and M. Shepherd. Research issues for virtual documents. In Workshop
on Virtual Document, Hypertext Functionality and the Web, pages 1–10, Toronto,
Canada, May 11, 1999.
[219] D. J. Watts and S. H. Strogatz. Collective dynamics of ”small-world” networks.
Nature, 393(3) :440–442, 1998.
[220] E. Wenger. Communities of Practice : Learning, Meaning and Identity. Cambridge
University Press, 1998.
[221] W. Woods. What’s in a Link : Foundations for Semantic Networks. Bolt, Beranek
and Newman, 1975.
165
BIBLIOGRAPHIE
166
BIBLIOGRAPHIE
[236] I. Zitouni, J. Sorensen, X. Luo, and R. Florian. The impact of morphological stem-
ming on arabic mention detection and coreference resolution. In Proceedings of the
ACL Workshop on Computational Approaches to Semitic Languages (ACL), pages
63–70, Michigan, USA, June 25-30, 2005.
[237] N. Zniber and C. Cauvet. Des composants aux services pédagogiques. In Tech-
nologies de l’Information et de la Communication pour l’Enseignement (TICE
Méditerranée), pages 1–10, Marseille, France, 31 Mai - 2 Juin, 2007.
[238] A. Zouaghi and M. Zrigui. Considération du contexte pertinent pour améliorer les
performances d’un étiqueteur sémantique de la parole arabe spontanée. In Ren-
contres Jeunes Chercheurs (RJC), Toulouse , France, 27-28 Septembre, 2005.
[239] P. Zweigenbaum and N. Grabar. Liens morphologiques et structuration de termi-
nologie. In Actes des Journées Francophones d’Ingénierie des Connaissances (IC),
pages 325–334, Toulouse, France, 10-12 Mai, 2000.
167
Annexes
168
Annexe A
Implémentation de l’analyseur de
textes semi-structurés et exemple
d’application
Cette annexe présente un exemple de document réel (voir section 1) avec les étapes de
son analyse. Après avoir présenté notre analyseur générique de textes semi-structurés dans
la section 2, nous présentons les grammaires hors contexte obtenues avec cet outil lors de
l’analyse des hadiths. Nous illustrons l’utilisation de ces grammaires par des résultats sur
notre exemple de référence (voir section 3).
169
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
170
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
Nous illustrons ces opérations par les exemples suivants. Soit le texte suivant à analy-
ser : ” YK
P áK
. XAÔg” (Ahmed ibn Zeyd). En cliquant dans la zone de texte juste après le
mot ” XAÔg” (Ahmed), ce dernier est chargé dans la zone ”Mot courant ”. L’utilisateur peut
cliquer sur la liste des terminaux pour choisir ou définir le nouveau terminal (voir Figure
A.4 (a)). S’il clique sur ”Nouveau”, une nouvelle interface s’affiche pour lui permettre de
saisir le nouveau terminal (voir Figure A.4 (b)). Les éléments analysés sont ajoutés dans
la liste des résultats (voir Figure A.4 (c)). En effet, nous obtenons deux blocs étiquetés
171
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
(c)
(a) (b)
”ism” ( XAÔg et YK
P ) et un bloc étiqueté ”ibn” ( áK
. ).
La Figure A.5 illustre le lexique au format XML appris suite à ces interactions.
L’utilisateur peut ensuite regrouper deux ou plusieurs éléments pour inférer les règles
de la grammaire. Il commence par sélectionner les éléments dans la liste, puis il utilise la
liste déroulante pour définir un nouveau non-terminal (voir Figure A.6(a)). Les éléments
sont regroupés comme illustré par la Figure A.6(b).
Après avoir regroupé tous les éléments, nous obtenons la grammaire au format XML
illustrée par la Figure A.7. Cette grammaire est composée de deux règles représentées
par la balise ”production” et un symbole de départ (start symbol=”Acteur”. Elle permet
donc de reconnaı̂tre la structure du nom d’un acteur.
(b)
(a)
Figure A.6 – Exemple de regroupement.
172
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
(a) (b)
Après l’étape d’apprentissage, l’utilisateur peut tester la grammaire sur d’autres exem-
ples. Prenons le nom suivant : ” XAÔg áK . YK
P ” (Zeyd ibn Ahmed). L’utilisateur peut lancer
l’analyse semi-automatique en spécifiant le nombre maximum d’éléments à regrouper dans
la liste ”Itérer” comme affiché par la Figure A.8(a). L’interface peut proposer des labels à
des blocs simples ou des groupements possibles applicables à un ensemble de blocs (voir
Figure A.8(b)).
L’utilisateur peut aussi lancer une analyse automatique complète en appuyant sur le
bouton ”Tester”. L’outil affiche le résultat de l’analyse au format XML (voir Figure A.9).
173
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
– Extraire la liste des terminaux et des non-terminaux à partir du lexique et des règles.
– Ajouter un lexème suite à un étiquetage manuel.
– Ajouter une règle suite à un regroupement manuel.
– Identifier le label d’un bloc pour le proposer à l’utilisateur.
– Etant donnée une liste de terminaux et de non-terminaux, identifier la règle qui doit
être appliquée et retourner le non-terminal approprié.
Cette règle considère un verset comme une suite de mots (words) délimités par une
accolade ouvrante ”{” et une accolade fermante ”}”. Un verset peut être précédé par une
expression (expr aya) du genre ” é<Ë@ ÈA¯” (Dieu a dit). Dans certains livres, les versets sont
suivis par leurs références exactes dans le Coran. Nous pouvons citer la règle suivante :
Cette règle représente la référence à un verset qui est délimitée par deux crochets (cro-
chet et crochetFer ). Elle est constituée du nom de la surate (nomSurat), de son numéro
174
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
Figure A.11 – Les principales règles de la grammaire des noms propres arabes [50].
En effet, nous considérons qu’un nom arabe est composé de sous-éléments notés ”sub-
Name” qui représentent ses composantes. Remarquons que nous distinguons le terminal
”ism” (avec la première lettre en minuscule) qui correspond à un prénom composé d’un
seul mot du non-terminal ”Ism” (avec la première lettre en majuscule) qui est composé
d’une série de prénoms précédée par le terminal ”ismouh”. La même remarque est valable
pour les terminaux ”laqab” et ”nisba” pour lesquels nous retrouvons les non-terminaux
”Laqab” et ”nisba”, respectivement. Le tableau A.1 explique les autres terminaux de cette
grammaire.
La Figure A.12 illustre le résultat d’analyse du document de référence. Les noms des
acteurs sont remplacés par des codes pointant vers leurs structures au format XML.
175
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
Al-koufi) signifie que le narrateur a vécu dans Al-basra puis s’est déplacé
à Al-koufa
Abou and
Om Les mots ”ñK. @” et ” Ð @” qui apparaı̂ssent dans la konia.
ibn
. @” et ” I K.” qui précèdent le nom du père.
Les mots ” áK
ismouh
Expressions comme ” éÖÞ
@ð” (et son prénom est) utilisées pour spécifier
le prénom.
Mawla
Les expressions qui indiquent le nom du maı̂tre comme ” úÍñÓ”.
176
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
Règle Exemple
Riwaya → tahamoul , rawi , kala ÈA¯ Q
K. QË@ áK . é<Ë@ YJ.« ø
YJ
ÒmÌ '@ AJ KYg
áK . áÔ gQË@ YJ.« à
@
Riwaya → anna ,rawi , tahamoulEnd éKYg h. Q« B@ QÓQë
Riwaya → An, rawi , anna , kala ÈA¯ éK @ ø
QëQË@ á«
Tableau A.2 – Exemples de règles combinant les noms de personnes et les manières de
transmission.
177
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
– Une référence à deux personnes ; par exemple ” lÌ 'A ð ÐX @” (Adam et Saleh).
L’application de ces règles à notre document de référence produit le document de la Figure
A.14.
Dans d’autres cas, les commentaires concernent les relations entre les narrateurs. Par
exemple, la règle suivante modélise le cas où un narrateur n’a pas atteint son prédécesseur :
178
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
Figure A.15 – Exemple de document après l’analyse des commentaires sur les hadiths.
Cette règle s’applique sur des expressions du genre : ÕÎÓ è@ð P (Muslim l’a cité).
IndicationVersion → ceHadith, Fi, Livre
179
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
Figure A.16 – Exemple de document après l’analyse des titres des chapitres et sous-
chapitres.
180
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
puisque chaque règle ou lexème est appris une seule fois. Nous avons donc :
N BLex + N BRegles
TI = ( ) (A.1)
N BExemples
181
Annexe B
Exemple de calcul des identités des
acteurs et de la fiabilité
Cette annexe présente les calculs liés à la reconnaissance des identités des narrateurs
de notre hadith de référence présenté dans l’annexe A. L’identification des narrateurs nous
permet de calculer, dans une deuxième étape, les critères et la classe de fiabilité.
182
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ
Qname = (itQ1 , itQ2 ) où itQ1 = (P1 , èYJ.«) et itQ2 = (B, ø QåJ.Ë@)
– Aucune personne n’a l’item ” ø QåJ.Ë@” avec une balise autre que ”B ”.
183
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ
S2 Personnes ayant l’item 61.0 1.0 0.0 0.0×1.0 = 0.0 2.0 2.0
(P1 , èYJ.«) mais pas l’item
(B, ø QåJ.Ë@)
S3 Personnes ayant les items 3.0 0.5 1.0 1.0×0.5 = 0.5 1.0 1.5
(B, ø QåJ.Ë@) et (P2 , èYJ.«)
S4 Personnes ayant l’item 12.0 0.5 0.0 0.0×0.5 = 0.0 1.0 1.0
(P2 , èYJ.«) mais pas l’item
(B, ø QåJ.Ë@)
S5 Personnes ayant l’item 1421.0 0.0 1.0 1.0×0.0 = 0.0 0.8 0.8
(B, ø QåJ.Ë@) mais pas les
items (P1 , èYJ. « ) et (P2 ,
èYJ«)
.
S6 Personnes n’ayant aucun 7359.0 0.0 0.0 0.0×0.0 = 0.0 0.0 0.0
item valide
Tableau B.1 – Résultats de la reconnaissance par calcul possibiliste pour le premier nar-
rateur.
En appliquant les mêmes calculs sur tous les narrateurs de la chaı̂ne, nous obtenons les
résultats présentés dans le tableau B.2.
184
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ
nom en éliminant les candidats qui n’ont pas des relations (cheikh-disciple) avec leurs
prédécesseurs. Le tableau B.3 énumère les relations sociales entres les candidats identifiés.
Nous remarquons qu’il existe deux chemins valides :
La seule ambigüité restante réside au niveau du dernier narrateur. En effet, les deux
personnes codées respectivement 3542 et 3704 ont l’item (K, úæ
ñÓ úG @) dans leur index
.
et ont une relation (cheikh-disciple) avec l’avant dernier narrateur ( èXQK. úG @ ). Il n’y a
.
donc aucun moyen pour lever cette ambigüité. Cependant, ceci n’influence pas le calcul
de fiabilité car ces deux personnes sont des compagnons crédibles. Ces cas étant rares, il
est possible de les éliminer manuellement. Dans cet exemple, nous choisissons le chemin
correct à savoir le premier.
2 Evaluation de la fiabilité
Le tableau B.4 présente les noms complets, les jugements et les degrés de crédibilité
des narrateurs des chemins valides. Les éléments de la requête sont mis en gras dans le
185
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ
nom complet.
186
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ
Ce résultat montre que l’algorithme à base de minimum est plus exigeant que l’al-
gorithme basé sur le produit en terme de fiabilité, étant donné qu’il accorde des poids
relativement élevés aux classes NF et S malgré que la chaı̂ne soit fiable.
187
Annexe C
Exemples d’analyse et de
désambiguı̈sation morphosyntaxique
1 Analyse morphologique
La première étape d’analyse linguistique consiste à faire appel à l’outil MADA qui
analyse chaque phrase au niveau morphologique, identifie et trie les solutions morpho-
logiques de chaque mot par ordre de pertinence décroissant selon le contexte gauche et
droit. La Figure C.1 illustre le code généré pour le premier mot du contenu du hadith de
notre document de référence.
MADA commence par rappeler la phrase translitérée par une ligne qui commence
par ” ; ; ;SENTENCE”. Ensuite, il énumère les mots avec les solutions respectives. Nous
remarquons par exemple que le premier mot (” IÊ gX ”) possède quatre solutions qui sont
gX ” et ” I ÊgX
” (elle a entré), ” I ÊgX ” (tu as entré, avec le féminin et
dans l’ordre : ” IÊ
188
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE
ÊgX” (je suis entré). Chaque solution est représentée par un score
le masculin) et enfin ” I
et un ensemble d’attributs. Afin de simplifier l’analyse, nous avons développé un outil qui
transforme ce code dans un format exploitable pour l’analyse syntaxique. La Figure C.2
présente un exemple de résultat généré par cet outil.
Dans cette figure, les solutions correspondant à deux mots différents sont séparées par
”###”. Chaque solution contient un ensemble d’items dont chacun est décrit par cinq
attributs qui sont dans l’ordre :
– Le lemme : par exemple ” ¼@ñ”.
– Un attribut indiquant si l’item est défini : par exemple ”DET ” signifie que le mot
est défini par le déterminant ” È@”.
– La catégorie grammaticale : par exemple ”NN ” pour les noms.
– Deux caractères spécifiant le genre et le nombre : par exemple ”MS ” signifie masculin
singulier.
– Le texte original : par exemple ” ¼@ñË@ ”.
189
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE
2 Analyse syntaxique
L’analyseur syntaxique utilise des règles implémentées sous forme de programmes Java.
La Figure C.4 illustre le pseudo-code de la méthode Java qui permet de tester si deux
mots successifs peuvent constituer un syntagme annexé.
Figure C.4 – Pseudo-code de la méthode Java qui permet de reconnaı̂tre les syntagmes
annexés.
190
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE
De telles fonctions sont exécutées d’une manière itérative en enregistrant toutes les
solutions possibles. En effet, nous ne traitons que les séquences susceptibles de contenir
des syntagmes nominaux. Dans l’exemple de référence, il s’agit de l’expression ” ¬Q£ð
úΫ ¼@ñË@”. Son analyse conduit à deux itérations d’analyse chacune conduisant à
éKAË
deux alternatives comme illustré par le tableau C.1.
191
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE
àAË 1 0 0 0.0001 0.0002 0 0
¬Q£ 2
¬Q£ ¼@ñ Annexation 0 0 0.0006 0.0009 0 0
¼@ñË@
¬Q£ 3
¬Q£
àAË 0 0 0.0019 0.0025 0 0
¼@ñË@
¼@ñË@ úÎ «
úÎ « /PREP
àAË@
Nous remarquons que le terme ” Èñ P ” (prophète) a un poids nul dans les trois
domaines car il est distribué sur les trois corpus. Les cinq autres termes ont des poids nuls
dans les corpus des boissons et du mariage, car ils n’y apparaı̂ssent pas. Le terme ” ¼@ñ”
(cure-dent) a le poids le plus important dans le domaine de la purification car il est plus
fréquent que les autres termes.
192
Annexe D
Implémentation des mécanismes de
cartographie et exemple
d’application
193
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION
– Mise à jour : c’est l’onglet responsable des opérations de mise à jour qui consiste
en l’ajout et la suppression des nœuds et des arcs.
– Regroupement (voir Figure D.3) : regroupe les opérations d’analyse distribu-
tionnelle en commençant par le calcul de distance. L’utilisateur peut donc choisir
le type de distance. Si la distance à base de circuits est choisie, l’utilisateur peut
spécifier la longueur maximale du circuit. Dans tous les cas, il peut paramétrer
l’algorithme de clustering en spécifiant le seuil d’acceptation (distance minimale).
L’utilisateur peut enregistrer les résultats des opérations intermédiaires à travers
les boutons ”Enregistrer”. Un tel bouton permet donc d’effectuer l’étape en ques-
tion et de créer un fichier XML qui contient son résultat. L’utilisateur peut se
servir plus tard de ces fichiers en utilisant le bouton ”Ouvrir” afin de continuer
les autres étapes.
– Filtre : cet onglet permet d’exécuter un ensemble d’opérations de filtrage sur les
nœuds, les arcs et les scores des arcs (voir Figure D.4).
Nous signalons que ces opérations sont aussi accessibles à travers des menus contex-
tuels qui permettent, en plus, d’effectuer un filtrage en partant d’un nœud donné. Ceci
permet de se focaliser sur un nœud afin d’afficher d’une manière récursive les nœuds qui
lui sont liés.
194
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION
195
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION
196
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION
– ”id ” : identifiant unique du hadith sachant que cet attribut est utilisé pour localiser
le fichier XML qui contient la structure de la chaı̂ne des narrateurs, Dans notre
exemple, le fichier ”9001.XML” contient le code XML illustré par la Figure B.1.
– ”name” : le texte du ”metn”.
– ”Sanad ” : le texte de la chaı̂ne des narrateurs.
– ”Chaine” : la liste des identifiants des narrateurs séparés par le caractère ”#”.
– ”idDomain” : l’identifiant du domaine ; dans ce cas, il est égal à 3 car le hadith
appartient au domaine de la purification.
Le réseau social contient des nœuds de type ”narrateur ” avec des relations sociales.
La Figure D.8 donne le code GraphML des deux premiers narrateurs de notre hadith
de référence. Nous illustrons, à titre d’exemple, l’attribut ”name” qui contient le nom
complet et l’attribut ”degré” qui indique le degré de crédibilité.
La Figure D.9 donne le code XML qui permet de représenter les relations cheikh-
disciple. Chaque relation induit un arc (la balise ”edge”) orienté (directed=”true”) entre
197
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION
une source (ici le nœud ayant l’identifiant 1498) et une destination (dans ce cas, le nar-
rateur numéroté 74) ayant le label ”cheikh-disciple”. La valeur affichée par défaut est
l’expression ” qJ
” (cheikh).
Un réseau possibiliste est un ensemble d’arcs orientés qui permettent d’indexer les
hadiths (dont les identifiants constituent les sources des arcs) avec des entités provenant
des ontologies (qui représentent les destinations des arcs). Ces arcs sont pondérés par un
score qui, dans ce cas, indique la fréquence du terme dans le hadith. Dans cet exemple,
nous indexons le hadith numéro 9001 avec le terme dont l’identifiant est 9002 avec un
score égal à la fréquence, à savoir 1.
198
Annexe E
Phonétique des lettres arabes
Le tableau E.1 donne pour chaque lettre arabe son nom, sa graphie lorsqu’elle est
placée au début, au milieu ou à la fin d’un mot (respectivement) et sa prononciation selon
l’alphabet phonétique international.
199
Index
Π : mesure de possibilité, 74–79, 99, 100, 107 MI : Mutual Information (Information mu-
π : distribution de possibilité, 75, 76, 105, tuelle), 57, 58, 120, 127, 131
117, 137, 138 MIN : opérateur possibiliste minimum, 76,
85, 134, 139–141, 143
Autorité (de contrôle, d’un document), 13,
35, 38, 40, 41, 43 N : mesure de nécessité, 74, 75, 77–79, 99,
100, 107
c : crédibilité, 7, 30, 35–38, 40–43, 87, 90, Nasab (composante d’un nom propre arabe),
91, 93, 134, 137, 139–142, 178 64, 96
cc : continuité d’une chaı̂ne de narrateurs, NF : classe de fiabilité (Non Fiable), 32, 36,
42, 43, 89, 91, 134, 137–141 39, 85, 134, 137, 138, 141–143
Nisba (composante d’un nom propre arabe),
DF (Dice Factor) : Facteur de Dice, 57, 58,
64, 96, 98, 134, 137, 175, 176
120, 127, 132
ns : relation non symétrique, 104
DPP : Dégré de Pertinence Possibiliste, 78,
79, 100, 101, 106–108 Objectivité (d’une personne, d’une informa-
DV : Document Virtuel, 22, 23 tion), 33, 35, 37–41, 43, 143
DVP : Document Virtuel Personnalisable, occ : Nombre d’occurrences, 20, 57, 102
22
PBSL : Paix et Bénédiction Sur Lui (le prophète
e : expansion, 60, 62, 83, 104, 119, 129 Mohamed), 31, 33, 134, 139
PDP : Pertinence au Domaine Possibiliste,
F-mesure (métrique d’évaluation de SRI),
106
21, 56, 95, 101, 110, 112–115, 128,
Précision (métrique d’évaluation de SRI),
132, 133
21, 47, 56, 95, 101, 108, 110, 112,
F : classe de fiabilité (Fiable), 85, 134, 140–
113, 127, 128
143
PROD : opérateur possibiliste produit, 76,
Freq : Fréquence (d’un terme, d’une entité),
85, 121, 134, 139–141, 143
19, 20, 57, 59, 63, 67, 78, 79, 99, 100,
102–104, 110 R expansion : relation en expansion, 104–
106, 108, 119
H : Head (Tête), 60–62, 102, 104, 119, 124, R head : relation en tête, 104–106, 108, 119
129 Rappel (métrique d’évaluation de SRI), 21,
Konia (composante d’un nom propre arabe), 47, 55, 95, 101, 110, 112, 113, 127–
64, 96, 176 129
RI : Recherche d’Information, 6, 8, 18, 19,
Laqab (composante d’un nom propre arabe), 29, 46, 47, 50, 51, 62, 75, 78, 79, 84,
64, 96, 98, 175, 176 114, 116, 123
LLR : Log-Likelihood Ratio, 57, 58, 108, ROI : Recherche Ouverte d’Information, 17,
110, 112–114, 120, 127, 131 18
200
INDEX
201
Construction et intégration d'ontologies pour la cartographie socio-sémantique de fonds documentaires arabes
guidée par la fiabilité de l'information
Résumé. La présente thèse propose un processus de cartographie des connaissances de fonds documentaires arabes.
L'objectif principal de ce processus est de permettre à des utilisateurs différents de retrouver l'information pertinente
qu'ils recherchent. Etant conscient que la pertinence est une notion multidimensionnelle, nous avons conçu un modèle
générique pour représenter des cartes de connaissances multi-critères. En effet, une carte est composée d'un ensemble
d'ontologies (dont chacune représente une dimension) qui sont liées aux fragments de documents. Les cartes sont
munies de mécanismes d'évaluation de l'information selon les besoins des utilisateurs. A ce stade, nous avons donné une
importance primordiale à la fiabilité de l'information en tant qu'exigence critique dans la situation actuelle du Web.
Nous avons adopté le point de vue du Web socio-sémantique qui considère les documents comme des productions
sémiotiques. Un autre choix primordial, effectué dans le cadre de cette thèse, consiste à utiliser le corpus hadithien qui
est un fonds documentaire volumineux, structuré et riche en connaissances et en divergences. En outre, le hadith
constitue une méthodologie solide pour assurer la fiabilité de l'information. De part ces caractéristiques, les livres du
hadith constituent des productions sémiotiques adaptées aux traitements socio-sémantiques.
La représentation multidimensionnelle nécessite l'extraction et l'organisation des connaissances selon plusieurs axes.
Dans l'axe sémantique, nous proposons d'extraire les termes pertinents à chaque thème, considéré comme un domaine
de connaissances. Dans l'axe social, nous proposons un moteur de recherche social qui permet d'extraire les entités
nommées et de reconnaître les identités des acteurs. Les connaissances extraites sont organisées en utilisant la méthode
d'analyse distributionnelle basée sur les réseaux petits mondes hiérarchiques, ce qui permet de construire des ontologies
différentielles. Enfin, nous intégrons les réseaux possibilistes en tant qu'outil d'évaluation de l'information. Ainsi,
l'utilisateur dispose du jugement du système sur la pertinence thématique et sur la fiabilité, mais aussi des outils
nécessaires pour conduire une démarche d'enquête dans une perspective de recherche ouverte de l'information.
Mots clés. Web socio-sémantique, Cartographie des connaissances, TALN Arabe, Ontologie, Fiabilité de l'information.
________________________________________________________________________________________________________________________________________________________________________________________________
بناء وإدماج أنطولوجيات من أجل الخورطة االجتماعية الداللية لألرصدة الوثائقية العربية المبنية على اعتمادية المعلومة
تقترح ھذه األطروحة نموذجا "لخورطة" األرصدة الوثائقية العربية بھدف تمكين مختلف المستخدمين من الحصول على المعلومة.الملخـص
إن. وعيا منا بأن تقييم المستخدم للمعلومة يعتمد على عدة أبعاد فقد قمنا بتصميم نموذج شامل لتمثيل خرائط المعارف متعددة المقاييس.المطلوبة
تحتوي الخريطة أيضا على آليات.الخريطة ھي عبارة عن عدة أنطولوجيات تُمثل كل واحدة منھا أحد األبعاد وتُستعمل لفھرسة أجزاء الوثائق
.لتقييم المعلومات حسب حاجيات المستخدمين ولقد أولينا أھمية خاصة لمقياس "اعتمادية المعلومة" الذي يُمثل تحديا نظرا النفتاح الواب الحالي
ولقد اخترنا كمثال تطبيقي كتب الحديث الشريف."إننا نتبنى وجھة نظر الواب االجتماعي الداللي الذي يعتبر الوثائق "كمنتجات سيميائية
نظرا لھذه. إن الحديث يُمثل كذلك منھجية صلبة لتقييم اعتمادية المعلومة.باعتبارھا تُمثل رصيدا ضخما ومنظما وثريا بالمعارف واالختالفات
.الخصائص الفريدة تُعتبر كتب الحديث منتجات سيميائية يُمكن إخضاعھا للمعالجة االجتماعية الداللية
في المحور الداللي نعتبر أن كل موضوع من.إن التمثيل المتعدد األبعاد للوثائق يفرض علينا استخراج المعارف وتنظيمھا حسب عدة محاور
في المحور االجتماعي قمنا بتطوير محرك بحث اجتماعي يُعنى.كتب الحديث يُمثل ميدانا معرفيا نقوم باستخراج المصطلحات التي تُمثله
كل ھذه المعارف يتم تنظيمھا باستخدام التحليل التوزيعي المبني على "شبكات العوالم.باستخراج أسماء الجھات الفاعلة والتعرف على ھوياتھا
نستعمل محرك بحث متعدد المقاييس مبني على نظرية اإلمكانيات،ً أخيرا."الصغيرة الھرمية" وھو ما يُ َم ّكن من إنتاج "أنطولوجيات تفاضلية
إستعمال ھذه األدوات يُم ّكن من القيام بأبحاث مفتوحة تُشرك المستخدم في.وھو ما يُم ّكن من تقييم الوثائق من حيث الموضوع واالعتمادية
.التحري عن المعلومات المطلوبة
إعتمادية المعلومة، األنطولوجيا، التحليل اآللي للنصوص العربية، خورطة المعارف، الواب االجتماعي الداللي.الكلمات المفاتيح
________________________________________________________________________________________________________________________________________________________________________________________________