Rapport

Université Tunis El-Manar
Faculté des Sciences de Tunis
Ecole Doctorale
Mathématiques, Informatique, Sciences et Technologies de la Matière
Construction et intégration d'ontologies pour la

cartographie socio-
socio-sémantique de fonds documentaires arabes
guidée par la fiabilité de l'information
THESE
présentée et soutenue publiquement
le samedi 09 Juin 2012
pour l’obtention du
Diplôme de Doctorat de l’université de Tunis El-Manar

(spécialité informatique)
par:
Ibrahim BOUNHAS
Composition du jury:
Khaled BSAÏES, Professeur, Université de Tunis El Manar Président
Abdelmajid BEN HAMADOU, Professeur, Université de Sfax Rapporteur
Jean-Marie PINON, Professeur, INSA de Lyon Rapporteur
Rafik BOUAZIZ, Maitre de Conférence, Université de Sfax Examinateur
Yahya SLIMANI, Professeur, Université de Tunis El Manar Directeur de thèse
A la mémoire de mon père…
A ma mère,
En témoignage de ses sacrifices et de mon amour…
A Mes frères et soeurs,

En témoignage de mon amour…
A Hafsa…
En témoignage de mes meilleurs vœux…
Remerciements
Mes remerciements s'adressent à mon directeur de thèse, le Professeur Yahya

SLIMANI pour sa disponibilité, son soutien perpétuel, ses précieuses directives et ses
idées scientifiques. Qu’il trouve ici le fruit de nos efforts comme témoignage de ma
gratitude et de mon respect.
Je suis aussi très reconnaissant au Professeur Mohamed BEN AHMED et au Docteur
Anja HABACHA qui m'ont aidé à initier ce travail de recherche au sein du
laboratoire RIADI-GDL de l'ENSI.
Je souhaite également exprimer toute ma reconnaissance au Docteur Bilel Elayeb qui
a participé dans une grande partie de ce travail, par ses encouragements continus et
ses contributions pertinentes. Qu’il soit assuré de mon très grand respect et du plaisir
que j’ai à travailler avec lui.
Je tiens aussi à exprimer ma profonde gratitude à Monsieur Fabrice EVRARD pour
l’intérêt qu’il a manifesté à l’égard de mes recherches et de m’avoir accueilli en stage
au sein de son équipe à l’Institut de Recherche en Informatique de Toulouse (IRIT).
Mes remerciements s’adressent également à tous les membres du jury qui ont accepté
d’évaluer ce travail. En particulier, je remercie:
Le Professeur Khaled BSAÏES d’avoir accepté de présider le jury de cette thèse,
Les Professeurs Jean-Marie PINON et Abdelmajid BEN HAMADOU pour
l’honneur qu’ils m'ont fait en acceptant d’être les rapporteurs de cette thèse.
Le Professeur Rafik BOUAZIZ pour avoir accepté d’être l'examinateur de cette
thèse.
Je tiens à remercier aussi tous les membres de l'unité MOSIC et du Laboratoire
d’Informatique pour les Systèmes Industriels (LISI) et en particulier le Professeur
Samir BEN AHMED, pour son soutien et ses encouragements persistants.
Mes remerciements s’adressent également à l'administration de la Faculté des
Sciences de Tunis et en particulier le Professeur Mohamed JEMAL pour avoir soutenu
et encouragé mon stage à l'IRIT.
Mes remerciements vont également vers les responsables administratifs et financiers
de la Faculté des Sciences de Tunis et de l'INSAT, en particulier Mme Mofida
BAROUNI pour avoir facilité l'accomplissement de mes missions à l'étranger.
Remercier tous ceux qui m’ont aidé à finaliser ce travail est pour moi un devoir. Je
pense particulièrement à tous ceux qui m'ont aidé et encouragé à adopter le hadith
comme cas d'application, entre autres le Professeur Mohamed Taher AL-JAWABI de
l'Université de la Zitouna.
Je remercie aussi tous mes enseignants de l'ISG de Tunis et de l'ENSI de la Manouba
qui ont contribué à ma formation. Qu'ils trouvent ici le résultat de leurs efforts.
Je n'oublie pas de saluer fortement tous mes amis et les membres de ma grande famille
notamment ma mère de m'avoir encouragé et toléré mes absences continues et
répétitives. Qu'ils trouvent dans cette thèse une récompense de leurs sacrifices et
patience.
Table des matières
Introduction Générale 1
Problématique de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
A Etat de l’art 5
I Organisation et accès à l’information 6
1 Problématique et objectifs de l’accès à un fonds documentaire . . . . . . . 6
2 Les visions du Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1 Le Web sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Le Web social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Le Web socio-sémantique . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Comparaison des trois visions . . . . . . . . . . . . . . . . . . . . . 11
3 Les systèmes d’organisation des connaissances . . . . . . . . . . . . . . . . 12
3.1 Les thésaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Les systèmes d’indexation collaboratifs . . . . . . . . . . . . . . . . 13
3.3 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Comparaison des SOC . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Les systèmes d’accès à l’information . . . . . . . . . . . . . . . . . . . . . . 19
4.1 Les systèmes de recherche d’information . . . . . . . . . . . . . . . 19
4.2 Les bibliothèques virtuelles . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 La cartographie des connaissances . . . . . . . . . . . . . . . . . . . 24
4.4 Comparaison des systèmes d’accès à l’information . . . . . . . . . . 27
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
II Evaluation de l’information 29
1 Les critères de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2 Méthodologies d’évaluation de la fiabilité de l’information . . . . . . . . . . 30
2.1 La fiabilité dans les sciences du hadith . . . . . . . . . . . . . . . . 31
2.2 La fiabilité dans les sciences de l’histoire . . . . . . . . . . . . . . . 34
2.3 La fiabilité dans les sciences de l’informatique . . . . . . . . . . . . 35
2.4 Comparaison des méthodologies . . . . . . . . . . . . . . . . . . . . 39
3 Evaluation automatique de la fiabilité des hadiths . . . . . . . . . . . . . . 41
3.1 Méthodes d’évaluation des critères de fiabilité du hadith . . . . . . 41
3.2 Approches existantes . . . . . . . . . . . . . . . . . . . . . . . . . . 42
i
4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
III Extraction et organisation des connaissances à partir des documents

arabes 45
1 Le niveau morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.1 Les lemmatiseurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.2 Les analyseurs morphologiques . . . . . . . . . . . . . . . . . . . . . 47
1.3 Les étiqueteurs grammaticaux . . . . . . . . . . . . . . . . . . . . . 50
1.4 L’outil MADA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2 Le niveau syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1 Les syntagmes nominaux en langue arabe . . . . . . . . . . . . . . . 51
2.2 L’ambiguı̈té syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3 Etat de l’art sur l’analyse syntaxique des textes arabes . . . . . . . 53
3 Le niveau sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1 Le cycle de vie des ontologies . . . . . . . . . . . . . . . . . . . . . 54
3.2 Construction d’ontologies à partir de corpus textuels . . . . . . . . 56
4 Le niveau social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1 Structure d’un nom propre arabe . . . . . . . . . . . . . . . . . . . 64
4.2 Reconnaissance des entités nommées . . . . . . . . . . . . . . . . . 64
4.3 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . 65
5 La langue arabe dans le Web socio-sémantique . . . . . . . . . . . . . . . . 66
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
B Contributions 69
IV Modèle de cartographie multidimensionnelle des documents arabes 70
1 Modèle d’une carte socio-sémantique multi-critères . . . . . . . . . . . . . 70
2 L’apport de la structure des documents . . . . . . . . . . . . . . . . . . . . 71
3 Les réseaux petits mondes hiérarchiques . . . . . . . . . . . . . . . . . . . 73
4 La théorie des possibilités et ses applications . . . . . . . . . . . . . . . . . 74
4.1 Distribution de possibilité . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Les mesures de possibilité et de nécessité . . . . . . . . . . . . . . . 75
4.3 Les réseaux possibilistes . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Les classifieurs possibilistes . . . . . . . . . . . . . . . . . . . . . . . 76
4.5 Les SRI possibilistes . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5 Processus de cartographie de documents arabes . . . . . . . . . . . . . . . 79
5.1 Choix du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Etude sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3 Analyse de la structure des documents . . . . . . . . . . . . . . . . 82
5.4 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . 83
5.5 Analyse morphosyntaxique et extraction de termes . . . . . . . . . 83
5.6 Analyse distributionnelle . . . . . . . . . . . . . . . . . . . . . . . . 84
5.7 Evaluation de la fiabilité de l’information . . . . . . . . . . . . . . . 84
5.8 Navigation et recherche d’information . . . . . . . . . . . . . . . . . 85
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
ii
V Extraction de connaissances socio-sémantiques 86
1 Choix du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.1 Structure des livres du hadith . . . . . . . . . . . . . . . . . . . . . 86
1.2 Caractéristiques du corpus du hadith . . . . . . . . . . . . . . . . . 88
2 Etude sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3 Analyse de la structure des documents . . . . . . . . . . . . . . . . . . . . 92
3.1 La structure des chaı̂nes de narrateurs . . . . . . . . . . . . . . . . 92
3.2 Analyse automatique des livres du hadith . . . . . . . . . . . . . . 94
4 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.1 Le modèle d’indexation des noms propres arabes . . . . . . . . . . . 96
4.2 Le modèle d’indexation des chaı̂nes de narrateurs . . . . . . . . . . 98
4.3 Le modèle d’appariement . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 La fonction de filtrage . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Résultats d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Analyse morphosyntaxique et extraction de
termes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1 L’indexation qualitative . . . . . . . . . . . . . . . . . . . . . . . . 102
5.2 L’information contextuelle . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Les distributions de possibilité . . . . . . . . . . . . . . . . . . . . . 104
5.4 Le termhood possibiliste . . . . . . . . . . . . . . . . . . . . . . . . 105
5.5 Le unithood possibiliste . . . . . . . . . . . . . . . . . . . . . . . . 106
5.6 La pertinence au domaine possibiliste . . . . . . . . . . . . . . . . . 107
5.7 Exemple de désambigüisation . . . . . . . . . . . . . . . . . . . . . 107
5.8 Expérimentation et évaluation . . . . . . . . . . . . . . . . . . . . . 109
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
VI Organisation de connaissances et recherche d’information multi-critères116

1 Plate-forme générique de cartographie multi-critères . . . . . . . . . . . . . 116
1.1 Modèle à base de graphes d’une carte multi-dimensions . . . . . . . 117
1.2 Description des opérations de cartographie . . . . . . . . . . . . . . 118
2 Structuration socio-sémantique des livres du
hadith . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3 Analyse distributionnelle sémantique . . . . . . . . . . . . . . . . . . . . . 123
3.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4 Analyse distributionnelle sociale . . . . . . . . . . . . . . . . . . . . . . . . 133
5 Evaluation de la fiabilité des hadiths . . . . . . . . . . . . . . . . . . . . . 134
5.1 La crédibilité des narrateurs . . . . . . . . . . . . . . . . . . . . . . 137
5.2 La continuité de la chaı̂ne . . . . . . . . . . . . . . . . . . . . . . . 137
5.3 La fiabilité de transmission . . . . . . . . . . . . . . . . . . . . . . . 138
5.4 Identification de la classe de fiabilité . . . . . . . . . . . . . . . . . 139
5.5 Visualisation des chaı̂nes de narrateurs . . . . . . . . . . . . . . . . 139
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Conclusion Générale et Perspectives 145

Choix principaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Contributions principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
iii
Bibliographie 167
Annexes 168
A Implémentation de l’analyseur de textes semi-structurés et exemple
d’application 169
1 Exemple de document de référence . . . . . . . . . . . . . . . . . . . . . . 169
2 Un analyseur générique de textes semi-structurés . . . . . . . . . . . . . . 169
2.1 L’interface graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 170
2.2 Le composant d’apprentissage . . . . . . . . . . . . . . . . . . . . . 173
3 Analyse automatique des hadiths et reconnaissance des entités nommées . 174
3.1 La grammaire des versets . . . . . . . . . . . . . . . . . . . . . . . 174
3.2 La grammaire des noms propres arabes . . . . . . . . . . . . . . . . 175
3.3 La grammaire des chaı̂nes de narrateurs . . . . . . . . . . . . . . . 176
3.4 La grammaire des commentaires sur les acteurs . . . . . . . . . . . 178
3.5 La grammaire des commentaires sur les hadiths . . . . . . . . . . . 178
3.6 La grammaire des indications de versions . . . . . . . . . . . . . . . 179
3.7 La grammaire des titres . . . . . . . . . . . . . . . . . . . . . . . . 179
3.8 La grammaire des hadiths . . . . . . . . . . . . . . . . . . . . . . . 179
3.9 Calcul des taux d’intervention . . . . . . . . . . . . . . . . . . . . . 180
B Exemple de calcul des identités des acteurs et de la fiabilité 182

1 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . . . . . 182
1.1 L’étape d’indexation . . . . . . . . . . . . . . . . . . . . . . . . . . 182
1.2 L’étape d’appariement . . . . . . . . . . . . . . . . . . . . . . . . . 182
1.3 L’étape de filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
2 Evaluation de la fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
2.1 Evaluation de la crédibilité . . . . . . . . . . . . . . . . . . . . . . . 186
2.2 Evaluation de la continuité . . . . . . . . . . . . . . . . . . . . . . . 186
2.3 Evaluation de la fiabilité de transmission . . . . . . . . . . . . . . . 186
2.4 Identification de la classe de fiabilité . . . . . . . . . . . . . . . . . 187
C Exemples d’analyse et de désambiguı̈sation morphosyntaxique 188

1 Analyse morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
2 Analyse syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
3 Désambiguı̈sation morphosyntaxique et évaluation de la pertinence au do-
maine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
D Implémentation des mécanismes de cartographie et exemple d’applica-

tion 193
1 Réalisation de la plate-forme de cartographie . . . . . . . . . . . . . . . . . 193
2 Représentation GraphML des cartes du hadith . . . . . . . . . . . . . . . . 196
2.1 Définition des attributs . . . . . . . . . . . . . . . . . . . . . . . . . 196
2.2 Représentation des hadiths . . . . . . . . . . . . . . . . . . . . . . . 197
2.3 Représentation des ontologies . . . . . . . . . . . . . . . . . . . . . 197
2.4 Représentation des réseaux possibilistes . . . . . . . . . . . . . . . . 198
E Phonétique des lettres arabes 199
iv
Index 200
v
Table des figures
I.1 Les couches du Web sémantique [109]. . . . . . . . . . . . . . . . . . . . . 9

I.2 Les trois visions du Web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
I.3 Les composantes d’un Système de Recherche d’Information [98]. . . . . . . 20
I.4 Métriques d’évaluation des SRI [214]. . . . . . . . . . . . . . . . . . . . . . 22
III.1 Exemple d’ambigüité syntaxique. . . . . . . . . . . . . . . . . . . . . . . . 53

III.2 Cycle de vie d’une ontologie. . . . . . . . . . . . . . . . . . . . . . . . . . . 54
IV.1 Modèle d’une carte socio-sémantique multi-critères. . . . . . . . . . . . . . 72

IV.2 Architecture du modèle de classification possibiliste. . . . . . . . . . . . . . 77
IV.3 Architecture du modèle de recherche d’information possibiliste. . . . . . . . 77
IV.4 Le processus de cartographie. . . . . . . . . . . . . . . . . . . . . . . . . . 80
V.1 DTD illustrant la structure d’un livre du hadith. . . . . . . . . . . . . . . . 90

V.2 Modèle d’indexation des noms propres arabes [50]. . . . . . . . . . . . . . . 96
V.3 Exemple d’index d’un nom propre arabe. . . . . . . . . . . . . . . . . . . . 97
V.4 Modèle d’indexation des chaı̂nes de narrateurs [50]. . . . . . . . . . . . . . 98
V.5 Exemple d’index d’une chaı̂ne de narrateurs. . . . . . . . . . . . . . . . . . 98
V.6 Exemple de document arabe désambigüisé ainsi que sa traduction. . . . . . 105
V.7 Exemple de document ambigu et sa traduction. . . . . . . . . . . . . . . . 107
V.8 Courbes rappel vs. précision relatives au domaine des boissons. . . . . . . . 111
V.9 Courbes rappel vs. précision relatives au domaine du mariage. . . . . . . . 111
V.10 Courbes rappel vs. précision relatives au domaine de la purification. . . . . 112
V.11 Evaluation de la reconnaissance des termes simples et composés dans le
domaine des boissons. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
domaine du mariage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
domaine de la purification. . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
V.14 Courbes de la F-mesure pour le domaine des boissons (tous les termes). . . 114
V.15 Courbes de la F-mesure pour le domaine des boissons (termes composés). . 114
V.16 Courbes de la F-mesure pour le domaine du mariage (tous les termes). . . 114
V.17 Courbes de la F-mesure pour le domaine du mariage (termes composés). . 114
V.18 Courbes de la F-mesure pour le domaine de la purification (tous les termes).114
V.19 Courbes de la F-mesure pour le domaine de la purification (termes composés).114
vi
VI.1 Interface de recherche et de navigation dans la carte socio-sémantique des
hadiths. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
VI.2 Exemple de réseau syntaxique. . . . . . . . . . . . . . . . . . . . . . . . . . 125
VI.3 Exemple de réseau distributionnel contenant toutes les relations syntaxiques.125
VI.4 Exemples de réseaux distributionnels relatifs à des relations syntaxiques
différentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
VI.5 Exemple de graphe de co-occurrence. . . . . . . . . . . . . . . . . . . . . . 126
VI.6 Interface de validation des groupes de co-hyponymes. . . . . . . . . . . . . 127
VI.7 Valeurs moyennes du rappel, de la précision et de la F-mesure pour cinq
types de distance pour la liaison des termes. . . . . . . . . . . . . . . . . . 128
VI.8 Comparaison de différentes approches de liaison de termes. . . . . . . . . . 128
VI.9 Résultats obtenus pour différents types de relations syntaxiques. . . . . . . 129
VI.10Aperçu sur la carte sémantique du domaine des boissons. . . . . . . . . . . 130
VI.11Zoom sur le groupe numéro 5 de la carte sémantique de la Figure VI.10. . 131
VI.12Résultats d’expansion des requêtes dans le domaine des boissons. . . . . . 132
VI.13Résultats d’expansion des requêtes dans le domaine du mariage. . . . . . . 132
VI.14Résultats d’expansion des requêtes dans le domaine de la purification. . . . 132
VI.15Graphe social des narrateurs du hadith sous forme d’arbre radial. . . . . . 133
VI.16Résultat de la transformation basée sur les arcs du réseau social des nar-
rateurs dans le domaine des boissons (l’attribut ”génération” affiché aux
nœuds). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
VI.17Résultat de la transformation basée sur les arcs du réseau social des nar-
rateurs dans le domaine des boissons (l’attribut ”nisba” affiché aux nœuds). 136
VI.18Exemple de cartographie d’une chaı̂ne. . . . . . . . . . . . . . . . . . . . . 140
A.1 Exemple de document et sa traduction en français. . . . . . . . . . . . . . 170

A.2 Architecture de l’analyseur de textes semi-structurés. . . . . . . . . . . . . 170
A.3 L’interface graphique de l’analyseur de textes semi-structurés. . . . . . . . 171
A.4 Exemple d’analyse lexicale. . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
A.5 Exemple de lexique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
A.6 Exemple de regroupement. . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
A.7 Exemple de grammaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
A.8 Exemple d’analyse semi-automatique. . . . . . . . . . . . . . . . . . . . . . 173
A.9 Exemple de résultat d’analyse. . . . . . . . . . . . . . . . . . . . . . . . . . 174
A.10 Exemple de document après identification des versets. . . . . . . . . . . . . 175
A.11 Les principales règles de la grammaire des noms propres arabes [50]. . . . . 175
A.12 Exemple de document après identification des acteurs. . . . . . . . . . . . 177
A.13 Exemples de règles de la grammaire des chaı̂nes de narrateurs. . . . . . . . 177
A.14 Exemple de document après identification des chaı̂nes. . . . . . . . . . . . 178
A.15 Exemple de document après l’analyse des commentaires sur les hadiths. . . 179
A.16 Exemple de document après l’analyse des titres des chapitres et sous-
chapitres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
A.17 Exemple de document après l’analyse des hadiths. . . . . . . . . . . . . . . 180
B.1 Exemple de chaı̂ne avant et après indexation des noms de narrateurs. . . . 183
C.1 Exemple de résultat généré par l’outil MADA. . . . . . . . . . . . . . . . . 188

C.2 Exemple de calcul des attributs morphologiques. . . . . . . . . . . . . . . . 189
vii
C.3 Exemple de résultat de l’analyse morphologique après désambiguisation par
seuil de pertinence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
C.4 Pseudo-code de la méthode Java qui permet de reconnaı̂tre les syntagmes
annexés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
D.1 Interface principale de la plate-forme d’organisation des connaissances et

de recherche d’information multi-critères. . . . . . . . . . . . . . . . . . . . 193
D.2 L’onglet transformation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
D.3 L’onglet regroupement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
D.4 L’onglet filtre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
D.5 Entête du fichier GraphML. . . . . . . . . . . . . . . . . . . . . . . . . . . 196
D.6 Exemple de hadith au format GraphML. . . . . . . . . . . . . . . . . . . . 197
D.7 Exemple de terme au format GraphML. . . . . . . . . . . . . . . . . . . . 197
D.8 Exemples de narrateurs au format GraphML. . . . . . . . . . . . . . . . . 198
D.9 Exemple de relation sociale au format GraphML. . . . . . . . . . . . . . . 198
D.10 Exemple de lien d’indexation au format GraphML. . . . . . . . . . . . . . 198
viii
Liste des tableaux
I.1 Typologie des activités dans le domaine du e-learning. . . . . . . . . . . . . 7

I.2 Critères de comparaison des SOC. . . . . . . . . . . . . . . . . . . . . . . . 18
II.1 Les manières de transmission du hadith [4]. . . . . . . . . . . . . . . . . . . 32

II.2 Typologie des hadiths inacceptables à cause des caractéristiques des nar-
rateurs [4]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
II.3 Méthodes, paramètres et outils d’évaluation des dimensions de la fiabilité
des hadiths [50]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
II.4 Critères de comparaison des approches d’évaluation des hadiths . . . . . . 43
III.1 Comparaison des analyseurs morphologiques arabes. . . . . . . . . . . . . . 49

III.2 Table de contingence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
V.1 Caractéristiques du corpus du hadith. . . . . . . . . . . . . . . . . . . . . . 88

V.2 Correspondance entre les types d’usage, les catégories des fragments et les
informations de la base des narrateurs. . . . . . . . . . . . . . . . . . . . . 91
V.3 Table de priorité de l’analyseur des titres des thèmes. . . . . . . . . . . . . 95
V.4 Table de priorité de l’analyseur des hadiths. . . . . . . . . . . . . . . . . . 95
V.5 Résultats d’expérimentation de l’analyseur des hadiths. . . . . . . . . . . . 95
V.6 Etude comparative des approches de reconnaissance des entités nommées. . 96
V.7 Composantes du modèle d’indexation des noms propres arabes. . . . . . . . 97
V.8 Matrice de correspondance (noms des personnes et des maı̂tres). . . . . . . 99
V.9 Matrice de correspondance (clés des pères). . . . . . . . . . . . . . . . . . . 99
V.10 Matrice de correspondance (clés des pères du maı̂tre). . . . . . . . . . . . . 100
V.11 Résultats de la reconnaissance des identités [50]. . . . . . . . . . . . . . . . 102
V.12 Fréquences des termes du document de la Figure V.6 . . . . . . . . . . . . 105
V.13 Distributions de possibilité relatives au document de la Figure V.6. . . . . 106
V.14 Statistiques sur les fragments et les termes de trois domaines. . . . . . . . 110
V.15 Distribution des termes pertinents. . . . . . . . . . . . . . . . . . . . . . . 112
VI.1 Exemples de textes arabes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

VI.2 Les syntagmes nominaux extraits des textes du tableau VI.1. . . . . . . . . 124
VI.3 Titres des groupes obtenus pour les trois domaines. . . . . . . . . . . . . . 131
VI.4 Distribution de possibilité selon la crédibilité des narrateurs. . . . . . . . . 137
VI.5 Valeurs du critère de continuité selon la relation sociale, le gap temporel et
le gap géographique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
VI.6 Distribution de possibilité selon le critère de continuité. . . . . . . . . . . . 138
ix
VI.7 Distribution de possibilité selon le critère de fiabilité de transmission. . . . 138
VI.8 Moyennes des scores attribués pour les trois classes de fiabilité selon l’al-
gorithme à base de minimum [6]. . . . . . . . . . . . . . . . . . . . . . . . 141
VI.9 Moyennes des scores attribués pour les trois classes de fiabilité selon l’al-
gorithme à base de produit. . . . . . . . . . . . . . . . . . . . . . . . . . . 141
VI.10Valeurs moyennes et minimales des critères de fiabilité dans les six livres. . 141
VI.11Comparaison des résultats du système par rapport aux décisions des savants
[6]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
A.1 Terminaux de la grammaire des noms propres arabes. . . . . . . . . . . . . 176

A.2 Exemples de règles combinant les noms de personnes et les manières de
transmission. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
A.3 Taux d’intervention des grammaires hors contexte. . . . . . . . . . . . . . . 181
B.1 Résultats de la reconnaissance par calcul possibiliste pour le premier nar-

rateur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
B.2 Liste des narrateurs candidats pour un exemple de chaı̂ne . . . . . . . . . . 185
B.3 Exemples de relations sociales. . . . . . . . . . . . . . . . . . . . . . . . . . 185
B.4 Méta-données sur les narrateurs d’un exemple de chaı̂ne. . . . . . . . . . . 186
C.1 Exemple d’analyse et d’ambigüité syntaxique. . . . . . . . . . . . . . . . . 191

C.2 Exemple de termes simples et composés extraits du corpus hadithien. . . . 192
E.1 Phonétique et graphie des lettres arabes. . . . . . . . . . . . . . . . . . . . 199
x
Introduction Générale
L ’émergence du Web a engendré des changements majeurs dans le domaine de

l’offre et de la demande de l’information [98]. Les caractéristiques du Web en
tant qu’espace ouvert, hétérogène, faiblement structuré, sans autorité de contrôle et de
taille gigantesque posent plusieurs défis. Ces changements influencent notre vision du Web
du futur essentiellement en matière d’organisation, d’accès et d’évaluation des connais-
sances. En effet, les différentes visions futuristes du Web [229] proposent une certaine
structuration des fonds documentaires et des utilisateurs à travers des Systèmes d’Or-
ganisation des Connaissances (SOC) [226]. L’objectif est de permettre à un utilisateur
d’appréhender son espace informationnel afin de pouvoir l’interroger et y naviguer d’une
manière adaptée [212]. Ces systèmes doivent aussi tenir compte de l’organisation sociale
des acteurs et de leur hétérogénéité, qui induit des divergences de points de vue difficiles
à cerner, à comprendre et à concilier.
Quelle que soit la perfection des SOC, l’utilisateur reste incapable de maı̂triser son
espace vu la complexité de ses besoins et la quantité d’informations disponibles [212]. Les
fonds documentaires doivent donc être munis, en plus des SOC, de systèmes de recherche
et de navigation qui permettent de filtrer et d’évaluer les informations en fonction de
contraintes imposées par l’utilisateur. Dans leur développement, ces systèmes ont subi
plusieurs changements. D’une part, il a fallu développer des mécanismes sophistiqués
d’expression des besoins et de présentation des résultats qui favorisent l’interaction avec
l’utilisateur impliqué dans une démarche d’enquête. D’autre part, les critères d’évaluation
se sont diversifiés afin de tenir compte à la fois des besoins sociaux et sémantiques des
utilisateurs. Ainsi, il est nécessaire de considérer toutes les dimensions de la qualité de
l’information. Cependant, l’une des principales dimensions qui suscite des inquiétudes vis-
à-vis du contenu du Web concerne la fiabilité de l’information [175]. Assurer la confiance
entre les fournisseurs et les bénéficiaires de l’information est une préoccupation primordiale
de toutes les conceptions récentes du Web [75, 109, 227].
La cartographie des connaissances est un processus qui utilise un ensemble de para-

digmes permettant de structurer et de rendre accessibles les connaissances [212]. Produire
une carte à partir d’un fonds documentaire brut consiste à structurer ses connaissances,
à les visualiser et à fournir les mécanismes nécessaires pour leur manipulation. Une carte
est donc composée d’un SOC et d’un ensemble de structures visuelles utilisées pour affi-
cher ses différents éléments et faciliter leur appréhension. Il faut adjoindre à ces éléments
un ensemble d’opérations d’interaction pour aider l’utilisateur à exprimer ses besoins et
à évaluer les informations mises à sa disposition. Il s’agit par conséquent d’un produit
multidimensionnel, dont la production passe nécessairement par l’analyse de documents,
l’extraction et la structuration des connaissances.
1
INTRODUCTION
Par ailleurs, le processus de cartographie dépend en grande partie des caractéristiques

du fonds documentaire. La langue, qui constitue le support des connaissances, s’avère
être un aspect déterminant qui influence le développement des SOC et des Systèmes de
Recherche d’Information (SRI). Alors que le Web se développe, les documents arabes
demeurent difficilement accessibles à cause des limites des outils d’analyse, d’indexation
et de recherche qui ne sont pas adaptés pour tenir compte des caractéristiques de cette
langue. Certes, cette situation impose des défis, mais il faut reconnaı̂tre que la richesse
de la langue et de la civilisation arabe inspire plusieurs opportunités de recherche qui
peuvent contribuer au développement du Web.
Problématique de la thèse
Le processus de cartographie commence par une étape d’analyse qui vise à indexer
les documents et à extraire les connaissances qui s’y trouvent. Les concepts véhiculés
dans les fonds documentaires sont représentés par des expressions linguistiques. Ainsi,
cette première étape nécessite des outils d’analyse linguistique capables de reconnaı̂tre les
attributs et les constituants de ces expressions. Malgré l’effort de recherche considérable
dans le domaine du traitement automatique de textes en langue arabe (voir par exemple,
[66, 127, 164]), les outils existants restent limités face à l’ambigüité et à la richesse de ces
textes et donc difficilement intégrables dans les systèmes d’extraction de connaissances et
de Recherche d’Information (RI) existants.
Les SRI arabes existants se basent sur des heuristiques ou des méthodes statistiques
afin de diminuer l’effet de l’ambigüité sur les autres étapes [133, 153]. De telles solutions
ne permettent pas à un système d’interpréter efficacement le sens des documents, ce qui
réduit significativement la qualité des SOC que nous sommes capables de développer.
Ceci dit, les travaux de recherche, dans le domaine du développement des SOC et des
SRI arabes, se concentrent sur l’axe sémantique en privilégiant la pertinence thématique.
Ces systèmes se trouvent démunis face à la diversité des besoins des utilisateurs et de la
nécessité de prendre en considération d’autres critères. En particulier, et malgré l’existence
d’une méthodologie solide pour la fiabilité de l’information, représentée par les sciences
du hadith, les SRI arabes n’intègrent pas cette dimension.
La présente thèse s’intègre dans le cadre de la conception et l’expérimentation d’un

processus de cartographie qui tient compte des spécificités de la langue arabe, qui in-
clut toutes les étapes d’analyse et qui modélise les fonds documentaires d’une manière
multidimensionnelle.
En tant que produit, nous générons des cartes socio-sémantiques dont chacune corres-
pond à un domaine. Une carte est constituée par un ensemble de fragments de docu-
ments indexés selon plusieurs dimensions. Pour modéliser ces dimensions, nous adoptons
le type de SOC le plus utilisé dans les visions récentes du Web, à savoir les ontologies
[109, 225]. Chaque ontologie est constituée d’entités sociales ou sémantiques organisées
par un ensemble de relations spécifiques à leur type. Ces ontologies sont reliées au fonds
documentaire par des réseaux possibilistes qui modélisent les liens de dépendance entre les
fragments et les entités. Les mécanismes de propagation dans ces réseaux constituent un
modèle d’appariement capable d’évaluer chaque fragment, étant donné un besoin exprimé
par l’utilisateur sous forme de requête. En plus, les cartes ainsi conçues permettent la
navigation entre les différentes dimensions et les ressources du fonds documentaire.
2
INTRODUCTION
En tant que processus, nous donnons une importance particulière aux problèmes d’ana-
lyse et de désambiguı̈sation linguistique. Ainsi, la première étape de ce processus consiste
en l’extraction des entités sémantiques et sociales. Dans l’axe sémantique, il est nécessaire
d’extraire les termes pertinents à chaque domaine, ce qui nous impose d’affronter les am-
biguı̈tés morphosyntaxiques. Dans l’axe social, nous extrayons les entités nommées qui
représentent les noms des acteurs impliqués dans le processus de production et de trans-
mission de l’information. Les noms propres arabes étant aussi ambigus, nous procédons
à une étape de désambiguı̈sation qui permet d’identifier d’une manière précise chaque
acteur.
Pour structurer les connaissances, nous proposons un processus d’analyse distribution-

nelle basée sur les Réseaux Petits Mondes Hiérarchiques (RPMH). Le principe consiste
à relier les entités qui se ressemblent du point de vue distribution sur les contextes pos-
sibles. Les graphes distributionnels se caractérisent par la concentration des arcs dans cer-
taines zones qui constituent des petits mondes. Ils permettent d’organiser les entités d’une
manière qui élicite la structure du domaine et les liens entre ses composantes. Il s’agit
donc d’une solution générique qui permet de traiter n’importe quels types de connais-
sances représentées par un graphe. Dans notre cas, elle est appliquée sur les réseaux de
dépendances syntaxiques qui relient les termes et sur les réseaux sociaux qui relient les
acteurs.
Notons enfin que le développement des SOC et des SRI arabes est limité par le manque
de standards d’évaluation requis pour valider et comparer différentes approches. Dans le
cadre de nos travaux, nous avons tenu à évaluer, étape par étape, notre processus de car-
tographie en analysant l’efficacité de nos choix au niveau de l’extraction, de l’organisation
des connaissances et de la recherche d’information.
Organisation de la thèse
La présente thèse est organisée en deux parties dont la première constitue un état de
l’art sur notre problématique et la deuxième détaille nos contributions. Ces deux parties
contiennent six chapitres que nous récapitulons comme suit. Le premier chapitre présente
la problématique d’organisation et de l’accès à l’information. Ainsi, nous commençons par
analyser le processus de gestion de l’information et les défis qu’il suscite dans le contexte
du Web actuel. Ensuite, nous étudions et nous comparons les différentes visions du Web
qui tentent de relever ces défis. Chacune de ces visions propose un type de SOC cohérent
avec ses fondements théoriques. En outre, les modalités d’accès aux documents se sont
développées en commençant par les SRI classiques de type requête-liste de résultats pour
arriver à la cartographie des connaissances en passant par les bibliothèques virtuelles.
Enfin, ce chapitre identifie les critères de choix entre les différentes visions, les systèmes
d’organisation et d’accès à l’information.
Etant donné que l’objectif final est de servir l’utilisateur avec une information perti-
nente, le second chapitre commence par définir la notion de pertinence et ses critères.
Nous nous focalisons en particulier sur le critère de fiabilité qui constitue un besoin cri-
tique vu le contexte ouvert du Web. Dans ce cadre, nous énumérons et nous comparons
les méthodologies d’assurance de la fiabilité existantes, afin d’identifier les critères et les
exigences de son évaluation. Enfin, ce chapitre présente une étude des applications infor-
matiques existantes et qui ont touché essentiellement le corpus hadithien.
3
Le troisième chapitre est consacré à l’étude des étapes nécessaires pour passer d’un fonds
documentaire arabe brut à un fonds documentaire structuré. L’extraction et l’organisation
des connaissances nécessitent plusieurs types d’analyses. Le processus commence au niveau
des mots et des expressions qui constituent les entités de base. Dans l’axe sémantique, il
s’agit d’énumérer les approches de construction d’ontologie en se focalisant sur l’extraction
de termes et de relations sémantiques à partir des corpus textuels. Dans l’axe social, nous
présentons un état de l’art des approches d’extraction des entités nommées arabes et de
reconnaissance de l’identité des acteurs.
Un aperçu général sur notre contribution est présenté dans le quatrième chapitre. Nous
proposons un modèle générique d’une carte socio-sémantique multi-dimensions comme un
réseau de fragments reliés à un ensemble d’ontologies par des réseaux possibilistes. Nous
discutons les composantes principales de ce modèle avant de proposer un processus de
cartographie composé de huit étapes.
Le cinquième chapitre introduit le corpus du hadith comme cas d’application en jus-

tifiant ce choix par une étude de ses caractéristiques. Il présente la conception et la
réalisation des outils d’extraction de connaissances socio-sémantiques. D’abord, nous
étudions la structure des documents du hadith et nous présentons les résultats de l’analyse
automatique de leurs textes. Ensuite, nous présentons et nous évaluons nos algorithmes
de reconnaissance des entités nommées et des identités des acteurs. Enfin, nous proposons
et nous validons notre approche d’analyse morphosyntaxique et d’extraction de candidats
termes.
Le sixième et dernier chapitre prolonge le processus de cartographie en détaillant les

étapes d’analyse distributionnelle, d’évaluation et d’accès à l’information. Nous com-
mençons par présenter une plate-forme générique qui implémente des opérations de struc-
turation et de navigation dans un espace informationnel modélisé par les graphes. Ces
opérations sont utilisées afin de structurer les connaissances hadithiennes dans l’axe
sémantique et social. En outre, nous présentons les résultats de nos expérimentations
dans le domaine de l’évaluation de la fiabilité des hadiths.
En guise de conclusion, un bilan de nos travaux met en exergue nos propositions en

rappelant les motivations liées à la problématique traitée dans cette thèse, les choix que
nous avons faits et les contributions que nous avons proposées. Nous terminons par des
suggestions de thématiques de recherche en vue de poursuivre les travaux couverts par
cette thèse.
4
Première partie
Etat de l’art
5
Chapitre I
Organisation et accès à l’information
L ’organisation d’un fonds documentaire est une étape préliminaire pour faciliter
l’accès aux documents qui le constituent. L’émergence du Web, comme fonds do-
cumentaire international, a engendré plusieurs problèmes liés essentiellement à la quantité
de l’information et à la diversité de ses fournisseurs. Plusieurs solutions ont été proposées
par les communautés de la recherche d’information et de l’ingénierie des connaissances
[226]. Ce chapitre fait un état de l’art des approches proposées pour modéliser et accéder
à un fonds documentaire ainsi qu’aux connaissances qu’il contient. Dans la section 1,
nous identifions les objectifs et les problèmes d’accès à un fonds documentaire. Nous
discutons par la suite les solutions proposées pour appréhender les fonds documentaires
en étudiant les différentes visions du Web (section 2). En effet, chacune des ces visions
propose des systèmes d’organisation des connaissances particuliers (section 3). En outre,
avec le développement de ces visions, plusieurs modèles d’accès à l’information ont été
proposés. La section 4 dresse un état des caractéristiques de ces modèles.
1 Problématique et objectifs de l’accès à un fonds

documentaire
Etant donné que les fonds documentaires sont le résultat d’interactions entre les acteurs
et les informations, nous commençons par analyser le processus de gestion de l’informa-
tion. Ce processus peut être modélisé par deux acteurs dont le premier (le rédacteur)
rédige un document et le transmet vers un deuxième qui joue le rôle de lecteur. Dans la
réalité, les interactions entre les acteurs sont plus complexes que cette vision simpliste.
Par exemple, dans le domaine du e-learning, Zniber et Cauvet [237] distinguent plusieurs
types d’acteurs, tels que le groupe de travail et les concepteurs pédagogiques et informa-
tiques en plus du tuteur et de l’apprenant. D’après les travaux de Paquette [179], Peguiron
[183] et Tazi [211], nous pouvons identifier le rôle de chacun de ces acteurs dans la gestion
de l’information ainsi que leurs interactions. Le tuteur et l’apprenant étant au centre de
la problématique, les verbes utilisés dans la description de leurs activités nous renseignent
sur la typologie des rôles dans ce domaine (voir tableau I.1).
Comme autre exemple, nous pouvons analyser les problèmes liés à la production d’ar-
ticles scientifiques. Ce domaine se caractérise par l’intervention de plusieurs types d’ac-
teurs dont les responsables de recherche, les encadreurs et les chercheurs. La typologie des
activités dans ce domaine est symétrique à celle du e-learning. D’abord, un article est un
6
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION
Activité Type
Le tuteur met l’information à la disposition de l’apprenant Transmission
Un apprenant transforme une information en connaissance Interprétation
Le tuteur vérifie ou corrige le travail d’un apprenant Vérification
Le tuteur évalue un apprenant Jugement
Analyser, synthétiser, annoter, indexer un cours Synthèse
Un apprenant enrichit ou adapte un cours Adaptation
Un tuteur compose un cours Sélection, organisation,
rédaction, révision
Tableau I.1 – Typologie des activités dans le domaine du e-learning.
outil de communication du savoir, ce qui correspond à la notion de transmission. Ensuite,

nous retrouvons les activités liées à la production de documents (sélection, organisa-
tion, rédaction, révision et synthèse). Enfin, le rôle de l’encadreur nous rappelle le
rôle du tuteur avec des activités de type correction, vérification et jugement.
A partir de ces exemples, nous pouvons distinguer trois phases dans le cycle de vie
d’un document :
– La phase de production : selon Tazi [211], la composition d’un cours (d’un document)
englobe quatre activités : la sélection, l’organisation, la rédaction et la révision. La
tâche d’adaptation peut être vue comme une combinaison de ces quatre activités.
– La phase de transmission.
– La phase de lecture : le rôle d’un lecteur ne se limite pas à la lecture passive d’un
document, mais cette lecture est accompagnée d’une interprétation qui peut évoluer
vers d’autres tâches de vérification, de jugement ou de synthèse.
Certes ce processus de gestion de l’information n’est pas linéaire du fait qu’un pro-
ducteur effectue des tâches de lecture (par exemple pour sélectionner les fragments qui
constituent un document ou pour vérifier ce qu’il a rédigé). De même, un lecteur peut
se transformer en producteur, à partir du moment où il décide de produire de nouveaux
documents à partir de ceux qu’il a lu. La succession des opérations de rédaction, de
transmission et de lecture peut donc se transformer en une chaı̂ne où chaque nœud peut
modifier l’information à sa manière. En outre, la multiplication des rédacteurs et des
lecteurs ainsi que la diversification de leurs besoins et de leurs activités posent plusieurs
problèmes.
D’après Elayeb [98], le domaine de l’offre et de la demande de l’information a subi trois
changements majeurs. Le premier concerne la mise au format électronique des documents
papier. Le deuxième consiste en l’explosion de la quantité d’informations disponibles,
ce qui a fait naı̂tre, d’après Elayeb [98], des inquiétudes face à la fiabilité des sources
d’information et donc à la qualité de cette dernière. La validation de l’information qui
s’effectuait en amont par les auteurs, les éditeurs et les librairies est désormais la tâche
du lecteur [216]. Ce dernier se trouve, dans certains cas, incapable d’identifier la source
de l’information ou de juger de sa crédibilité. Cette difficulté s’amplifie dans le cas où
plusieurs acteurs participent à la production ou à la transmission d’une information.
C’est par exemple, le cas des forums où plusieurs informations sont échangées sans aucun
moyen d’identifier (ou de juger) leurs sources originelles ou les chemins qu’elles ont suivis.
La question qui se pose est donc : ”Comment s’assurer de la fiabilité d’une information
transmise par un ou plusieurs fournisseurs d’informations ?”.
7
La multiplication du nombre de fournisseurs de l’information a causé un autre chan-

gement. En effet, c’est la demande qui détermine le marché de l’information et non pas
l’offre. Ainsi, tout système de recherche d’information doit être centré sur l’utilisateur (ses
besoins, ses objectifs, ses préférences, etc.).
Les problèmes liés aux documents disponibles sur le Web restent valables pour un fonds
documentaire relatif à un domaine. Cette constatation est confirmée par Tricot [212] qui
traite de la problématique de l’accès à un fonds documentaire composé de documentation
scientifique et technique.
Avec une quantité énorme de documents, la première question qui se pose lors de
l’accès à un fonds documentaire est : ”Comment identifier l’information pertinente en
fonction d’un besoin ?”. La réponse à cette question passe par deux étapes. La première
permet l’expression des besoins et la deuxième s’attache à identifier l’information qui leur
correspond. Avec les moteurs de recherche actuels, un internaute trouve des difficultés
à exprimer ses besoins et à comprendre les résultats de ses recherches. Ces deux étapes
restent complexes du fait que l’utilisateur ignore la structure et le contenu de l’espace
qu’il interroge.
La deuxième question qui se pose est donc : ”Comment maı̂triser un espace infor-
mationnel ?”. Maı̂triser un espace vaste comme le Web est difficile, mais rechercher une
solution pour un fonds documentaire relatif à un domaine reste envisageable. Par exemple,
Tricot [212] a proposé des réponses à cette question en appliquant son approche dans le
domaine de l’industrie.
L’accroissement du nombre de fournisseurs de l’information et par conséquent de la
quantité des informations, pose un autre problème qui est celui de l’hétérogénéité. En effet,
nous nous plaçons dans un espace où chaque producteur d’informations peut avoir son
point de vue, sa compréhension personnelle d’un domaine et son interprétation particulière
de l’information. Il en résulte que chaque document représente un point de vue particulier.
C’est ainsi qu’émerge une autre problématique de l’accès à un fonds documentaire qui
concerne la gestion de la divergence [102, 167].
D’après cette analyse, nous pouvons identifier quatre besoins qui concernent l’accès à
un fonds documentaire relatif à un domaine :
– S’assurer de la fiabilité de l’information.

– Identifier l’information pertinente.
– Maı̂triser l’espace informationnel.
– Cerner et comprendre les divergences du domaine.
Vu que les technologies existantes ne permettent pas de répondre d’une manière sa-
tisfaisante à ces besoins, plusieurs réflexions ont été proposées pour faire évoluer le Web
selon diverses visions [65, 75, 229].
2 Les visions du Web

Les courants de recherche actuels s’orientent vers trois visions distinctes mais non
contradictoires du Web, à savoir [229] : le Web sémantique, le Web social et le Web
socio-sémantique.
8
2.1 Le Web sémantique

Les limites du Web actuel, qui est essentiellement syntaxique, ont poussé le W3C
(World Wide Web Consortium) à lancer le projet du Web sémantique [41]. Ce projet
apporte des solutions concrètes aux problématiques d’accès à un fonds documentaire.
L’idée consiste à ajouter au dessus des balises HTML, une couche qui permet au système
d’accéder directement à la sémantique des ressources. Ainsi, il est possible de libérer
l’utilisateur final d’une grande partie des tâches de manipulation de l’information.
Le projet Web sémantique est basé sur les principes suivants :
– Structuration logique des documents en utilisant le langage XML (eXtended Markup

Language [12]).
– Description structurée des ressources à travers les méta-données en utilisant les
langages RDF (Ressource Description Framework [10]) et RDFS (RDF Schema [11]).
– Utilisation des ontologies.
Les recherches dans le courant du Web sémantique ont permis de définir l’architecture
en couches du Web sémantique, qui est illustrée par la Figure I.1 [109].
Figure I.1 – Les couches du Web sémantique [109].
Cependant, cette architecture fortement formelle n’est pas la seule conception du Web
sémantique. D’autres auteurs tels que Zacklad [65] distinguent une deuxième approche
qu’ils appellent le ”Web cognitivement sémantique”. C’est une alternative à l’approche
présentée précédemment qu’ils qualifient de ”computationnelle”. Selon Zacklad, cette forte
formalisation, qui avait pour objectif d’automatiser la manipulation du sens par des agents
logiciels, néglige les besoins humains des utilisateurs. En outre, elle ne permet pas de faire
face au caractère évolutif et multi-points de vue des ressources, ce qui se traduit par
la difficulté de mise à jour des ontologies [225]. Comme solution, le Web cognitivement
sémantique propose que ”la structuration des contenus, si elle peut permettre une semi-
automatisation de certaines tâches, vise tout autant à accroı̂tre l’intelligibilité du Web pour
des utilisateurs humains engagés dans des pratiques de navigation et d’enrichissement
des contenus” [65]. En effet, le Web cognitivement sémantique donne une priorité à une
indexation permettant de guider la recherche et la navigation d’un acteur humain. C’est
une indexation partiellement manuelle de contenus évolutifs à travers des langages de
description normalisés mais suffisamment souples et ergonomiques [229].
9
2.2 Le Web social

Cette vision du Web a pour but de répondre aux besoins de communication, d’in-
teraction et d’échange de points de vue d’acteurs temporellement, géographiquement et
socialement dispersés. Ainsi, les fonctions d’interaction et de communication ont une prio-
rité, ce qui transforme l’ordinateur en un support de l’activité sociale. En plus, un intérêt
particulier est donné à la modélisation des réseaux sociaux, afin de se rapprocher des
relations sociales du monde réel tout en respectant les contraintes de confidentialité et
de protection de la vie privée. Etant orienté vers les humains, le Web social permet à
de simples utilisateurs non spécialistes de participer à l’indexation de documents et à
l’organisation des connaissances et des réseaux sociaux.
Selon Connolly [75], les applications du Web social (telles que le réseautage social, les
blogs et les wikis) combinent d’une façon ou d’une autre les attributs suivants :
1. L’identité : Comment identifier d’une manière précise les personnes ?
2. La réputation : Comment les personnes sont jugées ?
3. La présence : Où retrouver une personne ?
4. Les relations : Comment les personnes sont connectées ? Qui fait confiance à qui ?
5. Les groupes : Comment les connections sont organisées ?
6. Les conversations : Quels sont les objets des discussions ?
7. Le partage : Quel contenu partager ?
2.3 Le Web socio-sémantique

Cette dernière vision combine les deux précédentes en ajoutant une couche sociale au
Web cognitivement sémantique. Tel que décrit par Zacklad, le Web socio-sémantique [225]
”inscrit les pratiques de recherche et d’élaboration informationnelle des usagers du Web
dans des activités de coopération structurellement ouvertes qui reposent également sur des
pratiques communicationnelles intensives”. Il vise donc à intégrer les besoins sociaux des
utilisateurs, dont la communication, l’interaction avec l’information et l’échange des points
de vue, dans le processus de gestion des connaissances. Il s’en suit que la construction
d’ontologies doit répondre à ces besoins sociaux, d’où la nécessité d’adopter des modèles
de représentation semi-formels [229]. Dans ce cadre, un document est le résultat d’interac-
tions, pas forcément synchrones, d’acteurs dispersés spatialement, temporellement et so-
cialement. Ces interactions peuvent être initialisées, interrompues, réactualisées, répétées
dans toutes les configurations de présence ou d’absence du bénéficiaire et du réalisateur
[225]. Le sens du document se construit d’une manière progressive à travers les interactions
sociales qui constituent donc un support riche en connaissances. Ainsi, pour modéliser les
documents et/ou les connaissances, il faut tenir compte des éléments suivants [225] :
– La complexité des relations entre les documents et les fragments qui les composent.
– Le caractère évolutif des documents.
– La diversité des acteurs, leurs rôles et leurs privilèges.
– Le contexte de production des documents et les thèmes qu’ils abordent.
Ces caractéristiques ont mené Zacklad [226] à considérer les documents comme des pro-
ductions sémiotiques. Partant de cette constatation, il remarque que le Web actuel a causé
la multiplication des activités collectives centrées sur les documents. Ainsi, un document
doit être analysé comme le résultat d’une macro-transaction entre des réalisateurs et des
10
bénéficiaires. En outre, chaque macro-transaction est composée de micro-transactions aux-

quelles participent plusieurs acteurs. En effet, les documents sont plus fragmentés quand
le nombre d’acteurs qui participent à leur production augmente. Les micro-transactions
s’articulent dans le document à travers des éléments liés à sa structure, tels que les titres,
les sous-titres et d’autres éléments indiquant les statuts des fragments [226].
2.4 Comparaison des trois visions

La Figure I.2 situe les trois visions du Web l’une par rapport à l’autre. Le Web socio-
sémantique se situe entre le Web social et le Web sémantique sur le plan de la prise en
compte des besoins humains. En effet, si le Web sémantique se concentre sur les besoins
informationnels et si le Web social s’oriente vers les besoins de communication, le Web
socio-sémantique présuppose une co-détermination de ces deux types de besoins. Les trois
visions sont aussi hiérarchisées dans le même ordre en fonction du degré de formalisa-
tion. Ainsi, en allant du Web social au Web sémantique, des langages et des systèmes
d’organisation des connaissances, de plus en plus formels, sont utilisés. Enfin, le Web
sémantique modélise le point de vue de l’expert, ce qui constitue, selon Zacklad [225], les
attitudes ”hégémoniques” de cette vision. De l’autre coté, se situe le Web social qui ouvre
les perspectives vers une participation plus ouverte des utilisateurs finaux.
Figure I.2 – Les trois visions du Web.
Le choix d’une vision parmi ces trois peut se faire selon les critères suivants :
– La nature du corpus : plus le corpus est complexe et évolutif, plus il devient
difficile d’utiliser des systèmes formels.
– La nature des besoins : si les besoins sont plutôt informationnels, nous pouvons
adopter des solutions qui s’approchent de la vision du Web sémantique. Si nous
voulons nous concentrer sur les besoins de communication, nous adopterons des
11
technologies issues du courant du Web social. Le Web socio-sémantique répond

d’une manière synchrone aux deux types de besoins.
– La nature du support : selon Zacklad [225], le Web social privilégie souvent
la médiation substitutive pour faciliter les interactions synchrones à distance sans
recourir à des supports pérennes. Le Web socio-sémantique privilégie la stratégie
de documentarisation consistant à enregistrer une production sémiotique sur un
support pérenne. Cette stratégie permet la réutilisation des documents et facilite
l’investissement documentaire des usagers, ce qui garantit la qualité des transactions
ultérieures. Enfin, le Web sémantique formel tend à représenter les contenus et les
connaissances à travers des langages formels.
– La nature des collectifs visés : le Web sémantique préconise de représenter les
connaissances consensuelles d’un collectif alors que le Web socio-sémantique (et
encore plus le Web social) s’adresse à des collectifs hétérogènes ayant des points de
vues différents voire divergents.
– Degré d’ouverture (vs. fermeture) sémiotique : ce critère est défini par Za-
cklad comme suit [225] : Dans tous les cas où l’ouverture des situations transac-
tionnelles de référence implique de maintenir une relative ouverture sémiotique,
il est souhaitable d’utiliser les ontologies sémiotiques pour guider la navigation à
l’intérieur des corpus [...] : trouver des lieux touristiques correspondant à un pro-
jet culturel, par exemple. A l’inverse, le recours à la formalité machinale [...] est
nécessaire quand la signification véhiculée par les situations transactionnelles est
étroitement confinée : trouver des places d’avion entre deux dates précises, par
exemple.
La fermeture sémiotique correspond au cas où la machine prend la décision à la
place de l’être humain en dénombrant tous les cas possibles. L’ouverture sémiotique
est proportionnelle au degré de participation/coopération des utilisateurs dans le
processus de prise de décision.
Ces critères facilitent la conception des applications du futur en aidant à choisir le
Système d’Organisation de Connaissances (SOC) le plus adéquat.
3 Les systèmes d’organisation des connaissances

Les systèmes d’organisation des connaissances visent à représenter le langage natu-
rel ou les connaissances humaines et à faciliter l’accès aux documents. Les systèmes
les plus simples sont les lexiques et les glossaires qui visent à représenter le langage
au niveau lexical avec certains traits sémantiques [112]. Ensuite, les thésaurus viennent
ajouter une couche de relations sémantiques entre termes [198]. Pour représenter les re-
lations hiérarchiques, les hiérarchies informelles, telles que les classifications et les an-
nuaires thématiques, ont été introduites [226]. Pour arriver au formel, il a fallu définir des
hiérarchies de classes strictes auxquelles sont ajoutés des liens d’instanciation, ensuite la
description des propriétés des classes et enfin des connaissances inférentielles.
Dans cette section, nous introduisons et nous comparons les SOC actuellement utilisés
dans les trois visions du Web, à savoir les thésaurus, les systèmes d’indexation collaboratifs
et les ontologies.
3.1 Les thésaurus

La norme ISO 2788 définit un thésaurus comme [7] ”un vocabulaire d’un langage d’in-
dexation contrôlé, organisé formellement de façon à expliciter les relations a priori entre
12
les notions (par exemple relation générique/spécifique)”. La même norme définit un lan-
gage d’indexation comme ”un ensemble contrôlé de termes choisis dans une langue natu-
relle et utilisés pour représenter, sous forme condensée, le contenu des documents” [198].
Un thésaurus englobe un ensemble de termes qui constituent un lexique et qui sont
destinés à être utilisés par les indexeurs comme descripteurs des documents. Ils incluent
aussi un ensemble de relations dont la typologie diffère d’un thésaurus à un autre. WordNet
est l’exemple le plus célèbre de thésaurus disponible en plusieurs langues dont les langues
des pays européens [184] et la langue arabe [100].
Pour comprendre la nature des thésaurus, il est nécessaire de faire la distinction entre
”terme” et ”concept”. Selon Zacklad [226], les concepts correspondent à un ensemble
restreint de notions associées aux ressources cognitives d’une collectivité. Un terme est
une expression linguistique qui représente un concept. Etant donné qu’un concept peut
avoir plusieurs représentants, la construction d’un thésaurus consiste à sélectionner, pour
chaque concept, le meilleur représentant, à savoir celui qui sera le plus adéquat pour
indexer les documents.
Zacklad distingue deux caractéristiques des thésaurus [226] :
1. Les thésaurus sont crées pour des fins d’indexation et non pour un objectif de
représentation des connaissances.
2. Ils utilisent une représentation des concepts qui les font dépendre des langues et
des mises en discours. Ceci engendre des ambiguı̈tés et des incohérences dans le
thésaurus quand il est appréhendé comme un SOC.
3.2 Les systèmes d’indexation collaboratifs

Il s’agit de systèmes construits par une communauté d’indexeurs qui coopérent à tra-
vers le Web. Les annuaires de ressources sont pris en charge par des communautés de
volontaires dont chacun a des droits de mise à jour du SOC, qui sont proportionnels à sa
réputation. Il s’agit donc d’un processus social d’indexation où les individus qui ont plus
d’autorité contrôlent ceux qui en ont moins. La réputation ou l’autorité d’un individu est
définie selon ses contributions antérieures.
Les SOC préférés dans le Web social sont les folksonomies [154]. Une folksonomie est
le résultat d’une indexation sociale et collaborative, qui permet aux utilisateurs de choisir
librement les mots-clés qui indexent les documents. Ceci leur permet de les retrouver ou
de les partager avec les autres utilisateurs. Un tel système réduit l’effort cognitif étant
donné la simplicité de la tâche d’indexation. En outre, le fait que les ressources soient
accédées et indexées par un nombre élevé d’individus constitue une fonction de régulation
qui permet d’avoir un feedback sur les mots-clés choisis [101]. Cependant, avec l’ouverture
totale du système, cette fonction de régulation ne garantit pas la cohérence des indexes. En
effet, l’absence d’un mécanisme de contrôle peut causer des imprécisions et des ambiguı̈tés
terminologiques telles que la synonymie et la polysémie.
3.3 Les ontologies

C’est à l’occasion de l’émergence de l’ingénierie des connaissances que les ontolo-
gies sont apparues en intelligence artificielle, comme réponse aux problématiques de
représentation et de manipulation des connaissances au sein des systèmes informatiques
[109]. Ensuite, l’ontologie est devenue un élément central dans l’évolution du Web. Avec
13
la divergence des points de vue concernant cette évolution, il est difficile de donner une
définition du terme ontologie. Nous pouvons remarquer le degré de divergence en lisant
l’état de l’art de Gaëlle [112], qui considère les lexiques, les glossaires et les thésaurus
comme des ontologies. Cependant, nous pouvons distinguer deux points de vue concer-
nant la nature des ontologies et leurs rôles. Le premier est celui du Web sémantique
formel et le deuxième est celui du Web socio-sémantique. Avant de détailler ces deux
points de vue, il nous semble utile de présenter une typologie des ontologies selon l’objet
de conceptualisation.
3.3.1 Typologie selon l’objet de conceptualisation

Les typologies d’ontologies mises au point sont très diverses [120]. Gaëlle [112] s’est
proposé de présenter les types d’ontologies les plus couramment utilisés sans pour autant
fournir une typologie exhaustive. Il considère qu’il existe deux types, à savoir :
– Les ontologies de haut-niveau : ce type d’ontologie décrit des concepts généraux
ou des connaissances de sens commun telles que l’espace, le temps, l’événement,
l’action, etc. qui sont indépendants d’un problème ou d’un domaine particulier.
Ainsi, elles sont réutilisables d’un domaine à un autre.
– Les ontologies spécialisées : du point de vue formel, ces ontologies ”spécialisent”
un sous-ensemble d’ontologies de haut niveau en un domaine ou un sous-domaine.
Elles sont destinées à être utilisées dans des domaines et/ou applications particuliers.
Ainsi, il est possible de distinguer trois types d’ontologies spécialisées :
– Les ontologies de domaine qui contiennent des connaissances en relation avec un
domaine générique comme la médecine ou la physique.
– Les ontologies des tâches qui définissent un vocabulaire en relation avec une tâche
ou une activité générique comme le diagnostic ou la vente.
– Les ontologies d’application qui décrivent les rôles joués par les entités d’un do-
maine donné lorsqu’elles effectuent certaines activités.
3.3.2 Les ontologies dans le Web sémantique formel

i) Définitions
Même au sein du courant du Web sémantique, plusieurs définitions du terme ontologie
existent [109]. Cependant, un certain consensus s’est établi sur le rôle des ontologies dans
le processus de représentation des connaissances, consensus bâti autour de la définition
de Gruber [121]. Une ontologie est une spécification explicite d’une conceptualisation.
Guarino et Giaretta [123] affinent cette définition en considérant les ontologies comme des
spécifications partielles et formelles d’une conceptualisation. Les ontologies sont formelles
car exprimées sous forme logique, et partielles car une conceptualisation ne peut pas être
entièrement formalisée dans un cadre logique, à cause des ambiguı̈tés ou du fait qu’aucune
représentation de leur sémantique n’existe dans le langage de représentation d’ontologies
choisi [109].
Charlet et al. [68] précisent les contraintes qui s’imposent successivement aux concep-
teurs des ontologies :
– Une ontologie est bien une conceptualisation.
– Devant être par la suite utilisée dans un artefact informatique dont nous voulons
spécifier le comportement, l’ontologie devra également être une théorie logique pour
laquelle le vocabulaire manipulé est précisé.
14
– La conceptualisation étant spécifiée parfois de manière très précise, une théorie

logique ne peut pas toujours en rendre compte de façon exacte et ne le fait donc
que partiellement.
– Etant donné qu’une ontologie implique une vue du monde, celle-ci doit être partagée
par une communauté, sinon elle n’aura aucune utilité théorique ou pratique.
ii) Les constituants et les axes de structuration

Dans les ontologies formelles, les connaissances portent sur des objets auxquels nous nous
référons à travers des concepts. Un concept peut représenter un objet matériel, une notion
ou une idée [213]. Il peut être divisé en trois parties : un ou plusieurs termes, une notion
et un ensemble d’objets. La notion, également appelée ”intension du concept”, contient la
sémantique du concept, exprimée par des propriétés, des règles et des contraintes. L’en-
semble d’objets, également appelé ”extension du concept”, regroupe les objets manipulés
à travers le concept ; ces objets sont appelés instances du concept. Par exemple, le terme
”table” renvoie à la fois à la notion de table comme objet de type ”meuble” possédant un
plateau et des pieds, mais également à l’ensemble des objets de ce type.
Nous pouvons déduire les axes de structuration d’une ontologie comme suit. En pre-
mier lieu, un concept est lié par référence à un ensemble d’individus d’où la sémantique
référentielle. En second lieu, l’exemple du concept ”table” montre que cette notion ne
peut se définir qu’en utilisant d’autres concepts comme ”meuble”, ”plateau” et ”pied”.
De ce fait, les concepts manipulés, dans un domaine de connaissances, sont organisés au
sein d’un réseau. Les concepts y sont structurés hiérarchiquement et liés par des pro-
priétés conceptuelles [109]. Dans cette hiérarchie, un concept possède une sémantique
différentielle [67] qui permet de le distinguer de ses pères et de ses frères. En effet,
la construction d’une ontologie commence par l’identification des concepts et leurs rela-
tions à travers les termes qui les représentent. Ces termes sont ensuite désambiguı̈sés et
décontextualisés pour obtenir une ontologie différentielle. L’identification des instances de
chaque concept permet de passer à une ontologie référentielle. En dernier lieu, le passage
au niveau computationnel, par la traduction de l’ontologie dans un langage formel, permet
d’ajouter une sémantique inférentielle qui permet d’inférer de nouvelles connaissances.
Une ontologie contient donc en plus des concepts, des relations ainsi que des connaissances
inférentielles.
Les relations : Nous pouvons retrouver dans une ontologie divers types de relations.
Nous distinguons comme dans [68], la relation hiérarchique ”is-a” (ou hyperonymie) qui
est utilisée pour structurer les ontologies des autres relations. La relation ”is-a” permet -
au sens du formel - l’héritage de propriétés entre les concepts. Les autres relations unissent
les concepts ensemble pour construire des représentations conceptuelles complexes. Par
exemple, si nous définissons ”appendicite” comme une ”inflammation localisée-sur l’ap-
pendice”, ”localisée-sur ” est une relation entre ”inflammation” et ”appendice”.
Les connaissances inférentielles : selon le point de vue de la sémantique formelle,

décrire les connaissances à travers les concepts, les relations et les propriétés ne suffit
pas pour atteindre l’objectif opérationnel d’une ontologie. Il s’agit également de tirer au
maximum parti de ce qui fait la spécificité du support informatique par rapport au support
écrit traditionnel, c’est-à-dire la possibilité de manipuler les connaissances pour en inférer
de nouvelles.
15
Ces connaissances peuvent être des faits, des règles ou des contraintes. L’énoncé ”l’en-
treprise E compte 20 salariés” est un exemple de fait. Une règle permet d’inférer de nou-
velles connaissances et contient donc une implication. La règle ”si une entreprise compte
X salariés, alors elle paye X*100 DT de charges” permet de calculer les charges d’une
entreprise. Comme exemple de contrainte, il est possible d’imposer que toute société im-
portante possède obligatoirement un conseil d’administration.
iii) Les rôles des ontologies

Selon Mizoguchi et Bourdeau [167], l’ontologie permet de réaliser les objectifs suivants :
– Partage et réutilisation : le processus de construction des ontologies devrait
aider une communauté d’agents à partager une expérience de construction afin de
modéliser leurs connaissances consensuelles.
– Interopérabilité sémantique : la source de la puissance de l’ontologie vient du fait
qu’elle permet l’interopérabilité sémantique entre l’ordinateur et l’homme et entre
les humains. L’objectif est d’harmoniser des sources hétérogènes d’information ou
des personnes travaillant dans des domaines différents.
– Raisonnement sur les connaissances : l’ingénierie ontologique permet une bonne
structuration des problèmes dans un domaine, ce qui a pour conséquence de révéler
les incohérences, notamment en utilisant les connaissances inférentielles.
– Précision et expressivité du langage : étant donné que les concepts partagés
sont représentés par des termes décontextualisés et désambiguı̈sés, l’ontologie ga-
rantit la précision et l’expressivité du langage. Ainsi, l’un des rôles d’une ontologie
est de lever les ambiguı̈tés terminologiques et de trouver un consensus sur des signi-
fications précises des termes. En plus, le langage utilisé est suffisamment expressif
pour que les personnes puissent exprimer leurs intensions.
3.3.3 Les ontologies dans le Web socio-sémantique

i) Définitions
Les ontologies sémiotiques préconisées par le Web socio-sémantique sont définies comme
des productions sémiotiques cohérentes qui regroupent des expressions stéréotypées ex-
traites des transactions communicationnelles [225]. Il s’agit d’une approche situationnelle
de la sémantique décrite par Zacklad comme suit [225] : ”L’approche situationnelle (ou
pragmatique) ancre la signification dans la situation transactionnelle elle-même et dans
ses différentes composantes. Les expressions ne sont pas seulement rapportées à l’envi-
ronnement interne de la production sémiotique considérée, à leur proximité sémantique,
mais également aux paramètres de la situation transactionnelle dans leur diversité : pro-
jet commun, nature des relations sociales entre les participants et caractéristiques de ces
derniers, cadre spatio-temporel et conditions environnementales, terrain représentationnel
commun, etc.”.
Zacklad [225] ajoute qu’il faut discriminer finement les fragments de documents sur
la base d’attributs aussi divers que les auteurs impliqués, le contexte de production et les
thématiques abordées dans tel ou tel fragment. Ainsi, les ontologies sémiotiques doivent
représenter le contexte de production et les thèmes des fragments et tenir compte de leur
évolution. Enfin, elles sont multi-points de vue étant donné la diversité des acteurs, leurs
rôles et leurs privilèges.
Pratiquement, nous retrouvons dans les travaux de l’équipe dirigée par Zacklad, deux
formalismes dédiés aux ontologies sémiotiques, à savoir :
16
– Hypertopic : c’est un méta-modèle proposé par Zacklad et al. [230] qui hérite de
celui des cartes topiques [9]. Il représente un ensemble de ressources organisées en
des hiérarchies de thèmes (ou thématisations) multi-points de vue construites d’une
manière coopérative par des experts [64].
– Les réseaux de description : ce sont des graphes orientés acycliques dont les
nœuds sont des descripteurs et les arcs sont des spécialisations. Un nœud A spécialise
un nœud B si tout objet documentaire décrit par B l’est aussi par A. Aucune
sémantique ni contrainte n’est imposée sur la nature des connaissances à encoder
dans un tel réseau. Cependant, on y définit des facettes qui sont des descripteurs
non généralisables utilisés pour représenter les différents points de vue [39].
ii) Les constituants et les axes de structuration

Selon Zacklad [225], les ontologies sémiotiques regroupent des expressions stéréotypées ex-
traites des transactions communicationnelles et appelées ”concepts sémiotiques”. Ce sont
des expressions contextualisées dédiées à des types de problèmes impliquant l’exploration
systématique de corpus.
Les ontologies du Web socio-sémantique sont organisées selon un axe sémiotique qui in-
clut les paramètres des transactions communicationnelles, qui définissent le sens de chaque
concept. Ainsi, le sens n’est pas déterminé uniquement en fonction du contexte représenté
par le discours où il apparaı̂t, comme par exemple dans le cas de la construction d’une on-
tologie différentielle. Néanmoins, il est possible d’étudier les différences entre les concepts
sémiotiques à condition de prendre en compte tous les critères de la situation transac-
tionnelle. Reste à remarquer que les concepts sémiotiques ne sont pas décontextualisés
et que les ontologies sémiotiques ne sont pas construites pour des besoins d’inférence
automatique, ce qui implique l’inexistence d’une sémantique référentielle ou inférentielle.
iii) Les rôles des ontologies

Comparées aux ontologies du Web sémantique, les ontologies sémiotiques ne visent pas
l’interopérabilité sémantique entre machines ni le raisonnement automatique sur les connais-
sances. Le partage des connaissances est vu dans le cadre de la coopération entre acteurs
ayant des points de vue différents voire concurrents. L’objectif est de documenter les tran-
sactions communicationnelles en représentant l’historique des opérations de mise à jour
effectuées sur un SOC, qui devient ainsi une ressource évolutive. La précision et l’expressi-
vité du langage sont aussi vues sous l’angle des paramètres transactions entre les acteurs,
étant donné que le sens d’un concept dépend de ces paramètres.
La construction des ontologies sémiotiques s’inscrit dans une perspective de Recherche
Ouverte d’Information (ROI)[226]. Dans ce cadre, l’ontologie permet d’analyser une si-
tuation complexe dans une démarche d’enquête en vue de résoudre un problème. Zacklad
[226] affirme que ”la ROI ne consiste pas seulement à accéder à des documents ou à
des fragments documentaires pertinents mais à délimiter les contours du problème en
identifiant les informations existantes et celles qui ne le sont pas : c’est un processus
de découverte et d’apprentissage permettant de poser un problème dans le cadre d’une
démarche d’enquête”.
3.4 Comparaison des SOC

Les thésaurus, les systèmes d’indexation collaboratifs et les ontologies ont tous pour
objectif l’organisation des connaissances et des ressources documentaires. Cependant, ils
17
se distinguent par un ensemble de critères que nous pouvons déduire de l’article de Za-
cklad [226] qui les compare du point de vue de la ROI. Le tableau I.2 synthétise cette
comparaison.
Degré de Présence d’une Type de com- Mise à jour

formali- théorie munauté concep-
sation trice
Thésaurus Semi- Théorie discipli- Professionnels des Systématique,
formel naire bibliothèques ou de régulée par
la documentation l’évolution
du fonds
documentaire
Ontologie Formel Théorie discipli- Ingénieurs de la Rare et com-
formelle naire connaissance plexe
Ontologie Semi- Points de vue Conception partici- Progressive et
sémiotique formel complémentaires pative régulée (ex- négociée
mais conflictuels pertise multiple)
Annuaire Semi- Pas de théorie ex- Conception partici- Progressive et
collaboratif formel plicite du domaine pative régulée (ex- négociée
Internet pertise multiple)
Folksonomie Informel Pas de théorie ex- Grand public Fréquente,
plicite du domaine facile et
immédiate
Tableau I.2 – Critères de comparaison des SOC.
Le choix du SOC adéquat implique un choix du degré de formalisation. Du point de

vue présence d’une théorie, les folksonomies et les annuaires semblent être les systèmes
les plus faibles en terme de représentation des connaissances. La dépendance par rap-
port aux utilisateurs (des folksonomies) ou par rapport aux fonds documenatires (des
thésaurus) engendre des ambiguı̈tés et des incohérences. Cependant, les ontologies du
Web sémantique formel se concentrent sur les besoins de représentation des connaissances
plutôt que sur l’indexation des ressources documentaires. Les ontologies sémiotiques es-
saient de répondre, d’une manière équilibrée, à ces deux besoins. Le degré de collaboration
de ce type d’ontologies est relativement moyen ce qui les situe entre les systèmes ouverts
tels que les folksonomies et les systèmes fermés comme les ontologies formelles. Notons
enfin que le degré d’ouverture influence les tâches de mise à jour qui sont à la fois plus
fréquentes et plus faciles dans les systèmes ouverts.
Nous concluons que les ontologies (au sens formel ou sémiotique) sont les SOC les plus
adaptés pour gérer des fonds documentaires dans une perspective de représentation des
connaissances et de recherche d’information. En effet, l’ingénierie ontologique s’applique
à un domaine pluridisciplinaire, multidimensionnel, riche en connaissances et en théories
et ayant plusieurs niveaux de détail. En outre, elle permet l’étude des points de vue que
ce soit pour arriver à un consensus ou pour permettre l’étude des divergences. L’ontologie
représente ainsi un modèle qui offre une vue globalisante d’un domaine au dessus duquel
il est possible de mettre en place des moyens d’accès aux ressources documentaires. Enfin,
le choix du type d’ontologie doit se faire en fonction des critères que nous avons énumérés
dans la section 2.4 (voir page 11) et en fonction des mécanismes à implémenter pour
accéder à l’information.
18
4 Les systèmes d’accès à l’information

Une panoplie de modalités d’accès aux fonds documentaires a été proposée dans la
littérature [98, 106, 212]. Par exemple, Fellah [106] distingue quatre types de recherche, à
savoir la recherche arborescente (à base d’un annuaire, d’une ontologie ou d’une carte de
thèmes), la recherche par requête, la recherche par navigation et la recherche personnalisée
(qui tient compte du profil de l’utilisateur). Il est clair que ces catégories se chevauchent.
Par exemple, il est possible de tenir compte du profil de l’utilisateur dans une recherche par
requête. Il est aussi possible de combiner certaines modalités dans le même système. Ainsi,
certains portails tels que Yahoo !, combinent un moteur de recherche à base de requêtes
avec un annuaire. Face à cette diversité, nous préférons classer les systèmes d’accès à l’in-
formation en trois principales catégories, à savoir les systèmes de recherche d’information
(SRI), les bibliothèques virtuelles et les systèmes de cartographie des connaissances. Cette
classification correspond à l’évolution historique des systèmes d’accès à l’information et
nous permet de distinguer plusieurs critères qui discriminent ces trois catégories (voir
section 4.4).
4.1 Les systèmes de recherche d’information

L’objectif d’un SRI est de retrouver parmi un ensemble de documents ceux qui répon-
dent aux besoins d’un utilisateur, représentés souvent sous forme de requête. Les docu-
ments pertinents sont ceux qui contiennent les informations dont l’utilisateur a besoin
pour compléter son état de connaissance ou pour résoudre un problème. Cette section
rappelle les composantes d’un SRI et les principales étapes du processus de recherche, à
savoir l’indexation, l’appariement et l’évaluation.
4.1.1 Les composantes d’un SRI

La Figure I.3 présente les composantes d’un SRI et leurs interactions. Dans cette archi-
tecture, la requête et les documents sont analysés et indexés pour générer respectivement,
les modèles de requête et de documents. Ces modèles sont mis en correspondance dans
l’étape d’appariement pour évaluer la pertinence de chaque document à la requête. L’étape
d’évaluation permet d’avoir le jugement de l’utilisateur qui est propagé par rétroaction
au modèle de requête afin d’améliorer les résultats de la recherche.
4.1.2 Analyse et indexation

L’indexation consiste à associer à un document (ou à une requête) un ensemble de
”descripteurs” qui reflètent les idées et les concepts qu’il véhicule. L’indexation des docu-
ments est basée, d’une manière ou d’une autre dans les différents modèles, sur le calcul des
fréquences des termes afin de les pondérer ou identifier leur pouvoir discriminant. Parmi
les mesures les plus utilisées, citons TF-IDF [200] qui consiste à considérer qu’un terme
est pertinent pour indexer un document s’il est fréquent dans ce document et non fréquent
dans les autres documents de la collection. En effet, le poids d’un terme ti pour un do-
cument dj contenant N termes est calculé comme suit. Nous commençons par calculer la
fréquence de ti dans dj en utilisant la formule suivante [200] :
Occ(ti , dj )
T Fi,j = PN (I.1)
i=1 Occ(ti , dj )
19
Figure I.3 – Les composantes d’un Système de Recherche d’Information [98].
Dans cette formule, Occ(ti , dj ) est le nombre d’occurrences de ti dans dj . Il est di-
visé par la somme des nombres d’occurrences de tous les termes dans le document. Ces
fréquences sont souvent normalisées (en divisant par le maximum) pour tenir compte de
la différence de longueur entre les documents. Le terme ti est pondéré en utilisant TF-IDF
comme suit [200] :
TF-IDFi,j = T Fi,j ∗ IDFi (I.2)

Le poids de ti pour le document dj est égal au produit de sa fréquence (T Fi,j ) avec le
facteur IDFi qui dénote la fréquence inverse des documents donnée par :
|D|
IDFi = log (I.3)
|{dj |ti ∈ dj }|
où D est l’ensemble des documents du corpus et {dj |ti ∈ dj } est l’ensemble des documents
qui contiennent ti .
4.1.3 Mise en correspondance ou appariement

Il s’agit de mettre en correspondance ou d’apparier les deux représentations : celle de
la requête et celle du document. Leur comparaison permet de calculer un score de ressem-
blance qui traduit la pertinence du document par rapport à la requête. Avec l’évolution
des SRI, plusieurs modèles d’appariement ont été proposés [60, 110, 111, 157, 172]. L’un
des premiers est le modèle booléen [111] où les documents et les requêtes sont représentés
à l’aide de formules logiques. Pour apparier une requête q à un document d, il suffit de
vérifier que l’implication suivante est valide : d ⇒ q, ce qui donne un résultat booléen. Dans
le modèle vectoriel [110], qui constitue une alternative au modèle booléen, les requêtes et
les documents sont représentés à l’aide de vecteurs qui contiennent les poids des termes.
La distance entre le vecteur du document et celui de la requête peut être calculée en
utilisant plusieurs types de mesures, telles que le produit scalaire ou la mesure du cosinus
[110].
20
Le modèle probabiliste [172] se base sur l’hypothèse suivante : le résultat idéal d’une
requête est constitué de documents qui peuvent être caractérisés par un sous-ensemble de
termes d’indexation. L’appariement probabiliste permet de trier les documents en fonction
de la présence ou l’absence des termes appartenant à ce sous-ensemble. L’identification
des termes, ayant une forte probabilité d’être caractéristique de l’ensemble idéal des do-
cuments, se fait dans une étape d’apprentissage.
Tous ces modèles sont dits de ”première génération” [98] par opposition aux modèles
bayésien [157] et possibiliste [60] qui sont des modèles de la deuxième génération. Le
premier est basé sur les réseaux bayésiens et la formule de Bayes pour le calcul des
probabilités de pertinence. Selon Elayeb [98], la notion de pertinence est difficilement
raffinable dans ce modèle. En plus, l’évaluation des documents par rapport à une requête
ne prend en compte que les termes d’indexation présents à la fois dans les documents et
dans la requête. Le modèle possibiliste, basé sur la théorie des possibilités [232] et que
nous adoptons dans cette thèse, est présenté dans le chapitre IV (section 4, page 74).
4.1.4 Evaluation des SRI

La performance d’un SRI est mesurée en comparant les résultats retournés suite
l’exécution d’une requête par rapport à ceux attendus. Il faut donc connaı̂tre, pour
chaque requête, les documents qui constituent le résultat idéal. Pour cela, des corpus
de référence ont été crées (par exemple le corpus construit lors de la campagne INEX
[116]). Ils contiennent une liste de requêtes ainsi que les documents qui leurs sont perti-
nents et qui ont été identifiés à la main. En l’absence de tels corpus, les résultats d’un SRI
doivent être évalués manuellement par des experts. Dans les deux cas, trois métriques sont
utilisées pour évaluer un SRI, à savoir le rappel, la précision et la F-mesure [214]. Soit
P ert l’ensemble des documents pertinents dans un corpus et Res l’ensemble des résultats
d’une requête. Le rappel évalue la proportion de documents pertinents retrouvés par rap-
port à ceux réellement pertinents. Son complément s’appelle ”le silence” et il traduit la
proportion de documents pertinents non retrouvés. Nous avons alors [214] :
|P ert| ∩ |Res|
Rappel = ∈ [0, 1] et Silence = 1 − Rappel (I.4)
|P ert|
La précision évalue la proportion de documents pertinents retrouvés par rapport à

tous les documents retournés par le SRI. Son complément est ”le bruit” qui traduit la
proportion de documents retournés qui ne sont pas pertinents [214] :
|P ert| ∩ |Res|
P récision = ∈ [0, 1] et Bruit = 1 − P récision (I.5)
|Res|
La Figure I.4 illustre ces formules.

Pour donner une valeur globale de la performance d’un SRI, la F-mesure combine ces
deux métriques comme suit [214] :
(1 + β 2 ) ∗ P récision ∗ Rappel
F-mesure = (I.6)
(β 2 ∗ P récision) + Rappel
Dans cette formule, le facteur β a été introduit pour pondérer les deux métriques.
Généralement sa valeur est fixée à 1 pour donner le même poids aux deux métriques.
21
Figure I.4 – Métriques d’évaluation des SRI [214].
4.2 Les bibliothèques virtuelles

A l’inverse des SRI qui retournent une liste statique de documents (ou fragments), les
bibliothèques virtuelles modélisent les fonds documentaires comme un réseau de fragments
adaptable selon les besoins des utilisateurs. D’après Falquet et Hurni [102], la notion de
document virtuel est née du besoin d’une lecture active d’un document ayant une structure
complexe. La personnalisation consiste à fournir des vues différentes d’un même document
en fonction des types et des objectifs des utilisateurs. Pour mieux comprendre ces notions,
nous avons recensé les définitions existantes dans la littérature [103, 122, 191, 218] :
– Document virtuel (DV) : c’est un document généré à la demande, à partir de

plusieurs sources d’information [122]. Il ne possède pas d’état persistant et toutes
les instances (documents réels) sont générées lors de la consultation [218].
– Document virtuel personnalisable (DVP) : c’est un document virtuel muni de
mécanismes qui permettent de l’adapter aux besoins de l’utilisateur [191]. Il est com-
posé de deux parties désignées dans [103] par ”partie structurelle” et ”spécification
d’interface”. La première correspond à la partie statique du document (les frag-
ments) et la deuxième à la partie dynamique qui permet de constituer des documents
personnalisés.
– Bibliothèque virtuelle : c’est une collection de DV qui permet d’assembler des
informations issues de documents différents, d’où la disparition du caractère mono-
lithique du document [103].
Nous allons étudier les différents aspects des bibliothèques virtuelles à travers quatre
exemples de projets. Nous en déduisons quatre dimensions d’une bibliothèque virtuelle,
à savoir : la modélisation et l’indexation des documents, la gestion des points de vue, la
prise en compte du profil de l’utilisateur et les stratégies d’adaptation.
4.2.1 Exemples de projets basés sur les DVP
i) Le projet ICCARS
Iksal et Garlatti [140] proposent un modèle générique pour les DVP. Il a été appliqué dans
le projet ICCARS, dont le but est d’aider les journalistes à créer des dossiers thématiques
adaptatifs. Dans ce modèle, chaque fragment est indexé par des méta-données et par des
22
concepts provenant d’une ontologie de domaine (qui résument le sens de son contenu) et
les concepts d’une ontologie d’application (qui précisent son type).
L’auteur d’un document lui associe un ensemble de structures narratives. Une telle
structure est un graphe orienté dont les nœuds sont des spécifications de fragments et les
liens sont des relations sémantiques typées. Une spécification de fragment contient des
contraintes sur ses méta-données, sa description conceptuelle ou son type. La génération
d’un document destiné à être lu par un utilisateur est une instanciation d’une structure
narrative.
ii) La bibliothèque d’hyperlivres

Falquet [103] présente un modèle de DV pour les hyperlivres et un modèle de bibliothèque
virtuelle. Le modèle de document tient compte d’une structuration hiérarchique et d’une
indexation conceptuelle des fragments. Une deuxième version du même modèle est présentée
dans [102] pour tenir compte du caractère multi-points de vue d’un domaine.
Pour construire un document de lecture à partir d’une collection de fragments, Falquet
propose d’utiliser les schémas de nœuds qui définissent des contraintes qui permettent de
sélectionner un ensemble de nœuds et de les assembler [103].
iii) Le projet Karina

L’objectif de ce projet [78] est de construire des cours adaptés à un apprenant particulier.
Pour ce faire, chaque ressource pédagogique est indexée par son auteur qui doit en fournir
une description conceptuelle, les pré-requis nécessaires pour l’utiliser et le temps nécessaire
pour l’étudier. L’utilisateur étant décrit par ses connaissances initiales et ses objectifs, le
système propose un parcours composé d’une suite de ressources [78]. La première res-
source sélectionnée est celle qui correspond le plus à l’objectif de l’utilisateur. Le système
suppose ensuite que la ressource a été consultée par le lecteur et ajoute sa description aux
connaissances de ce dernier. Il itère ces deux étapes pour hiérarchiser toutes les ressources.
iv) Le projet Sybil

Ce projet adopte la même structuration que le projet Karina en ajoutant une couche
pédagogique. En effet, chaque ressource est indexée par son rôle pédagogique (exemple,
test, explication, etc.) issu d’une ontologie pédagogique qui définit des règles et des
stratégies pédagogiques utilisées pour composer un cours [78].
4.2.2 Modélisation et indexation des documents

La structure d’un document peut être vue comme une hiérarchie de fragments. Falquet
et al. [103] étendent cette définition puisqu’ils définissent un document comme un ensemble
de fragments reliés par des liens typés. A chaque fragment est attribuée une catégorie
qui indique la nature de son contenu. La catégorisation des fragments et des liens est
utilisée aussi dans le projet ICCARS [140] qui utilise une ontologie d’application qui fixe
la typologie des liens et des fragments.
Cependant, le point commun entre les quatre projets décrits ci-dessus consiste à utiliser
les concepts issus d’une ontologie de domaine pour indexer les fragments de documents.
Falquet et al. [103] proposent d’inférer de nouveaux liens entre fragments en se basant
sur les relations de l’ontologie et les liens d’indexation. Par exemple, il est possible de lier
deux fragments s’ils sont indexés par le même concept.
23
4.2.3 La gestion des points de vue

La gestion des points de vue est prise en compte soit au niveau du document soit au
niveau de la bibliothèque. Dans ce cadre, Falquet et Hurni [102] considèrent que chaque
document, relation ou définition reflète un point de vue particulier. En effet, nous pouvons
considérer que chaque livre représente le point de vue de son rédacteur. Une bibliothèque
est assimilée à une ontologie multi-points de vue constituée par intégration de plusieurs
ontologies dont chacune est issue d’un livre.
4.2.4 La prise en compte du profil de l’utilisateur

La modélisation de l’utilisateur est nécessaire pour la prise en compte de ses besoins.
A partir des projets décrits ci-dessus, nous pouvons distinguer plusieurs éléments qui
peuvent être incorporés dans le profil d’un utilisateur. Certains projets modélisent les
connaissances initiales de l’utilisateur, celles qu’il souhaite acquérir et ses préférences
(par exemple en terme de stratégie d’adaptation ou d’affichage). Parmi les éléments les
plus importants du point de vue social, citons les centres d’intérêt, la pratique ou le rôle et
le niveau d’expertise de l’utilisateur. Ces éléments permettent de regrouper les utilisateurs
en communautés dont chacune s’intéresse d’une manière spécifique aux documents.
4.2.5 Les stratégies d’adaptation

Les mécanismes d’adaptation dans un espace virtuel peuvent être définis selon deux
stratégies. La première consiste à définir explicitement des structures (de type schéma de
nœuds [103] ou structure narrative [140]) qui servent à construire des vues différentes du
même document. Ces vues ne pouvant pas être toujours exhaustives, la deuxième stratégie
favorise la flexibilité en proposant des chemins de lecture. L’idée consiste à implémenter
des techniques de guidage qui permettent de déterminer le ”meilleur lien suivant” à partir
du fragment courant [140]. Ainsi, cette stratégie se rapproche des approches navigation-
nelles où nous trouvons des techniques d’annotation et de tri [140]. Ces approches per-
mettent de présenter les fragments et les liens différemment, en fonction de leurs niveaux
de pertinence tout en masquant les éléments non pertinents. Enfin, il faut ajouter que
les liens peuvent être statiques ou inférés dynamiquement, soit en utilisant l’ontologie de
domaine soit en comparant les fragments.
4.3 La cartographie des connaissances

Si certains projets de bibliothèques virtuelles ancrent la modélisation des fonds docu-
menatires dans une perspective de constitution de nouveaux documents [103], la cartogra-
phie vise à représenter un espace informationnel sous forme de carte afin de l’appréhender.
Nous adoptons, comme Tricot [212], les définitions du comité français de cartographie 1
pour les termes ”cartographie” et ”carte”. Malgré que ces définitions soient issues de la
communauté des géographes, elles sont énoncées d’une manière générique qui permet de
les interpréter dans d’autres domaines. En effet, la cartographie est définie comme ”l’en-
semble des études et des opérations scientifiques, artistiques et techniques, intervenant à
partir des résultats d’opérations directes ou de l’exploitation d’une documentation, en vue
de l’élaboration et de l’établissement de cartes, plans et autres modes d’expression, ainsi
que dans leur utilisation.” [212]. Selon le même comité, ”une carte est une représentation
1. http://www.lecfc.fr/
24
géométrique conventionnelle, généralement plane, en positions relatives, de phénomènes

concrets ou abstraits, localisables dans l’espace ; c’est aussi un document portant cette
représentation ou une partie de cette représentation sous forme d’une figure manuscrite,
imprimée ou réalisée par tout autre moyen”[212].
En effet, la cartographie est née en géographie pour représenter tout ce qui est visible à
la surface du globe. Ensuite, et grâce à la prise de conscience de leurs qualités pour l’aide
à la décision, les cartes ont été utilisées pour représenter des données abstraites [212].
Cette évolution a ouvert des perspectives pour des applications dans divers domaines dont
la gestion informatisée des fonds documentaires. Une carte est donc une représentation
graphique d’un espace d’informations. Elle permet de connaı̂tre la nature, les relations,
la localisation ou l’importance des données ou des phénomènes qui composent l’espace
cartographié [212].
4.3.1 L’utilité de la cartographie

Selon Tricot [212], la cartographie exploite deux caractéristiques naturelles de l’être
humain, à savoir la cognition externe et la perception visuelle. En effet, l’être humain ex-
ploite des supports externes chaque fois qu’il est face à un problème complexe qui dépasse
les capacités de sa mémoire (comme par exemple, la multiplication de deux nombres très
grands). Le support externe constitue l’aide-mémoire qui permet d’accéder à des infor-
mations non mémorisées et de les partager. Il s’agit donc de distribuer le processus de
cognition en externalisant ce qui est complexe ou ce que la mémoire interne est incapable
de traiter. La capacité visuelle permet ensuite de mémoriser juste l’information nécessaire
(comme le résultat du calcul). A ce stade, l’être humain exploite ses capacités visuelles
qui permettent de percevoir rapidement et sans effort une grande quantité d’informations.
Nous pouvons donc déduire les rôles d’une carte en disant qu’elle permet de [212] :
– Communiquer : une carte transmet un message.

– Appréhender : avec la cartographie, il devient possible de percevoir simultanément
l’espace informationnel dans sa globalité à petite et à grande échelle.
– Analyser : la cartographie permet d’analyser les propriétés des données (ou connais-
sances) afin de découvrir certains problèmes (par exemple les erreurs de collecte).
– Décider : la cartographie permet de formaliser des hypothèses sur l’espace infor-
mationnel et de dégager des propriétés qui ne sont pas anticipées.
4.3.2 Le processus de cartographie

Selon Tricot [212], la cartographie est un processus en niveaux. Dans le domaine de la
cartographie des données abstraites, il distingue trois niveaux :
– L’espace informationnel brut : c’est l’espace initial qui correspond dans notre
cas aux fonds documentaires.
– L’espace informationnel représenté : cet espace associe des structures visuelles
aux éléments de l’espace brut. Chaque structure visuelle possède des caractéristiques
graphiques correspondant à des variations des différentes variables visuelles (forme,
position, taille, etc.). Par exemple, nous pouvons associer au nombre sept le symbole
”7” ou ”VII”. Ainsi, pour chaque espace brut correspondent plusieurs représentations
possibles.
25
– L’espace informationnel visualisé : cet espace permet de constituer une carte

graphique en visualisant un espace informationnel représenté. Par exemple, nous
pourrons afficher le symbole ”7” ou ”VII” sur un écran ou l’imprimer sur papier. De
même, pour un espace informationnel représenté, nous pouvons associer plusieurs
visualisations.
Tricot [212] a raffiné ce processus dans l’objectif de l’adapter à la cartographie sémanti-
que. D’une part, il propose de structurer l’espace informationnel brut avant de le représenter.
Cette étape inclut les tâches d’indexation, de description et de structuration des ressources
documentaires et enfin l’organisation des connaissances, ce qui permet d’obtenir un es-
pace structuré. D’autre part, l’utilisation de l’outil informatique permet à l’utilisateur
d’interagir avec l’espace visualisé afin d’obtenir un espace adapté à ses besoins.
4.3.3 Les paradigmes de la cartographie

A chacune des opérations de transformation qui permettent de passer d’un niveau à
un autre, correspond un type de paradigmes. Nous reprenons ici la classification de Tricot
[212] qui consiste à distinguer trois types de paradigmes, à savoir : les paradigmes de
représentation, les paradigmes de visualisation et les paradigmes d’interaction.
i) Les paradigmes de représentation

Ces paradigmes sont classés en fonction de la structure de l’espace à cartographier. Tricot
[212] distingue trois types de représentations : les représentations orientées valeurs qui
modélisent les connaissances par des vecteurs, les représentations orientées relation qui
utilisent les graphes pour modéliser les connaissances et les représentations arborescentes
qui définissent des relations hiérarchiques. Kboubi [145] affine cette typologie en ajoutant
les représentations de structures temporelles qui tiennent compte de la dimension temps
dans les données et les représentations de structures agglomératives qui permettent de
regrouper les objets similaires en clusters, afin d’avoir une vue synthétique de l’espace
informationnel.
ii) Les paradigmes de visualisation

Pour rendre visible une carte, deux classes de techniques existent, à savoir les visualisations
uniformes et les visualisations non uniformes. Dans la visualisation uniforme, il n’est
possible de faire que des transformations affines telles que le changement de focale (zoom),
la translation ou la rotation. Les visualisations non uniformes permettent de faire des
transformations plus complexes pour afficher les éléments de la carte avec un niveau de
détails variable en fonction de l’intérêt que leur porte l’utilisateur [212].
iii) Les paradigmes d’interaction

L’outil informatique permet à l’utilisateur d’interagir avec les cartes. Nous parlons ici
d’interaction en utilisant des opérations de mise à jour, mais aussi de techniques de
réarrangement et d’adaptation de l’espace qui permettent de changer les paramètres de
point de vue et les caractéristiques des structures visuelles ou de proposer des vues à
différentes échelles du même espace. D’autres techniques permettent de visualiser des
vues différentes du même espace avec propagation des changements d’une vue à une
autre. Enfin, ces paradigmes incluent des techniques de filtrage et de navigation similaires
aux tâches de recherche d’information et aux stratégies d’adaptation [212] (voir section
4.2.5).
26
La combinaison de ces techniques transforme l’utilisateur en un cartographe qui peut

intervenir à tous les niveaux du processus de cartographie. Entre autres, il peut participer
à la structuration de l’espace brut et à l’organisation des connaissances. Cela nous rappelle
la dimension collaborative des ontologies sémiotiques.
4.4 Comparaison des systèmes d’accès à l’information

Nous pouvons distinguer cinq critères qui caractérisent les trois approches d’accès à
l’information. Ces approches diffèrent du point de vue objectif opérationnel, du processus
de structuration, de la gestion de la taille de l’espace, de l’expression des besoins et de la
présentation des résultats.
Du point de vue objectif opérationnel, les SRI ont pour but de retrouver les docu-
ments. Leur force réside dans leur modèle d’appariement qui permet de sélectionner les
informations pertinentes dans une grande collection de documents. Dans les projets de
bibliothèques virtuelles, l’objectif est de constituer de nouveaux documents à partir d’une
base de fragments ou de proposer des chemins de lecture. Les cartes quant à elles consti-
tuent un outil d’appréhension, d’analyse et d’aide à la décision. En effet, certaines appli-
cations de cartographie se concentrent plus sur les paradigmes de représentation et de vi-
sualisation. Cependant, nous pensons qu’il est possible de munir une carte de mécanismes
de sélection et d’assemblage, ce qui lui permettra d’englober les tâches de recherche et de
constitution de documents virtuels. En ce sens, la cartographie peut bénéficier des forces
des SRI et des bibliothèques virtuelles.
Du point de vue processus de structuration, les SRI proposent un système simple
basé sur les indexes. Les projets des bibliothèques virtuelles supposent souvent l’existence
d’une base de fragments déjà annotés. Cependant, l’approche de cartographie considère le
processus de structuration comme fondamental. En suivant les recommandations du Web
socio-sémantique, nous pouvons proposer dans les cartes, des mécanismes d’interaction
au cours de ce processus.
Du point de vue gestion de l’espace, ce sont les SRI qui se distinguent par leur capacité
à couvrir des espaces vastes (comme le Web) étant donné qu’ils réduisent chaque document
à un index. Les bibliothèques virtuelles et les cartes visent des collections de taille plus
réduite. Cependant, les cartes peuvent être adaptées à de grandes collections à condition
d’implémenter des mécanismes sophistiqués de visualisation et d’interaction.
Du point de vue expression des besoins, les SRI sont les systèmes les plus pauvres étant
donné que l’utilisateur est incapable d’appréhender l’espace informationnel vu l’absence
d’un modèle explicite des connaissances. C’est pourquoi, certains chercheurs ont proposé
de guider la recherche par un système d’organisation des connaissances (par exemple, un
thésaurus [161] ou une ontologie [34, 92, 124]). Cette intégration vise entre autres à faciliter
la (re)formulation des requêtes et à faire face aux ambiguı̈tés terminologiques. Dans la
même perspective, les nouveaux systèmes tendent à intégrer de plus en plus le profil de
l’utilisateur et ses préférences [98]. Les mécanismes implémentés dans les bibliothèques
virtuelles sont plus expressifs, puisque l’objectif est de produire des documents virtuels
personnalisables. Enfin, les cartes sont les outils les plus faciles à personnaliser étant donné
l’infinité des combinaisons des paradigmes que nous pouvons choisir à tous les niveaux.
Du point de vue présentation des résultats, les cartes sont les outils les plus génériques.
En effet, les bibliothèques virtuelles conduisent souvent à un affichage linéaire sous forme
d’un nouveau document ou d’un chemin de lecture. Les SRI quant à eux affichent une liste
souvent statique de liens. Dans ces deux systèmes, l’utilisateur est incapable d’appréhender
27
son espace et les relations complexes qui peuvent exister entre ses éléments. C’est pour-
quoi, certains moteurs de recherche proposent de construire des cartes à partir des résultats
de recherche. Citons à titre d’exemples, les moteurs Exalead, Kartoo et MapStan décrits
dans [216].
En fonction de ces critères, nous pouvons dire que c’est l’approche de cartographie
qui tend à englober les techniques utilisées dans les SRI et les bibliothèques virtuelles,
surtout si nous l’appliquons à un domaine particulier. Nous voyons qu’il est possible de
généraliser cette approche en implémentant des mécanismes d’interaction qui permettent
de faire participer l’utilisateur dans le processus de structuration ainsi que de fournir
des services de recherche, de navigation et d’assemblage adaptés. En plus, elle permet
de traiter l’espace informationnel à plusieurs échelles et selon des vues différentes, ce qui
permet d’analyser des collections relativement grandes. Les paradigmes de visualisation et
d’interaction permettent de réduire la charge cognitive de l’utilisateur et donc de faciliter
l’accès aux ressources.
5 Conclusion
Nous avons considéré, dans ce chapitre, la problématique de l’accès à un fonds docu-
mentaire dans le cadre du processus de gestion de l’information. Ce processus devient de
plus en plus complexe avec l’accroissement de la quantité d’informations, de la diversité
des points de vue et des attentes des acteurs. Nous avons étudié les différentes visions
et approches qui proposent des solutions pour gérer les fonds documentaires. En effet, la
complexité du processus de gestion de l’information nous oblige à concevoir des systèmes
capables d’organiser et de faciliter l’accès aux connaissances. Comparée aux SRI et aux
bibliothèques virtuelles, l’approche de cartographie est la plus générique puisqu’elle per-
met de traiter tous les aspects de modélisation des connaissances et des documents. En
plus, les cartes proposent des mécanismes de visualisation et d’interaction qui soutiennent
la cognition de l’utilisateur dans son activité de recherche et de navigation.
L’objectif de tous ces systèmes est la satisfaction de l’utilisateur en fournissant l’in-
formation qui complète son état des connaissances suite à un besoin qu’il a exprimé. Il
est donc nécessaire d’évaluer les informations disponibles dans un fonds documentaire en
fonction des besoins des utilisateurs. Cette évaluation est basée sur un ensemble de critères
de pertinence. Dans ce chapitre, nous nous sommes focalisés sur le critère de pertinence
thématique, qui permet d’évaluer les ressources en fonction de leur sujet ou leur sens.
En plus de l’aspect thématique, il existe d’autres critères aussi importants dont il faudra
tenir compte, comme par exemple le critère de fiabilité. Ces critères seront discutés dans
le chapitre suivant.
28
Chapitre II
Evaluation de l’information
L es systèmes d’accès aux fonds documentaires évaluent l’information en fonction

d’un besoin exprimé par un utilisateur. Le secteur de la demande d’information
subit des changements qui conduisent vers la diversification des besoins des utilisateurs
qui sont de plus en plus exigeants. La pertinence de l’information est désormais une notion
multidimensionnelle qui couvre tous les critères de qualité de l’information. En plus de la
pertinence thématique, l’un des critères les plus importants, dans le cadre de l’ouverture
des systèmes d’information, est celui de la fiabilité. Ce n’est pourtant pas un problème
nouveau étant donné qu’il est invoqué dans plusieurs disciplines telles que les sciences de
l’histoire et de la religion. Dans ce cadre, ce chapitre reprend, en grande partie, une étude
que nous avons effectuée sur les méthodologies et les applications dans le domaine de la
fiabilité de l’information [6]. Après un rappel sur la notion de pertinence et ses dimensions
(voir section 1), nous étudions la notion de fiabilité selon divers points de vue (voir section
2). La section 3 est consacrée aux approches d’évaluation automatique des hadiths qui
sont les seuls textes arabes ayant été sujet d’étude dans ce domaine.
1 Les critères de pertinence

La pertinence, qui est une notion centrale dans tout Système de Recherche d’Informa-
tion (SRI) [98], peut être appréhendée selon deux points de vue. D’un coté, l’utilisateur
cherche les documents qui répondent à son besoin en informations. La pertinence idéale
ou absolue, appelée ”pertinence utilisateur”, est la relation entre le besoin en informations
et les documents attendus par l’usager. De l’autre coté, la pertinence est un phénomène
mesurable. En effet, le système répond aux besoins d’un utilisateur par un ensemble de
documents. La valeur (ou le score) attribuée par le système à chaque document traduit
la ”pertinence système”. L’objectif final est de renvoyer une mesure qui se rapproche de
celle de la pertinence utilisateur.
Au niveau utilisateur, Schamber et al. définissent la pertinence de la manière suivante

[201] : ”La pertinence est un concept dynamique qui dépend du jugement de l’utilisateur sur
la proximité de l’information lue et celle qui est nécessaire. La pertinence est un concept
mesurable”.
29
CHAPITRE II. EVALUATION DE L’INFORMATION
Dans la même perspective, Mizzaro [168] récapitule les différents aspects de la perti-
nence en la définissant comme une relation entre des entités de deux groupes. Dans le
premier, nous trouvons le document, la description et l’information, et dans le deuxième
le problème, le besoin d’information, la question et la requête.
La notion de pertinence est complexe vu qu’elle est liée au jugement de l’utilisateur. En

effet, l’être humain se caractérise par ses capacités cognitives et visuelles. Plus les techno-
logies de l’information et de la communication évoluent, plus les besoins des utilisateurs
sont diversifiés. Ainsi, ils ont des critères différents et variés pour évaluer l’information,
ce qui implique que la notion de pertinence est utilisée pour couvrir un large éventail de
critères et de relations [98]. Il ne suffit donc plus d’évaluer la pertinence thématique qui
n’est qu’un critère de pertinence parmi tant d’autres. Il s’agit plutôt de répondre à la
question suivante : ”Comment les utilisateurs évaluent-ils un document comme étant per-
tinent ?”. Plusieurs études ont montré que les critères de pertinence sont très diversifiés.
Bateman [33] a résumé ces études et identifié quarante critères qu’il a classé selon trois
classes, à savoir la qualité, la crédibilité et la complétude. Il a ensuite envoyé des mails
à 500 universités en leur demandant d’évaluer l’importance relative de chaque critère en
attribuant un score entre 0 et 100. En calculant la moyenne de ces scores, il a pu trier
tous les critères. Ainsi, il a pu identifier 11 critères comme étant les plus importants.
Selon cette étude, le critère le plus important est la crédibilité alors que la pertinence
thématique vient en deuxième position. Comme exemple de classification plus récente, ci-
tons les travaux de Xu et Chen [222] qui distinguent cinq critères, à savoir : la pertinence
thématique, la nouveauté, la fiabilité, la compréhensibilité et la portée.
D’après ces différentes classifications, nous remarquons que les critères de pertinence
restent assez vagues. En résumé, nous pouvons conclure, comme le font remarquer Scham-
ber et al. [201], que la pertinence englobe tous les critères de la qualité d’information.
Dans la même perspective, nous considérons que la fiabilité (ou la crédibilité au sens
de Bateman [33]) est un critère de qualité. Dans ce cadre, nous pouvons nous référer à
plusieurs travaux qui présentent des taxonomies des critères de qualité de l’information
[149, 173, 194, 209, 210]. Nous pouvons aussi déduire que la fiabilité est l’un des critères les
plus importants de la pertinence de l’information [45, 80, 194]. Comme cela est mentionné
par Zacklad [227], un lecteur ne peut exploiter un document sans ressentir une certaine
confiance envers son auteur. En outre, la fiabilité est liée à plusieurs autres critères. Par
exemple, plus l’information est présentée d’une manière ergonomique, plus l’utilisateur lui
accordera une plus grande confiance.
2 Méthodologies d’évaluation de la fiabilité de l’in-

formation
L’étude de la fiabilité de l’information trouve ses premières origines dans les sciences
de l’histoire [6]. Depuis Hérodote, le père de l’histoire, on s’est intéressé à la transmission
et à l’étude des événements passés. Les méthodologies d’évaluation ont été développées
dans plusieurs civilisations dont chacune a contribué, d’une manière ou d’une autre, à
l’évolution de ces méthodologies. D’abord, nous retrouvons les savants musulmans qui
se sont intéressés aux textes religieux appelés hadiths. Leur méthodologie a été ensuite
1. Né en 1160 et décédé en 1235
30
généralisée pour couvrir d’autres types de textes. Conjointement

à cette évolution, certains

savants arabes tels qu’Ibn Al-Athı̂r ( ø P Q m.Ì '@ Q
K B@ áK . @ ) et Al-Souyoûtı̂ ( áK
Y Ë@ ÈC g.
1
ù
£ñ J
Ë@ ) 2 ont contribué à l’évolution
de l’histoire comme science. Cette évolution a
continué en occident dans l’ère de la renaissance. Enfin, avec l’émergence d’Internet, plu-
sieurs travaux de recherche se sont intéressés à la fiabilité de l’information dans le cadre
des sciences de l’informatique. Ainsi, nous étudions et nous comparons les méthodologies
de la fiabilité de l’information dans trois disciplines, à savoir les sciences du hadith, les
sciences de l’histoire et les sciences de l’informatique.
2.1 La fiabilité dans les sciences du hadith

Cette section présente l’historique de la méthodologie des sciences du hadith qui per-
met de distinguer les hadiths acceptables de ceux à rejeter en détaillant les critères d’ac-
ceptation.
2.1.1 Bref historique

Les sciences du hadith fournissent une méthodologie solide pour la transmission et
l’évaluation des informations. Cette méthodologie est née à cause de la nécessité de trans-
mission des textes religieux, notamment ceux qui décrivent la vie du prophète (PBSL : Paix
et Bénédiction Sur Lui). Au début, les règles d’évaluation des hadiths étaient mélangées
avec d’autres sciences de la religion. Les premières œuvres spécialisées sont celles d’Al-

ramahormozi ( ø Q ÓQ ê Ó@Q Ë@ ) 3 et Al-neysabouri ( ø Pñ K. A
J Ë@ Õ»A mÌ '@ ) 4 . D’autres savants

(comme Khalifa Ibn Khayat ( A J
k áK . é ®J
Ê g ) 5 et Al-Fasawi ( ø ñ ®Ë@ ) 6) ont appliqué

la même méthodologie pour les textes littéraires ou les histoires non religieuses. Ensuite,
les sciences du hadith ont été développées au fil des siècles par d’autres savants, tels que
Ë@ I J ¢ m Ì '@ ) 7, Ibn Al-Salah ( hC Ë@ áK @ ) 8, Al-Dhahabi (
Al-khatib Al-Baghdadi ( ø X@ Y ªJ

. .
.
®ªË@
ú
æ.ë YË@) , Al-Iraqui ( ú
¯@QªË@) 10 et Ibn Hajar ( ú
GC
9 Qmk áK @) 11. Enfin, cette méthodologie
. .
a fait l’objet de plusieurs études contemporaines [4, 29, 61].
2.1.2 Les critères d’acceptation

Basée sur l’identification précise des narrateurs et l’étude détaillée de leur compor-
tement, la méthodologie du hadith constitue une base pour le jugement des contribu-
teurs et des sources d’information. En effet, un hadith rapporte des paroles, des actions
ou des qualifications attribuées à une personne [4]. Parce que les hadiths décrivent des
évènements historiques, culturels et religieux importants, les savants arabes ont établi des
règles strictes pour leur transmission. En premier lieu, un narrateur est obligé de citer les
personnes à partir desquelles il a eu le hadith au début de sa citation. Ainsi, le contenu

du hadith ( á ÖÏ @) est précédé par une chaı̂ne de narrateurs ( YJË@
). En second lieu, quand
un narrateur (appelé cheikh) communique un hadith à son successeur (le disciple), il utilise
des verbes qui indiquent la façon avec laquelle il a reçu le hadith de ses prédécesseurs.
3. Décédé en 971
10. Né en 1325 et décédé en 1403
11. Né en 1371 et décédé en 1448
31
Pour être accepté, un hadith doit être transmis par des personnes crédibles. En effet, un
narrateur doit être adulte (au moment de la transmission), sain mentalement et qualifié
en tant que témoin honorable. Etant donné que les personnes se distinguent par leur
capacité de mémorisation, un narrateur est dans l’obligation d’apprendre par cœur ou
d’écrire les hadiths qu’il rapporte pour éviter l’oubli et la déformation des hadiths. Ainsi,

nous distinguons deux qualités pour les narrateurs, à savoir l’honnêteté ( é Ë@ Y ª Ë@ ) et
l’exactitude ( ¡ J. Ë@ ). La méthodologie du hadith tient compte du fait que ces capa-
cités peuvent se dégrader avec l’âge ou à cause d’une maladie. Ces qualités sont évaluées
par des savants spécialisés et reconnus comme experts. Etant proches historiquement et
géographiquement des narrateurs, ils étudient en détail les capacités de chacun d’eux et
distinguent leurs styles de narration.
En troisième lieu, il ne faut pas qu’il y ait un gap temporel ou géographique entre
deux narrateurs successifs. De plus, le hadith doit être transmis d’une manière fiable.
Huit classes de verbes ont été utilisées pour la transmission des hadiths. Le tableau II.1
rapporte les différentes manières de transmission et les verbes correspondants.
Manière de transmission Verbes

L’audition ( ¨AÒË@) ¯ IªÖ
àC Þ (J’ai entendu x)
¯ úæ KYg (x m’a dit)
àC

La lecture au cheikh ( èZ@Q ®Ë@) ¯ úÎ« H @Q¯ (J’ai appris de x)

àC

¯ úG Q.g @ (x m’a informé)
àC

. B@ )
La permission ( èPAg àC¯ úÍ PA g. @ (x m’a autorisé)

àC¯ úG AJ.K @ (x m’a annoncé)

Transmission main en main ( éËðAJÖ Ï @)

àC¯ úæËðA K (x m’a donné)

Par écrit ( éK. AJºË@) ¯ úÍ@ IJ» (x m’a écrit)
àC

.
Par notification ( ÐC«B@ ) ¯ úæÒÊ«
àC @ (x m’a mis au courant)

Par recommandation ( éJ
ñË@)
àC¯ úÍ@ úæð @ (x m’a recommandé)

àC¯ ¡m ' HYg
Par découverte ( èXAg. ñË@)
. . ð (J’ai trouvé écrit par x)
Tableau II.1 – Les manières de transmission du hadith [4].
Parmi ces manières, les trois premières sont considérées comme fiables. La quatrième
(la transmission main en main) est acceptée si elle est accompagnée par une permission.
La cinquième est considérée comme fiable par certains experts et rejetée par d’autres.
Enfin, les trois dernières sont considérées comme étant non fiables.
32
En quatrième lieu, les experts évaluent l’objectivité et la neutralité de chaque narrateur

dans le sens où il ne doit pas avoir des raisons politiques ou théologiques pour falsifier un
hadith. En dernier lieu, plusieurs versions du même hadith sont comparées pour détecter
d’éventuelles anomalies ou divergences. A ce stade, plus le hadith a des chaı̂nes de narra-

teurs variées, plus il a une chance d’être accepté. Ainsi, les hadiths anomaux ( É Ê ª Ó ) ou

excentriques ( XA ) ou qui contredisent des hadiths plus authentiques ( HA ® J Ë@ é ® ËA m× )
sont rejetés. Cette comparaison de versions permet aussi de détecter les déformations de
plusieurs types, telles que l’ajout d’expressions ( h. @P XB@ ), l’inversion ( I

. Ê ® Ë@ ) et le

métaplasme ( J
jJË@). En outre, un hadith qui véhicule des connaissances religieuses ne
doit pas contredire le Coran ou les principes généraux de l’Islam.
En fonction de ces critères, les hadiths sont classés par degré d’acceptation ( é k. P X

). En effet, nous distinguons deux classes de hadiths, à savoir les hadiths acceptables
ÈñJ.®Ë@
et les hadiths inacceptables. Sous chacune de ces deux classes, nous retrouvons plusieurs
sous-classes [4].
2.1.3 Les hadiths acceptables ( ÈñJ.®Ó)

Cette classe englobe deux sous-classes définies comme suit :

– Le hadith authentique ( iJ
m) 12 : c’est un hadith dont les narrateurs sont crédibles
et connus par leur bonne mémorisation et dont la chaı̂ne des narrateurs est continue.
De plus, il n’est ni anormal ni excentrique.
– Le hadith ”bon” ( á k ) 13 : c’est un hadith dont les narrateurs sont crédibles, dont
la chaı̂ne des narrateurs est continue et qui n’est ni anormal, ni excentrique, mais
dont la capacité de mémorisation des narrateurs est légèrement faible par rapport
au niveau requis.
Il est à noter qu’un hadith bon (respectivement inacceptable) peut devenir authentique
Q iJ
m ) (respectivement bon ( èQ
ªË á k )) s’il a plusieurs chaı̂nes de narrateurs [4].
( è
ªË
2.1.4 Les hadiths inacceptables ( XðXQÓ)

Ces hadiths sont classés en deux catégories selon la cause de suspicion :
– Le hadith inacceptable à cause d’une coupure dans la chaı̂ne de narrateurs, sachant

qu’une coupure se traduit par l’absence d’un ou plusieurs narrateurs : cette classe
englobe :
– Le hadith ”renvoyé” ( ÉQÖÏ @) 14 : il y a une coupure à la fin de la chaı̂ne des narra-
teurs. Généralement il s’agit du cas où un disciple des compagnons du prophète
(PBSL) assigne directement un hadith à ce dernier en disant ”le prophète (PBSL)
a dit...” ou ”le prophète (PBSL) a fait”.
B ð Xð Y Q« áÓ
É®JK. èYJ É@ AÓ ñë iJ
jË@ Q.m Ì '@ [4]
12. éÊ«
èAîDJÓ úÍ@ éÊJÓ á« ÈYªË@ ¡. AË@
èAî DJÓ úÍ@ éÊJÓ á«
13. ð Xð Y Q
« áÓ é¢J. k ø YË@ ÈYªË@ É® JK èYJ É@ AÓ ñë ám
Ì '@ Q .m Ì '@

. B [4]
éÊ«
áÓ
14. ùªK. AJË@ YªK. á Ó èXAJ@
YmÌ '@ [4]
¡® AÓ ñë ÉQÖÏ @ IK

33

– Le hadith dit ”suspendu” ( Êª Ü Ï @ ) 15 : c’est un hadith qui présente une coupure
au début de la chaı̂ne de narrateurs.
– Le hadith ”problématique” ( Éª Ü Ï @) 16 : c’est un hadith qui présente une coupure
de deux ou plusieurs personnes successives au milieu de la chaı̂ne de narrateurs.

– Le hadith ”coupé” ( ©¢ ® JÖ Ï @) : c’est un hadith qui contient l’un des autres cas de
coupure [4].
– Le hadith inacceptable à cause des caractéristiques des narrateurs : c’est un hadith
rejeté en raison d’un défaut imputé à l’un de ses narrateurs. Pour chaque type de
défaut, nous avons une classe de fiabilité comme indiqué dans le tableau II.2.
Classe de fiabilité Défaut

XðXQÖÏ @ (Repoussé) êm Ì '@ (L’ignorance)
éËA .
XðXQÖÏ @ (Repoussé) Ë@ (L’invention)
é«YJ .
QºJ Ü Ï @ (Refusé) ®Ë@ (La perversion)
¨ññÖ Ï @ (Fabriqué) (Le mensonge)
H. YºË@
¼ð QÖÏ @ (Ecarté) K éÒî
H. YºËA DË@ (La suspicion de mensonge)
.
H. ñÊ®Ö Ï @ (Inversé) ® JË@ é®ËA
HA m ×

j Ü Ï @ (Altéré) (La contradiction avec les narrations crédibles)

ÉÊª Ü Ï @ (Anomal) ÐAëð B@ èQ» (Les illusions)
QºJ Ü Ï @ (Refusé) éÊ ® ªË@
(L’omission)
XðXQÖÏ @ (Repoussé) ¡ ®m Ì '@ Zñ (La mauvaise capacité de mémorisation)
QºJ Ü Ï @ (Refusé) ¡ÊªË@ m ¯ (Les erreurs graves)
XA Ë@ (Excentrique) Xð Y Ë@
(L’excentricité)
Tableau II.2 – Typologie des hadiths inacceptables à cause des caractéristiques des nar-
rateurs [4].
2.2 La fiabilité dans les sciences de l’histoire

L’histoire est à la fois l’étude des faits passés et leur ensemble. Son objectif est d’ana-
lyser le comportement des nations et des individus en vue de connaı̂tre les aspects positifs
et négatifs de leur histoire. Elle s’occupe aussi de l’étude des histoires des sciences étant
donné que tout chercheur est amené à étudier les travaux qui l’ont précédé.
La conception de l’histoire, en tant que science, n’a été instaurée qu’à partir du 17ème
siècle. En effet, au 15ème siècle, les européens ont commencé à revoir leur histoire et à
critiquer les citations. Malgré les efforts fournis, une méthodologie de critique élaborée
n’est apparue que vers la fin du 17ème siècle avec les efforts de plusieurs savants tels que
Descartes. Cette méthodologie n’a été appliquée en sciences sociales et psychologiques

15. Q» A¯ ð@P èXAJ@

Z
YJ. Ó
áÓ ¬ AÓ ñë Êª
Yg Ï @ Q.m Ì '@ [4]
Ü

16. ú
Í@ñ JË@ úÎ« Q» A¯ àA J K@ èXAJ@
áÓ
¡® AÓ ñë ÉªÖÏ @ Q.mÌ '@ [4]

34
que vers la fin du 19ème siècle. En 1898, Langlois et Seignobos [151] ont évalué les livres
de méthodologie de l’histoire qui les ont précédés comme ”très mauvais”, malgré le fait
qu’ils contenaient certaines règles et remarques importantes. Ainsi, les citations orales
grecques et romaines n’ont pas été bien critiquées à cause du manque de principes pour
l’évaluation de telles citations, ce qui a poussé Langlois et Seignobos [151] à soupçonner
les documents qui rapportent de telles citations.
Les mêmes auteurs expliquent que la connaissance historique est une connaissance indi-
recte. Selon Ginzburg [119], traces, archives, témoignages, documents sont les matériaux
et les objets de la discipline historique, qui ne permet ni expérimentation, ni observation
immédiate. Les histoires véhiculées dans un livre sont donc séparées historiquement des
évènements et des personnes ayant participé aux faits historiques. En analysant un do-
cument ou un vestige, l’historien contemple une image, prise depuis longtemps, d’un fait
historique. Cette image risque d’être partielle ou de manquer de certains détails impor-
tants, ce qui pousse les historiens à imaginer le reste. Dans ce cadre, Langlois et Seignobos
[151] affirment que les faits historiques sont imaginés et que presque tous les historiens,
sans s’en rendre compte, ne travaillent que sur des images.
En histoire, nous distinguons deux types d’analyse, à savoir la critique externe et la

critique interne. D’une part, un document doit être vérifié pour s’assurer qu’il correspond
à la copie originale. Pour s’assurer qu’un livre correspond à un auteur bien déterminé,
l’une des techniques consiste à comparer son style par rapport au style habituel de cet
auteur. Il s’agit donc d’apprendre les styles des auteurs pour pouvoir vérifier les nouveaux
documents. La critique externe inclut, en plus de la recherche de la version originale (dans
certains cas manuscrite), la recherche de parties manquantes d’un texte et la comparaison
de versions. A ce stade, plus nous avons de versions qui convergent vers un même point
de vue, plus nous avons confiance en l’histoire.
D’autre part, la critique interne s’occupe du contenu pour identifier les informations
fiables. Elle englobe une étude linguistique qui vise à comprendre les termes du document
dans leur contexte historique et géographique, ce qui facilite la compréhension du texte
dans sa globalité. Ensuite, elle considère des éléments rattachés au contenu tels que la
cohérence logique et la rigueur de la présentation, des choix et des argumentations. En
outre, cette étude tient compte de la crédibilité de l’auteur pour s’assurer de son objec-
tivité et de sa neutralité. En plus, les historiens préconisent de diagnostiquer la situation
sanitaire, intellectuelle et psychologique du narrateur aux moments de la collecte et de la
transmission des histoires.
2.3 La fiabilité dans les sciences de l’informatique

En informatique, le problème de la fiabilité de l’information a connu un essor particu-
lier avec l’émergence du Web. En effet, le grand nombre de fournisseurs d’informations et
l’énorme quantité d’informations disponibles suscitent des inquiétudes vis-à-vis de la fiabi-
lité, dans un environnement ouvert tel que le Web. La principale cause de ces inquiétudes
est l’absence d’une autorité de contrôle qui surveille ce qui existe sur Internet.
35
Dans la littérature informatique, la fiabilité est considérée comme l’un des critères de
qualité de l’information. Selon Naumann et Rolker [173], elle est définie comme le degré
de croyance que nous avons envers une information. Ainsi, elle est liée à la notion de
crédibilité qui traduit le degré à partir duquel l’information peut être vue comme vraie
et crédible [149]. En plus, l’assurance de la fiabilité nous amène à étudier la notion de
confiance dans les différentes visions du Web [175]. Du Web social au Web sémantique,
cette notion est perçue dans le cadre d’un réseau distribué et dynamique, qui lie des agents
(humains ou logiciels). Parmi ces agents, certains jouent le rôle de fournisseurs de service
alors que d’autres jouent le rôle d’agents de recommandation qui ont pour tâche de juger
les fournisseurs de service en fonction de la qualité des services qu’ils offrent.
Les travaux dans le domaine de l’évaluation de la fiabilité se sont intéressés à plusieurs

applications qui concernent les documents du Web [235] ou des types particuliers de
textes tels que les articles de journaux [45]. Etant donné que ces applications requièrent
des données sur les sources d’informations, d’autres travaux se sont intéressés à l’analyse
des biographies [83]. A partir de ces travaux, nous dégageons les grandes lignes de la
méthodologie d’évaluation de la fiabilité dans les sciences de l’informatique.
2.3.1 Evaluation des pages Web

L’évaluation de la fiabilité des pages Web a été considérée dans le cadre des SRI multi-
critères [80, 235]. Zhu et Gauch [235] ont exploité Yahoo Internet Life (YIL), qui attribue
un score compris entre 2 et 4 à chaque source d’information, pour évaluer sa réputation.
Pour les pages Web qui n’ont pas été évaluées, ils considèrent que ce critère vaut 0. De
tels cas de manque de données causent des problèmes dans les systèmes centralisés. L’une
des solutions possibles consiste à opter pour un système décentralisé en permettant aux
utilisateurs de juger les sources d’informations dans un environnement de collaboration
sociale. Par exemple, dans [80] un score de fiabilité est attribué par les utilisateurs à
chaque page Web. Dans ce cas, chaque utilisateur représente un agent de recommandation
qui évalue librement les pages. Ceci suppose que la fiabilité dépend du point de vue de
l’utilisateur dont la crédibilité en tant que témoin est très volatile. Ceci implique aussi
qu’une même page Web peut être considérée comme fiable par certains et non fiable par
d’autres.
Une autre solution consiste à automatiser le calcul de certains attributs à partir du

contenu d’un document ou de méta-données. Par exemple, les travaux sur Wikipedia
(www.wikipedia.org) considèrent des attributs liés au processus d’édition des articles,
tels que le nombre de contributeurs, le taux de contribution, le nombre et la taille des
éditions pour évaluer les articles [70]. Ces travaux insistent sur l’importance de la visuali-
sation. Il ne s’agit pas uniquement de calculer des indices de fiabilité mais de les afficher
d’une manière simple à percevoir et à comprendre selon le niveau d’expertise de l’utili-
sateur. En effet, pour les utilisateurs novices (qui représentent la majorité des usagers),
il faut opter pour des visualisations qui soient à la fois compactes et expressives et qui
donnent un résumé permettant de prendre une décision directe et finale. Dans ce cas, la
visualisation des indices ne devrait pas prendre une zone large par rapport au document.
Pour des utilisateurs expérimentés, il est possible d’afficher les résultats plus détaillés afin
de permettre une marge d’analyse et d’interprétation plus large. Aussi, Chevalier et al.
[70] insistent sur l’importance de la documentation des indices de fiabilité qui doivent
être connus des utilisateurs, pour qu’ils puissent les comprendre et les exploiter le plus
rapidement possible.
36
2.3.2 Evaluation des articles de journaux

La fiabilité est une dimension importante dans le domaine de la presse. Etant conscient
de l’effet de la presse sur le public, certains chercheurs ont essayé d’automatiser l’analyse
de la fiabilité des articles de presse. A titre d’exemple, Bordogna et Pasi [45] ont ap-
pliqué l’approche proposée par Da Costa Pereira et Pasi [80] sur ce type de textes. Ce
choix semble raisonnable, car ce modèle est adapté à ces cas d’applications où chaque
utilisateur peut avoir son jugement personnel. En effet, les articles sont influencés par les
interprétations personnelles que ce soit de la part des lecteurs ou des rédacteurs. C’est
pourquoi Gilens et Hertzman [118] ont essayé d’évaluer l’objectivité de ces articles. Ils
ont exploité les informations sur les propriétaires des médias pour évaluer l’objectivité
des articles qui concernent les projets des lois de télécommunication aux Etats-Unis en
1996. Ce travail montre que l’objectivité des articles des journaux est influencée par les
objectifs des propriétaires des médias. Ainsi, les entreprises, investissant dans le domaine
des télécommunications et possédant des médias, ont essayé d’influencer l’avis du public
concernant les nouvelles lois en leur faveur.
2.3.3 Analyse des biographies

Les biographies constituent l’une des sources importantes pour l’évaluation de la fiabi-
lité. Dans certaines applications, il s’agit d’un objectif en soi. Ainsi, la collecte de ce type
de méta-données sur les acteurs peut être d’une importance capitale pour certains types
d’applications comme l’analyse de la criminalité. Par exemple, De Bruin et al. [83] ont pro-
posé d’extraire et d’analyser les carrières des criminels pour construire leurs profils et les
grouper en fonction de leurs similarités. Dans d’autres applications, l’analyse des biogra-
phies constitue une première étape dont les résultats sont utilisés pour évaluer la fiabilité
des textes. Par exemple, l’évaluation de la fiabilité des hadiths requiert des informations
sur les narrateurs. C’est pourquoi certains chercheurs ont essayé d’automatiser l’extrac-
tion de telles informations à partir des livres décrivant les narrateurs. Helmy et Daud
[138] ont proposé d’analyser ces biographies pour inférer des jugements de crédibilité.
L’approche consiste à construire un classifieur SVM [13] à partir de biographies annotées
manuellement par des experts. Les attributs utilisés indiquent la présence (ou l’absence)
d’expressions utilisées par les experts pour juger les narrateurs. Les auteurs ont utilisé
une base composée de 526 biographies et enregistré un taux de réussite égal à 96.5%.
2.3.4 Le processus d’évaluation de la fiabilité

Les exemples d’applications que nous avons énumérés ci-dessus montrent l’importance
de la fiabilité dans l’évaluation de l’information. A partir de ces applications et des tra-
vaux dans le domaine de la qualité de l’information [149, 173, 209, 210], nous pouvons
identifier les étapes du processus d’évaluation de la fiabilité comme suit :
1. Identifier dans la littérature les critères d’évaluation adéquats pour un domaine et

une application donnés.
2. Identifier, pour chaque critère, la méthode d’évaluation à utiliser. Dans ce cadre,
nous pouvons nous référer à Naumann et Rolker [173] qui distinguent plusieurs
méthodes dont l’analyse du contenu et le jugement par les experts. En outre, les
revues de la littérature sur les systèmes d’assurance de la fiabilité ont énuméré les
sources des informations sur la réputation [175]. En effet, un agent peut décider la
37
réputation d’un autre en se basant sur les transactions qu’il a eu avec lui. Ainsi,
plus nous aurons fait de transactions réussies avec un agent, plus sa réputation
augmente. Dans d’autres cas, nous pouvons nous baser sur des informations four-
nies par un témoin qui a déjà évalué l’agent en question. Enfin, les relations et les
rôles joués par les agents peuvent déterminer leur réputation. Généralement, nous
avons tendance à croire les agents qui nous sommes socialement proches ou qui
ont des rôles particuliers (par exemple, les agents qui appartiennent à une autorité
gouvernementale).
3. Définir des scores/métriques pour chaque critère. Selon Naumann et Rolker [173],
le score doit être précis, pratique et connu par l’utilisateur et rapide à calculer pour
le système.
4. Trouver une méthode ou une formule d’agrégation des critères dans une seule mesure
[210].
5. Développer des mécanismes de visualisation adaptés à l’utilisateur qui tiennent
compte en particulier de son expertise. L’évaluation de la fiabilité ne se réduit pas
à un calcul d’indices, mais s’étend à une stimulation du processus cognitif de l’uti-
lisateur par des mécanismes de visualisation et d’interaction. Cette conclusion nous
permet de situer ce processus dans le cadre de la cartographie des connaissances.
Ces étapes sont influencées par la nature du système qui assure le calcul. Les approches
existantes peuvent être classées selon l’architecture ou la localisation des informations sur
la réputation [175]. Dans une première approche, un seul agent possède ces informations
(par exemple Yahoo Internet Life dans le travail de Zhu et Gauch [235]). Cette centra-
lisation est critiquée du fait qu’elle contredit le caractère dynamique et ouvert du Web.
Dans un système ouvert et dynamique, voire à large échelle, il est difficile d’établir un
consensus sur un seul agent de recommandation. La deuxième approche considère que
tout agent peut jouer le rôle de recommandation. C’est le cas du SRI multi-critères de
Da Costa Pereira et Pasi [80]. La décentralisation complète et l’absence d’une autorité de
contrôle peut ralentir le processus d’établissement de la confiance. De tels systèmes sont
aussi sensibles aux intrusions qui permettent à des agents non crédibles de publier des
jugements non fiables sur les autres. Une dernière solution, considérée comme hybride,
permet de profiter des avantages des deux approches précédentes en permettant à un
ensemble limité d’agents de fournir des recommandations.
Avant de clôturer cette partie, il convient d’identifier les dimensions de la fiabilité de

l’information indépendamment de l’application visée [50] :
– Autorité : c’est l’ensemble des indicateurs qui prouvent (ou qui peuvent être ex-
ploités pour vérifier) la crédibilité des acteurs. Par exemple, pour évaluer la fiabilité
d’un site, nous devons vérifier l’existence d’informations telles que les noms des
auteurs, leurs affiliations, les textes de copyright, etc.
– Objectivité : c’est la qualité d’une information qui n’est pas biaisée, préjugée ou
partielle [149]. L’objectivité d’une information est analysée en identifiant sa nature
(un fait ou une opinion) et son objectif (publicité commerciale, discours politique,
travail de recherche, etc.).
– Vérifiabilité : elle traduit l’existence d’éléments intrinsèques ou extrinsèques qui
aident à vérifier la fiabilité du point de vue autorité et objectivité.
38
En plus de ces éléments, Chen et al. [69] ont montré l’importance du moyen de trans-
mission. Par exemple, ils ont déduit que le format papier est plus fiable que la transmission
orale. Ils affirment que plus le flux de l’information est rationalisé, plus l’information est
fiable. D’autres études soulignent l’importance du flux pour la fiabilité dans le domaine
médical [180] et en e-learning [196]. D’autres encore ont utilisé des critères liés au processus
d’édition des documents [70].
2.4 Comparaison des méthodologies

Nous pouvons distinguer des similarités et des différences entre la méthodologie du
hadith et celle des sciences de l’histoire [6]. Comme premier point de comparaison, notons
que les historiens privilégient l’écrit alors que les savants du hadith ont commencé par
utiliser l’oral, puis sont passés progressivement à l’écrit. Ceci s’explique d’une part, par le
fait que certains hadiths rapportent des scènes qui contiennent des actes gestuels réalisés
par une personne. Dans ce cas, le narrateur est obligé de reproduire ces actions en citant
l’histoire. D’autre part, les textes arabes sont ambigus surtout quand ils sont non voyellés
( ÈñºÓ Q
« ). De ce fait, quand un narrateur rapporte une histoire qu’il a lue dans un livre,
il risque de la déformer. Comme point de similarité, notons que les deux méthodologies
(celle du hadith et celles des sciences de l’histoire) sont basées sur le principe de suspicion.
De ce fait, l’histoire n’est acceptée qu’après une étude détaillée qui prouve sa fiablité. En
effet, en histoire et en sciences du hadith, la critique externe est utilisée pour vérifier qu’un
texte correspond réellement à la personne à laquelle il est attribué ou à sa copie originale.
A ce stade, les savants du hadith, comme les historiens, comparent la nouvelle histoire
par rapport au style habituel de l’auteur ou du narrateur. Ensuite, les sciences du hadith
et de l’histoire préconisent la collecte et l’étude des différentes versions d’une histoire en
privilégiant les histoires récurrentes. En outre, les deux méthodologies utilisent la critique
interne en étudiant le contenu de l’histoire (du point de vue linguistique et logique) et
l’objectivité des narrateurs. Ainsi, dans les deux méthodologies, les spécialistes étudient
les capacités intellectuelles et psychologiques des narrateurs. Cependant, la méthodologie
du hadith se distingue par une étude plus précise des tous les narrateurs alors que les
historiens se limitent à l’évaluation de l’auteur. L’analyse de toute la chaı̂ne permet de
réduire l’effort lors de la critique étant donné que les savants du hadith ne sont pas obligés
d’étudier les hadiths ayant des chaı̂nes non fiables. Alors que les historiens se trouvent,
dans plusieurs cas, limités à l’étude du contenu en utilisant des preuves logiques, les savants
du hadith ne passent à cette étude qu’une fois que la chaı̂ne de narration est reconnue
fiable. En effet, leur méthodologie considère les narrateurs comme des témoins, ce qui
leur permet un accès direct aux faits historiques. Les historiens de leur coté sont souvent
incapables de trouver de tels témoins. C’est pourquoi ils considèrent que la connaissance
historique est indirecte. De ce fait, leur méthodologie n’est pas expérimentale alors que
les savants du hadith ont bâti leur méthodologie en examinant minutieusement les narra-
teurs et les histoires. Ainsi, l’expérience a un rôle crucial dans le développement de leur
méthodologie. Enfin, les savants du hadith arrivent à classer les hadiths d’une manière
39
plus précise, en proposant une taxonomie exhaustive des classes de fiabilité. En résumé,
la présence des chaı̂nes de narrateurs dans les hadiths permet un accès direct à la connais-
sance et une évaluation facile et précise de la fiabilité, alors que l’absence de témoins a
obligé les historiens à étudier les histoires d’une manière indirecte, voire à imaginer les
parties manquantes. Cette comparaison nous permet de confirmer le point de vue d’Al-
Omri [2] qui stipule que les sciences du hadith offrent une méthodologie plus consistante
pour la fiabilité de l’information.
Nous arrivons aussi à positionner la méthodologie du hadith par rapport aux dimen-
sions de la fiabilité dans les sciences de l’informatique [6]. D’abord, la dimension autorité
est prise en compte étant donné que tous les narrateurs de l’histoire sont explicitement
cités. En plus, les narrateurs sont évalués par des experts qui constituent des autorités
de contrôle. Notons à ce stade que certaines plate-formes existantes pour l’assurance de
la qualité de l’information manquent de méta-données suffisantes sur les acteurs. Par
exemple, Stivilia [209, 210] a proposé une plate-forme générique mais n’a pas expliqué
comment il juge la crédibilité des contributeurs. Pour les articles de Wikipedia, il considère
uniquement le fait que l’utilisateur, ayant édité un article, est inscrit ou non dans cette
encycolopédie. Comme mentionné par Lynch [156], connaitre l’identité de la source d’in-
formation n’est pas suffisant. Une étude approfondie de la biographie et du comportement
doit être alors effectuée pour évaluer chaque source.
Certaines approches délèguent l’évaluation de la fiabilité (ou de certaines de ses dimen-

sions) à l’utilisateur final [80, 193]. Alors que cette approche tient compte des opinions
des utilisateurs, évaluer les sources des informations est une tâche difficile. C’est pourquoi
dans plusieurs projets [118, 235], l’évaluation de la fiabilité est effectuée par des experts
qui assistent l’activité de l’utilisateur final.
L’étude du comportement des narrateurs, leurs capacités et leurs personnalités permet

d’évaluer l’objectivité de la narration. Cette évaluation est renforcée par une étude
critique du contenu du hadith aux niveaux linguistique et logique. En plus, les chaı̂nes de
narrateurs contiennent des informations exhaustives sur le processus de transmission. Le
flux informationnel est donc décrit d’une manière précise ce qui assure la vérifiabilité.
Par rapport aux systèmes d’assurance de la confiance dans le Web moderne [175],
les narrateurs du hadith constituent des fournisseurs de service, alors que les savants
constituent des agents de recommandation. Du point de vue localisation des informations
sur la réputation, il ne s’agit ni d’un système centralisé ni d’un système complètement
décentralisé, mais plutôt d’un système hybride. En effet, seuls les savants reconnus ont
le droit de juger les narrateurs et les hadiths. En contre partie, aucun de ces savants
ne prétend connaı̂tre tous les narrateurs ni tous les hadiths. Du point de vue source
d’information sur la réputation, les savants du hadith ont combiné plusieurs approches.
Leur méthodologie tient compte des expériences passées avec les narrateurs, et de leurs
relations sociales et des témoignages des autres savants.
Nous pouvons donc conclure que la méthodologie du hadith tient compte de toutes les
dimensions de la fiabilité de l’information. Les savants du hadith ont bâti un système
d’assurance de la confiance adapté à la nature de leur tâche et des réseaux sociaux de leur
époque.
40
3 Evaluation automatique de la fiabilité des hadiths

A notre connaissance, le hadith est le seul type de textes arabes qui a été sujet d’ap-
plications dans le domaine de la fiabilité de l’information. Vu l’importance des hadiths,
plusieurs chercheurs se sont intéressés à leur étude afin d’automatiser leur évaluation en
terme de fiabilité [3, 28, 117]. Avant de présenter ces travaux et en suivant la méthodologie
présentée dans la section 2.3.4 du chapitre II (voir page 37), nous commençons par associer
une méthode d’évaluation à chaque critère de fiabilité des hadiths.
3.1 Méthodes d’évaluation des critères de fiabilité du hadith

En se basant sur notre étude des critères d’acceptation des hadiths (voir chapitre II,
section 2.1.2, page 31), nous avons identifié quatre dimensions requises pour l’évaluation
des hadiths [50]. Le tableau II.3 résume les méthodes d’évaluation et les paramètres/outils
pour chaque dimension. Les méthodes d’évaluation sont extraites de la typologie proposée
par Naumann et Rolker [173]. Dans ce tableau, les noms de ces méthodes en anglais sont
indiqués entre parenthèses et en gras.
Dimension Méthode d’évaluation Paramètres/outils

Autorité Entrées de l’expert (expert Jugements des experts à pro-
input) pos de la crédibilité des narra-
teurs.
Objectivité Analyse du contenu Comparaison de versions.
(Content parsing)
Vérifiabilité Analyse de la structure
(structural parsing) – Analyse des chaı̂nes de
Fiabilité de transmission narrateurs et reconnaissance
– Analyse de la structure
des entités nommées.
(structural parsing)
– Reconnaissance des identités
– Entrées de l’expert (ex-
des narrateurs.
pert input)
Tableau II.3 – Méthodes, paramètres et outils d’évaluation des dimensions de la fiabilité

des hadiths [50].
En examinant la troisième colonne du tableau II.3, nous pouvons remarquer que l’éva-
luation des critères de fiabilité des hadiths requiert des méta-données qui contiennent les
évaluations des experts sur la crédibilité de chaque narrateur, ce qui permet d’assurer la
première dimension, à savoir l’autorité. La comparaison de versions permet de détecter
les anomalies et l’excentricité, ce qui assure l’objectivité. Pour vérifier la présence des
informations nécessaires sur le processus de transmission des informations, il est nécessaire
d’analyser la structure des chaı̂nes des narrateurs en identifiant les noms de narrateurs et
les verbes indiquant les manières de transmission. Enfin, il faut reconnaı̂tre l’identité de
chaque narrateur afin de pouvoir l’évaluer.
41
3.2 Approches existantes

Dans [6], nous avons relevé trois principales approches dans l’évaluation automatique
des hadiths. Al-Rizzo [3] a proposé de modéliser les connaissances relatives aux hadiths
sous forme de faits et de règles. Les données de base sont les livres du hadith et les
informations sur les narrateurs. Il propose de modéliser ces données sous forme de faits
sans préciser les méthodes ou les outils nécessaires à leur analyse. La base des faits contient
les attributs des narrateurs (crédibilité, dates de naissance et de décès, etc.). Le modèle
a besoin aussi de connaissances sur le hadith donné en entrée pour l’évaluation. Par
exemple, il faut spécifier s’il y a une rupture entre deux narrateurs successifs. L’auteur
n’explique pas comment ces faits sont déduits. Des règles de la logique des prédicats sont
utilisées pour inférer la classe de fiabilité de chaque hadith. Les prémisses représentent des
conditions sur la crédibilité des narrateurs ou sur la continuité de la chaı̂ne. La conclusion
est l’une des classes de fiabilité étudiées dans les sections 2.1.3 et 2.1.4 du chapitre II (voir
page 33). L’utilisation de telles règles a pour objectif d’identifier, d’une manière précise,
la classe de fiabilité. Cependant, elles ne permettent pas d’identifier le degré de fiabilité,
puisque la logique du premier ordre attribue à chaque décision une valeur binaire.
Aydemir [28] a proposé un modèle probabiliste pour juger de la fiabilité des hadiths.
Le modèle n’utilise pas les données sur les narrateurs. Il considère initialement que tous
les narrateurs sont inconnus et qu’ils possèdent tous une probabilité d’être crédibles égale
à 1/2. Cette probabilité augmente si d’autres narrateurs rapportent le même hadith de la
même manière. Elle diminue si les autres narrateurs racontent des versions qui divergent.
Ce calcul est illustré par un exemple dans [28]. Cela signifie que le jugement de la fiabilité
est basé uniquement sur la comparaison de versions. En outre, ce modèle est fortement
récursif étant donné que la fiabilité d’un narrateur dépend de la crédibilité d’autres nar-
rateurs, qui peuvent aussi être inconnus. En plus, il n’y a aucun moyen pour juger de la
continuité d’une chaı̂ne. Ainsi, une transmission composée de deux narrateurs fiables qui
ont vécu dans des périodes complètement séparées est considérée comme fiable.
Ghazizadeh et al. [117] ont présenté un système basé sur la logique floue pour évaluer
la fiabilité des hadiths. Les règles floues sont basées sur trois variables scalaires, à savoir
la continuité, le nombre de narrations de chaque narrateur et sa crédibilité. Par exemple,
le nombre de narrations est valué par ”élevé”, ”moyen” ou ”bas”. En tout cas, les auteurs
n’expliquent pas comment ces variables sont calculées, ni la source des données nécessaires
à ce calcul. Une règle floue contient des contraintes sur les trois variables et produit la
classe de fiabilité pouvant prendre l’une des cinq valeurs possibles en plus d’un taux de
certitude. Par exemple, si la chaı̂ne est continue, le nombre de narrations est moyen et
que la crédibilité du narrateur est élevée, alors le hadith est dit ”correct” et le taux de

certitude est égal à 0.9. Les tests ont été effectués sur le livre ” ú¯A¾Ë@” 17 qui contient plus

que 1900 hadiths. Les auteurs affirment qu’ils ont atteint un taux de réussite égal à 94%.
Cependant, ils n’expliquent pas si tous les hadiths de ce livre en été évalués.

17. á
Ê¿ éJK
YÓ ú
¯ ø
Qj.êË@ IËA
JË@ àQ®Ë@ áÓ ú
GAJË@ JË@ ú
¯ XñËñÖÏ @ ú
æJ
Ê¾Ë@ H ñ áK YÒjÖÏ ú¯A ¾Ë@
®ªK

. Ï @ ñëð PA
. ë 329 éJ ú¯ñJÖÏ @ úæJ
Ê¾Ë@ ÐCB @ é®. JK. ¬ðQªÖ
®K
.

Le livre ”Al-kefi” de Mohamed ibn Yakoub Al-Kellini né dans le deuxième moitié du troisième
siècle hégirien dans la ville de Kellin en Iran connu sous le nom de ”thikat Allah Al-Kellini”
décédé en 329 hégirien
42
Le tableau II.4 compare les trois approches citées précédemment en récapitulant les
techniques d’évaluation, le type de résultat, les critères pris en compte lors du calcul de
la fiabilité et le taux de réussite.
Approche Technique Type du Critères de fiabi- Taux de

d’évaluation résultat lité réussite
Al-Rizzo Inférence à Binaire Non
– Crédibilité des
[3] base de règles évalué
narrateurs
(logique des
– Continuité de la
prédicats)
chaı̂ne
Aydemir Calcul de pro- Taux de fiabilité - Comparaison de Non

[28] babilités dans l’intervalle versions évalué
[0..1]
Ghazizadeh Règles floues La classe de fia- 94%
– Crédibilité des
et al. [117] bilité avec un
narrateurs
taux de certi-
– Nombre de nar-
tude
rations de chaque
narrateur
– Continuité de la
chaı̂ne
Tableau II.4 – Critères de comparaison des approches d’évaluation des hadiths
Les approches existantes supposent que les chaı̂nes sont déjà analysées et que les nar-
rateurs sont identifiés. Si nous les comparons du point de vue besoin en données, nous
trouvons que l’approche de Ghazizadeh et al. [117] est la plus coûteuse, étant donné qu’il
est nécessaire de connaı̂tre le nombre de narrations de chaque narrateur, ce qui n’est
pas toujours possible. Al-Rizzo [3] utilise uniquement la crédibilité des narrateurs et la
continuité de la chaı̂ne. L’approche d’Aydemir [28] est la moins coûteuse du point de vue
besoin en données mais exige que les versions différentes d’un hadith soient alignées. Du
point de vue complexité, son implémentation nécessite des calculs récursifs coûteux. Par
rapport aux dimensions de fiabilité, la comparaison de versions permet d’évaluer l’objecti-
vité. Cependant, il est nécessaire de spécifier les mécanismes d’alignement qui ne semblent
pas faciles à mettre en œuvre. En effet, la détection des anomalies nécessite une analyse
logique du sens et du contexte du hadith, ce qui n’est pas possible dans l’état actuel des
travaux d’analyse automatique des textes en langue arabe (voir chapitre III). C’est pour-
quoi ce critère n’est pas pris en compte d’une manière directe par les approches d’Al-Rizzo
[3] et Ghazizadeh et al. [117] qui se concentrent sur la dimension ”autorité”.
Enfin, nous identifions trois limites des approches existantes :
1. Non prise en compte de la dimension ”fiabilité de transmission”.

2. Insuffisance au niveau de l’évaluation des résultats de test : seule l’approche de
Ghazizadeh et al. [117] a été évaluée. Avec l’absence de détails sur le calcul des
critères de fiabilité, il est difficile d’interpréter le taux de réussite rapporté.
43
3. Absence de mécanismes de visualisation qui, selon notre revue de la littérature,

présentent une importance particulière surtout pour les utilisateurs novices.
4 Conclusion
Dans ce chapitre, nous avons étudié les méthodologies et les applications dans le do-
maine de l’évaluation de la fiabilité, qui est considérée comme un critère de la pertinence
de l’information. Malgré la diversité des domaines d’application, nous avons pu recenser
une démarche générique qui combine les méthodologies classiques des sciences de l’histoire
et du hadith avec les développements modernes dans les sciences de l’informatique. En
guise de conclusion, nous pouvons dire que l’évaluation de la fiabilité est un processus
qui réunit toutes les étapes du processus de cartographie des connaissances. Du point de
vue résultat d’évaluation des critères de fiabilité, nous avons insisté sur l’importance de
la précision des métriques, des indices de fiabilité et de l’ergonomie de leur affichage. En
effet, pour pouvoir calculer ces indices, il faut passer par des étapes d’étude et d’analyse
qui permettent d’identifier et de structurer les informations nécessaires à ce calcul. Ces
étapes sont aussi indispensables pour évaluer les autres critères de pertinence dont la per-
tinence thématique. Ainsi, le chapitre suivant se focalisera sur les mécanismes d’analyse
nécessaires à la structuration des fonds documentaires arabes.
44
Chapitre III
Extraction et organisation des
connaissances à partir des
documents arabes
L ’objectif de ce chapitre est d’étudier les étapes nécessaires pour obtenir une struc-
turation socio-sémantique d’un fonds documentaire exploitable par un système
de recherche ou de navigation. Afin d’indexer les documents ou d’en extraire les connais-
sances, il est nécessaire de les analyser à plusieurs niveaux. Le processus d’analyse inclut
tous les niveaux du traitement automatique du langage naturel (TALN). Ce processus
commence au niveau morphologique qui analyse les caractéristiques et les constituants
des mots. La découverte de connaissances plus complexes et leur organisation nécessite
le passage au niveau syntaxique. Sur la base de ce travail préliminaire, il est possible de
mettre en place des mécanismes d’analyse socio-sémantique. Une revue des travaux de
recherche pour la langue arabe (par exemple à travers la conférence ICCA 2010 [17]),
montre que ces travaux se concentrent sur les deux premiers niveaux. Cependant, certains
travaux ont abordé le niveau sémantique et le niveau social. Ce chapitre présente un état
de l’art sur les approches et les outils d’analyse de documents arabes en consacrant une
section pour chacun des quatre niveaux d’analyse, à savoir le niveau morphologique, le
niveau syntaxique, le niveau sémantique et le niveau social. Il faut mentionner ici que ces
niveaux sont liés et que le processus d’analyse n’est pas forcément séquentiel. Avant de
conclure ce chapitre, nous présenterons, dans la section 5, une critique de l’existant en
évaluant l’état de la langue arabe dans le Web socio-sémantique.
1 Le niveau morphologique
La langue arabe possède une morphologie dérivationnelle et flexionnelle. L’élément de

base du lexique arabe est la racine (P Ym.Ì '@), à partir de laquelle il est possible de générer
des lemmes puis des mots. Mesfar [164] distingue les racines simples qui correspondent au
) ” Éª ¯ ” (fa’ala), à partir desquelles il est possible de générer des racines
schème ( à PñË@
augmentées en utilisant des schèmes plus complexes. Par exemple, à partir de la racine

simple ” à ”, il est possible de générer le verbe à racine augmentée ” J@” (inspirer)

en appliquant le schème ” É ª ® J @ ”. Dans un tel schème, les trois dernières lettres
représentent les lettres de la racine simple. A partir des racines simples et augmentées,
45
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES
nous pouvons dériver des noms. Par exemple, à partir de la racine précédente, nous pou-

vons dériver le nom ” A J@ ” (inspiration). Les particules, verbes non conjugués et les

noms non déclinés constituent les lemmes [164]. L’inflexion change la forme d’un lemme
et ajoute des préfixes et des suffixes. Par exemple, le verbe précédent peut être conjugué
à l’inaccompli avec la troisième personne du masculin singulier comme suit : ” J

” (il inspire). Selon le rôle et la position du mot dans une phrase, des enclitiques et des
proclitiques peuvent être ajoutés [24]. Par exemple, à partir du verbe précédent, nous
pouvons

générer l’expression ” é® J
@” (Est-ce qu’il l’inspire). Dans ce cas, le proclitique

” @ ” et l’enclitique ” è ”ont été ajoutés. Les textes arabes contiennent aussi d’autres ca-
ractères appelés voyelles courtes ou signes diacritiques ( É¾Ë@ ) qui aident à prononcer les

mots. Par exemple, le mot précédent peut être voyellé comme suit : ” é® J
@”.
L’analyse morphologique consiste à étudier la structure de chaque mot pour reconnaı̂tre

ses morphèmes et déterminer leurs natures. Elle permet aussi de déterminer la racine et/ou
le lemme selon la stratégie adoptée. Dans les deux cas, cette analyse engendre plusieurs
ambigüités qui influencent d’autres étapes dans le processus d’extraction de connaissances
et de recherche d’information. Les principales sources d’ambiguı̈té morphologique sont
l’absence de la voyellation et l’agglutination [238]. En effet, les voyelles courtes sont ab-
sentes dans la majorité des textes arabes, ce qui conduit à un niveau élevé d’ambiguı̈té.
Zouaghi [238] affirme ”qu’il est même impossible de déduire le sens de certains mots non
voyellés, si on ne connaı̂t pas le contexte de leurs énonciations”. Il cite l’exemple du mot

” éPYÓ ” qui peut signifier selon la voyellation ” é P Y Ó ” (école),” ” é P Y Ó ” (enseignante)

ou ” é P Y Ó” ”enseignée”. L’ambiguité s’amplifie quand certaines conjonctions et/ou par-
ticules collent aux mots. L’une des conséquences de l’agglutination est qu’un mot arabe

peut signifier toute une phrase dans d’autres langues. Par exemple le mot ” IK
@P @” permet
d’exprimer en français ”Est ce que vous avez vu ?”. Ces deux types d’ambiguı̈tés (i.e. celles
reliées à l’absence de voyelles et celles causées par l’agglutination) peuvent se combiner
dans le même mot. Prenons à titre d’exemple le mot ” Zñð ” (wDw’) qui peut être analysé

comme ” Zñ ð ” (wuDuw’ / ablution), ” Zñ ð ” (waDuw’ / eau pour l’ablution) ou ” Zñ ”
(Dw’/lumière). Dans cet exemple, la lettre ”ð” est interprétée soit comme une conjonction
de coordination soit comme une lettre du lemme. Même dans ce deuxième cas, il existe
deux interprétations possibles du mot.
Pour réduire les ambiguı̈tés, deux solutions sont envisageables. La première consiste
à utiliser le contexte. Etant donnée une entité qui a plusieurs interprétations possibles,
il s’agit, dans une première étape, d’associer à chaque interprétation un ou plusieurs
contextes par apprentissage dans un corpus étiqueté. Dans une deuxième étape, les en-
tités sont désambiguı̈sées dans un corpus de test par comparaison des nouveaux contextes
à ceux appris dans la première étape. La deuxième solution consiste à résoudre les am-
biguı̈tés d’un niveau en passant au niveau suivant. Par exemple, un analyseur syntaxique
46
peut filtrer les solutions proposées par un analyseur morphologique pour ne garder que
les solutions compatibles avec les règles de la grammaire [23].
Les approches et les outils qui traitent les aspects morphologiques peuvent donc être
classés en deux principales catégories. La première regroupe des outils d’analyse qui visent
à identifier toutes les solutions possibles pour un mot donné indépendamment de son
contexte. Dans cette catégorie, nous distinguons essentiellement les lemmatiseurs [82, 146]
et les analyseurs morphologiques [14, 24, 35, 128]. La deuxième catégorie englobe les outils
de désambigüisation qui utilisent des informations extra-mot pour choisir la bonne solution
morphologique [86, 127]. Il ne s’agit pas d’outils purement morphologiques du fait qu’ils
dépassent le cadre du mot, mais nous les décrivons dans cette section car leur résultat
est morphologique. Parmi ces outils, nous distinguons les étiqueteurs grammaticaux qui
ne permettent d’identifier que la catégorie grammaticale [86]. D’autres outils, tels que
MADA, permettent à la fois l’analyse morphologique complète et la désambiguı̈sation
[127].
1.1 Les lemmatiseurs

La lemmatisation consiste à supprimer les préfixes et les suffixes qui peuvent coller
aux mots [153]. En langue arabe, le résultat de la lemmatisation peut être soit le lemme
du mot soit sa racine.
Par exemple, le lemmatiseur de Khoja [146] permet de retrouver la racine d’un mot. La
première étape consiste en l’élimination des préfixes et des suffixes. La deuxième étape
permet d’identifier le schème de dérivation qui correspond au lemme du mot pour identifier
sa racine. L’outil a été utilisé dans le Système de Recherche d’Information (SRI) en langue
arabe développé par Larkey et al. [153]. Ces derniers affirment que le lemmatiseur a
commis beaucoup d’erreurs mais il a permis d’améliorer les résultats de recherche en
termes de rappel et de précision.
Parmi les outils qui permettent de retrouver le lemme d’un mot arabe, citons le lem-
matiseur développé par Darwish [82]. Il faut rappeler ici que la lemmatisation fait partie
des fonctionnalités des analyseurs morphologiques.
1.2 Les analyseurs morphologiques

Dans [24], Attia énumère les sources d’ambiguı̈té de la morphologie arabe et concluent
que la langue arabe est une langue dont la morphologie est riche et complexe. Comme
les lemmatiseurs, les analyseurs morphologiques peuvent être classés en deux catégories
selon qu’ils utilisent les lemmes ou les racines des mots [24].
Il existe actuellement plusieurs analyseurs morphologiques arabes tels que DIINAR
[88] et Morph2 [66]. Cependant, nous nous limitons aux outils les plus cités dans la
littérature, bien documentés et disponibles pour évaluation. Dans sa revue des analy-
seurs actuellement disponibles, Attia [24] identifie deux outils qu’il considère comme les
”meilleurs” analyseurs : l’analyseur morphologique de Buckwalter [128] et celui de Xerox
[35]. Le premier est disponible pour téléchargement sous forme d’un package Java 1 et le
1. http://www.nongnu.org/aramorph/
47
deuxième est accessible à travers une interface Web 2 . Nous avons testé d’autres analyseurs
morphologiques disponibles et nous avons abouti à la même conclusion qu’Attia [24] en
confirmant que ces deux outils sont les plus performants. Par exemple, nous avons testé
l’analyseur morphologique du laboratoire de recherche en informatique de l’université de
New Mexico [77] qui permet d’analyser des textes en arabe, persan et urdu. Il produit
beaucoup plus d’erreurs que l’analyseur de Buckwalter, qui est en plus mieux documenté
et plus facilement intégrable. Attia [24] énumère les limites de ces deux analyseurs (celui
de Buckwalter et celui de Xerox) et propose son propre analyseur. En plus de ces outils,
un nouvel analyseur nommé ”Alkhalil” est récemment apparu [14].
1.2.1 L’analyseur morphologique de Buckwalter

Le code source de cet analyseur, baptisé ”AraMorph”, est livré avec trois dictionnaires :
– Le dictionnaire des préfixes : il contient les préfixes qui peuvent être ajoutés lors de
la flexion et les proclitiques.
– Le dictionnaire des suffixes : il contient les suffixes qui peuvent être ajoutés lors de
la flexion et les enclitiques.
– Le dictionnaire des radicaux : il englobe des lexèmes (formes graphiques) qui ne
contiennent ni préfixes ni suffixes. Pour chaque lexème, le dictionnaire énumère les
lemmes possibles, leurs catégories grammaticales et leurs traductions en anglais.
Trois tables de compatibilité sont définies, à savoir :
– La table de compatibilité entre préfixes et radicaux.

– La table de compatibilité entre préfixes et suffixes.
– La table de compatibilité entre radicaux et suffixes.
Dans l’ensemble, 135 catégories sont définies et attribuées aux préfixes, suffixes et
radicaux.
Cet analyseur, considéré comme la meilleure ressource de son type, souffre de quelques
limites comme cela a été mentionné par Attia [24]. Parmi ces limites, notons la non prise en
compte de certaines formes de verbes (par exemple, les formes passives et impératives).
Attia [24] affirme que les dictionnaires de cet analyseur contiennent des entrées de la
langue arabe classique, ce qu’il considère comme étant une limite. Nous considérons plutôt
qu’il s’agit d’une caractéristique de cet analyseur qui pourra être utilisé avec des textes
classiques.
1.2.2 L’analyseur morphologique de Xerox

Cet outil est à la fois un système d’analyse et de génération. Il est donc capable de
générer les mots possibles à partir d’une racine en utilisant des schèmes. Il est basé sur
les automates à états finis [36].
D’après Attia [24], cet analyseur commet beaucoup d’erreurs lors de la génération, ce
qui amplifie son taux d’ambigüité. En outre, il est moins adapté pour interopérer avec un
analyseur syntaxique, car la liste de catégories morphosyntaxiques qu’il définit est réduite
par rapport à celle d’AraMorph. Cependant, il contient moins d’entrées de la langue arabe
classique.
2. http ://www.arabic-morphology.com
48
1.2.3 L’analyseur morphologique d’Attia

Comme celui de Xerox, cet outil est un système d’analyse et de génération. Les règles de
génération sont implémentées en utilisant les automates à états finis [24]. Etant donné qu’il
est construit à partir d’un corpus d’articles de journaux, il est plutôt orienté vers la langue
arabe moderne. Il propose plusieurs techniques pour réduire l’ambiguı̈té notamment en
définissant des règles grammaticales précises. Par exemple, les adjectifs ne peuvent pas
coller aux pronoms possessifs. En outre, il spécifie pour chaque verbe sa voix (passive ou
active), sa transitivité et s’il peut avoir une forme impérative, ce qui réduit les solutions
possibles lors de la génération des résultats.
1.2.4 L’analyseur Alkhalil

Il s’agit d’un analyseur morphologique développé en coordination avec l’ALECSO 3
[14]. La version 1.0 a été distribuée dans la conférence ICCA 2010 [17] sous forme de
code source Java libre. La base de données de l’outil contient des dictionnaires pour les
préfixes, les suffixes et les racines. Des patrons au format XML implémentent les schèmes
qui permettent de générer tous les mots possibles. Il a la particularité de pouvoir analyser
des textes voyellés ou non. En sortie, il génère toutes les informations concernant un mot,
y compris les informations sur les préfixes, les suffixes, les racines possibles et les schèmes
qui leurs sont associés.
1.2.5 Synthèse
Dans cette section, nous comparons les outils précédemment décrits sur la base des
critères suivants : le type d’entrées (racines ou lemmes), la couverture (nombre d’entrées),
le type de la langue arabe considérée (classique ou moderne), le degré d’ambiguı̈té (nombre
moyen de solutions pour chaque mot) et la disponibilité. Le tableau III.1 présente les
caractéristiques des quatre outils présentés dans ce chapitre en fonction de ces critères.
Outil Nombre Type de la langue Degré Disponibilité

et type arabe d’am-
d’entrées biguı̈té
Buckwalter 38600 lemmes classique 02.60 Code source
Java libre
Xerox 4390 racines moderne avec 04.32 Interface Web
quelques entrées
classiques
Attia 9471 lemmes moderne 01.75 Fichiers FST
(Finite State
Technology)
compilés
Alkhalil 7500 racines classique et moderne 11.31 Code source
Java libre
Tableau III.1 – Comparaison des analyseurs morphologiques arabes.
3. Arabic League Educational, Cultural and Scientific Organization : http://www.alecso.org.tn/
49
Le choix du bon analyseur morphologique dépend de la nature des textes et de l’applica-

tion visée. Pour les textes qui relèvent de la langue arabe classique, AraMorph semble être
le plus adapté, alors que l’analyseur de Xerox et celui d’Attia sont utilisés pour les textes
modernes. Alkhalil se distingue par sa généricité à ce niveau. Cet outil à base de racines,
comme l’outil de Xerox, est un système de génération ayant un taux d’ambiguı̈té élevé.
Ces deux outils ne sont donc pas adaptés aux applications d’extraction de connaissances
ou de recherche d’information, étant donné que la précision est un critère important dans
ce type d’applications.
1.3 Les étiqueteurs grammaticaux

La fonction d’un étiqueteur grammatical consiste à attribuer des catégories gramma-
ticales aux mots d’un énoncé en se basant sur le contexte [86]. Le contexte est représenté
par N mots à droite et N mots à gauche, N étant généralement égal à 2.
Les étiqueteurs grammaticaux sont construits par apprentissage à partir de corpus

étiquetés manuellement. La prise en compte du contexte par apprentissage permet de
réduire l’ambiguı̈té morphologique. Un tel outil est livré avec des fichiers contenant les
résultats d’apprentissage (des règles contextuelles). Par exemple, Freeman [108] a dévelop-
pé des programmes qui permettent d’apprendre ces règles à partir d’un corpus étiqueté
et de les utiliser ensuite pour analyser des textes. Cet outil est théoriquement capable
d’analyser des textes en langue arabe, mais l’étape d’apprentissage n’a été effectuée que
pour l’anglais.
L’analyseur développé par Diab [86] est cependant disponible avec les ressources néces-
saires 4 . L’étape d’apprentissage a été effectuée sur le corpus ATB (Arabic Treebank [158]).
L’analyseur est composé de modules qui permettent de faire la lemmatisation pour en-
suite attribuer les catégories grammaticales aux mots. Ces catégories ont été définies en
réduisant les 135 catégories d’AraMorph.
1.4 L’outil MADA

MADA (Morphological Analysis and Disambiguation for Arabic) est un outil de désam-
biguı̈sation morphologique basé sur le même principe des étiqueteurs grammaticaux sauf
que l’analyse touche toutes les caractéristiques des mots [125, 126, 127, 197]. L’outil dis-
tingue 19 caractéristiques qui couvrent les préfixes, les suffixes et les lemmes. Pour chaque
caractéristique, un classifieur SVM [13] est construit par apprentissage dans un corpus.
MADA accepte comme entrée les solutions générées par l’analyseur morphologique de
Buckwalter [128]. Pour une solution donnée, il évalue chaque caractéristique en utilisant
son classifieur en fonction du contexte. Pour obtenir un score global de la solution, MADA
attribue un poids à chaque caractéristique. Le score global est égal au produit des scores
des caractéristiques ainsi pondérées. A notre connaissance, MADA est le seul outil dispo-
nible qui fournit une analyse morphologique complète tout en classant les solutions par
ordre de pertinence par rapport au contexte. Pour construire l’outil MADA, l’équipe de
Habash [125, 126, 127, 197] a utilisé le corpus ATB [159] version 3 dont la taille est de
l’ordre de 51K mots. Les auteurs rapportent un taux de réussite égal à 94.10% [197].
4. Cet outil est téléchargeable sur http://www1.cs.columbia.edu/~mdiab
50
2 Le niveau syntaxique
L’analyse syntaxique est censée reconnaı̂tre la structure d’une phrase et les fonctions
grammaticales de ses constituants. Elle peut être limitée à l’analyse ou à l’extraction de
certaines expressions utiles pour des fins d’indexation ou d’extraction de concepts. C’est
ainsi que plusieurs outils, dans le domaine de l’ingénierie ontologique, considèrent les syn-
tagmes nominaux comme les meilleures entités qui représentent le sujet d’un document
[47, 161]. Nous distinguons donc deux types d’analyse syntaxique. L’analyse superficielle
permet la découverte des constituants principaux des phrases (syntagmes en général)
et leurs têtes ainsi que la détermination des relations syntaxiques (sujet, objet) entre
les verbes et les têtes des autres constituants [38]. L’analyse profonde inclut, en plus
de ces tâches, l’affectation des fonctions aux syntagmes distingués, la désambiguı̈sation
syntaxique et l’attribution d’une structure syntaxique globale [38]. Si ce type d’analyse
garantit la qualité des résultats, il est plus complexe et plus coûteux en terme de connais-
sances linguistiques requises [38]. Les analyseurs superficiels gagnent du terrain vu la
facilité de leur mise en œuvre surtout dans les applications d’extraction de connaissances
et la recherche d’information qui traitent des données volumineuses.
Cette section présente des éléments de la grammaire arabe liés à la constitution des
syntagmes nominaux, avant d’étudier les problèmes d’ambiguı̈té syntaxique et les travaux
existants dans ce domaine.
2.1 Les syntagmes nominaux en langue arabe

Dans cette section, nous rappelons les différentes formes de syntagmes en langue arabe
en nous basant sur notre étude qui est présentée dans [52] et [53]. Nous nous limitons ici
à l’étude des caractéristiques syntaxiques des expressions composées qui peuvent avoir la

catégorie ”nom”. En effet, la langue arabe distingue les noms définis ( é ¯QªÓ ) de ceux

indéfinis ( èQº K ). Un nom simple est dit défini s’il appartient à l’une des catégories sui-
vantes :
– Les pronoms comme ” AK @” (je) et ” I K @” (tu).
– Les noms propres.
– Les noms préfixés par le déterminant ” È@” comme ” Ég. QË@” (l’homme).
– Les pronoms relatifs et les pronoms démonstratifs.
Les syntagmes peuvent être composés de deux ou plusieurs noms simples et adjectifs.
Selon le type des mots qui composent un syntagme, nous pouvons identifier son type
comme suit :
JË@ I»QÖÏ @), composé d’un nom (simple ou composé)
– Le Syntagme adJectival (SJ ) ( úæª

.

appelé ” Hñª JÓ ” (le nom modifié) et un adjectif (” Iª K ”). Les deux composantes
Ég. QË@” : l’homme savant)
doivent être toutes les deux définies (par exemple ” ÕËAªË@

ou indéfinies (par exemple ” ÕËA « Ég. P” : un homme savant). En plus, elles doivent

aussi avoir le même genre et le même nombre (” XQ®Ó” : singulier, ” ©Ôg.” : pluriel ou
51

” úæ JÓ” : duel).

– Le Syntagme Annexé (SA) ( ú¯A B@
I. »QÖÏ @ ), composé d’un nom indéfini appelé ”

¬A Ö Ï @” (l’annexé) et d’un terme défini ” éJ
Ë@ ¬A Ö Ï @” (la base d’annexion). Exemple :
” PYË@ I
. KA¿” (le rédacteur de la leçon).

– Le Syntagme Conjonctif (SC ) ( ù ®¢ªË@ I . »QÖÏ @) : composé d’une suite de noms liés

par la conjonction ”ð ” (et) ou ” ð @ ” (ou). Exemple : ” É ®¢Ë@ð Ég. QË@ ” (l’homme et
l’enfant).
– Le Syntagme Prépositionnel (SP ) ( ú¯QmÌ '@ I

. »QÖÏ @), composé de deux noms séparés
par une préposition. Exemple : ” Z@ñÊm ¨ñK ” (un type de bonbon).
Ì '@ áÓ
– Le Syntagme Nominal Complexe (SNC ) dans lequel deux ou plusieurs connecteurs
(par exemple les conjonctions et les prépositions) sont utilisés pour lier les noms.
úÍ@ñmÌ P@QÒJB@” : Continuer à peu près une année.
Exemple : ” éJ

Tous ces types de syntagmes peuvent participer à la composition d’autres syntagmes

plus complexes. Ainsi, il est possible d’obtenir des syntagmes composés de plusieurs mots.
Les exemples présentés ci-dessus montrent aussi que ce type de compositions peut être
porteur de relations sémantiques.
2.2 L’ambiguı̈té syntaxique

Avec la complexité des écrits arabes, nous sommes face à la difficulté de séparer les
phrases vu l’inexistence de séparateurs explicites. L’analyse profonde peut rentrer dans
des boucles récursives fortement complexes. Même l’analyse superficielle peut générer des
résultats ambigus. Nous avons identifié deux principaux types d’ambiguı̈tés qui influencent
l’extraction des syntagmes nominaux [52]. D’une part, la langue arabe se caractérise par
la liberté dans le choix de l’ordre des mots d’une phrase. Par exemple, l’expression ”

I
J.Ë@ ú¯ É¿ B@ ” (manger à la maison) peut être exprimée par ” É¿ B@ I
J.Ë@ ú¯ ”. D’autre

part, un nom arabe peut prendre le rôle d’un verbe, d’une préposition, d’un adverbe ou

d’un adjectif. Par exemple, le mot ” IjJ . Ë@” dans la phrase ” èQÒ JÓ l. ' A J K á« . Ë@ QÖß @”
IjJ

(la recherche a donné des résultats prometteurs) joue le rôle d’un nom. Cependant, il a le
. Ë@ ÈðAg ” (Il a essayé de
rôle d’un nom verbal dans la phrase suivante : ”Qk @ Ég á« IjJ
chercher une autre solution).
Comme exemple d’ambiguı̈té syntaxique, considérons l’expression suivante : ” ZAîD KB@

” (la fin de la construction de la maison). L’analyse de cet exemple mènera
P@YË@ ZA JK. áÓ
à deux différents arbres comme le montre la Figure III.1. Dans cette figure, les sym-
boles ”SN”, ”N” et ”PREP” désignent respectivement, ”Syntagme Nominal”, ”Nom” et
52
”Préposition”. Il est nécessaire dans ce cas d’identifier tous les arbres syntaxiques pos-
sibles et de sélectionner celui qui correspond à l’analyse correcte, car cela influence la
sémantique des syntagmes extraits.
Figure III.1 – Exemple d’ambigüité syntaxique.
2.3 Etat de l’art sur l’analyse syntaxique des textes arabes

Un effort considérable a été consenti dans le domaine de l’analyse syntaxique des
textes arabes. Nous pouvons citer à titre d’exemple les thèses d’Aloulou [23], d’Attia [24]
de Mesfar [164] et de Ben Farj [38]. Malgré ces efforts, il n’existe pas, à notre connais-
sance, un outil générique qui puisse effectuer une analyse profonde ou même superficielle
et traiter la complexité des phrases arabes. Certes, il existe des outils syntaxiques mul-
tilingues tels que l’analyseur de Bikel [42], qui utilise une approche statistique basée sur
l’apprentissage à partir de corpus étiquetés. Ces outils ne sont pas exploitables pour la
langue arabe vu l’absence de corpus étiquetés. D’autres sont paramétrables et acceptent
comme entrée les règles grammaticales. Par exemple, le groupe TALN de l’université de
Stanford a développé un analyseur syntaxique multilingue [147, 148]. Dans sa version
actuelle, l’analyseur est incapable de traiter les textes arabes car il ne dispose pas de
grammaire pour cette langue.
3 Le niveau sémantique
Cette section présente les enjeux de construction des ontologies en tant que système
d’organisation des connaissances sémantiques. Notre étude concerne le cycle de vie et les
approches d’extraction de construction des ontologies à partir de corpus textuels.
53
3.1 Le cycle de vie des ontologies

Malgré le fait que la notion d’ontologie soit un sujet de discussion et de divergence dans
les différentes visions du Web (voir chapitre I, section 3.3, page 13), il possible d’identifier
quatre étapes communes aux différents visions. La Figure III.2 illustre un cycle de vie
générique inspiré de [90] et [109].
Figure III.2 – Cycle de vie d’une ontologie.
En réalité, ces étapes se chevauchent, ce qui est implique que ce cycle de vie n’est
pas séquentiel. Par exemple, il n’est pas possible de séparer les étapes de construction et
d’utilisation selon le point de vue du Web socio-sémantique. En examinant ce processus
et pour des raisons de clarté, nous pouvons réorganiser ces étapes en distinguant trois
phases : (i) l’évaluation des besoins ; (ii) la construction et l’utilisation ; et, (iii) l’évaluation
de l’ontologie.
3.1.1 Evaluation des besoins

Selon Uschold et King [213], l’évaluation des besoins inclut l’identification des utilisa-
teurs potentiels, l’étude de l’objectif opérationnel et enfin la délimitation du domaine de
connaissances visé.
Il convient donc de définir la notion de domaine. Nous pouvons citer la définition sui-
vante [129] : ”A domain is a culturally bounded segment of the social world containing
producers/products, audiences and a language that tells to whom these distinctions apply
and what they mean” .
A partir de cette définition, il est possible de conclure qu’un domaine est composé
d’items reliés (les produits). Il correspond à un intérêt commun d’une communauté (des
producteurs et une audience partageant des perceptions, des intérêts, des activités, des
valeurs, etc.). Cette communauté partage aussi un ensemble de concepts et une terminolo-
gie définie par ses membres. Selon Spradley [208], un domaine est représenté à l’aide d’un
terme principal, un ensemble de termes et des relations sémantiques entre les termes. Il
faut aussi définir des critères qui permettent de distinguer les connaissances qui entrent
dans les limites du domaine de celles qui doivent être écartées. Il est clair que ce processus
dépend des besoins et des interactions sociales entre plusieurs acteurs. Vu la complexité
de ces interactions, le Web socio-sémantique propose de construire les ontologies d’une
manière collaborative [225].
54
Enfin, l’évaluation des besoins doit permettre de déterminer le degré de formalisation

requis. Tel que nous l’avons précisé dans le chapitre I (voir section 2.4, page 11), plus
nous nous rapprochons du formel plus nous nous éloignons des besoins sociaux et nous
privilégions les traitements automatiques.
3.1.2 Construction et utilisation

Les choix liés à cette phase permettent de distinguer les tâches automatisables de
celles qui doivent être effectuées par l’utilisateur. Dans certaines applications du Web
sémantique formel, c’est la machine qui prend en charge la majorité du processus de
construction. La tâche de l’utilisateur se réduit à l’utilisation et à la validation. L’étape
de construction peut être décomposée en trois sous-étapes, à savoir la conceptualisation,
l’ontologisation et l’opérationnalisation [107]. La conceptualisation inclut l’extraction de
connaissances à partir de corpus. Cette étape, automatisable en grande partie, fournit
des termes candidats dont les libellés ont un sens pour le lecteur, souvent spécialiste du
domaine. Cependant, rien n’assure que ce sens soit unique : au contraire, nous sommes
dans un contexte linguistique où les significations sont ambiguës et les définitions sont
circulaires et dépendantes en particulier du contexte interprétatif des locuteurs. Il est
nécessaire, pour prendre le chemin du formel, de normaliser les significations des termes
pour ne retenir, pour chacun d’eux, qu’une seule signification, qu’une seule interprétation
possible pour un être humain. Ainsi, nous obtenons une ontologie différentielle [67]. L’on-
tologisation permet une formalisation partielle de cette ontologie tout en assurant sa
cohérence avec le domaine considéré. Enfin, l’opérationnalisation a pour objectif d’ou-
tiller une ontologie pour permettre une manipulation automatique des connaissances du
domaine [109].
Le Web socio-sémantique propose de construire les ontologies d’une manière collabo-

rative. Les utilisateurs sont libres d’ajouter des concepts et/ou des relations selon leurs
points de vue respectifs. Cela n’empêche pas que la machine peut participer à ce processus
de construction en facilitant l’analyse de corpus. Par exemple, dans le modèle hypertopic
[230], les ressources sont décrites par des attributs standards sous forme (clé,valeur). La
machine peut analyser les ressources pour calculer ces attributs. En outre, la construction
des ontologies multi-points de vue (préconisées dans le Web socio-sémantique), à partir
d’un corpus, peut être automatisée (au moins partiellement) si les points de vue sont
explicitement représentés dans les documents.
3.1.3 Evaluation des ontologies

Dans le Web socio-sémantique, les ontologies sont construites et évaluées au fur et à
mesure de leur utilisation. Selon le point de vue du Web sémantique formel, l’ontologie
et les besoins sont réévalués après chaque utilisation significative et l’ontologie peut être
étendue et, si nécessaire, en partie reconstruite. Nous concluons que l’utilisateur a un rôle
central dans les deux cas et que les ontologies ne peuvent être évaluées que dans le cadre
d’une utilisation réelle et massive.
Cependant, dans l’objectif de valider les approches de construction d’ontologies, il est

nécessaire de trouver des méthodes d’évaluation directes. Nous pouvons supposer qu’il
existe un résultat idéal que le système est supposé retrouver. Il s’agit dans ce cas de
comparer l’ontologie extraite par le système par rapport à une ontologie de référence.
55
Ensuite, il est possible d’utiliser les métriques d’évaluation des SRI, à savoir le rappel,
la précision et la F-mesure (voir section 4.1.4 du chapitre I, page 21). Néanmoins, la
difficulté réside au niveau de la définition d’une ontologie de référence. De telles ressources
peuvent être fournies directement ou construites par un expert par validation manuelle.
Par exemple, il est possible de trouver, pour certains domaines, des listes de référence
qui peuvent être utilisées pour évaluer les approches d’extraction de concepts (voir par
exemple [81]). De telles listes peuvent être construites par des experts qui examinent des
corpus et extraient les éléments valides. Si les listes de références ne sont pas disponibles, il
est possible d’opter pour la méthode de validation où un expert valide élément par élément
les connaissances extraites (voir par exemple [20, 166]). De telles approches sont coûteuses
en terme de temps. En outre, l’intervention humaine est influencée par la subjectivité et
l’interprétation personnelle des termes et des relations. Pour remédier à ces inconvénients,
nous pouvons recourir à une validation automatique qui consiste à utiliser l’ontologie dans
un cadre applicatif et à examiner son effet sur les résultats. Par exemple, il est possible
de l’intégrer dans un SRI puis d’évaluer son impact sur ses résultats.
3.2 Construction d’ontologies à partir de corpus textuels

Quel que soit le cadre théorique dans lequel nous nous plaçons, il est nécessaire d’ou-
tiller le processus de construction d’ontologies, surtout si l’objectif visé est la recherche
d’information. Les concepts et les relations du domaine doivent être identifiés par les
termes qui les dénotent. Quand il s’agit de construire une ontologie à partir d’un corpus
textuel, il faut donc distinguer deux étapes, à savoir l’extraction des candidats termes et
l’extraction des relations. Cette section présente un état de l’art des approches d’extrac-
tion de termes et de relations sémantiques en se focalisant sur les travaux qui concernent
la langue arabe.
3.2.1 Terminologie
Etant donné que l’unité de base d’un Système d’Organisation de Connaissances (SOC)
est le terme, il est nécessaire de définir cette notion. Jacquemin [142] la définit comme
une représentation de surface d’un concept du domaine. Tel que nous l’avons spécifié dans
la section 3.1.1 (page 54), un domaine est représenté à l’aide d’un ensemble de termes
qui constituent sa terminologie. Ces deux définitions étant circulaires, il est nécessaire
d’identifier les critères qui permettent de décider si une expression est ou non un terme.
Des recherches récentes ont permis de dégager deux propriétés des termes, à savoir le
”termhood ” et le ”unithood ”. Selon Pazienza et al. [181], le termhood exprime à quel
point (le degré) une unité linguistique est reliée aux concepts d’un domaine. Le uni-
thood exprime la force et la stabilité des collocations syntagmatiques. Cette propriété
concerne les termes qui sont des expressions composées. Pour être considérée comme une
expression composée, une suite de mots doit répondre à des contraintes syntaxiques et
sémantiques. Attia [24] dénombre plusieurs propriétés de telles expressions comme la stabi-
lité lexogrammaticale (l’expression est rigide ou non décomposable) et la paraphrasabilité
(l’expression peut être remplacée par un seul mot). Cependant, la principale propriété
qui distingue ces expressions est la non-compositionnalité qui signifie que le sens de ces
expressions ne peut pas être dérivé de leurs composantes. Par exemple, ”être calme”
est une expression compositionnelle. Par contre, ”avoir le sang froid” est une expression
non-compositionnelle parce que son sens n’est relié à aucun des mots qui la constituent.
Malgré le fait qu’il soit difficile de calculer la compositionnalité des expressions, seules les
56
expressions non-compositionnelles sont considérées comme expressions composées et donc

des termes. Cependant, Attia [24] affirme qu’il est possible d’accepter les expressions non
compositionnelles si elles sont conventionnées ou institutionnalisées. Ces expressions sont
tellement utilisées que leurs synonymes ou quasi-synonymes ne sont plus utilisés. Nous
estimons que de telles expressions sont utiles dans le contexte de la recherche d’informa-
tion, car elles constituent de bons candidats pour indexer les documents et formuler les
requêtes [52].
3.2.2 Extraction de termes

Nous distinguons trois types d’approches d’extraction de termes, à savoir les approches
statistiques, les approches linguistiques et les approches hybrides [52, 181].
i) Les approches statistiques

Ces approches utilisent des mesures statistiques pour évaluer le termhood et le unithood .
Le calcul de la première propriété est basé sur le calcul des fréquences. Un domaine étant
représenté par un ensemble de documents, nous pouvons considérer que plus le terme
est fréquent dans ce corpus, plus il représente le domaine. Même quand elle est combinée
avec des filtres linguistiques, cette approche génère beaucoup de bruit [181]. Pour résoudre
ce problème, il est nécessaire de comparer la fréquence de chaque terme dans plusieurs
corpus, dont chacun représente un domaine en utilisant par exemple la mesure TF-IDF
[200].
Ces calculs de fréquences s’appliquent aussi bien pour les termes simples que com-
posés. Cependant, pour calculer le unithood des expressions composées, nous avons be-
soin d’autres types de mesures qui permettent de calculer le degré d’association entre
les composantes d’une expression. Parmi les mesures utilisées pour les documents arabes
[48, 185], citons T-score (TS) [72], le score LLR [97], le coefficient de Dice (DF) [207] et
l’information mutuelle (MI) [81].
Ces mesures utilisent une table de contingence (voir tableau III.2) qui contient des
statistiques sur deux éléments u et v qui représentent dans ce cas, les composantes d’une
expression. O11 est le nombre d’occurrences de u avec v. O12 est le nombre d’occurrences
de u avec un élément autre que v, etc.
t1 = v t1 6= v
t2 = u O11 O12
t2 6= u O21 O22
Tableau III.2 – Table de contingence.
En plus de cette table, nous utilisons les équations suivantes [181] :
R1 = O11 + O12 (III.1)
R2 = O21 + O22 (III.2)
57
C1 = O11 + O21 (III.3)
C2 = O12 + O22 (III.4)
N = R1 + R2 = C1 + C2 (III.5)
Nous calculons aussi la fréquence attendue (ou espérance) de collocation comme suit
[181] :
E11 = (R1 ∗ C1 )/N (III.6)
Le score LLR est calculé en utilisant la formule suivante [97] :

L(O11 , C1 , r) ∗ L(O12 , C2 , r)
LLR(u, v) = −2 ∗ log( ) (III.7)
L(O11 , C1 , r1 ) ∗ L(O12 , C2 , r2 )
avec :
L(k, n, r) = k r ∗ (1 − r)(n−k) (III.8)
r = R1 /N (III.9)
r1 = O11 /C1 (III.10)
r2 = O12 /C2 (III.11)
MI [81], TS [72] et DF [207] sont données par les formules suivantes :

O11
M I(u, v) = log2 ( ) (III.12)
E11
O11 − E11
T S(u, v) = √ (III.13)
O11
O11
DF (u, v) = 2 ∗ (III.14)
R1 + C1
58
ii) Les approches linguistiques

Dans ces approches, il faut d’abord effectuer une analyse morphosyntaxique du corpus.
L’objectif est d’identifier les termes composés en se basant sur les étiquettes morphosyn-
taxiques. Malaisé [161] distingue deux types d’approches linguistiques :
1. Exploitation de la structure canonique des termes : Selon Malaisé [161], la
sélection des candidats termes dans ce type d’approche ”se fait sur la base d’une
structure syntaxique canonique d’un terme (par exemple la succession syntaxique
d’un nom et d’un autre nom, ou bien la suite Nom Prep Nom)”. Parmi les outils
qui implémentent cette approche, nous citons ACABIT [81] et OntoLearn [215].
2. Détection des marques de rupture de termes : Selon Malaisé [161], ce type
d’approche consiste à Repérer des marques de rupture de termes, c’est-à-dire des
configurations qui ne peuvent pas faire partie d’un terme, pour en donner les frontières
(ponctuation forte, pronom ou verbe conjugué par exemple). Cette approche est
implémentée dans l’outil Lexter développé par Bourigault [56].
Dans les deux cas, nous pouvons distinguer trois principales étapes [52] :
1. Analyse du corpus : des outils d’analyse linguistiques sont utilisés pour permettre
au moins de reconnaı̂tre les catégories grammaticales des mots.
2. Extraction de candidats termes : dans cette étape, on se limite généralement aux
syntagmes nominaux [181].
3. Filtrage : éliminer les mots vides et les expressions fréquemment utilisées.
L’extraction de termes composés arabes nécessite des grammaires syntaxiques [46]. Par
exemple, Attia [24] propose un analyseur purement linguistique pour la reconnaissance
des termes composés. En entrée, un lexique de termes composés construit manuellement
est fourni. Le système essaie d’identifier des variantes de ces termes en utilisant un analy-
seur morphologique. Des règles précises permettent de tenir compte des caractéristiques
morphologiques telles que le genre et le nombre. Les termes composés extraits sont décrits
sous forme d’arbres syntaxiques qui précisent le rôle de chaque constituant. Vu que l’ob-
jectif est d’améliorer les performances d’un analyseur syntaxique, Attia [24] n’a pas évalué
son outil dans un cadre applicatif tel que la recherche d’information.
iii) Les approches hybrides

Les approches purement linguistiques sont incapables de donner une définition du term-
hood . Les approches statistiques ne permettent pas d’extraire les termes composés ayant
des fréquences basses [48]. Pour contourner les limites de ces approches, une solution, qui
est largement adoptée par la communauté des chercheurs, consiste à combiner le calcul
statistique et l’information linguistique. Dans ce cas, l’analyse linguistique est effectuée
avant d’appliquer les filtres statistiques pour sélectionner les termes admissibles. La perfor-
mance des mesures statistiques s’améliore vu que ces dernières opèrent sur des candidats
linguistiquement acceptables. Enfin, les approches hybrides peuvent être améliorées en ex-
ploitant l’information contextuelle. L’idée consiste à calculer la corrélation entre chaque
terme et son contexte [166].
59
En ce qui concerne la langue arabe, Boulaknadel et al. [48] ont présenté une approche
hybride pour extraire les termes composés à partir d’un corpus représentant le domaine
J Ë@ ). Ils ont défini des patrons qui exploitent la catégorie gram-
de l’environnement ( é J
.
maticale pour sélectionner les candidats termes. L’approche n’intègre pas un analyseur
morphologique mais un étiqueteur grammatical [86], ce qui ne permet pas de lemmatiser
les textes et extraire les lemmes des noms et des adjectifs. Ainsi, cette approche est in-
capable de prendre en compte les caractéristiques morphologiques dans la définition des
patrons. Par exemple, il n’est pas possible de vérifier la correspondance en genre entre un
nom et son adjectif lors de la reconnaissance des syntagmes adjectivaux. De plus, elle ne
permet pas de reconnaı̂tre les rôles respectifs des constituants d’un terme et sa structure.
Enfin, les expérimentations ont été effectuées sur un seul corpus en utilisant des mesures
d’association, ce qui implique que les auteurs n’évaluent que le unithood des termes.
3.2.3 Extraction de relations

Les SOC sont organisés à travers des relations sémantiques entre les termes ou les
concepts [25, 31]. L’organisation des connaissances, selon l’axe différentiel, requiert des
calculs de similarité et l’utilisation d’algorithmes de clustering. L’objectif consiste à re-
grouper les termes qui représentent le même concept ou à les organiser d’une manière
hiérarchique. Dans ce cas, il s’agit de découvrir les liens de co-hyponymie [62] (termes qui
partagent le même hyperonyme).
Les relations qui permettent de structurer un SOC peuvent être extraites de diverses
manières [51]. Nous pouvons exploiter plusieurs types d’informations telles que les infor-
mations morphologiques, syntaxiques et contextuelles. Il est aussi possible d’exploiter des
informations provenant de ressources multilingues.
i) Extraction de relations basée sur les informations morphologiques

L’idée consiste à regrouper les termes qui appartiennent à la même famille morphologique,
par exemple en calculant les morphèmes communs entre deux termes [239]. Le regroupe-
ment peut aussi se faire par des calculs sur la dérivation et des règles morphologiques. Par
exemple, Elkateb et al. [100] ont appliqué cette approche pour étendre le WordNet arabe
en considérant que les mots dérivés de la même racine sont sémantiquement proches.
Hattab et al. [136] ont proposé de calculer le degré de similarité de deux termes en ex-
ploitant leurs caractéristiques morphologiques (la catégorie grammaticale, l’existence d’un
déterminant, le schème, la racine, etc.). Belkredim et El-Sebai [37] ont proposé de lier les
verbes à leurs dérivés. La principale limite de ces approches est la génération de bruit,
mais nous pensons qu’il est possible de les appliquer dans les corpus génériques. Les corpus
spécifiques à des domaines contiennent peu de termes qui partagent des caractéristiques
morphologiques telles que la racine.
ii) Extraction de relations par exploitation de la structure des termes

La structure d’un terme composé peut être exploitée pour inférer des relations entre
termes. Un syntagme nominal est composé d’une tête et d’une expansion. Par exemple,
dans le syntagme adjectival, le premier élément (le nom) joue le rôle de tête et le deuxième
(l’adjectif) celui d’expansion. Ces informations sont exploitées notamment par Lexter et
Syntex [56] qui considèrent que la relation syntaxique entre la tête et l’expansion permet
d’induire une relation sémantique. Par exemple, l’existence du terme ”durée de vie” dans
un corpus dénote l’existence d’une relation entre ”vie” et ”durée”.
60
La structure des termes peut être exploitée pour inférer des relations d’hyperonymie
[143]. Généralement le syntagme composé est considéré comme l’hyponyme de sa tête ;

par exemple le terme ” É«” (miel) est l’hyperonyme de ” ÈA®KQ.Ë@ É«” (miel d’orange).
Cette approche a été appliquée sur les documents Web arabes par Hazman et al. [137],
mais elle reste limitée par le fait qu’elle ne permet pas de retrouver des relations entre les
termes simples indépendamment des termes composés.
iii) Extraction des relations basée sur la structure des documents

La structure d’un document peut être vue comme un arbre qui encode des relations
hiérarchiques entre ses fragments [55]. Cette structure peut être exploitée pour inférer
des liens sémantiques. Cependant, nous distinguons deux cas possibles. Dans certains
documents, les titres des fragments sont des termes et les liens structurels représentent
des relations taxonomiques. Par exemple, nous avons proposé d’extraire une ontologie
d’animaux à partir de documents semi-structurés [55]. L’idée consiste à lier deux termes
t1 et t2 par une relation taxonomique, s’il existe un chemin entre le fragment qui contient
t1 et celui qui contient t2 . Nous pouvons ensuite déterminer la racine de la taxonomie qui
n’est autre que le terme ayant le plus de relations taxonomiques avec les autres termes. Il
est aussi possible de calculer la similarité de deux termes en fonction des relations qu’ils
partagent.
Nous avons ensuite essayé d’expérimenter la même approche sur les documents du
hadith [5]. Nous avons réussi à retrouver l’hyperonyme commun de certains groupes de

termes tel que le terme ” ZA «ð ” (conteneur) pour le groupe qui contient les types de
conteneurs. Cependant, dans ce type de documents les liens entre les fragments sont plutôt
thématiques. Il nous était donc difficile de généraliser les résultats obtenus. Néanmoins, la
hiérarchie de titres constitue une carte de thèmes qui facilite l’accès et la compréhension
des textes.
iv) Extraction de relations basée sur le contexte

Dans ces approches, chaque terme a une signature composée de l’ensemble des contextes
dans lesquels il apparaı̂t [178]. Pour calculer le degré de similarité entre deux termes,
il suffit de calculer une distance entre leurs signatures. Dans ce cadre, Harris [134] a
défini la méthode d’analyse distributionnelle comme l’étude de la distribution relative des
termes sur les contextes. Cette méthode a été ensuite adoptée par plusieurs auteurs dont
Bourigault et Lame [59], Cohen et Widdows [74] et Pantel et al. [177]. Dans ces travaux, le
contexte peut être défini de plusieurs manières. Cependant, nous pouvons distinguer deux
types d’approches, à savoir les approches à base de co-occurrence [20, 47, 169, 185, 223]
qui utilisent le document comme contexte et celles qui exploitent les contextes syntaxiques
[57].
61
Les approches basées sur la co-occurrence : ces approches considèrent que les
termes qui co-occurrent dans le même document sont sémantiquement proches. Elle est
largement appliquée pour les documents arabes. Par exemple, Al-Qabbany et al. [20] ont
proposé d’indexer les termes par les documents en utilisant une variante de la mesure TF-
IDF, appelée TF-ITF. Chaque terme est représenté par un vecteur dont les composantes
représentent les poids du terme pour les documents en utilisant cette mesure. La similarité
de deux termes est égale au produit scalaire de leurs vecteurs respectifs. Boulaknadel [47] a
adopté une approche similaire en appliquant la méthode LSA (Latent Semantic Analysis)
[84]. Dans cette méthode, un fonds documentaire est représenté à l’aide d’une matrice dont
les lignes sont les mots et les colonnes sont les documents. La similarité de deux mots
est proportionnelle à la distance euclidienne entre leurs vecteurs respectifs. Mokbel et al.
[169] ont proposé d’améliorer la méthode LSA en étendant l’index de chaque document
par les documents qui lui sont proches, avant de procéder à une étape de clustering. Pinto
et al. [185] ont utilisé l’information mutuelle basée sur la co-occurrence pour calculer la
similarité de deux termes. Yousfi et al. [223] ont exploité les liens de co-occurrence pour
désambiguı̈ser les mots d’une phrase. L’objectif consiste à identifier la classe sémantique
d’un mot en fonction des sens des mots qui apparaı̂ssent dans la même phrase que lui.
En guise de conclusion, nous pouvons dire que les approches à base de co-occurrence ont
été largement utilisées avec divers types de distance. Cependant, elles sont plus orientées
vers des besoins d’indexation et de recherche d’information que vers l’organisation des
connaissances, car les graphes de co-occurrence sont fortement connexes. Ainsi, des termes
non-similaires peuvent apparaı̂tre dans le même document, ce qui produit des liens erronés.
Les approches basées sur le contexte syntaxique : Bourigault [57] a proposé d’uti-
liser l’analyse distributionnelle étendue qui consiste à considérer les termes composés en
plus des termes simples. Il a dévelopé un outil, appelé Upery [57], qui exploite un réseau
de dépendances syntaxiques généré par l’analyseur syntaxique Syntex [58]. L’idée de base
consiste à regrouper les têtes qui partagent la même expansion qui représente le contexte
commun. D’une manière analogue, nous pouvons relier les expansions qui partagent la
même tête. L’outil Upery calcule le degré de similarité entre deux termes t1 et t2 selon
trois mesures [57] :
– Le coefficient A qui représente le nombre de contextes communs entre t1 et t2 .

– Le coefficient prox défini par :
X 1
prox = p (III.15)
c∈C
P rod(c)
Dans cette formule, C est l’ensemble de contextes partagés entre t1 et t2 . Prod(c)
est la productivité du contexte c, qui est égale au nombre de termes qui ont en
commun ce contexte.
– Les coefficients j1 et j2 qui sont calculés comme suit :
j1 = A/P rod(t1 ) (III.16)
j2 = A/P rod(t2 ) (III.17)
(III.18)
où P rod(t1 ) et P rod(t2 ) sont les productivités de t1 et t2 , respectivement. La pro-
ductivité d’un terme est égale au nombre de contextes dans lesquels il apparaı̂t.
62
v) Extraction des relations basée sur les ressources multilingues

Ces approches exploitent les connaissances déjà modélisées dans d’autres langues pour
construire des SOC arabes. Dans ce cadre, Rodriguez et al. [195] ont proposé d’étendre
le WordNet arabe. Les termes à ajouter sont d’abord traduits en anglais. Ensuite, les
groupes correspondants dans le WordNet anglais sont identifiés. Enfin, les groupes arabes
susceptibles de contenir chaque terme sont identifiés en exploitant les liens entre les deux
WordNet. Malheureusement, les ressources multilingues ne sont pas disponibles pour tous
les domaines. Même si de telles ressources existaient, il est possible qu’elles ne contiennent
pas tous les termes requis. En plus, il faut garantir la fiabilité du processus de traduction
dans une telle approche.
3.2.4 Synthèse
Qu’il s’agisse d’extraire les termes d’un domaine ou de trouver des relations entre
ces termes, deux approches sont possibles, à savoir l’approche statistique et l’approche
linguistique. D’après les exemples d’outils que nous venons de présenter dans les sections
précédentes, il est nécessaire d’hybrider ces deux approches. En effet, l’approche statistique
permet d’éliminer les mots vides ou ceux qui ne sont pas pertinents pour le domaine
(par exemple en calculant la pertinence au domaine). L’approche linguistique permet de
contrôler la précision lors de l’extraction par exemple en imposant des contraintes sur la
structure des termes. Dans ces deux approches, nous distinguons trois critères pour juger
de la pertinence d’un terme ou pour identifier ses relations : la fréquence, le contexte et
la structure des termes.
4 Le niveau social
A ce niveau, nous nous intéressons aux entités sociales, leurs relations et leurs interac-
tions. Ces connaissances sont représentées dans les textes à travers des entités nommées
qui sont des expressions linguistiques désignant des noms propres (noms de personnes,
de lieux ou d’organisations), des expressions liées à la date, au temps ou à la monnaie.
Il est reconnu que ces expressions jouent un rôle important dans l’extraction et la re-
cherche d’information [152]. En outre, leur identification permet la navigation dans de
larges collections de documents [79]. Abuleil [16] et Chinchor [71] ont montré que les
informations importantes sont souvent localisées autour des noms propres. Ceci montre
encore une fois le degré de corrélation entre les connaissances sociales et les connaissances
sémantiques. Il s’agit de confirmer le fait que les informations dépendent de leurs sources
qui en constituent des indexes qui facilitent l’accès aux documents [71].
Dans ce cadre, la civilisation arabe a ses spécificités au niveau des règles de dénomination.
L’analyse sociale est aussi un processus qui commence par la reconnaissance des noms des
entités sociales dans les textes. Cette analyse peut être étendue pour couvrir la reconnais-
sance des expressions linguistiques qui dénotent des relations ou des interactions sociales.
Enfin, comme les termes arabes, les noms arabes sont ambigus du fait que plusieurs per-
sonnes peuvent partager le même nom. Une étape préalable à l’analyse des réseaux sociaux
consiste donc à identifier d’une manière précise chaque entité.
63
4.1 Structure d’un nom propre arabe

La structure d’un nom propre arabe diffère de celle d’un nom propre dans une autre
langue. En effet, un nom propre arabe est une combinaison des éléments suivants [50, 204] :
– Le prénom ( ÕæB@) : un nom propre personnel attribué à la naissance (Par exemple
”Adam”). Dans certains cas, il est composé par le mot ” YJ.«” (esclave de) suivi de

l’un des noms de Dieu comme ” é<Ë@” (Allah).
) : c’est généralement une référence au premier fils de la personne
– La konia ( éJ
JºË@

en utilisant le terme ”ñK. @” (père de) ou ” Ð @” (mère de). Par exemple, ” úÎ« ñK. @” (père

d’Ali) est la konia d’un homme dont le premier fils s’appelle ” úÎ « ” (Ali). Dans
d’autres cas, il est attribué pour d’autres raisons.
– Le nasab ( I

. Ë@) : il indique les antécédents de la personne en utilisant le terme ”

áK . ” (fils de) ou ” I K . ” (fille de). Par exemple, une personne nommée ” ÐX @” (Adam)

et dont le père s’appelle ” YÔg @” (Ahmed) est référencée par ” YÔg @ áK . ÐX @” (Adam
fils d’Ahmed).
– Le laqab ( I
Ê Ë@ ) : c’est une description, souvent religieuse, d’une personne qui
®
.
indique par exemple l’une de ses qualités. Exemple : ” YJ
QË@ ” (sensé ou rationnel).

– La nisba ( éJ.Ë@) : un nom dérivé de la tribu, de la profession, du lieu de résidence
ou de naissance ou de l’affiliation religieuse. Exemples : ”PA j.J Ë@ ” (Al-Najjar : le

menuisier), ” úæñJË@” (Al-Tounsi : le Tunisien).

En plus de ces éléments, certains narrateurs sont référencés par rapport à leurs maı̂tres.
Il s’agit d’indiquer les relations d’esclavage ou d’alliance qui existent entre les personnes

et les tribus arabes en utilisant le mot ” úÍñÓ”. Par exemple ”’ YÒm× úÍñÓ YÔg @” (Ahmed
dont le maı̂tre est Mohamed) signifie que Ahmed était l’esclave de Mohamed ou son allié.
4.2 Reconnaissance des entités nommées

La reconnaissance d’entités nommées arabes pose plusieurs problèmes liés aux ca-
ractéristiques de la langue arabe [203, 204]. En effet, cette tâche est influencée par l’am-
biguı̈té morphologique et syntaxique. S’ajoute à cela l’absence de majuscules qui aident à
identifier les noms propres dans d’autres langues. Les travaux dans ce domaine souffrent
du manque de ressources linguistiques telles que les corpus, les dictionnaires et les outils
d’analyse [203, 204].
Sans prétendre présenter un état de l’art exhaustif sur les travaux dans ce domaine,
nous tenons à noter que la reconnaissance des entités nommées utilise des techniques
d’analyse de textes semi-structurés [203, 204]. Dans ce domaine, nous pouvons distinguer
deux principales étapes. La première consiste en une analyse qui permet d’attribuer des
64
balises aux expressions ou aux mots d’un texte. Dans cette étape, nous avons besoin
de dictionnaires qui indiquent la catégorie de chaque expression. Ces dictionnaires sont
construits à partir de corpus étiquetés manuellement ou à partir de ressources existantes
telles que les dictionnaires de la langue. Dans une deuxième étape, il s’agit d’établir l’ordre
de combinaison de ces entités pour reconnaı̂tre la structure de la totalité ou d’une partie
du texte. Par exemple, Zitouni et al. [236] ont utilisé les chaı̂nes de Markov pour modéliser
la structure des entités nommées. Shaalan et Raza [203, 204] ont choisi les expressions
régulières pour le même objectif. Fehri et al. [104] ont utilisé des grammaires implémentées
dans la plate-forme Nooj pour faire face à la complexité et à la récursivité des entités
nommées. Viola et Narasimhand [217] ont fait un état de l’art sur les approches d’analyse
de textes semi-structurés. Selon ces auteurs, les grammaires hors contexte gagnent du
terrain par rapport aux modèles Markoviens et aux expressions régulières à cause de leur
flexibilité. En outre, ces grammaires sont capables de reconnaı̂tre la structure des textes,
notamment quand ils contiennent des relations et des contraintes complexes entre les
entités. Ces relations auront une importance particulière si elles sont utilisées dans des
traitements plus avancés, tels que la recherche d’information ou la cartographie sociale
[105].
Comme exemple d’application de l’extraction des entités nommées, Azmi et Bin Ba-
dia [30] ont proposé une architecture qui permet d’analyser le texte d’un hadith pour
reconnaı̂tre ses chaı̂nes de narrateurs et les représenter sous forme d’arbre. La phase
d’analyse se compose de deux étapes. La première est une analyse lexicale qui permet
de supprimer la ponctuation, les espaces inutiles et les voyelles courtes. La deuxième est
une analyse syntaxique qui implémente une grammaire hors contexte permettant de re-
connaı̂tre les verbes de transmission et les noms de narrateurs. Cependant, ces noms ne
sont pas analysés, ce qui veut dire qu’il n’est pas possible d’identifier leurs composantes
élémentaires. Les règles de la grammaire sont apprises par apprentissage supervisé à partir
d’une base d’exemples.
4.3 Reconnaissance des identités

La mise en place de mécanismes d’analyse ou de raisonnement sociaux nécessite l’iden-
tification précise des entités sociales [75]. Par exemple, pour évaluer la fiabilité d’un texte,
il est indispensable de connaı̂tre des informations précises sur sa source [156].
L’identification des personnes arabes est une tâche difficile, surtout pour les noms
propres fréquemment utilisés ou pour les personnes inconnues à l’échelle publique [50, 54].
En outre, nous avons déjà expliqué qu’un nom propre arabe a une structure complexe qui
peut être composée de plusieurs éléments de types différents. La même personne peut être
désignée de plusieurs manières dans des textes différents. Certaines des composantes des
noms d’une personne peuvent être célèbres et d’autres sont rarement utilisées.
La reconnaissance des identités a été particulièrement étudiée dans le coprus du hadith

par Azmi et Bin Badia [30]. Ces derniers ont proposé un analyseur, qu’ils ont qualifié de
”sémantique”, qui intervient après la phase de reconnaissance des entités nommées. Les

. K
YîDË@ I. K
Q ® K ” 5 comme corpus de narrateurs. L’algorithme
auteurs utilisent le livre ” I
de reconnaissance de l’identité calcule la distance entre la référence du narrateur dans le
hadith et son nom complet dans le corpus des narrateurs. Ces deux textes sont appariés

5. JJ . Ë , Hð
2008 , àA
Ð Q
K. , éJ
ÒÊªË@ I.JºË@ P@ X , úGC®ªË@ Qm.k áK . úÎ« áK . YÔg B I.K
YîDË@ I.K
Q®K

”Takrib al-tehdhib”, ahmed ibn Ali ibn Hajar Al-Askalani, Maison des
livres scientifiques,
Beirut, Libanon, 2008
65
en utilisant l’algorithme de Levenshtein [150] et la méthode hongroise [171]. En l’absence

d’une analyse détaillée de ces expressions, ce calcul peut générer des
erreurs dûes à la
ressemblance des noms arabes. Par exemple, les deux noms ” YÔ @ ” (Ahmed) et ” YÒm×
g
” (Mohamed) sont très proches du point de vue lexical mais correspondent à des per-
sonnes différentes. Les auteurs ont testé leur système sur 90 hadiths dont 34 sont simples
(possédant chacun une seule chaı̂ne de narrateurs) et 56 sont complexes (chaque hadith
a plusieurs chaı̂nes). Ils ont évalué le taux de reconnaissance des arbres de narration à
86.70%. Ce taux global ne permet pas de juger les étapes intermédiaires qui peuvent
influencer le résultat final.
5 La langue arabe dans le Web socio-sémantique

Etant donné que le processus d’analyse socio-sémantique commence au niveau des
mots et des expressions, il est nécessaire d’évaluer les outils d’analyse morphosyntaxique.
En effet, pour analyser des textes non voyellés, il faut utiliser des outils de désambiguı̈sa-
tion tels que les étiqueteurs grammaticaux et MADA [125, 126, 127, 197]. Ces outils
souffrent de certaines limites, car ils restent sensibles à la nature et à la taille du corpus
d’apprentissage à partir duquel ils ont été construits. Ainsi, de tels outils doivent être
testés sur d’autres corpus pour une meilleure évaluation. En effet, les corpus utilisés pour
l’apprentissage sont composés de textes modernes, ce qui veut dire que ces outils peuvent
ne pas fonctionner avec la même performance avec des corpus classiques. L’intégration
de tels outils dans un SRI pose problème car nous sommes obligés soit de garder toutes
les solutions morphologiques, ce qui induit un grand taux d’ambiguı̈té, soit d’utiliser les
outils de désambiguı̈sation en choisissant une solution qui peut être fausse.
Cette situation a poussé certains chercheurs à utiliser des techniques du type pseudo-
racinisation [47, 133, 153]. Par exemple, Larkey et al. [153] ont utilisé des heuristiques
pour supprimer les préfixes et les suffixes. Ces techniques ont été ensuite adoptées par
d’autres chercheurs, tels que Boulaknadel [47] et Harrag et al. [133]. L’absence d’une
analyse morphologique approfondie ou d’une voyellation génère des candidats termes for-
tement ambigus, ce qui influence les performances du système de recherche. En outre,
une telle solution ne convient pas pour les systèmes qui ont besoin de connaı̂tre les ca-
ractéristiques des mots pour aller vers des niveaux d’analyse plus complexes. Sans analyse
morphologique efficace, il serait même difficile d’extraire les termes composés, ce qui est
une limite dont souffrent certains travaux de ce domaine [48]. Un SRI plus ”intelligent”,
qui utilise une analyse morphologique profonde, a été proposé par Hattab et al. [136].
Ce SRI devait démontrer l’importance de l’analyse linguistique mais aucune évaluation
ou comparaison quantitative n’a été effectuée. Nous rappelons que l’évaluation des SRI
nécessite des corpus de référence (voir chapitre I, section 4.1.4, page 21), et les les livres
du hadith peuvent constituer un standard d’évaluation. Par exemple, Harrag et al. [133]
ont utilisé 340 hadiths comme base de test. Pour évaluer leur SRI, les auteurs génèrent
une requête à partir d’un hadith donné, puis ils évaluent la capacité de leur système à
retrouver le même hadith en exécutant cette requête.
Cependant, il faut reconnaitre que certains chercheurs ont considéré des traits sémanti-
ques dans la conception des bases de connaissances linguistiques, telles que DIINAR
[87, 89]. Néanmoins, ces traits doivent être étendus pour représenter des connaissances
spécifiques à un domaine. Dans ce cadre, Lelubre [155] a proposé de construire une base
66
de termes scientifiques arabes aux dessus de DIINAR. De tels efforts pourront aider à
l’interprétation sémantique des documents à condition de couvrir d’autres domaines. Le
manque de ressources de ce type limite les travaux existants qui suivent, d’une manière ou
d’une autre, les technologies développées pour d’autres langues, sans tenir compte parfois
des spécificités de la langue arabe. Certains chercheurs ont même tenté de construire des
ontologies dans d’autres langues puis de les traduire. Citons à titre d’exemple, Qawaqneh
et al. [188] qui se sont proposés de trier les résultats des moteurs de recherche en utilisant
les concepts d’une ontologie. L’ontologie est générée en anglais en utilisant la plate-forme
KAON puis elle est traduite en arabe. Dans la phase d’expérimentation, les auteurs ont
utilisé une ontologie relative au domaine du commerce électronique composée uniquement
de 32 concepts. Cette ontologie contient aussi peu de relations sémantiques, ce qui soulève
un problème de couverture. D’autres ont construit leurs ontologies manuellement [234].
Cependant, certains travaux ont adopté une approche automatique sans avoir recourt
à la traduction. Ces travaux manquent d’outils d’analyse linguistique sophistiqués. Nous
pouvons voir l’effet de ce manque en examinant les groupes de mots générés par Al-
Qabbany et al. [20]. Par exemple, nous trouvons, dans le même groupe, les deux mots
” ø Xñª” (un saoudien) et ” ø XñªË@” (le saoudien). Hazman et al. [137] ont proposé d’ex-

traire les concepts en utilisant un lemmatiseur et le filtrage statistique. La lemmatisation,

qui consiste à supprimer les préfixes et les suffixes, ne tient pas compte des caractéristiques
morphologiques des mots, ce qui affecte négativement les résultats. Au niveau des filtres
statistiques, ils ont utilisé des mesures basées sur la fréquence ne travaillant que sur un
seul corpus, ce qui produit beaucoup de bruit. Pour résoudre ce problème, ils ont ex-
ploité, comme deuxième entrée, une liste de concepts de référence fournis par l’utilisateur.
Le système commence par ces concepts et essaie de chercher les concepts qui leurs sont
proches.
En passant au dernier niveau de l’axe sémantique, notons qu’il existe des outils d’ap-
prentissage et d’édition d’ontologies qui pourraient être utilisables si nous arrivons à ex-
traire les informations nécessaires. Bergman [40] estime que parmi les 250 outils du Web
sémantique qu’il a recensé, 12% seulement supportent la langue arabe.
Au niveau social, plusieurs travaux se sont intéressés à la reconnaissance des entités

nommées sans qu’il y ait, à notre connaissance, un outil générique et publiquement uti-
lisable. Cependant, peu de travaux se sont intéressés à la reconnaissance des identités de
ces entités. Les applications existantes concernent les livres du hadith avec les limites que
nous avons citées dans la section précédente.
Pour résumer, nous dénombrons les problèmes auxquels il faut faire face pour une
analyse socio-sémantique des documents arabes :
67
– Limites des outils d’analyse morphosyntaxique et de reconnaissance des entités

nommées, malgré les travaux effectués dans ces domaines.
– Manque de corpus étiquetés de grande taille pour développer ces outils ou d’autres
traitements socio-sémantiques tels que l’évaluation des SRI.
– Non prise en compte de la langue arabe par les outils d’apprentissage et d’édition
d’ontologies existants.
Ces problèmes influencent les SRI arabes qui possèdent plusieurs limites que nous
résumons comme suit :
– Les limites des outils d’analyse influencent les performances de ces SRI, qui se
trouvent confrontés aux spécificités et à la richesse de la langue arabe.
– Vu les limites des approches d’extraction de connaissances, les SRI existants man-
quent d’une structuration des fonds documentaires, que ce soit au niveau des do-
cuments ou au niveau des connaissances. Par exemple, peu de travaux ont exploité
la structure des documents pour fournir une recherche précise. Cependant, les ap-
proches appliquées sur les hadiths font l’exception.
– Les SRI existants sont monocritères dans le sens où ils considèrent une seule di-
mension des documents. Les travaux existants se focalisent sur l’axe sémantique
en fournissant une recherche par mots ou termes clés. Nous avons montré dans le
chapitre II que les critères de recherche doivent être diversifiés.
– Les SRI existants manquent de mécanismes de visualisation et d’interaction.
6 Conclusion
Dans ce chapitre, nous avons présenté un état de l’art sur le processus d’extraction de
connaissances à partir de documents arabes. Ce processus requiert des traitements linguis-
tiques, ce qui nous oblige à tenir compte des caractéristiques de la langue arabe. En effet,
il faut réutiliser ou développer les outils de traitement automatique du langage naturel.
C’est pourquoi nous avons mené une étude des caractéristiques des outils disponibles pour
l’analyse des textes en langue arabe. Cette étude nous a permis de conclure que l’extrac-
tion de connaissances à partir de documents en langue arabe est une tâche complexe vu
les spécificités de cette langue et la non disponibilité d’outils robustes pour l’analyse des
textes arabes. Nous pensons tout de même que les outils existants pourront être utilisés
dans certaines étapes du processus d’extraction de connaissances. Ainsi, ces outils feront
partie de la solution que nous proposons dans le chapitre suivant pour cartographier les
fonds documentaires arabes.
68
Deuxième partie
Contributions
69
Chapitre IV
Modèle de cartographie
multidimensionnelle des documents
arabes
F ace aux limites des systèmes d’extraction de connaissances et des SRI arabes, il
est nécessaire de développer des modèles et des outils pour analyser et représen-
ter les documents arabes dans le Web socio-sémantique. Pour cela, nous proposons d’uti-
liser la cartographie comme approche d’analyse, de représentation et d’accès aux fonds
documentaires arabes. Du point de vue modélisation, il faut garantir la qualité des cartes
en tant que produit. Le modèle doit donc répondre aux exigences de l’utilisateur en lui
fournissant une recherche multi-critères et en l’aidant à appréhender son espace informa-
tionnel par une structuration du fonds documentaire et par des mécanismes de recherche
et de navigation intelligents. La définition de ce modèle fera l’objet de la première section
de ce chapitre. Les sections 2, 3 et 4 se focalisent sur les éléments de base de ce modèle,
à savoir la structure des documents, les réseaux petits mondes hiérarchiques [219] et les
réseaux possibilistes [96]. Du point de vue processus, la cartographie fournit les outils
nécessaires pour garantir la qualité du produit. Dans notre cas, ce processus devra tenir
compte de la spécificité de la langue arabe (voir section 5)
1 Modèle d’une carte socio-sémantique multi-critères

Ce modèle trouve ses origines dans les propositions que nous avons faites dans [5]
et [54]. D’abord, nous avons suggéré d’indexer les documents par une ontologie d’ac-
teurs [54]. Ensuite, nous avons intégré l’axe sémantique représenté à l’aide des concepts
du domaine [5]. Afin d’obtenir un modèle générique, nous proposons une cartographie
multi-critères qui permet d’accéder au fonds documentaire selon plusieurs dimensions qui
peuvent être sémantiques ou sociales. Pour faciliter l’appréhension de l’espace informa-
tionnel (éventuellement selon divers points de vue) et assister les mécanismes de recherche
d’information, chaque dimension est représentée par une ontologie. Dans la phase d’ana-
lyse et d’indexation, les documents sont fragmentés et reliés aux éléments de toutes les
ontologies. Ainsi, notre modèle offre une recherche précise de l’information, ce qui permet
de retrouver des fragments de tailles diverses selon les besoins des utilisateurs.
70
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES
Cependant, nous n’imposons aucune contrainte sur la nature de ces ontologies ni sur
leurs constituants. Il est donc possibile de représenter librement le fonds documentaire
selon plusieurs approches de modélisation et selon différents points de vue. Dans cette
perspective, il est envisageable d’utiliser à la fois plusieurs SOC (par exemple une onto-
logie sémiotique sous forme de carte de thèmes et une ontologie différentielle constituée
de termes pertinents au domaine). Pour pouvoir assurer cette généricité, nous utilisons le
language XML [12] pour encoder les connaissances, que ce soit au niveau des fragments
ou au niveau des ontologies. Ce langage standardisé fait l’objet de consensus entre toutes
les visions du Web. Sa structure arborescente facilite le parcours automatique des docu-
ments. Cette facilité de manipulation est augmentée avec la possibilité de représenter les
connaissances sous forme de graphes en utilisant le langage GraphML [8] qui est de la
même famille que XML. A ce sujet, rappelons que les algorithmes de manipulation de
graphes constituent un outil puissant dans le domaine de la manipulation des connais-
sances et de la recherche d’information [165].
Le modèle que nous proposons offre aussi la possibilité d’implémenter plusieurs scénarios
de recherche et/ou de navigation. Avec des mécanismes de visualisation diversifiés, l’uti-
lisateur peut naviguer dans le fonds documentaire en se déplaçant entre les différentes
ontologies et les fragments. Nous pouvons, en plus, imaginer un scénario de recherche
multi-critères. L’utilisateur peut choisir des éléments d’ontologies différentes pour compo-
ser plusieurs requêtes, dont chacune correspond à une dimension ou à un critère. Chaque
requête peut être reformulée en utilisant les liens de l’ontologie correspondante. Ensuite,
le système peut calculer et aggréger les scores de pertinence pour les différentes requêtes.
Pour cela, nous avons besoin d’un modèle d’appariement et d’agrégation qui est représenté
dans notre système par les réseaux possibilistes [96].
Comme l’illustre la Figure IV.1, notre modèle regroupe deux éléments, à savoir les onto-
logies et les fragments de documents liés par des réseaux possibilistes. A titre d’exemple,
nous prenons les articles scientifiques comme cas d’application en nous limitant au do-
maine informatique. Nous pouvons envisager de construire trois ontologies : (i) une ontolo-
gie sémiotique de type carte de thèmes multi-points de vue qui intègre plusieurs systèmes
de classification possibles (dont celui d’ACM 1 par exemple) ; (ii) une ontologie formelle
qui regroupe les concepts informatiques ; et, (iii) un réseau social qui modélise les auteurs
et leurs relations (par exemple, deux auteurs sont liés s’ils ont corédigé des articles ou
s’ils appartiennent à un même organisme de recherche). Il est clair qu’une telle structu-
ration permet une certaine flexibilité lors de la recherche, étant donné qu’un utilisateur
peut combiner plusieurs critères et peut visualiser l’espace informationnel constitué des
articles selon différentes vues.
2 L’apport de la structure des documents

La structure d’un document a une importance primordiale dans sa compréhension, son
analyse et sa modélisation. La structure est une empreinte du processus de production
du document. Selon Zacklad [227], un document doit être structuré d’une manière qui
facilite les pratiques des utilisateurs. Rappelons ici que la segmentation des documents et
la représentation des liens entre les fragments représentent un aspect fondamental dans
1. Association for Computing Machinery (http://www.acm.org/)
71
Figure IV.1 – Modèle d’une carte socio-sémantique multi-critères.
les projets de bibliothèques virtuelles (voir section 4.2.2, page 23) et de cartographie de
connaissances (voir section 4.3.2, page 25) dont l’objectif est d’adapter la recherche et la
navigation aux besoins des utilisateurs. Notons aussi que la structure des documents peut
être utilisée pour structurer les connaissances d’un fonds documentaire (voir section 3.2.3,
page 60). Elle permet soit d’inférer des relations taxonomiques entre les concepts d’une
ontologie soit d’extraire des relations thématiques dans une carte de thèmes.
Dans le Web actuel, il existe une grande masse de documents au format XML ou
qui contiennent des éléments qui permettent de reconnaı̂tre leur structure (tels que les
articles scientifiques). Les SRI classiques (non structurés) ne tiennent pas compte de
cette structure ni au niveau de la requête ni au niveau des résultats. Or, dans certains
cas, il devient nécessaire de retourner une partie du document et non pas sa totalité.
Nous pouvons citer l’exemple d’un livre constitué d’un millier de pages et l’utilisateur
s’intéresse uniquement à un chapitre ou à une section donnée. En reprenant l’exemple
des articles scientifiques, certains lecteurs débutants, qui sont en phase d’exploration de
leurs domaines, s’intéressent à la totalité du papier. D’autres lecteurs, expérimentés et
connaissant les principales contributions dans leurs domaine, lisent juste la section qui
véhiculent de nouvelles idées ou les résultats obtenus.
La recherche d’information structurée exploite la structure des documents afin d’amélio-

rer la représentation des documents et de localiser plus précisément l’information re-
cherchée [170]. L’introduction de la structure influence plusieurs étapes dans le processus
de recherche d’information. Lors de la segmentation, il faut choisir le niveau de granularité
qui garantit à la fois la cohérence des fragments et la précision. Au niveau de l’expression
72
des besoins, il faut donner à l’utilisateur la possibilité de choisir les types de fragments
à retourner. Au niveau de l’appariement, si un fragment est pertinent, il faut décider s’il
faut retourner uniquement ce fragment, le fragment qui le contient (son père) ou tout
le document. A ce stade, il faut choisir le niveau de granularité minimum ou en d’autres
termes répondre à la question suivante : ”Quel est le fragment le plus fin que nous pouvons
retourner ?”.
Du point de vue social, la généralisation du Web induit un nouveau concept qui est ap-
pelé ”manière de lecture” ou ”type d’usage” [54]. Ce concept a été introduit par Aussenac-
Gilles et Condamines [26] qui affirment qu’il faut modéliser à la fois les textes et les usages
sachant que les types d’usage ne sont pas aussi nombreux que les utilisateurs. D’autres
chercheurs ont proposé des notions proches telles que la notion de ”rôle pédagogique” dans
le projet Sybil [78] et la notion de ”service” dans la bibliothèque virtuelle de Fellah et al.
[106]. Nous pensons que le concept de type d’usage est plus générique vu qu’il considère
le point de vue de l’utilisateur et non pas celui du système. Ce concept permet donc de
voir les documents dans une perspective sociale, ce qui veut dire qu’une communauté
d’utilisateurs partagent la même manière de lecture. Les besoins des utilisateurs et leurs
actions sur les fragments dépendent donc de leur appartenance à des communautés de
pratique [54, 220].
Nous pensons que la notion de type d’usage permet de résoudre les problèmes de gra-
nularité dans les SRI structurés. En effet, l’utilisateur serait intéressé par un fragment ou
par un autre selon ses besoins et son appartenance sociale. Ainsi, cette notion établit le
lien entre les utilisateurs et les fragments. Nous proposons donc de conduire une étude
sociale qui identifie les pratiques des utilisateurs avant de procéder à l’analyse et à la
modélisation des documents (voir section 5.2, page 81). Ceci implique que la même collec-
tion de documents peut être modélisée de plusieurs manières selon les usages potentiels et
l’organisation sociale des utilisateurs. Notons enfin que les usages peuvent être modélisés
sous forme d’une ontologie de tâches comme proposé par Fellah [106].
En revenant à notre cas d’application, nous pouvons considérer, qu’une référence biblio-
graphique qui figure dans un article scientifique est un bloc élémentaire, si le seul objectif
des lecteurs est d’explorer un nouveau domaine. Pour d’autres usages, qui nécessitent
l’évaluation de la biométrie, il serait indispensable de segmenter les références et de mettre
en place des systèmes intelligents d’indexation qui permettent d’évaluer leur impact et
leur nouveauté.
3 Les réseaux petits mondes hiérarchiques

Ce type de réseaux trouve ses origines dans les recherches relatives au domaine de
l’analyse des réseaux sociaux [219]. La théorie des réseaux sociaux modélise les individus
comme les nœuds d’un graphe, où les arcs représentent les relations entre ces individus
[160]. Plusieurs études ont montré l’existence d’une caractéristique intéressante dans ces
graphes [98, 113, 114, 115]. En effet, la majorité des individus ont peu de relations avec
d’autres, ce qui permet de constituer des petits mondes. Initialement proposés par Watts
et Strogatz [219] et dénommés ” Small-World Networks”, les Réseaux Petits Mondes
Hiérarchiques (RPMH) ont été repris par d’autres auteurs pour représenter divers types
de connaissances [32, 113, 114, 115, 174, 186, 192, 202].
73
Les RPMH possèdent quatre caractéristiques statistiques [98] :
– C : il indique le taux de clustering (ou d’agrégation). Le taux de clustering d’un

nœud, noté Cs, est défini par le rapport entre le nombre d’arcs qui relient ses voisins
et le nombre total d’arcs possibles entre eux. Le taux de clustering d’un graphe
(toujours compris entre 0 et 1) est la moyenne des Cs de tous les nœuds. Un RPMH
ayant un taux de clustering élevé contient des zones denses en arêtes, ce qui forme
des agrégats ou des clusters. Ceci implique que les voisins d’un même nœud ont
tendance à être connectés par un arc.
– L : c’est la longueur moyenne du plus court chemin entre deux nœuds quelconques.
Les RPMH ont une petite valeur pour cette moyenne par rapport aux graphes
réguliers et aux graphes aléatoires [115].
– I : elle représente la distribution des degrés d’incidence des sommets qui suit une loi
de puissance. La probabilité P (k) qu’un sommet d’un graphe ait k voisins décroı̂t
comme une loi de puissance P (k) = k λ (où λ < 0).
– D : c’est la densité du graphe. Les RPMH ont une faible densité vu que le nombre
d’arcs est relativement petit par rapport au nombre de nœuds.
Ce qui fait la force des RPMH c’est leur caractéristique classificatoire qui permet de
découvrir des clusters de nœuds. Elayeb [98] a proposé de regrouper les termes d’un
dictionnaire structuré sous forme d’un RPMH en utilisant le nombre de circuits comme
distance. En partant d’un dictionnaire, qui représente la langue française, un graphe de
termes est construit. Deux termes sont liés si l’un d’eux apparaı̂t dans la définition de
l’autre. La proximité entre deux termes est calculée en utilisant la formule suivante [98] :
N ombre de circuits(T1 .T2 )
Similarite Semantique(T1 .T2 ) = (IV.1)
N ombre maximum de circuits dans RP M H
L’utilisation de ce type de réseau, dans notre système, est justifiée par plusieurs argu-
ments. Il s’agit d’abord d’un outil flexible qui permet d’analyser les connaissances pour
en inférer d’autres. La flexibilité vient de la théorie des graphes qui offre une panoplie
d’algorithmes [165], ce qui répond à notre besoin de personnalisation et d’adaptation. En
plus, les RPMH peuvent être utilisés pour divers types de connaissances qu’elles soient
sémantiques [98] ou sociales [219]. Ils sont aussi génériques du point de vue source de
données. Par exemple, nous pourrons facilement extraire les termes d’un réseau à partir
d’un thésaurus au lieu d’un dictionnaire. Rappelons aussi que la capacité classificatoire
est fondamentale dans le modèle que nous proposons, étant donné qu’elle permet à l’utili-
sateur de comprendre la structure de son espace informationnel et donc de l’appréhender.
4 La théorie des possibilités et ses applications

Introduite par Zadeh [232] et développée par plusieurs auteurs (par exemple Dubois
et Prade [94]), la théorie des possibilités traite l’incertitude dans l’intervalle [0..1], appelé
échelle possibiliste. Cette section rappelle les éléments de base de cette théorie, à savoir les
distributions de possibilité, les mesures de nécessité et de possibilité et les réseaux possibi-
listes. Pour plus de détails, le lecteur est invité à consulter les références [93, 95, 96]. Cette
théorie a été utilisée comme méthode de classification et comme modèle d’appariement
dans les SRI, qui sont des traitements de base vont nous servir dans plusieurs phases de
notre processus de cartographie.
74
Notre choix s’appuie sur les résultats obtenus dans des recherches récentes qui ont
appliqué cette théorie à la RI et à la classification. Par exemple, Brini [60] a développé
le premier SRI possibiliste et démontré ses performances par rapport aux autres modèles
de RI. Ce modèle a été ensuite repris par d’autres chercheurs tels que Elayeb [98]. La
théorie des possibilités permet aussi de pallier au problème d’imprécision, d’incertitude
et de manque de données dans les attributs des instances lors de la classification. Par
exemple, Haouari et al. [130] ont développé un classifieur possibiliste qui tient compte
de ces phénomènes. Par rapport à notre problématique, l’évaluation de la qualité ou de
la fiabilité de l’information est souvent modélisée comme un problème de classification.
En effet, l’évaluation des sources d’information est basée sur des méta-données dont la
collecte n’est pas toujours évidente, ce qui conduit à des cas de manque, d’imprécision
ou d’incertitude. Les algorithmes classiquement utilisés (tel que l’algorithme C4.5 [141]
utilisé par Stvilia et al. [210]) sont incapables de faire face à ces phénomènes, ce qui nous
incite à adopter le modèle possibiliste.
4.1 Distribution de possibilité

La théorie des possibilités est basée sur les distributions de possibilité. Soit un univers
de discours Ω = {ω1 , ω2 , ..., ωn }. Un concept fondamental, dénoté par π, correspond à
une fonction qui associe à chaque élément ωi une valeur dans un ensemble linéairement
ordonné (L, <). Cette valeur est appelée degré de possibilité et encode les connaissances
du monde réel.
Par convention, π(ωi ) = 1 signifie qu’il est parfaitement possible que ωi soit du monde
réel. π(ωi ) = 0 signifie que ωi est impossible. La flexibilité est modélisée en permettant de
donner un degré dans l’intervalle ]0,1[. Dans la théorie des possibilités, les cas extrêmes
sont modélisés par [93] :
Connaissance complète :
∃ωi ∈ Ω|π(ωi ) = 1 et ∀ωj 6= ωi , π(ωj ) = 0 (IV.2)
Ignorance totale :
∀ωi ∈ Ω, π(ωi ) = 1 (IV.3)
4.2 Les mesures de possibilité et de nécessité

Une distribution de possibilité π sur Ω permet d’évaluer les événements en terme de
leur plausibilité et de leur certitude en utilisant deux mesures duales appelées respecti-
vement possibilité et nécessité [93]. Etant donnée une distribution de possibilité π sur un
univers de discours Ω, les valeurs de possibilité et de nécessité évaluent chaque événement
A ⊆ 2Ω comme suit [93] :
Π(A) = maxw∈A π(w) (IV.4)
/ (1 − Π(Ā))
N (A) = minw∈A (IV.5)
Π(A) évalue à quel niveau l’évènement A est consistant avec nos connaissances représen-
tées par π, alors que N (A) évalue à quel degré ce même évènement est certain selon nos
connaissances. La différence entre N (A) et Π(A) évalue le taux d’ignorance sur A [93].
75
4.3 Les réseaux possibilistes

Un réseau possibiliste est un graphe orienté acyclique sur un ensemble de variables V
[96]. Les arcs qui représentent des relations d’indépendance sont pondérés par les distri-
butions de possibilité conditionnelles de chaque nœud dans le contexte de ses parents. Des
contraintes de normalisation doivent être satisfaites par ces distributions. En effet, pour
chaque variable Vi , nous avons [96] :
– maxvi Π(vi ) = 1, ∀vi ∈ DVi si Vi est un nœud racine.

– maxvi Π(vi |P arVi ) = 1, ∀vi ∈ DVi . P arVi ∈ DP arVi si Vi n’est pas un nœud racine.
Dans ces formules DVi , P arVi et DP arVi représentent respectivement, le domaine de Vi ,
l’ensemble des parents de Vi et le domaine des parents de Vi .
Les réseaux et les distributions possibilistes peuvent être interprétés d’une manière
quantitative en utilisant l’opérateur produit (PROD) ou d’une manière quantitative en
utilisant l’opérateur minimum (MIN).
4.3.1 Les réseaux possibilistes à base de produit

Un réseau possibiliste basé sur l’opérateur produit est un réseau possibiliste où les
possibilités conditionnelles sont obtenues par l’opérateur produit [96]. La distribution de
possibilité de ces réseaux, notée par πp , est obtenue par la règle de chaı̂nage suivante [96] :
N
Y
πp (V1 , V2 , ..., VN ) = π(Vi |P arV i ) (IV.6)
i=1
4.3.2 Les réseaux possibilistes à base de minimum

L’opérateur minimum (MIN ) est utilisé pour obtenir les possibilités conditionnelles
dans un réseau possibiliste [96]. La formule suivante permet de calculer une distribution
de possibilité πM dans un réseau à base de l’opérateur minimum [96] :
N
πM (V1 , V2 , ..., VN ) = min π(Vi |P arV i ) (IV.7)
i=1
4.4 Les classifieurs possibilistes

Plusieurs méthodes de classification permettent de prédire la classe d’une instance
en fonction de ses attributs [43, 76, 182, 189, 199]. Les principales méthodes basées sur
l’apprentissage automatique sont les arbres de décision [189], les réseaux de neurones [43],
les K plus proches voisins [76] et les réseaux Bayésiens [182]. Ces derniers constituent
les classifieurs les plus efficaces. Cependant, les réseaux Bayésiens naı̈fs [199] comme les
approches probabilistes font face à quelques problèmes si les données sont imparfaites.
Plusieurs théories de l’incertitude ont été proposées pour traiter les données incertaines
et imprécises. Nous citons la théorie de l’évidence [205], la théorie des ensembles flous
[231] et la théorie des possibilités [94]. L’utilisation des réseaux possibilistes est encouragée
par leur simplicité et leur performance dans le traitement des données imparfaites [130].
Dans ce cas, le graphe relie les attributs aux classes possibles. Les poids des arcs sont
estimés dans l’étape d’apprentissage. La Figure IV.2 illustre ce type de réseaux où les Ci
représentent les classes et les Ai les attributs.
76
Figure IV.2 – Architecture du modèle de classification possibiliste.
4.5 Les SRI possibilistes

Les réseaux possibilistes sont utilisés comme un modèle d’appariement dans les SRI.
Dans ce cas, ils relient les termes (ti ) aux documents (Dj ) comme illustré par la Figure
IV.3.
Figure IV.3 – Architecture du modèle de recherche d’information possibiliste.
Dans ce réseau, les arcs sont quantifiés par les mesures de possibilité et de nécessité,
ce qui permet au SRI de retourner les documents ”plausiblement” ou ”nécessairement
pertinents” à un utilisateur. En effet, un SRI possibiliste est capable de générer des pro-
positions du genre [98] :
1. Il est plausible, à un certain degré, que le document di constitue une bonne réponse
pour une requête Q.
2. Il est nécessaire ou certain, à un degré donné, que le document di soit pertinent
pour une requête Q.
3. Le document di est plus pertinent que dj pour une requête Q.
4. Un ensemble {di , dj } répond mieux à une requête Q qu’un autre ensemble {dk , dl }.
La mesure de possibilité tend, à travers le premier type de proposition, à éliminer

les documents non pertinents. Dans la deuxième, la mesure de nécessité renforce notre
croyance envers les documents pertinents. Cela permet d’organiser les documents selon
un ordre de pertinence exprimé par les troisième et quatrième propositions.
77
Le modèle possibiliste suppose qu’il est difficile de traduire la notion de pertinence ayant
un caractère vague et imprécis avec une seule mesure de probabilité. En effet, la théorie
des probabilités permet uniquement de mesurer la certitude d’un événement et de son
contraire. En outre, les modèles probabilistes de RI ne tiennent pas compte des termes
de la requête qui sont absents dans les documents lors du calcul des scores de pertinence.
Face à ces limites restrictives, Prade et Testemale [187] ont proposé d’utiliser la théorie
des possibilités en RI. Brini [60] a présenté une première application de ce modèle qui a
été ensuite développé par Elayeb [98], afin de tenir compte de la structure des documents
et des préférences entre les termes d’une requête. Ce modèle permet de calculer un score
de ressemblance entre une requête et un document comme suit :
Soit une requête Q composée par des termes qui représentent des contraintes. Prenons le
cas général où ces termes sont pondérés (par exemple selon les préférences de l’utilisateur) :
Q = [(t1 , w1 )...(tm , wm )]
où wi représente le poids du terme ti .
Etant donné une requête Q, le Degré de Pertinence Possibiliste (DPP) d’un document
Dj est calculé par les deux mesures de possibilité (Π) et de nécessité (N ). Notre modèle
de base est inspiré des travaux de Elayeb et al. [99] qui montrent que Π(Dj |Q) est pro-
portionnelle à :
Π0 (Dj |Q) = Π(t1 |Dj ) ∗ w1 ∗ ... ∗ Π(tm |Dj ) ∗ wm (IV.8)
Les distributions de possibilité Π(ti |Dj ) sont estimées par les fréquences F reqij de
chaque terme ti dans chaque document Dj . Nous avons donc :
Π0 (Dj |Q) = F req1j ∗ w1 ∗ ... ∗ F reqmj ∗ wm (IV.9)
La mesure de nécessité de Dj pour la requête Q, notée N (Dj |Q), est calculée comme
suit :
N (Dj |Q) = 1 − Π(¬Dj |Q) (IV.10)
où :
Π(¬Dj |Q) = (Π(Q|¬Dj ) ∗ Π(¬Dj ))/Π(Q) (IV.11)
De la même manière, Π(¬Dj |Q) est proportionnelle à :
Π0 (¬Dj |Q) = Π(t1 |¬Dj ) ∗ ... ∗ Π(tm |¬Dj ) (IV.12)
Ce qui peut être exprimé comme suit :
Π0 (¬Dj |Q) = (1 − φ1j /w1 ) ∗ ... ∗ (1 − φmj /wm ) (IV.13)
avec :
φij = log10 (|D|/nDi ) ∗ F reqij (IV.14)
78
Dans cette formule, |D| est le nombre de documents de la collection et nDi est le nombre
de documents de la collection contenant ti (i.e. avec une fréquence F reqij > 0).
Le degré de pertinence possibiliste DPP de Dj est souvent calculé comme la somme

des deux mesures Π et N :
DP P (Dj ) = Π(Dj |Q) + N (Dj |Q) (IV.15)
5 Processus de cartographie de documents arabes

Cette section propose une série d’étapes pour la cartographie socio-sémantique de
documents arabes en se basant sur nos réflexions présentées dans [5]. En effet, le processus
de cartographie permet, dans une première étape, de structurer un fonds documentaire
selon le modèle présenté dans la section 1 (page 70). Cette étape est illustrée par la
Figure IV.4. Notre point de départ est un fonds documentaire arabe. Avant de présenter
le processus de structuration, nous discutons la problématique du choix du corpus. Une
fois le corpus choisi, nous commençons par une étude sociale qui permet d’étudier les
besoins et les contraintes à respecter dans les étapes suivantes. Ensuite, les documents
sont analysés pour les segmenter en fragments, extraire les connaissances et construire
les ontologies. A ce stade, nous proposons un ensemble d’outils d’analyse qui permettent,
dans l’axe social, d’extraire les noms des personnes arabes et de reconnaı̂tre leurs identités.
Dans l’axe sémantique, nous proposons d’extraire les termes pertinents à chaque domaine.
Pour organiser les connaissances dans les deux axes, nous proposons d’étendre la méthode
d’analyse distributionnelle [134] en utilisant les RPMH. Enfin, les différents fragments sont
évalués en terme de fiabilité. Après ce processus de structuration, l’espace est visualisé
d’une manière à mettre en valeur chaque élément. Des mécanismes de recherche et de
navigation sont mis en place pour permettre un accès facile et précis à l’information.
5.1 Choix du corpus

Le corpus a une importance primordiale dans la mise au point et l’évaluation des
systèmes d’extraction de connaissances et de RI. Dans plusieurs cas, la réussite de tels
systèmes est conditionnée par la qualité du corpus choisi. En effet, les caractéristiques du
corpus influencent plusieurs étapes dans notre processus de cartographie et l’implémenta-
tion des outils correspondants. Par exemple, l’extraction de la structure est conditionnée
par l’existence d’éléments qui permettent de distinguer les fragments. Ainsi, la fragmen-
tation d’un document texte est plus difficile que la segmentation d’un document HTML
où les titres sont explicitement distingués par des attributs stylistiques (la taille de la
police, l’alignement, etc.). Aussi, la richesse sociale (existence des noms des acteurs et des
informations biographiques ou relatives au cycle de vie des documents) facilite l’extrac-
tion des entités nommées, la reconnaissance des identités et l’évaluation de la fiabilité.
Par exemple, la segmentation d’un article scientifique dont la structure est clairement
représentée et où les noms des auteurs et leurs affiliations sont précisément indiqués est
plus simple que l’analyse d’une page facebook dont le créateur n’est pas obligé de resp-
tecter les mêmes règles de rigueur. En outre, la taille du corpus influence les algorithmes
de fouille qui sont souvent basés sur l’apprentissage. Plus la taille est grande, plus le cor-
pus est sémantiquement riche et facilite les tâches d’extraction de connaissances. D’autre
part, le corpus peut être déterminant au niveau du choix de la structuration. Nous rap-
pelons que la complexité du corpus, son évolutivité ainsi que le degré de son ouverture
79
Figure IV.4 – Le processus de cartographie.
(ou fermeture) sémiotique déterminent le cadre théorique dans lequel nous nous plaçons
par rapport aux différentes visions du Web (voir section 2.4, page 11).
80
5.2 Etude sociale

Cette étude revêt une grande importance du fait que la cartographie a pour objectif
de servir des utilisateurs dont les attentes et l’organisation sociale influencent le processus
d’analyse. En outre, il s’agit de tenir compte de la codétermination des besoins sociaux
et sémantiques des utilisateurs. Enfin, il s’agit d’une étape importante dans le cycle de
vie des ontologies (voir section 3.1.1, page 54)
L’objectif de cette étape est de dégager les pratiques des acteurs internes et des utilisa-
teurs et leurs liens avec les fragments des documents. Dans [54], nous avons proposé les
sous-étapes suivantes :
1. Etudier le processus de production et de transmission des documents afin d’identifier

les rôles des acteurs internes.
2. Etudier l’organisation des acteurs internes en identifiant les relations sociales entre
eux. Ceci aidera plus tard à modéliser les connaissances sociales.
3. Identifier les types d’acteurs externes (les utilisateurs) et les pratiques de chaque
communauté. Il faut ensuite identifier les types d’usage de chaque communauté.
4. Identifier les catégories des fragments et les types des liens entre eux en analysant
à la fois les besoins des utilisateurs et les documents.
5. Etablir le lien entre chaque type d’usage et chaque type de fragment.
Dans ces sous-étapes, qui permettent d’obtenir une première modélisation des connais-
sances sociales, nous pouvons combiner plusieurs techniques. Par exemple, dans les deux
premières sous-étapes, il est possible d’interroger des experts (comme proposé par Blom-
qvist et Ohgren [44]) ou de consulter leurs publications. Dans la troisième sous-étape, il
est envisageable d’analyser le comportement des utilisateurs dans des cas réels. Les deux
dernières étapes peuvent être effectuées en analysant, d’une manière manuelle ou semi-
automatique, un échantillon de documents. Le processus qui peut être manuel au départ
devient de plus en plus automatisé en utilisant des outils d’analyse.
Afin de concrétiser ces sous-étapes, nous les appliquons sur l’exemple des articles scienti-
fiques. En effet, la production scientifique est un phénomène social, puisqu’il fait intervenir
plusieurs acteurs ayant des profils, des responsabilités et des rôles différents (le rédacteur,
le traducteur, l’encadreur, le responsable de recherche, etc.). Ensuite, l’article doit être pu-
blié, ce qui fait intervenir d’autres acteurs comme les relecteurs, les éditeurs et les comités
des conférences. Une fois publié, l’article est accessible à une communauté plus étendue,
ce qui élargit son usage. En analysant les activités de ces acteurs, nous pouvons distinguer
deux types de pratiques. La première est reliée à la recherche et l’évaluation de la perti-
nence des articles du point de vue thème. La deuxième pratique concerne l’évaluation de
l’impact des articles scientifiques et la veille scientifique. L’impact d’un article dépend,
entre autres, du nombre de papiers qui l’ont cité. La veille scientifique consiste à découvrir
les nouveautés dans un domaine donné. En étudiant ces deux pratiques et en analysant les
éléments constitutifs d’un article scientifique, nous pouvons dire que le titre de l’article,
son résumé puis son corps, constitué de sections, sont les éléments les plus importants pour
la première pratique. La deuxième pratique nécessite une analyse approfondie des infor-
mations biographiques, des références bibliographiques et de la conclusion (pour étudier
les perspectives).
81
5.3 Analyse de la structure des documents

Dans [49] et [54], nous avons présenté un processus d’analyse de documents qui
considère trois niveaux, à savoir le niveau physique, le niveau macro-logique et le niveau
micro-logique. Dans une première étape, il s’agit de reconnaı̂tre les blocs physiques (texte,
images, liens, etc.) et leurs attributs stylistiques (taille de la police, alignement, etc.) selon
le format de document (Word, PDF, etc.). La deuxième étape permet de reconnaı̂tre le
titre principal du document et les titres des sections et sous-sections en combinant trois
types d’analyse. D’abord, nous pouvons analyser le contenu de chaque bloc textuel. Par
exemple, nous pouvons vérifier si un bloc textuel correspond au titre de l’une des sections
d’un article scientifique tel que ”Résumé”, ”Introduction”, etc. Ensuite, le contexte per-
met aussi d’identifier ces titres, qui doivent être par exemple suivis d’un retour à la ligne.
Enfin, le moyen le plus générique consiste à utiliser les styles. Nos expérimentations ont
montré que la taille de la police puis l’alignement sont les attributs les plus discriminants.
Viennent ensuite d’autres attributs spécifiant le format des caractères (gras, italique et
souligné). Comme résultat, nous pouvons identifier le niveau de chaque bloc dans la struc-
ture d’un document. Si un document contient M niveaux, le ou les nœuds racines (comme
le titre principal) seront classés au niveau M. Nous continuons à attribuer des niveaux
décroissants aux titres des sections (ou chapitres) jusqu’à arriver aux paragraphes qui
auront le niveau 1.
Nous nous focalisons avec plus de détails sur l’analyse micro-logique qui consiste à
identifier et à organiser les entités logiques élémentaires des documents. La typologie
de ces entités dépend des besoins sociaux précédemment étudiés. Cette tâche nécessite le
développement de plusieurs analyseurs dont chacun est spécialisé dans l’analyse d’un type
de fragments. Par exemple, l’analyse d’une référence bibliographique diffère de l’analyse
des informations biographiques qui figurent dans l’entête d’un article scientifique.
Un fragment de document n’est autre qu’un texte semi-structuré. A ce stade, nous

utilisons la même démarche que d’autres chercheurs qui ont adopté les grammaires hors
contexte pour analyser ce type de textes (voir section 4.2, page 64). Cependant, notre
approche se distingue par deux caractéristiques. Dans la phase d’apprentissage, les gram-
maires sont apprises d’une manière semi-automatique, ce qui permet de tenir compte des
besoins sociaux. En outre, c’est une solution adéquate en l’absence de corpus étiquetés
qui peuvent être utilisés dans l’apprentissage automatique. Dans la phase de test, chaque
analyseur utilise, d’une manière séquentielle, plusieurs grammaires, ce qui réduit la com-
plexité des grammaires et garantit leur réutilisation. Les grammaires sont stockées dans
un serveur et peuvent être utilisées à la demande. En effet, nous distinguons deux types
d’usage des grammaires :
– Analyse complète : la grammaire est utilisée pour analyser tout le fragment pour
reconnaı̂tre sa structure.
– Analyse partielle : la grammaire est utilisée pour identifier, dans un fragment donné,
une entité particulière.
Un analyseur micro-logique génère un flux XML qui représente la structure du fragment

analysé. Les flux XML générés par les différents analyseurs macro-logiques sont regroupés
pour constituer un fichier XML, qui représente la structure et le contenu de la totalité du
document.
82
5.4 Reconnaissance des identités

L’analyse micro-logique est censée extraire les entités nommées selon le domaine d’ap-
plication. Les noms de personnes constituent les entités les plus importantes. L’une des
grammaires à développer est celle qui permet d’extraire les noms propres arabes. Une fois
ces noms extraits, il faut reconnaı̂tre les identités correspondantes, car plusieurs personnes
peuvent partager le même nom. Nous modélisons la reconnaissance des identités comme
une tâche de recherche d’information.
Etant donné un nom extrait d’un document, nous voulons connaı̂tre l’identité de la
personne correspondante. Notre modèle suppose l’existence d’une base de biographies où
les noms complets sur les personnes sont stockés. La reconnaissance de l’identité peut être
vue comme un calcul de distance entre un nom extrait du texte (qui constitue la requête)
et tous les noms de la base (qui constituent les documents). La personne ayant le score le
plus élevé sera sélectionnée. Il suffit donc d’instancier le modèle d’appariement possibiliste
présenté dans la section 4.5 (page 77).
Les noms propres arabes étant ambigus, la phase d’appariement peut générer plu-
sieurs personnes candidates pour le même nom. Il faut donc procéder à une étape de
désambiguı̈sation dont le principe général consiste à exploiter le contexte basé sur les
relations sociales. Par exemple, si deux frères sont cités dans un texte, l’identification de
l’un facilite l’identification de l’autre. Etant donné que la typologie des relations diffère
d’un domaine d’application à un autre, nous préférons reporter les détails de l’étape de
désambiguı̈sation au chapitre V (voir section 4.4, page 101).
5.5 Analyse morphosyntaxique et extraction de termes

L’objectif de cette analyse est d’extraire les termes pertinents à un domaine à partir
d’un corpus représentatif [52]. Les expressions extraites sont évaluées en terme de term-
hood et de unithood [181] qui sont les deux propriétés fondamentales des termes (voir
section 3.2.1, page 56). En plus des expressions qui possèdent ces propriétés, nous ex-
trayons d’autres expressions utiles pour la structuration des ontologies. Considérons les
á
exemples des deux expressions suivantes : ” ákAË@ .ÊË@” (le lait chaud) et ” ákAË@ ZAÜÏ @”

(l’eau chaude). Les deux têtes (” á . Ë ” (lait) et ” ZA Ó ” (eau)) représentent des concepts du
domaine alors que les deux expressions ne le sont pas. Cependant, il est intéressant de
les extraire, car nous pouvons inférer un lien entre les deux têtes en se basant sur le fait
qu’elles partagent la même expansion.
Notre approche essaie d’éviter les limites des approches existantes que nous avons
détaillées dans la section 3.2.2 (page 57). Ces approches manquent soit d’outils d’ana-
lyse linguistique sophistiqués, soit d’une évaluation des deux propriétés fondamentales
83
des termes. En effet, nous distinguons deux types de traitements qui sont considérés
dans la littérature comme différents, à savoir la désambiguı̈sation morphosyntaxique et
l’évaluation des expressions en terme de termhood et de unithood . Dans les deux cas, il
s’agit d’évaluer des expressions linguistiques.
Nous proposons donc une approche hybride qui fusionne ces deux traitements [52].
Cette approche possède les caractéristiques suivantes :
– Nous effectuons une analyse morphosyntaxique complète des expressions suscep-
tibles d’être des syntagmes nominaux.
– Nous utilisons plusieurs corpus représentant des domaines différents afin d’évaluer
le termhood des expressions.
– Nous utilisons les mesures possibilistes pour évaluer les deux dimensions.
– La pertinence des termes n’est pas liée uniquement à leur distribution dans les
corpus, comme avec TF-IDF, mais à des relations contextuelles complexes.
Dans notre cas, la résolution des ambiguı̈tés et le calcul de la pertinence au domaine sont
vus comme une tâche de RI, où nous évaluons les solutions (les documents) en fonction
des informations contextuelles (la requête). Comme résultat de cette évaluation, nous
générons, pour chaque domaine, un réseau de termes reliés par des relations syntaxiques
selon la typologie des syntagmes nominaux arabes (voir section 2.1, page 51).
5.6 Analyse distributionnelle

Cette analyse, telle que nous l’avons étudiée dans la section 3.2.3 du chapitre III (page
61), constitue un outil générique, car elle peut être appliquée sur un graphe quel que soit
le type des nœuds et des liens. L’objectif consiste à fournir un outil d’analyse qui permet
de restructurer un graphe en inférant de nouvelles connaissances. Nous parlons ici du
réseau social extrait à partir de la base des biographies dont l’analyse permet d’extraire
une carte sociale. Les traitements distributionnels peuvent être appliqués, d’une manière
analogue, sur le réseau de dépendances syntaxiques qui représente les termes pertinents
à un domaine.
La méthode d’analyse distributionnelle, comme présentée par Bourigault [57], permet de

constituer un réseau distributionnel en partant d’un réseau syntaxique. Cependant, nous
étendons cette méthode comme suit. D’abord, les nœuds du graphe sont des éléments
déjà évalués. Par exemple, Bourigault [57] n’a pas évalué les expressions utilisées dans son
réseau par rapport au domaine. Ensuite, il a présenté plusieurs coefficients de similarité
sans les aggréger. Dans ce cadre, nous traitons les réseaux distributionnels comme des
RPMH dans lesquels il est possible d’exploiter les circuits pour calculer la similarité entre
les termes (voir section 3, page 73). Enfin, il est possible d’appliquer des algorithmes de
clustering qui permettent de grouper les nœuds d’une manière cohérente.
5.7 Evaluation de la fiabilité de l’information

Cette étape peut être vue comme la dernière dans un processus qui commence par
une requête ou une navigation et se termine par des fragments où des documents évalués
en terme de fiabilité. Néanmoins, il faut aussi permettre à l’utilisateur d’imposer des
contraintes sur la fiabilité dans sa requête initiale. Par exemple, il pourra demander de
ne recevoir que des textes ayant un degré donné de fiabilité. L’évaluation de la fiabilité
selon notre point de vue se décompose en deux éléments :
84
1. Le système doit donner une évaluation globale de la fiabilité de chaque texte en

se basant sur des attributs extraits de méta-données ou du texte lui-même. Dans
notre cas, il s’agit d’un classifieur possibiliste qui définit trois classes : Fiable (F),
Non Fiable (NF) et Suspect (S). Cette dernière classe permet de modéliser le cas
d’incertitude et de manque dans les données [50].
2. Les mécanismes de visualisation permettent de mettre l’accent sur les causes de
rejet d’une information ou sur son degré de suspicion. Il s’agit de munir les cartes
de signes qui indiquent et expliquent les décisions prises par le système.
5.8 Navigation et recherche d’information

Les étapes précédentes du processus de cartographie permettent de passer d’un es-
pace brut à un espace structuré. Dans cette étape, il s’agit de continuer le processus de
cartographie en implémentant des mécanismes d’interaction. D’abord, les ontologies et
les fragments doivent être affichés conjointement pour fournir une vue multidimension-
nelle des connaissances. Ensuite, l’interface graphique doit fournir des mécanismes de
navigation qui implémentent des stratégies d’adaptation. Sans spécifier en détails toutes
les opérations possibles, nous allons présenter quelques exemples de scénarios. Il serait
par exemple intéressant de permettre à un utilisateur d’extraire, à partir d’une carte, un
sous-ensemble de connaissances pour créer une nouvelle carte (ou un document virtuel)
en spécifiant certaines contraintes de filtrage. Un autre scénario consisterait à permettre
une navigation sous contraintes d’une composante à une autre. Par exemple, l’utilisateur
pourrait sélectionner un terme dans une carte sémantique, puis tous les fragments qui lui
correspondent et enfin afficher les personnes qui ont produit ces fragments et leur liens
sociaux.
Dans ce processus, il y a une évaluation de la pertinence des fragments qui est as-
surée par le modèle d’appariement possibiliste. Ce modèle peut tenir compte de plusieurs
requêtes en utilisant l’agrégation à base de minimum ou à base de produit. De ce fait, il
constitue l’un des outils d’interaction les plus importants dans la carte. Quoique la visuali-
sation doit faciliter la composition de requêtes, nos cartes offrent une aide supplémentaire
à l’utilisateur en permettant une expansion automatique des requêtes basée sur les RPMH.
Les nœuds du graphe sont reliés à travers des cricuits qui définissent une similarité graduée,
ce qui permet d’ajouter, à une requête, les éléments les plus proches à ceux qui existaient
initialement.
6 Conclusion
Dans ce chapitre, nous avons modélisé les connaissances d’un fonds documentaire
arabe sous forme de cartes multi-dimensions. Le modèle que nous avons proposé est rela-
tivement neutre par rapport aux différentes visions du Web reportant certaines décisions
sur la nature des SOC à une étude des paramètres du cas d’application. Du point de vue
processus, nous avons donné un aperçu général sur toutes les étapes de la cartographie.
La mise en œuvre et l’expérimentation dépendent du corpus à choisir et des besoins des
utilisateurs. Les deux chapitres suivants instancient notre modèle et notre processus de
cartographie en présentant de plus amples détails sur leur conception et leur évaluation.
85
Chapitre V
Extraction de connaissances
socio-sémantiques
C e chapitre détaille les étapes d’extraction de connaissances socio-sémantiques à

partir de documents arabes. Nous commençons par motiver le choix du corpus
du hadith (voir section 1). Les besoins des utilisateurs, intéressés par les documents de ce
corpus, sont recensés dans la section 2. Dans la section 3, nous analysons la structure des
livres du hadith. En outre, nous détaillons notre approche d’analyse micro-logique et nous
présentons les résultats de reconnaissance des différents types de fragments des livres du
hadith. Notre algorithme de reconnaissance des identités est détaillé, testé et évalué dans
la section 4. L’axe sémantique fait l’objet de la section 5, dans laquelle nous présentons
et évaluons notre approche d’extraction de candidats termes.
1 Choix du corpus
Malgré l’importance des corpus dans plusieurs types d’applications, aucun des corpus
arabes existants ne semble constituer une référence consensuelle. Plusieurs corpus arabes
ont été construits dans le but de pallier à ce manque [21]. Par rapport à ces corpus,
nous trouvons que le corpus du hadith est plus adapté à notre cas, vu sa structure et sa
richesse socio-sémantique. S’ajoute à cela l’existence d’une méthodologie pour l’évaluation
de la fiabilité. Avant d’appliquer notre processus de cartographie sur les documents de ce
corpus, nous allons commencer par étudier leur structure et leurs caractéristiques.
1.1 Structure des livres du hadith

Les hadiths ont été transmis d’une génération à une autre avant d’être réunis dans des
recueils par des experts. Étant donné que cet effort de collecte, d’organisation et d’étude
a duré des siècles, des centaines de recueils ont été constitués [4]. Au fil des siècles, une
classification consensuelle a été instaurée et six livres ont été reconnus par les savants du
86
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES
hadith comme étant les plus authentiques. Ils sont cités dans l’ordre comme suit : ”

ø
PAjJ . Ë@ iJ
m” (sahih Al-Bukhari), ” ÕÎÓ iJ
m” (sahih Muslim), ” Xð@X ú
G. @ á ” (Sunan

abou daoud), ” ø YÓQË@ á ” (Sunan Al-Termidhi), ” úGA Ë@ á ” (Sunan Al-Nasai) et ”
AÓ áK á
ék

” (Sunan ibn Mejeh) 1 [1]. Ces six livres contiennent plus de 2.5 millions de
. .
mots.
Les livres du hadith sont organisés par thèmes, sauf pour certains recueils appelés ”
YJ
KA Ö
Ï @ ” (les livres assignés) qui sont organisés par narrateurs. Cette classification est
la première étape vers la compréhension des hadiths. En plus, les savants ont ajouté des
commentaires reliés soit à l’explication et à l’interprétation des hadiths, soit à l’évaluation
de leur fiabilité. La première catégorie de commentaires englobe les définitions des termes

étranges, rarement utilisés ou difficiles à comprendre ( éJ. K
Q ªË@ A ®Ë B@ ), l’explication du

sens global du hadith en arrivant jusqu’à l’extraction de lois juridiques ( éJ
ê ® ®Ë@ ÐA¾k B@
). En plus, les livres du hadith contiennent des versets du Coran dans les titres des cha-
pitres et sous-chapitres, dans le contenu des hadiths ou à titre d’explication. La deuxième
catégorie permet de donner des informations sur les narrateurs du point de vue identité ou
crédibilité, en arrivant jusqu’à l’évaluation de la fiabilité du hadith dans sa globalité. Le
hadith peut être aussi suivi par des indications, qui contiennent des références à d’autres
livres où d’autres versions du même hadith existent.
Les collecteurs du hadith ont adopté des stratégies différentes lors de la constitution de
leurs livres. Certains présentent des explications détaillées des hadiths alors que d’autres
se sont limités à une classification thématique. Cette classification est elle-même objet de

divergences entre les spécialistes. Par exemple, le livre ” ø PA jJ. Ë@ iJ
m ” [1] contient

quatre-vingts chapitres alors que ” Xð@ X ú
G. @ á ” [1] n’en contient que quarante-deux. Du
point de vue fiabilité, certains se sont engagés de ne mettre, dans leurs livres, que les
textes qu’ils jugent fiables. D’autres se sont limités à la collecte en laissant tout ou un
sous-ensemble de hadiths sans jugement.
Les livres du hadith documentent d’une manière fidèle toutes les transactions du pro-
cessus de transmission, d’interprétation et d’évaluation. Ce processus est riche en acteurs
puisque nous retrouvons les personnes citées dans le contenu du hadith et ses narrateurs,
en plus des experts qui ont collecté ou commenté les hadiths du point de vue sens ou
fiabilité. Ces livres font aussi l’objet de divergences et d’échanges de points de vue. Ils
constituent en outre une encyclopédie riche en connaissances qui n’est pas limitée aux
thèmes religieux mais les dépasse pour illustrer des aspects importants de la civilisation
et de la culture arabe et même des connaissances universelles. Ainsi, ils représentent un
fonds linguistique et scientifique important pour l’humanité. L’existence d’une interaction
entre l’axe social et l’axe sémantique nous laisse considérer ces documents, du point de
vue du Web socio-sémantique, comme des productions sémiotiques.
1. Ces livres peuvent être téléchargés à partir de https://sites.google.com/site/kirtase/
downbook/allbooks/19-moutoun
87
1.2 Caractéristiques du corpus du hadith

Cette section récapitule les caractéristiques du hadith en tant que méthodologie et
en tant que corpus. Notre recherche ne concerne pas le rôle reconnu du hadith dans les
sciences de la religion et dans la civilisation arabo-musulmane, étant donné que cet aspect
dépasse le cadre de notre thèse. Ainsi, nous proposons d’étudier ces textes du point de
vue des sciences de l’informatique. Dans [6], nous avons présenté une étude qui montre
que leurs caractéristiques en font un bon candidat pour plusieurs applications dans divers
domaines de recherche en informatique. Le tableau V.1 récapitule ces caractéristiques, les
opportunités de recherche correspondantes et des exemples de travaux associés.
Caractéristique Opportunités et travaux de recherche

Grande taille - Recherche d’information [133, 135]
- Fouille de textes [132]
- Construction d’ontologies
Structure - Classification et Clustering [18, 22, 131, 163]
- Recherche d’information structurée
Méthodologie pour la fiabilité de - Evaluation automatique de la fiabilité des hadiths
l’information [3, 27, 28, 117]
- Application de la même méthodologie pour
d’autres types de textes [224]
Richesse sociale et représentation - Reconnaissance des entités nommées et analyse
des points de vue de biographies [30, 138]
- Etude des réseaux et des interactions sociales
Existence de versions scannées - Reconnaissance optique des caractères [19]
Tableau V.1 – Caractéristiques du corpus du hadith.
En analysant ce tableau, nous pouvons remarquer la multitude des domaines d’applica-

tion déjà explorés, ce qui montre la généricité du corpus hadithien et de la méthodologie
de la fiabilité de l’information. Par exemple, Yusoff et al. [224] ont proposé d’appliquer la
méthodologie du hadith pour faire face aux crimes électroniques.
De plus, l’importance de la technologie pour les sciences du hadith est un fait reconnu
[3]. Plusieurs logiciels et sites Web sont dédiés aux livres du hadith et beaucoup de cher-
cheurs se sont intéressés à ces livres [15]. La majorité des encyclopédies du hadith ont été
produites manuellement, ce qui demande des efforts considérables. Il nous suffit de citer
l’encyclopédie la plus large à notre connaissance dénommée ” ÕÎ¾Ë @ ©Ó@ñk . ” 2. Elle contient
1400 livres qui ont été traités, durant trente années, par des centaines de spécialistes.
2. http://www.islamWeb.net/mainpage/hadith.php
88
Etant conscient de la difficulté engendrée par les traitements manuels, plusieurs cher-
cheurs en informatique ont essayé d’automatiser l’analyse des livres du hadith mais les
travaux existants souffrent de certaines limites. Tout d’abord, certains travaux passent
par une étape manuelle qui consiste à analyser la structure des livres, ce qui englobe la
reconnaissance des titres et la séparation des chaı̂nes de narrateurs considérées comme
des éléments qui ne relèvent pas du contenu. Nous pensons que l’automatisation de cette
étape permettra de préparer les livres du hadith à ces types d’applications afin de maximi-
ser leur exploitation. Ensuite, comme nous l’avons détaillé dans le chapitre III (section 5,
page 66), les SRI basés sur ce corpus souffrent d’outils d’analyse linguistique sophistiqués
et/ou d’une étape d’évaluation. En outre, aucun des travaux existants ne considère l’axe
sémantique et l’axe social à la fois. Enfin, les éléments grisés dans la troisième colonne du
tableau V.1 représentent des domaines qui n’ont pas été explorés à notre connaissance.
Ainsi, il nous semble intéressant d’extraire les connaissances de ces documents et de les
modéliser selon les deux axes sémantique et social.
La structure des documents du hadith et leur richesse socio-sémantique favorise l’ex-

traction de connaissances selon divers axes et leur représentation selon plusieurs points
de vue. De même, cela permet d’expérimenter des mécanismes de recherche précise et
multi-critères. Ce fonds documentaire représente donc un candidat très intéressant pour
appliquer la cartographie socio-sémantique multi-critères.
2 Etude sociale
Dans cette section, nous suivons la démarche composée de cinq étapes présentée dans
la section 5.2 du chapitre IV (voir page 81) afin d’étudier la cartographie des livres du
hadith du point de vue social [54] :
1. Le hadith représente un phénomène socio-historique caractérisé par l’intervention de
plusieurs acteurs ayant des rôles différents. Ces acteurs peuvent être classés comme
suit :
– Les acteurs qui participent dans l’histoire véhiculée par le hadith.
– Les narrateurs.
– Les collecteurs.
– Les experts qui ont jugé les narrateurs ou les hadiths.
– Les experts qui ont interprété les hadiths.
2. Nous pouvons identifier deux types de relations entre ces acteurs, à savoir les re-
lations de parenté et les relations de transmission (cheikh-disciple). En plus, les
acteurs peuvent être liés à travers d’autres attributs sociaux tels que les lieux de
résidence et l’appartenance aux tribus arabes.
3. Nous pouvons identifier deux types de pratiques liées à l’étude des hadiths. La
première concerne l’étude de la fiabilité qui se décline en quatre types d’usage :
– L’étude des biographies des narrateurs.
– L’étude de la continuité des chaı̂nes de narrateurs.
– La comparaison de versions.
– L’étude des commentaires sur la fiabilité.
Comme deuxième pratique, d’autres utilisateurs sont intéressés par les connais-
sances véhiculées par le contenu des hadiths ou dans les titres des chapitres et
sous-chapitres. Ainsi, nous pouvons dégager deux principaux types d’usage :
89
– Lecture du contenu du hadith.

– Interprétation et étude des divergences.
Les utilisateurs novices se limitent généralement à la lecture du contenu du hadith
et ne donnent pas grande importance aux interprétations et aux commentaires. Par
contre, les utilisateurs expérimentés ou les experts effectuent une étude détaillée des
interprétations des savants afin de cerner leurs points de vue et leurs divergences.
4. Les principales catégories de fragments et de liens qui peuvent être trouvés dans les
livres du hadith sont représentées par la DTD de la Figure V.1.
Figure V.1 – DTD illustrant la structure d’un livre du hadith.
Dans cette DTD, nous considérons qu’un livre de hadith est composé de thèmes et
de hadiths. Un thème possède un titre qui peut être suivi de commentaires d’in-
terprétation sur ses hadiths. Chaque hadith est défini par une ou plusieurs chaı̂nes
de narrateurs, un contenu et éventuellement des commentaires, des indications de
versions et/ou des interprétations. Nous rappelons que des versets du Coran peuvent
être cités dans les interprétations ou dans le contenu des hadiths.
Pour pouvoir identifier les narrateurs des hadiths et disposer des méta-données
nécessaires à l’évaluation de la fiabilité, nous intégrons une base de données qui
contient les descriptions de 8858 personnes connues par la narration des hadiths 3 .
Cette base englobe les narrateurs des six livres du hadith les plus reconnus. A travers
les tables et les champs, elle fournit plusieurs informations sur chaque narrateur
dont :
– Le nom complet : certains noms contiennent des indications sur des liens de pa-
renté avec d’autres narrateurs.
– Les dates et les lieux de naissance et de décès.
– La génération : les narrateurs sont classés en 12 générations.
– Les jugements de crédibilité : la base contient les jugements de ” Q m.k áK .@
úGC®ªË@
” (ibn Hajar al-Askalani).

– Description textuelle de la biographie.

– Les relations sociales : la base contient une table qui indique les liens du type
(cheikh-disciple) entre les narrateurs.
3. Cette base est téléchargeable à partir de : http://www.arbdownload.com/2009/04/29/
gu-sz-zbnpnl.html
90
5. Le tableau V.2 établit le lien entre les différents types d’usage et les catégories de
fragments et d’informations. Les éléments mis en italique font partie du modèle de
documents de la Figure V.1 et les autres sont issus de la base des biographies.
Type d’usage Fragments et/ou informations requises

Etude de la fiabilité
Etude des biographies des narrateurs
– Commentaire Acteur
– Description textuelle de la biographie
– Les jugements de crédibilité
Etude de la continuité des chaı̂nes de

– Chaine
narrateurs
– Relations de parenté
– Relations (cheikh-disciple)
– Dates et lieux de naissance et de décès
Comparaison de versions - Indication Version

Etude des commentaires sur la fiabilité - Commentaire Fiabilite Hadith
Etude sémantique des hadiths
Lecture du contenu du hadith
– Titre
– Contenu
Interprétation et étude des divergences

– Titre
– Interpretation
Tableau V.2 – Correspondance entre les types d’usage, les catégories des fragments et les
informations de la base des narrateurs.
L’étude des acteurs et leurs interactions avec les fragments de documents nous aide
à nous situer par rapport aux différentes visions du Web, selon les critères énumérés
dans le chapitre I (section 2.4, page 11). En premier lieu, notons que le corpus hadithien
est relativement évolutif étant donné que ses documents sont sujets d’études continues,
que ce soit dans l’axe sémantique ou social. En second lieu, les besoins des utilisateurs
s’inscrivent dans une démarche d’enquête. Il ne s’agit pas de besoins purement informa-
tionnels qui peuvent être satisfaits par un système du type requête-résultat mais plutôt
de besoins de navigation, d’analyse, d’inspection et d’évaluation. Ce genre de besoins
nécessite des mécanismes plus ouverts qui favorisent la participation de l’utilisateur. En
troisième lieu, nous remarquons que la méthodologie des savants du hadith est basée sur la
documentarisation, dans le sens où toutes les transactions sont précisément documentées.
Cette documentarisation suit des règles relativement strictes mais permet un certain degré
d’ouverture étant donné que les acteurs peuvent ajouter librement des commentaires en
langage naturel. En quatrième lieu, le corpus hadithien attire et fait intervenir des com-
munautés hétérogènes avec des droits, des intérêts et des points de vue différents. En
dernier lieu et en guise de résumé des éléments précédents, la cartographie des livres
du hadith se caractérise par une certaine ouverture sémiotique. En effet, notre tâche ne
91
consiste pas à développer des programmes informatiques qui automatisent tous les trai-
tements, mais plutôt à soutenir l’utilisateur dans sa démarche d’enquête. Ceci implique
que l’utilisateur n’est pas supposé adopter les décisions d’un système fermé, mais exploi-
tera des mécanismes de recherche et de navigation pour arriver à une décision. Ainsi,
les caractéristiques du corpus du hadith et les besoins des utilisateurs nous conduisent à
nous placer dans la vision du Web socio-sémantique et dans la démarche semi-formelle de
modélisation des pratiques des utilisateurs, de la structure des documents et des connais-
sances.
3 Analyse de la structure des documents

Dans cette étape, nous sommes censés analyser la structure des documents à tous les
niveaux. Au niveau physique, les documents que nous utilisons sont au format Micro-
soft Word. Ce format nous a aidé à reconnaı̂tre les titres des thèmes étant donné que la
structure des livres du hadith est simple au niveau macro (une hiérarchie de thèmes de
profondeur 2 ou 3). Cependant, un effort plus important doit être fait au niveau micro-
logique vu la complexité de la structure des hadiths. Dans cette section, nous présentons
une étude détaillée de cette structure en nous focalisant sur les éléments les plus im-
portants par rapport aux types d’usage des utilisateurs. Nous commençons par étudier
la structure de l’élément le plus important, à savoir la chaı̂ne des narrateurs. Ensuite,
nous présentons les grammaires hors contexte utilisées pour l’analyse des hadiths et les
résultats de reconnaissance de leur structure.
3.1 La structure des chaı̂nes de narrateurs

Une chaı̂ne de narrateurs est typiquement composée de verbes indiquant la manière
de transmission et de noms de personnes. Cependant, le narrateur est libre d’ajouter des
expressions ou des commentaires en rapportant un hadith. La chaı̂ne n’est donc pas une
liste de noms propres et de verbes, mais possède une structure complexe qui peut contenir
différents types d’informations.
3.1.1 La manière de transmission

L’utilisation des verbes de transmission dans les chaı̂nes de narrateurs affecte leur
structure particulièrement au niveau des noms des narrateurs. Selon le verbe et/ou les
prépositions et leurs positions, ces noms changent de mode. Considérons l’exemple sui-
vant :

... èQ.g @ @QK. Ag. à @ lÌ'A AJ KYg YÔg @ á«

qui peut être traduit comme suit : ”Selon Ahmed, Saleh lui a dit que Jaber l’a informé
...”
92

Dans cet exemple, la chaı̂ne de narrateurs est composée de trois personnes : ” YÔg @ ”

(Ahmed), ” lÌ 'A ” (Saleh) et ”QK. Ag.” (Jaber). Etant donné que la préposition ” á«
” (selon)
précède le premier nom, la voyelle courte ” @ ” lui est ajoutée. Le deuxième nom est en

mode nominatif ( ¨ñ ¯QÓ ) puisqu’il représente le sujet d’une phrase verbale dont le verbe

est ” AJ KYg” (X nous a dit). Dans le dernier cas, le verbe ”Q.g @” (informer) vient après le
nom du narrateur qui est en mode accusatif ( H
. ñ J Ó ) et prend, à sa fin, une lettre
supplémentaire et une voyelle courte (” @”).
3.1.2 Les noms des narrateurs

Dans une chaı̂ne, un narrateur peut être référencé par plusieurs expressions qui corres-
pondent à une ou plusieurs composantes de son nom. Ceci implique que la même personne
peut être référencée de plusieurs manières différentes, ce qui
complique son identification.
Par exemple, plusieurs personnes sont nommées ” úÎ« ñK. @” (abou Ali) du fait que le nom

Ali est largement utilisé, ce qui conduit à une ambiguı̈té. Ces ambiguı̈tés peuvent être
résolues si la personne est référencée en même temps par d’autres composantes de son
nom.
Dans certains cas, les narrateurs sont référencés sans aucune composante de leurs noms.
C’est le cas quand un narrateur indique qu’il a reçu le hadith de l’un de ses proches. Par
exemple, un narrateur peut rapporter qu’il a reçu un hadith de son grand père comme
suit : ” ø Yg. úæ KYg” (Mon grand père m’a dit).

Dans d’autres cas, les relations sociales sont combinées avec

les noms. Par exemple,
quelqu’un pourra rapporter un hadith comme suit : ” YÔg @ úk @ úæ KYg” (mon frère Ahmed

m’a dit). En plus des liens de parenté, d’autres types de relations peuvent être invoquées.
Par exemple, un narrateur peut rapporter qu’il a reçu un hadith d’un ami.
Enfin, un narrateur peut citer deux ou plusieurs de ses cheikhs en utilisant les conjonc-

tions ”ð ” (et) et ” ð @ ” (ou). La première est utilisée si le narrateur a reçu le hadith de
deux ou plusieurs personnes à la fois et la deuxième est utilisée quand il a un doute sur
la source du hadith.
3.1.3 Les informations supplémentaires dans les chaı̂nes de narrateurs

Les chaı̂nes de narrateurs peuvent contenir plusieurs types d’informations en plus des
noms de narrateurs et des verbes indiquant la manière de transmission. Nous pouvons
citer les principaux types suivants :
– Les expressions spécifiant le cadre spatio-temporel ou décrivant la situation lors de
la transmission du hadith.
– La description du narrateur utilisée par exemple pour confirmer sa crédibilité.
93
– Le caractère ” h” qui indique que la chaı̂ne est composée de deux sous-chaı̂nes, ce qui
signifie que le narrateur a reçu le hadith de deux chemins différents. Dans l’exemple
suivant, le narrateur a reçu l’histoire de deux personnes (” Õæ
ë@QK . @ áK . H. ñ ® ª K
”

(Yakoub fils d’Ibrahim) et ” ÐX @ ” (Adam)) qui l’ont reçu, eux-mêmes de deux per-
” (fils d’Olaya) et ” éJ ª” (Cho‘ba)).
sonnes différentes (” éJ
Ê« áK

h @ á« . YJ.« á«
I.J
îD áK . QK
QªË@ éJ
Ê« áK . .AJ KYg ÈA Õæë@QK @ áK H ñ®ªK
¯ AJ KYg
@ á« èXAJ¯ á« éJ . ª
AJ KYg ÈA¯ ÐX@
AJ KYgð
. . .
Traduction : Yakoub fils d’Ibrahim nous a dit que le fils d’Olaya lui a dit selon
Abdelaziz fils de Sohayb selon Anas H et Adam nous a dit que Cho‘ba lui a dit
selon Katada Selon Anas ...
3.2 Analyse automatique des livres du hadith

Les grammaires hors contexte apprises d’une manière semi-automatique sont utilisées
pour analyser les noms des narrateurs, les hadiths et les titres des thèmes. Nous avons
commencé par analyser les noms des narrateurs de la base des biographies. La grammaire
apprise a été ensuite utilisée pour reconnaı̂tre les noms des personnes dans les titres et les
hadiths.
Dans [54], nous avons présenté une évaluation empirique effectuée sur 1600 hadiths
extraits de quatre livres. En effet, nous avons commencé par les 400 premiers hadiths des
”.
livres suivants : ” ø PA jJ. Ë@ iJ
m ”, ” ÕÎ Ó iJ
m ”, ” Xð@X úG @ á ”, et ” ék. AÓ áK
. á

.
Nous avons utilisé 80% des hadiths dans la phase d’apprentissage (i.e. 1280 hadiths) et le
reste dans l’étape de test. La phase d’apprentissage nous a permis d’obtenir une suite de
grammaires qui correspondent aux éléments mis en gras dans la Figure V.1.
Dans l’annexe A, nous présentons, d’une manière détaillée, les grammaires que nous
avons obtenues. Nous tenons ici à mentionner que :
– La grammaire des acteurs tient compte des différentes composantes d’un nom propre
arabe. Elle considère aussi le nom du maı̂tre quand il est cité dans le nom de la
personne.
– La grammaire des chaı̂nes de narrateurs tient compte des différentes configura-
tions des références des narrateurs et des verbes de transmission. Elle modélise
les différents types de références, y compris le cas où le narrateur est référencé par
une relation à une autre personne.
– Chacune des grammaires utilisées génère un résultat au format XML, qui est utilisé
par d’autres grammaires selon l’ordre de priorité. Le résultat final d’un analyseur
micro-logique est structuré au format XML en utilisant la dernière grammaire dans
la table de priorité.
94
Ces grammaires sont utilisées par deux analyseurs micro-logiques. Le premier permet
de reconnaı̂tre la structure d’un titre et le deuxième analyse un hadith avec toutes ses
composantes. Les tables de priorité de ces deux analyseurs sont illustrées par les tableaux
V.3 et V.4, respectivement 4 .
Nom de la grammaire Priorité Type d’analyse

Verset 1 Partielle
Acteur 2 Partielle
Titre 3 Complète
Tableau V.3 – Table de priorité de l’analyseur des titres des thèmes.
Nom de la grammaire Priorité Type d’analyse

Verset 1 Partielle
Acteur 2 Partielle
Chaine 3 Partielle
Indication Version 4 Partielle
Commentaire Acteur 5 Partielle
Commentaire Fiabilite Hadith 7 Partielle
Hadith 8 Complète
Tableau V.4 – Table de priorité de l’analyseur des hadiths.
Nous commençons donc par identifier les versets coraniques puis les acteurs, qui sont les
éléments les plus fins en terme de granularité. Nous remarquons aussi que les grammaires
correspondantes sont communes aux deux analyseurs, ce qui illustre les possibilités de
réutilisation.
Nous avons évalué les résultats d’analyse en terme de rappel, de précision et de F-

mesure [54]. Dans cette évaluation, nous ne considérons valides que les éléments qui ont
été identifiés et analysés correctement. Le tableau V.5 récapitule les résultats obtenus par
type de fragment.
Type de fragments Rappel Précision F-mesure

Versets 100.00% 100.00% 100.00%
Acteurs 98.95% 97.24% 98.09%
Chaı̂nes 97.96% 95.66% 96.79%
Indications de versions 94.54% 93.01% 93.77%
Commentaires 84.29% 85.51% 84.89%
Tous les fragments 98.43% 96.63% 97.52%
Tableau V.5 – Résultats d’expérimentation de l’analyseur des hadiths.
4. Nous rappelons que nous définissons la priorité et le type d’usage pour chaque grammaire (voir
section 5.3, chapitre IV, page 82).
95
Nous remarquons que les taux de reconnaissance des acteurs et des chaı̂nes sont supé-
rieurs à ceux obtenus pour les autres éléments. En effet, les chaı̂nes et les noms suivent
une structure relativement régulière. Par contre, les experts s’expriment librement en
commentant les hadiths, ce qui rend l’identification des indications de versions et des
commentaires plus difficile.
Nous pouvons comparer ces résultats par rapport à ceux obtenus par d’autres cher-
cheurs. Le tableau V.6 récapitule les résultats de certains travaux existants par rapport
à nos résultats dans la reconnaissance des noms de personnes. Nos résultats montrent
une amélioration significative des performances. En effet, les corpus utilisés pour tes-
ter les approches existantes sont constitués essentiellement d’articles de magazines et
de journaux. Les chaı̂nes de narrateurs ont une structure plus régulière, ce qui explique
l’amélioration obtenue. Cependant, les travaux existants se limitent à l’identification des
entités nommées. Notre contribution réside au niveau de l’analyse de la structure de
chaque entité, ce qui permet d’inférer des relations sociales entre les personnes et facilite
la reconnaissance des identités. A notre connaissance, aucune des approches existantes
n’a considéré la reconnaissance des entités nommées de cette manière.
Année Approche Précision Rappel F-mesure

2005 [236] 75.30 % 70.20 % 72.70 %
2007 [203] 85.50 % 89.00 % 87.50 %
2009 [204] 86.30 % 89.20 % 87.70 %
2010 Notre approche [50] 98.95% 97.24% 98.09%
Tableau V.6 – Etude comparative des approches de reconnaissance des entités nommées.
4 Reconnaissance des identités

Nous modélisons la reconnaissance des identités comme un SRI où une requête est un
nom extrait d’une chaı̂ne et les documents sont les biographies des personnes stockées
dans une base [50]. Comme tout SRI, il faut proposer un modèle d’indexation pour la
requête et pour les documents. Notre SRI utilise le modèle d’appariement possibiliste
[60, 98], qui permet d’évaluer chaque personne de la base étant donné un nom de la chaı̂ne.
L’appariement peut générer plusieurs personnes qui ont le même score vu l’ambiguı̈té des
noms arabes, d’où la nécessité d’une fonction de filtrage.
4.1 Le modèle d’indexation des noms propres arabes

Le code XML généré par l’analyseur micro-logique est parcouru pour extraire chaque
nom propre et l’indexer selon le modèle de la Figure V.2.
Figure V.2 – Modèle d’indexation des noms propres arabes [50].
96
Nous considérons qu’un nom propre arabe est constitué d’un ensemble d’items iti . Un
item est composé d’un ou plusieurs couples clé-valeur, notés (ci ,vi ). Les valeurs corres-
pondent aux composantes d’un nom arabe comme détaillé dans la section 4.1 du chapitre
III (page 64). Les clés sont des symboles qui indiquent le type de chaque composante.
Le tableau V.7 donne toutes les valeurs et les désignations des clés. Dans ce modèle, les
clés P1 ,..., Pn correspondent aux noms des antécédents d’une personne. P1 correspond au
père, P2 au grand père et ainsi de suite.
Composante Clé
Le prénom ( ÕæB@) N
)
La konia ( éJ
JºË@ K
Le laqab ( I

. ®ÊË@ ) L
La nisba ( éJ.Ë@) B
Le nasab ( I

. Ë@) P1 ...Pn
Le prénom du maı̂tre MN
La konia du maı̂tre MK
Le laqab du maı̂tre ML
Le nisba du maı̂tre MB
La nasab du maı̂tre M P1 ...M Pn
Tableau V.7 – Composantes du modèle d’indexation des noms propres arabes.
Prenons le nom propre suivant :

áK . úÎ« úÍñÓ ñëð Q
m Ì '@ I.ëð éË ÈA®K
ú
G@ ñË@ é®J
mk. ñK. @ I.ëð áK . @ ÈA®K
ð é<Ë@ YJ.« áK . I.ëð

lÌ 'A
Qui peut être traduit comme suit :
Wehb fils d’Abd Allah ou fils de Wehb Abou Jahifa Al-sawai appelé Wehb Al-kheyr allié
d’Ali fils de Salah
Selon le modèle d’indexation que nous avons défini ci-dessus, son index est représenté
par la Figure V.3.
Figure V.3 – Exemple d’index d’un nom propre arabe.
Nous remarquons que le second item de cet index contient deux paires, car il y a un
doute concernant le père de la personne.
97
4.2 Le modèle d’indexation des chaı̂nes de narrateurs

L’analyse de la structure d’une chaı̂ne permet de la structurer selon le modèle de la
Figure V.4.
Figure V.4 – Modèle d’indexation des chaı̂nes de narrateurs [50].
En effet, nous considérons qu’une chaı̂ne est composée de deux types d’items, à sa-
voir ”riwaya” et ”separateur ”. Pour chaque item du premier type, nous calculons trois
attributs :
– tahamoul : la manière de transmission.
– Rawi : une référence à un narrateur qui contient un ou deux noms propres (indexés
selon le modèle de la Figure V.2) et éventuellement une relation sociale comme
décrit dans la section 3.1.2 (page 93).
La Figure V.5 illustre l’index de la chaı̂ne suivante :
YJ
QË@ éJ
K. @ á«
úG @ I K . Õç'
QÓ á« AJ KYg
ÐAë

.
Qui peut être traduite comme suit : ”Hichem nous a dit, selon son père, selon Myriam
fille d’Abou Al-Rachid”.
Cette chaı̂ne est composée de trois éléments de type ”riwaya”. Le premier possède
deux attributs : ”tahamoul : (sama3 : A J KY g )” qui signifie que le premier narrateur a
rapporté une histoire oralement et ”(N, ÐA ë )” qui indique le nom du narrateur. La
manière de transmission du deuxième et du troisième composant est ”tahamoul : (An :
)” qui signifie ”Selon”. Le deuxième narrateur est référencé par une relation relative-
á«

ment au précédent narrateur ”( éJ
K. @ , Abouh)” (son père). Le dernier narrateur est une
femme référencée par son prénom ”(N , úG @)”.
Õç'
QÓ)” et son père ”(P1, YJ
QË@
.
Figure V.5 – Exemple d’index d’une chaı̂ne de narrateurs.
98
4.3 Le modèle d’appariement

Ce modèle permet de calculer le degré de similarité entre deux noms arabes dont le
premier apparaı̂t dans une chaı̂ne et le deuxième est stocké dans la base des biographies.
Notre solution permet de retrouver la bonne biographie même si le nom est ambigu ou si
des erreurs d’analyse ont eu lieu dans les étapes précédentes. Par exemple, le nom ”
I. ëð ” (Wehb) peut être utilisé comme laqab ou comme prénom. Cependant, l’outil de
reconnaissance des entités nommées attribue un seul label à chaque lexème. Ceci implique
que la clé ”L” peut être remplacée par ”N” et vice versa. Une autre ambiguı̈té concerne
le nom du père. En effet, un narrateur peut être référencé par son prénom et le nom de

son grand père. Dans ce cas, la clé ”P2 ” remplace la clé ”P1 ”. Par exemple, le nom ” ÐX @
I.ëð áK . ” (Adam fils de Wehb) peut être interprété comme ”Adam dont le père est Wehb”
ou ”Adam dont le grand-père est Wehb”. Enfin, une personne peut hériter le nisba de son
maı̂tre. La clé ”B” peut donc remplacer la clé ”MB”.
Nous modélisons ce problème par les tables de correspondance définies par les tableaux
V.8, V.9 et V.10 [50].
N K L B MN MK ML MB
N
K
L
B
MN
MK
ML
MB
Tableau V.8 – Matrice de correspondance (noms des personnes et des maı̂tres).
P1 P2 ... Pi Pi+1 ... Pn−1 Pn

P1
P2
...
Pi
Pi+1
...
Pn−1
Pn
Tableau V.9 – Matrice de correspondance (clés des pères).
Les matrices doivent être lues de la gauche vers la droite. Ainsi, une cellule dont le fond
est gris signifie que la clé en ligne peut être remplacée par la clé en colonne. Par exemple,
dans la deuxième matrice, la clé P1 peut être remplacée par P2 . Par contre P2 ne peut
pas être remplacée par P1 . Notons par Qname un nom qui apparaı̂t dans une chaı̂ne et
par personj , une personne de la base. Qname et personj sont indexés par un ensemble
99
M P1 M P2 ... M Pi M Pi+1 ... M Pn−1 M Pn

M P1
M P2
...
M Pi
M Pi+1
...
M Pn−1
M Pn
Tableau V.10 – Matrice de correspondance (clés des pères du maı̂tre).
d’items conformément au modèle d’indexation de la Figure V.2. Nous avons alors :

Qname = (itQ1 , ..., itQm )
personj = (itP1 , ..., itPp )
Comme tout SRI possibiliste, notre outil encode des liens de dépendance entre les items
de la requête et les personnes à travers un réseau possibiliste et quantifie ces liens par les
deux mesures de possibilité et de nécessité [50]. Les personnes retrouvées sont celles qui
sont possiblement ou nécessairement pertinentes étant donné le nom de la chaı̂ne.
La pertinence d’une personne personj de la base, étant donné un nom Qname, est
calculée comme suit, sachant que les items de la requête ne sont pas pondérés :
Selon les formules IV.8 et IV.9 (voir page 78), l’expression Π(personj |Qname) est pro-
portionnelle à :
Π0 (personj |Qname) = Π(itQ1 |personj )∗...∗Π(itQm |personj ) = F req1j ∗...∗F reqmj (V.1)
Dans cette formule, F reqij est la fréquence de l’item numéro i de Qname (itQi ) dans
le nom de la personne numéro j de la base. Elle est calculée comme suit :
1 S 0 il existe un item itPk dans personj ayant la même clé




et la même valeur que itQi




0.5 S 0 il existe un item itPk dans personj ayant la même valeur que

F reqij =

 itQi , et la clé de itQi est dif f érente de (mais peut être remplacée
par) celle de itPk




0 Dans les autres cas

(V.2)
En effet, la fréquence est fixée à 0.5 s’il y a une ambiguı̈té, car les deux items ne sont
pas exactement équivalents. Selon la formule IV.10 (page 78), la nécessité de retourner
une personne (personj ) pour un nom Qname est donnée par :
N (personj |Qname) = 1 − Π(¬personj |Qname) (V.3)
Selon la formule IV.13 (voir page 78), Π(¬personj |Qname) est estimée par :
Π0 (¬personj |Qname) = (1 − φperson1j ) ∗ ... ∗ (1 − φpersonmj ) (V.4)
100
En utilisant la formule IV.14 (voir page 78), nous avons :
φpersonij = log10 (|DP |/nPi ) ∗ F reqij (V.5)
où :
– |DP | est le nombre de personnes dans la base.
– nP i représente le nombre de personnes dans la base pour lesquelles F reqij n’est pas
nulle.
En appliquant la formule IV.15 (voir page 79), le degré de pertinence possibiliste (DP P )
n’est autre que la somme des deux mesures Π et N :
DP P (personj ) = Π(personj |Qname) + N (personj |Qname) (V.6)
Nous considérons aussi le cas où le narrateur est référencé par une relation sociale
avec une autre personne. Pour illustrer ce cas, nous prenons comme exemple, le cas de la
relation ”père”. Quand un père transmet un hadith à son fils, l’identification du premier
requiert la reconnaissance du deuxième. Si le fils est identifié, nous procédons comme suit :
1. Générer l’index du fils à partir de la base.
2. Générer l’index du père qui constitue une requête.
3. Appliquer le calcul possibiliste pour la nouvelle requête.
Le traitement de la relation ”oncle” se fait d’une manière similaire. Quand un narrateur

A transmet un hadith au fils de son frère B, nous considérons que A doit avoir le même
grand père que B. Ce processus est appelé reformulation sociale de requêtes [50].
4.4 La fonction de filtrage

En résultat de l’étape d’appariement, nous retrouvons, pour chaque narrateur dans
la chaı̂ne, plusieurs candidats pondérés par leurs DPP. Le traitement ne s’arrête pas à
ce stade. En effet, nous produisons les chemins possibles entre les candidats de tous les
narrateurs de la chaı̂ne. Considérons une chaı̂ne composée de deux narrateurs A et B.
Supposons aussi que l’appariement retourne deux candidats A1 et A2 pour A et deux
autres pour B (B1 et B2 ). Nous avons donc quatre chemins possibles. Etant donné que le
nombre de chemins est combinatoire, nous procédons à une étape de désambiguı̈sation qui
permet d’identifier le chemin et les candidats valides. Pour ce faire, nous calculons, pour
chaque chemin, le nombre de liens valides. Un lien entre deux narrateurs est dit valide
s’il correspond à une relation (cheikh-disciple) de la base. Le chemin ayant le nombre
maximum de liens valides est alors choisi.
4.5 Résultats d’évaluation

Dans [50], nous avons évalué des résultats qui concernent 200 hadiths du livre ”
ø
PA jJ . Ë@ iJ
m ”. Nous avons évalué les résultats de la reconnaissance des identités des
narrateurs en utilisant les métriques rappel, précision et F-mesure comme illustré par le
tableau V.11.
Nous avons réussi à identifier exactement les narrateurs dans 89.54% des cas. Dans
9.44% des cas, notre outil a retourné une liste qui contient la bonne personne. Il a échoué
à retrouver la personne dans 1.02% des cas.
101
Précision 80.88%
Rappel 98.97%
F-mesure 89.01%
Tableau V.11 – Résultats de la reconnaissance des identités [50].
5 Analyse morphosyntaxique et extraction de

termes
Cette section reprend notre approche d’extraction de termes basée sur la structure des
documents décrite dans [52]. La structure des livres du hadith nous aide lors de l’extraction
de connaissances, étant donné qu’ils sont organisés en thèmes que nous pouvons considérer
comme des domaines de connaissances. Malgré les différences qui existent entre les livres
du hadith, nous arrivons à établir une classification consensuelle à partir des titres des
chapitres qui constituent les termes principaux de chaque domaine. Cependant, nous
gardons la structure interne de chaque chapitre. Les hadiths qui appartiennent au même
domaine peuvent donc être classés de différentes manières selon les points de vue des
collecteurs.
Etant donné que notre fonds composé des livres du hadith est segmenté en domaines,
notre objectif consiste à extraire les termes pertinents à chaque domaine, qui seront or-
ganisés dans un réseau de dépendances syntaxiques. Contrairement aux approches qui
extraient uniquement les bi-grammes [48], nous extrayons des termes composés de deux
ou plusieurs mots. Ces termes sont liés aux fragments dans la phase d’indexation. A
ce stade, nous proposons l’indexation qualitative par rapport à l’indexation quantitative
classiquement utilisée dans les SRI [60]. En effet, nous extrayons deux types d’entités :
– Les termes simples : ce sont les noms simples (composés d’un seul mot) valides en
terme de termhood .
– Les termes composés : ce sont les syntagmes composés de plus d’un mot et valides
en terme de unithood et de termhood . Il s’agit d’expressions non-compositionnelles
mais aussi d’expressions compositionnelles utiles pour l’indexation et la recherche
(Voir section 3.2.1 du chapitre III, page 56 où nous avons introduit ces notions).
Les termes simples et les termes composés constituent les termes pertinents au domaine
(TPD). En outre, nous extrayons les syntagmes dont la tête est un TPD, qui nous servirons
pour inférer des liens entre les TPD.
Nous rappelons que notre approche consiste à désambiguı̈ser les solutions morphosyn-
taxiques et à les évaluer en une seule étape. Cette évaluation est basée sur le modèle
d’appariement possibiliste qui permet de calculer la distance entre chaque solution et
son contexte. En effet, nous utilisons différents types d’informations contextuelles. Nous
commençons donc par apprendre les distributions de possibilité initiales. Ensuite, nous
évaluons les deux dimensions en proposant une mesure de termhood et une mesure de
unithood . Enfin, les deux mesures sont agrégées dans une seule mesure de pertinence. Des
exemples illustratifs de notre approche seront présentés dans la section 5.7.
5.1 L’indexation qualitative

L’indexation classiquement utilisée dans les SRI, telle que nous l’avons présentée dans
la section 4.1.2 du chapitre I (page 19), est quantitative dans le sens où toutes les occur-
rences des termes sont évaluées sans prise en compte de leurs positions dans la structure
102
des documents. Ces derniers sont traités comme des documents texte et l’information
structurelle n’est pas exploitée. Le nombre d’occurrences d’un terme ti , dans un docu-
ment dj composé de N nœuds, est calculé comme suit :
N
X
occ(ti , dj ) = occ(ti , ndk ) (V.7)
k=1
La valeur occ(ti , ndk ) est le nombre d’occurrences du terme ti dans le nœud ndk .
Nous proposons une indexation qualitative qui consiste à tenir compte des positions
des termes dans le calcul des fréquences. Ainsi, le nombre d’occurrences se calcule comme
suit [52] :
N
X
occ(ti , dj ) = occ(ti , ndk ) ∗ niveau(ndk ) (V.8)
k=1
Dans cette formule, niveau(ndk ) est le niveau du nœud ndk dans la structure du do-
cument. Nous attribuons donc un poids plus élevé aux termes qui apparaı̂ssent dans les
nœuds de plus haut niveau par rapport aux termes qui apparaı̂ssent dans les paragraphes.
5.2 L’information contextuelle

Nous exploitons deux types de contextes, à savoir le contexte structurel et le contexte
syntaxique.
5.2.1 Le contexte structurel

La structure arborescente d’un document encode des relations contextuelles impor-
tantes à travers les chemins qui lient ses nœuds. Nous supposons que les titres des nœuds
composites constituent des contextes pour leurs sous-éléments jusqu’aux paragraphes. Les
termes du nœud (ndk ) sont reliés aux termes des ses fils (ndl ) comme suit [52] :
occR(tj , [Sup, ti ]) = F req(tj , ndl )/(niveau(ndk ) − niveau(ndl )) |
(V.9)
chemin(ndk , ndl ), niveau(ndk ) > niveau(ndl ),
ti ∈ ndk , tj ∈ ndl , ti 6= tj
Ceci signifie que deux termes ti et tj sont liés par une relation ”Sup” si les conditions
suivantes sont satisfaites [52] :
– ti ∈ ndk : ti apparaı̂t dans le titre du nœud ndk .
– tj ∈ ndl : tj apparaı̂t dans le nœud ndl .
– ti 6= tj : ti et tj sont différents.
– chemin(ndk , ndl ) : il existe un chemin entre le nœud ndk et le nœud ndl dans l’arbre
de la structure du document.
– niveau(ndk ) > niveau(ndl ) : ndk est dans un niveau supérieur par rapport à celui
de ndl .
103
Une occurrence de la relation a un poids égal à la fréquence de tj dans le nœud fils

F req(tj , ndj ) divisée par la différence de niveau entre les deux nœuds. Ceci implique que
les termes qui apparaı̂ssent dans les fils directs d’un nœud auront un poids plus important
que les termes qui appartiennent à leurs descendants. Dans le cas où la relation entre deux
termes donnés se répète plusieurs fois, nous faisons la moyenne des poids de toutes les
occurrences, en utilisant la formule suivante [52] :
R(tj , [Sup, ti ]) = occR(tj , [Sup, ti ]) (V.10)
5.2.2 Le contexte syntaxique

Etant donné un terme composé, nous considérons que chacune des ses composantes
constitue un contexte pour l’autre. Nous distinguons deux types de relations contex-
tuelles, à savoir les relations symétriques et les relations non symétriques. Les syntagmes
conjonctifs et certains syntagmes contenant des relations composites sont composés par
deux termes (t1 et t2 ) liés d’une manière symétrique. Dans ce cas, nous calculons les
relations contextuelles comme suit [52] :
T = (t1 , t2 , sy) ⇒ R(t1 , [sy, t2 ]) = R(t2 , [sy, t1 ]) = F req(T ), ∀T (V.11)
L’existence d’un terme T composé des deux termes t1 et t2 liés par une relation sy, nous
permet de déduire deux relations contextuelles. En effet, [sy , t2 ] (respectivement [sy , t1 ])
constitue un contexte pour t1 (respectivement pour t2 ). Le poids de la relation est alors
égal à la fréquence du terme T dans le corpus.
Les syntagmes non symétriques sont composés d’une relation syntaxique (ns), d’une
tête (h) et d’une expansion (e) :
T = (e, h, ns) ⇒ R(h, [ns expansion, e]) = R(e, [ns head, h]) = F req(T ), ∀T (V.12)
Dans le cas non symétrique, nous considérons que l’expansion (e) apparaı̂t dans un
contexte composé de la relation syntaxique en tête (ns head ) et de la tête (h). De manière
analogue, la tête apparaı̂t dans un contexte composé de la relation syntaxique en expansion
(ns expansion) et de l’expansion (e). Les deux relations ont un poids égal à la fréquence
du terme composé (T ) dans le corpus.
5.3 Les distributions de possibilité

Initialement, les relations contextuelles sont calculées à partir des éléments non ambi-
gus de toutes les phrases du corpus. En outre, les titres et les sous-titres des documents
sont désambiguı̈sés manuellement. En effet, ils constituent un faible pourcentage par rap-
port à la taille du corpus, mais en même temps ce sont les entités les plus importantes
qui reflètent la sémantique des documents
Chaque relation contextuelle est composée d’un terme (ti ) et d’un contexte (cj ). Ce
dernier est composé d’une relation (du type sy, ns head , ns expansion ou Sup) et d’un
autre terme. Les relations contextuelles sont vues comme un réseau possibiliste qui lie les
termes et les contextes. Nous définissions les distributions initiales de possibilité comme
suit [52] :
π(ti |cj ) = R(ti , cj ) (V.13)
104
Prenons l’exemple du document désambigüisé et intitulé ” h. @ð Q Ë@ ” (mariage) de la

Figure V.6. Supposons aussi que le document contient 100 termes et que le nœud N 1
intitulé ” QªË@ AJ. Ë ” (vêtements du mariage) contient 20 termes. Le terme ” AJ. Ë ”
(vêtements) apparaı̂t deux fois dans N 1 alors que le terme ” Ég. QË@” (l’homme) et ” AJ. Ë
Ég. QË@” (les vêtements de l’homme) apparaı̂ssent chacun une seule fois dans le document.
Figure V.6 – Exemple de document arabe désambigüisé ainsi que sa traduction.
Nous calculons les fréquences des termes et les distributions de possibilité avec les
approches quantitative et qualitative comme cela est détaillé dans les deux tableaux V.12
et V.13.
Fréquence Approche quantitative Approche qualitative

Freq (” AJ.Ë”, N1 ) (1+1)/20 = 0.10 (2*1+1)/20 = 0.15
Freq (” Q«”, N1 ) (1+1)/20 = 0.10 (2*1+1)/20 = 0.15
Freq (” QªË@ AJ.Ë”, N1 ) 1/20 = 0.05 (1*2)/20 = 0.10
Freq (” Ég. P”, N1 ) 1/20 = 0.05 1/20 = 0.05
Freq (” Ég. QË@ AJ.Ë”, N1 ) 1/20 = 0.05 1/20 = 0.15
Freq (” AJ.Ë”, D) (1+1)/100 = 0.02 (2*1+1)/100 = 0.03
Freq (” Q«”, D) 1/100 = 0.01 (1*2)/100 = 0.02
Freq (” QªË@ AJ.Ë”, D) 1/100 = 0.01 (1*2)/100 = 0.02
Freq (” Ég. P”, D) 1/100 = 0.01 1/100 = 0.01
Freq (” Ég. QË@ AJ.Ë”, D) 1/100 = 0.01 1/100 = 0.01
Tableau V.12 – Fréquences des termes du document de la Figure V.6
Nous remarquons que la relation ”Sup” entre ” AJ.Ë” et ” h. @ð P ” se répète deux fois. C’est
pourquoi nous calculons la moyenne entre les poids de deux occurrences. Nous rappelons
que ”SA” (dans le tableau V.13) signifie Syntagme Annexé.
5.4 Le termhood possibiliste

Le termhood évalue un candidat terme en utilisant le contexte structurel. Etant donné
le lemme d’un nom simple ou un syntagme composé qui apparaı̂t dans un nœud n, une
105
Distribution de possibilité Formule Quanti- Quali-

tative tative
π([Sup, ” Q«”] |” AJ.Ë”) Freq (” AJ.Ë”, N1 )/1 0.100 0.150
π([Sup, ” QªË@ AJ.Ë”] |” AJ.Ë”) Freq (” QªË@ AJ.Ë”, N1 )/1 0.100 0.150
π([Sup, ” Q«”] |” Ég. P”) Freq (” Ég. P”, N1 )/1 0.050 0.050
π([Sup, ” QªË@ AJ.Ë”] |” Ég. P”) Freq (” QªË@ AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” AJ.Ë”] |” Ég. P”) Freq (” Ég. P”, N1 )/1 0.050 0.050
π([Sup, ” Q«”] |” Ég. QË@ AJ.Ë”) Freq (” Ég. QË@ AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” QªË@ AJ.Ë”] |” Ég. QË@ AJ.Ë”) Freq (” Ég. QË@ AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” AJ.Ë”] |” Ég. QË@ AJ.Ë”) Freq (” Ég. QË@ AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” h. @ð P ”] |” AJ.Ë”) Moyenne [Freq (” AJ.Ë”, D)/2, 0.030 0.045
Freq (” AJ.Ë”, D)/1]
π([Sup, ” h. @ð P ”] |” Ég. P”) Freq (” Ég. P”, D)/2 0.005 0.005
π([Sup, ” h. @ð P ”] |” Ég. QË@
AJ.Ë”) Freq (” Ég. QË@ AJ.Ë”, D)/2 0.005 0.005

π([Sup, ” h. @ð P”] |” Q«”) Freq (” Q«”, D)/1 0.010 0.020
π([Sup, ” h. @ð P ”] |” QªË@ AJ.Ë”) Freq (” QªË@ AJ.Ë”, D)/1 0.010 0.020
π([SA expansion, ” Q«”]|” AJ.Ë”) Freq (” QªË@ AJ.Ë”, D) 0.010 0.020
π([SA head, ” AJ.Ë”]|” Q«”) Freq (” QªË@ AJ.Ë”, D) 0.010 0.020
π([SA expansion, ” Ég. P”]|” AJ.Ë”) Freq (” Ég. QË@ AJ.Ë”, D) 0.010 0.010
π([SA head, ” AJ.Ë”]|” Ég. P”) Freq (” Ég. QË@ AJ.Ë”, D) 0.010 0.010
Tableau V.13 – Distributions de possibilité relatives au document de la Figure V.6.
requête Q est constituée de tous les termes qui apparaı̂ssent dans le chemin qui lie n à la
racine. Ces termes sont pondérés selon la différence de niveau entre les nœuds correspon-
dants (voir l’exemple de la section 5.7, page 107). Le termhood d’un terme T est égal au
degré de pertinence possibiliste de T étant donné la requête Q, calculé selon la formule
IV.15 (page 79) :
termhood(T ) = DP P (T |Q) (V.14)
5.5 Le unithood possibiliste

Nous évaluons le unithood des syntagmes en calculant le degré de dépendance entre
leurs composantes, exprimé par les degrés de pertinence possibiliste (voir formule IV.15,
page 79). Etant donné un terme candidat T composé de deux termes t1 et t2 et d’une
relation syntaxique s, nous calculons son unithood comme suit [52] :

DP P (t1 |[s, t2 ]) ∗ DP P (t2 |[s, t1 ]) si s est symétrique
unithood(T ) =
DP P (t1 |[s expansion, t2 ]) ∗ DP P (t2 |[s head, t1 ]) sinon
(V.15)
Nous considérons donc que les deux constituants sont liés si chacun d’eux est pertinent
pour l’autre. C’est pourquoi nous calculons le produit des deux DPP.
106
5.6 La pertinence au domaine possibiliste

La pertinence au domaine possibiliste (PDP) d’un terme simple est égale à son term-
hood possibiliste [52] :
P DP (T ) = termhood(T ) (V.16)
La PDP d’un terme composé est calculée comme suit [52] :
P DP (t) = termhood(T ) ∗ unithood(T ) (V.17)
5.7 Exemple de désambigüisation

Considérons l’exemple du document de la Figure V.7. C’est le document de la Figure

V.6 auquel nous avons ajouté le mot ” ¬Qk QÖ Ï @”. Pour simplifier le calcul, nous supposons

que ce mot possède un seul lemme possible qui est l’adjectif ” ¬Q k Q Ó” (décoré).
Figure V.7 – Exemple de document ambigu et sa traduction.
Ce document nécessite une désambiguı̈sation morphologique et une désambigüisation

syntaxique.
5.7.1 Désambigüisation morphologique
Nous désambigüisons le mot ” Ég. QË@” qui a deux lemmes possibles : ” Ég. P” (homme)

et ” Ég. P” (pied). Pour cela, nous utilisons l’information structurelle à travers la requête

suivante :
Q = ([Sup, ” AJ. Ë”], 1)([Sup, ” Q«”], 1)([Sup, ” QªË@ AJ. Ë”], 1)([Sup, ” h. @ð P ”], 0.5) (V.18)
Le poids du terme ” h. @ð P ” dans cette requête est égal à 0.5, car la différence de niveau
entre les deux nœuds (le titre principal et le paragraphe) est de 2. Nous calculons le DPP
de chaque solution en utilisant les distributions de possibilité du tableau V.13. Selon la
formule IV.9 (voir page 78), nous avons :

Π(” Ég. P”|Q) =

π([Sup, ” AJ. Ë”]|” Ég. P”)∗1∗π([Sup, ” Q«”]|” Ég. P”)∗1.0∗π([Sup, ” QªË@ AJ. Ë”]|” Ég. P”)∗

1.0 ∗ π([Sup, ” h. @ð P ”]|” Ég. P”) ∗ 0.5 =
0.05 ∗ 1 ∗ 0.05 ∗ 1 ∗ 0.05 ∗ 1 ∗ 0.05 ∗ 0.5 = 0.175
107
Selon la formule IV.13 (voir page 78), nous obtenons :

N (” Ég. P”|Q) =
1 − [(1 − φ1j /1) ∗ (1 − φ2j /1.0) ∗ (1 − φ3j /1.0) ∗ (1 − φ4j /0.5)] =
1 − [(1 − 0.015/1) ∗ (1 − 0.015/1) ∗ (1 − 0.015/1) ∗ (1 − 0.015/0.500)] = 0.073
En utilisant la formule V.14 (voir page 106), nous obtenons le résultat suivant :

termhood(” Ég. P”) = DP P (” Ég. P”|Q) = 0.175 + 0.073 = 0.248
De la même manière, nous avons :

Π(” Ég. P”|Q) = 0.0

N (” Ég. P”|Q) = 0.0

termhood(” Ég. P”) = DP P (” Ég. P”|Q) = 0.0

Dans ce cas, le calcul possibiliste a permis de sélectionner le bon lemme pour le mot ”
Ég. QË@”, à savoir ” Ég. P”— (homme).
5.7.2 Désambigüisation syntaxique

Pour l’expression ” ¬Qk QÖ Ï @ Ég. QË@ AJ. Ë”, nous devons décider si nous allons lier le mot
” Ég. QË@” au mot ” AJ. Ë” (et dans ce cas, nous obtenons un syntagme annexé) ou au mot ”
¬Q k Q ÖÏ @ ” (nous obtenons donc un syntagme adjectival). Ces deux relations sont non-
symétriques.
En ce qui concerne le termhood , nous obtenons les mêmes résultats précédents, à savoir :
AJË”) = 0.248
termhood(” Ég. QË@
. ”) = 0.0
termhood(” ¬Q k Q Ü Ï @ Ég. QË@
En applicant la formule V.15 de la page 106, nous avons :

AJË”) = DP P (” Ég P”|[SA head, AJË])∗DP P ( AJË|[SA expansion, ” Ég P”])
unithood(” Ég. QË@ . . . . .

DP P (” Ég. P”|[SA head, AJ. Ë]) = Π(” Ég. P”|[SA head, AJ. Ë])+N (” Ég. P”|[SA head, AJ. Ë]) =
0.01 + 0 = 0.01

DP P ( AJ. Ë|[SA expansion, ” Ég. P”]) = Π( AJ. Ë|[SA expansion, ” Ég. P”])

+N ( AJ. Ë|[SA expansion, ” Ég. P”]) = 0.01 + 0 = 0.01
Comme résultat, nous obtenons :

AJË”) = 0.01 ∗ 0.01 = 0.0001
unithood(” Ég. QË@ .

De la même manière, nous obtenons : unithood(” ¬Q k Q Ü Ï @ Ég. QË@
”) = 0.0
108

Enfin, nous sélectionnons la première solution ( Ég. QË@ AJ. Ë), étant donné qu’elle possède
le DPP le plus élevé.
5.8 Expérimentation et évaluation

Dans [53], nous avons présenté un système d’extraction de termes composés basé sur
le score LLR [97]. Pour cela, nous avons utilisé AraMorph [128] comme analyseur morpho-
logique et l’étiqueteur grammatical de Diab et al. [86] comme outil de désambiguı̈sation.
Notre choix d’AraMorph est justifié par le fait que ses entrées relèvent de la langue arabe
classique, étant donné que nous traitons un corpus classique. AraMorph se caractérise aussi
par son faible taux d’ambiguité et par sa facilité d’intégration. Notre système commence
par désambiguı̈ser les éléments les moins ambigus et réitère les calculs jusqu’à traiter
toutes les ambigüités. Ce système a permis d’obtenir des taux de réussite encourageants
par rapport à l’existant. En effet, nous avons comparé nos résultats par rapport à ceux de
Boulaknadel et al. [48], en effectuant les expérimentations sur le même corpus qu’ils ont
utilisé. Nous avons obtenu une amélioration de 8% en terme de précision d’extraction des
termes composés de deux mots par rapport à leur taux qui est égal à 85%. Malgré cette
amélioration, notre système souffre de certaines limites. L’intégration de deux outils et les
itérations de calcul rendent l’approche complexe, alors qu’elle ne permet d’évaluer que le
unithood des termes. En plus, nous avons évalué uniquement la précision des résultats, ce
qui n’est pas suffisant. Ainsi, nous voulons reprendre l’évaluation en expérimentant notre
approche sur le corpus hadithien.
Comme nous l’avons détaillé dans [52], nous intégrons l’outil MADA qui permet à la
fois de faire l’analyse morphologique et de trier les solutions morphologiques d’un mot par
ordre de pertinence selon son contexte dans la phrase en cours d’analyse. Cependant, nous
n’adoptons pas la première solution choisie par MADA, car ce dernier commet certaines
erreurs à ce niveau. Au niveau syntaxique, nous intégrons les règles déjà développées dans
[53] qui permettent de reconnaı̂tre les différents types de syntagmes nominaux arabes.
5.8.1 Le corpus de test

Nous présentons les résultats des expérimentations effectuées dans trois domaines, à

savoir : ”le mariage” (” h. @ð QË@”), ”les boissons” (” éK. Qå B@”) et ”la purification” (” èPAê¢Ë@”).
Ces domaines ont été choisis car ils sont génériques et existent dans les différents livres
du hadith. Le tableau V.14 donne des statistiques sur ces trois domaines.
La taille de cet échantillon est comparable à certains corpus utilisés dans d’autres
travaux dans le domaine. Par exemple, MADA a été testé avec un corpus composé de 51
K-mots. Diab et al. [86] ont testé leur étiqueteur grammatical sur 400 phrases. L’évaluation
manuelle du résultat d’un analyseur morphologique ou d’un étiqueteur grammatical est
une tâche fastidieuse et coûteuse en terme de temps. Les approches qui n’effectuent pas une
analyse complète peuvent être évaluées en utilisant des corpus plus larges. Par exemple,
Boulaknadel et al. [48] ont évalué leur approche d’extraction de termes composés dans un
corpus contenant 475148 mots.
109
Boissons Mariage Purification Total

Titres de niveau 1 1 1 10 12
Titres de niveau 2 200 444 745 1389
Paragraphes 1897 3038 6130 11065
Mots de niveau 1 1 (00.003%) 1 (00.002%) 131 (00.122%) 133 (00.069%)
Mots de niveau 2 1165 (03.605%) 2669 (04.965%) 3618 (03.379%) 7452 (03.859%)
Mots dans les pa- 31154 (96.392%) 51082 (95.033%) 103309 (96.498%) 185545 (96.073%)
ragraphes
Nombre total de 32320 53752 107058 193130
mots
Tableau V.14 – Statistiques sur les fragments et les termes de trois domaines.
5.8.2 Méthodologie d’évaluation

Malheureusement, il n’existe aucune liste de référence utilisable pour évaluer et com-
parer des approches différentes d’extraction de termes dans les trois domaines considérés.
C’est pourquoi nous avons été amenés à construire manuellement des listes de référence.
Pour cela, nous analysons les corpus en commençant par les titres de niveau 1 et 2. Comme
outil d’aide, nous utilisons les résultats d’analyse de différentes approches d’extraction
de termes [52]. Pour réduire la subjectivité, nous exploitons un dictionnaire spécialisé
[144] qui nous aide à comprendre les sens des termes. Nous pouvons considérer que les
termes qui apparaı̂ssent dans la définition du terme principal du domaine comme des
termes pertinents à ce domaine. Nous pouvons aussi explorer les définitions d’une manière
récursive. Etant donné que plusieurs étapes dans ce processus sont manuelles, la qualité
des résultats est influencée par une certaine subjectivité. Cependant, nous considérons
que ces listes peuvent être utilisées pour comparer des approches différentes d’extraction
de termes. Néanmoins, elles ne suffisent pas pour évaluer objectivement notre approche.
Pour améliorer notre évaluation, nous injectons les termes extraits dans un SRI. Dans ce
cas, la terminologie extraite est considérée comme une requête qui est supposée retour-
ner les documents du domaine qu’elle est censée représenter. Afin d’examiner l’impact de
chaque terme, nous exécutons une série de requêtes d’une manière itérative. A chaque
itération, les N termes les plus pertinents au domaine sont utilisés comme une requête
qui est lancée sur tout le corpus. Enfin, nous évaluons les résultats en terme de rappel, de
précision et de F-mesure.
Nous proposons donc deux méthodes d’évaluation que nous appelons respectivement
”validation par l’expert” et ”validation par le système”. La première utilise les listes de
référence et la deuxième évalue l’impact d’intégration de la terminologie dans un SRI. En
utilisant ces deux méthodes d’évaluation, nous comparons les trois approches suivantes : (i)
une approche probabiliste dans laquelle nous adoptons la solution morphologique choisie
par MAD ; dans nous évaluons le termhood en utilisant TF-IDF [200] et le unithood
avec le score LLR [97] ; (ii) une approche possibiliste quantitative ; et, (iii) une approche
possibiliste qualitative.
5.8.3 Validation par l’expert

Dans cette méthode d’évaluation, nous comparons la liste des termes retournée par
le système à la liste de référence construite manuellement. Les figures V.8, V.9 et V.10
110
présentent les courbes du rappel versus précision, respectivement, dans les trois domaines.
Nous remarquons que les approches possibilistes (quantitative et qualitative) donnent de
meilleurs résultats que l’approche probabiliste (MADA + TF-IDF + LLR). Ceci implique
que la pertinence au domaine n’est pas reliée uniquement à la distribution des termes dans
les corpus mais à des relations contextuelles complexes. En outre, le fait que la courbe
de l’approche qualitative soit au dessus de celle de l’approche quantitive montre que les
termes sont mieux évalués quand leurs fréquences sont calculées selon leurs positions dans
la structure des documents [52].
Figure V.8 – Courbes rappel vs. précision relatives au domaine des boissons.
Figure V.9 – Courbes rappel vs. précision relatives au domaine du mariage.
Nous pouvons étudier plus précisément l’impact de la structure en analysant la dis-

tribution des termes pertinents au domaine sur les différents niveaux. Le tableau V.15
présente les pourcentages des termes pertinents qui existent uniquement dans les titres,
uniquement dans les paragraphes et dans les deux.
Ces statistiques montrent que les titres sont les fragments les plus représentatifs du
sens des documents. Malgré le fait qu’ils constituent seulement 3.92% du nombre de mots
(voir tableau V.14), la moyenne sur les trois domaines montre que 15.52% des termes
pertinents n’existent que dans ces fragments. Ceci explique l’amélioration réalisée par
l’approche qualitative par rapport à l’approche quantitative.
111
Figure V.10 – Courbes rappel vs. précision relatives au domaine de la purification.
Domaine Uniquement Uniquement dans Dans les titres

dans les titres les paragraphes et dans les para-
graphes
Boissons 19.83% 54.51% 25.65%
Mariage 16.13% 57.45% 26.42%
Purification 12.73% 52.08% 35.19%
Tableau V.15 – Distribution des termes pertinents.
Nos résultats montrent aussi que MADA commet certaines erreurs lors de la désambigüi-
sation morphologique. La solution correcte n’existe pas forcément dans la première posi-
tion selon le tri proposé. Ces erreurs influencent à la fois l’extraction des termes simples
et composés. Dans le but d’illustrer ce constat, nous évaluons séparément le taux de re-
connaissance des termes simples et composés pour les trois domaines. Les figures V.11,
V.12 et V.13 illustrent les valeurs de rappel, de précision et de F-mesure pour ces trois
domaines. Dans ces figures, l’axe des abscisses est libellé par les types des termes et les
approches d’évaluation de la pertinence. En ce qui concerne les types des termes, les ex-
pressions ”simple”, ”composé” et ”Tout” signifient, respectivement, que nous évaluons
les résultats d’extraction des termes simples, des termes composés ou les deux à la fois.
Pour chacun de ces types, nous évaluons l’approche probabiliste (MADA + TF-IDF +
LLR) et l’approche possibiliste. Nous remarquons que, pour les trois domaines, l’approche
possibiliste améliore les résultats d’extraction aussi bien pour les termes simples que pour
les termes composés.
5.8.4 Validation par le système

Cette méthode est appliquée en deux phases pour chaque domaine afin d’étudier l’im-
pact des différents types de termes (simples et composés). Dans la première phase, nous
utilisons les deux types de termes comme des requêtes, alors que la deuxième phase utilise
uniquement les termes composés. Les figures de V.14 à V.19 représentent les courbes de
rappel, de précision et de F-mesure versus le nombre de termes de la requête pour les
trois domaines dans les deux phases. Dans chaque figure, nous évaluons trois approches :
l’approche probabiliste (MADA + TF-IDF + LLR), l’approche possibiliste quantitative et
l’approche possibiliste qualitative. Les courbes montrent l’amélioration que nous obtenons
112
Figure V.11 – Evaluation de la reconnaissance des termes simples et composés dans le

domaine des boissons.

domaine du mariage.

domaine de la purification.
113
en adoptant l’approche possibiliste par rapport à celle probabiliste. Nous remarquons aussi
la contribution de l’approche qualitative par rapport à l’approche quantitative. En effet,
en passant de ”MADA + TF-IDF + LLR” à l’approche quantitative possibiliste, nous
enregistrons une amélioration moyenne de la F-mesure de 8.98% et 6.87% respectivement
pour les deux phases. L’approche qualitative réalise une amélioration supplémentaire de
7.26% et 4.62%.
Figure V.14 – Courbes de la F-mesure Figure V.15 – Courbes de la F-mesure

pour le domaine des boissons (tous les pour le domaine des boissons (termes com-
termes). posés).

pour le domaine du mariage (tous les pour le domaine du mariage (termes com-
termes). posés).

pour le domaine de la purification (tous les pour le domaine de la purification (termes
termes). composés).
Ces améliorations sont remarquées dans les trois domaines, ce qui montre la contri-
bution de nos approches possibilistes par rapport à l’approche probabiliste. En plus, ces
114
résultats révèlent que les termes composés constituent des entités importantes pour l’in-
dexation et la recherche de documents [52].
5.8.5 Discussion et interprétation des résultats

Les résultats expérimentaux montrent la contribution des approches basées sur des
relations contextuelles complexes par rapport aux mesures classiquement utilisées telles
que TF-IDF et LLR [48]. Nous avons démontré empiriquement que notre modèle d’orga-
nisation des connaissances contextuelles, qui est basé sur la structure des documents, a
un impact significatif sur le processus d’extraction de terminologie. En effet, les titres des
sections représentent des traits sémantiques qui contribuent à la désambiguı̈sation mor-
phologique et syntaxique. Ceci explique l’amélioration obtenue par rapport aux approches
classiques qui utilisent le contexte local uniquement.
La validation par le système montre une première contribution dans le domaine de

la RI. Elle a été utilisée par Larkey et al. [153] pour évaluer différentes heuristiques de
lemmatisation sur le corpus TREC-2001. La valeur maximale de F-mesure du meilleur
lemmatiseur (light8 ) est de l’ordre de 43%. Harrag et al. [133], qui ont testé leur SRI sur
le corpus hadithien, ont atteint une valeur moyenne de la F-mesure égale à 47%. Comme
le montrent les figures V.14, V.15 et V.16, nos valeurs de F-mesure ont atteint 88%, 83%
et 73% respectivement dans les trois domaines.
Cependant, il est difficile de comparer nos résultats par rapport à ceux de Larkey et
al. [153] et Harrag et al. [133], car ils ont des objectifs différents des notres et ils utilisent
des corpus et/ou des requêtes différentes. En outre, les travaux existants traitent le corpus
hadithien comme une seule unité alors que nous l’avons décomposé en plusieurs domaines.
La grande amélioration de la F-mesure est donc expliquée par le fait que les termes que
nous utilisons dans nos requêtes ont été attestés au préalable, selon une mesure donnée,
comme des TPD.
6 Conclusion
Dans ce chapitre, nous avons appliqué les premières étapes de notre processus de car-
tographie. Nous avons présenté des approches d’analyse qui permettent de reconnaı̂tre la
structure des documents et d’extraire les entités nécessaires à l’indexation socio-sémantique.
En effet, nous avons analysé la structure des livres du hadith afin d’identifier les différents
fragments que ce soit au niveau macro-logique ou micro-logique. La reconnaissance des
identités permet de lier chaque hadith aux biographies de ses narrateurs. En outre, chaque
fragment est lié aux termes pertinents du domaine auquel il appartient. Cependant, les
connaissances extraites doivent être organisées et munies de mécanismes de recherche et
de navigation afin de les rendre accessibles aux utilisateurs. Ceci nous mène à réaliser
les étapes restantes du processus de cartographie, étapes que nous allons décrire dans le
chapitre suivant.
115
Chapitre VI
Organisation de connaissances et
recherche d’information
multi-critères
A près avoir expliqué les étapes d’extraction de connaissances, ce chapitre détaille

les étapes de structuration et les mécanismes d’accès aux cartes socio-sémantiques.
Ayant remarqué qu’il existe un certain nombre d’opérations qui peuvent être appliquées
indépendamment de l’axe de structuration (sémantique ou social), du domaine et même
de la langue, nous proposons une plate-forme de cartographie multi-critères générique
(voir section 1). Dans la section 2, nous expliquons les composantes des cartes relatives
au corpus hadithien en instanciant le modèle générique présenté dans le chapitre IV (sec-
tion 1). Afin de structurer les livres du hadith selon ce modèle, nous avons effectué des
expérimentations de l’analyse distributionnelle dans l’axe sémantique (voir section 3) et
dans l’axe social (voir section 4). La dernière étape de notre processus de cartographie,
qui concerne l’évaluation de la fiabilité des hadiths, fait l’objet de la section 5.
1 Plate-forme générique de cartographie multi-critères

Cette plate-forme modélise les connaissances sous forme de graphes. Le processus
de cartographie est implémenté comme un ensemble d’opérations sur les graphes. Nous
avons adopté une approche semi-formelle qui permet de tenir compte à la fois des besoins
des utilisateurs et des exigences de traitement automatique des machines. Les graphes
constituent des outils puissants pour plusieurs raisons [165]. D’abord, ils sont génériques
du point de vue contenu, car nous pouvons représenter n’importe quel type de connais-
sances à travers les nœuds et les arcs ou les arêtes d’un graphe. Nous pouvons aussi
représenter, dans le même graphe, des données de natures différentes ce qui répond à nos
besoins, car nous souhaitons définir des cartes multi-critères. Ainsi, les réseaux possibi-
listes [96] et les RPMH [219] peuvent être facilement représentés à l’aide de graphes. Ceci
s’applique aussi aux réseaux syntaxiques et aux réseaux sociaux. En outre, les graphes
sont génériques du point de vue structure étant donné que nous pouvons représenter des
relations symétriques, non symétriques, des listes chainées ou même des structures arbo-
rescentes. Représenter à la fois ces types de réseaux et toutes les composantes d’une carte
multi-critères nécessite un modèle générique (voir section 1.1).
116
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES
Ensuite, la théorie des graphes offre une panoplie d’algorithmes qui permettent de
fouiller les connaissances pour en découvrir d’autres [165]. Par exemple, le calcul de circuits
dans un graphe permet de découvrir des liens implicites entre les nœuds. Enfin, les outils
de gestion des graphes proposent divers paradigmes de visualisation aussi variés que les
attentes des utilisateurs. Par exemple, il est possible de contrôler les distances entre les
nœuds, leurs couleurs, leur aménagement ou regroupement dans des clusters, etc. Nous
choisissons donc les graphes vu leur généricité et parce qu’ils permettent de représenter
tous les paradigmes de cartographie, en commençant par les opérations de structuration
jusqu’aux opérations de navigation et de recherche. En effet, nous ne faisons pas une
séparation explicite entre les opérations de structuration et les mécanismes d’accès, étant
donné qu’ils peuvent se chevaucher. Nous modélisons donc le processus de cartographie
comme un ensemble d’opérations (voir section 1.2).
1.1 Modèle à base de graphes d’une carte multi-dimensions

Nous rappelons que les graphes permettent d’appliquer divers types de mécanismes
de représentation étudiés au chapitre I (voir section 4.3.3, page 26). Ils sont parfaitement
adaptés aux représentations orientées relation et peuvent être utilisés pour représenter
des arbres. Il est aussi possible de représenter des structures temporelles ou de procéder
à des opérations de clustering pour obtenir des structures agglomératives.
Dans la théorie des graphes [165], un graphe G est défini par un couple (V, E), où V
est l’ensemble des sommets ou nœuds de G et E est un ensemble de paires d’éléments
de V . Les liens entre les paires s’appellent des ”arêtes” dans les graphes non-orientés et
des ”arcs” dans les graphes orientés. Les graphes que nous utilisons contiennent ces deux
types de liens.
Nous instancions cette définition pour modéliser une carte multi-critères comme suit.
Une carte multi-critères C peut être définie par :
C = (GF , Go1 , Go2 , ..., Gon , Vp1 , Vp2 , ..., Vpn )
où GF est le graphe des fragments de documents, Goi est un graphe qui représente
l’ontologie numéro i dans la carte et V pi est un graphe orienté qui représente un réseau
possibiliste qui lie les sommets de Goi aux sommets de GF .
Etant donné que les graphes qui constituent une carte sont hétérogènes, nous définissions
pour chaque nœud, arête ou arc un ensemble d’attributs dont deux sont obligatoires. Ainsi,
nous définissions pour chaque élément, un label et un type qui permet de distinguer les
éléments des différentes ontologies. En outre, les arcs des réseaux possibilistes (Vpi ) doivent
forcément avoir un attribut poids qui contient une valeur numérique, comprise entre 0 et
1, représentant la distribution de possibilité.
Pour représenter tous les éléments des graphes et être en cohérence avec nos choix
ultérieurs, nous avons opté pour le langage GraphML [8]. En effet, plusieurs outils de
manipulation de graphes utilisent ce langage. Citons à titre d’exemples GUESS (The
Graph Exploration System) 1 et InfoVis Toolkit 2 qui sont deux APIs d’exploration de
1. http ://graphexploration.cond.org/
2. http ://ivtk.sourceforge.net/
117
graphes. Cependant, nous avons opté, pour des raisons techniques, pour l’outil Prefuse 3
qui est un package Java en code source libre qui se distingue par ses performances. Par
exemple, les calculs sur les graphes se déroulent sans bloquer l’interface d’affichage. Ce
package intègre aussi un ensemble plus large d’algorithmes bien documentés, illustrés par
des exemples et exploités par plusieurs utilisateurs. Enfin, son affichage se caractérise par
une meilleure organisation spatiale en deux et en trois dimensions.
1.2 Description des opérations de cartographie

Notre plate-forme offre des mécanismes génériques de manipulation qui permettent de
construire, de manipuler et d’interroger une carte multi-critères. En plus des opérations
de mises à jour simples (ajout, édition et suppression de nœuds, d’arêtes et d’arcs), elle
implémente trois familles d’opérations, à savoir : les opérations de filtrage, les opérations
d’analyse distributionnelle et les opérations de recherche et de navigation.
1.2.1 Les opérations de filtrage

Ces opérations représentent une première étape pour adapter les cartes aux besoins
des utilisateurs. Elles permettent d’extraire un sous-ensemble d’une carte pour le traiter
séparément. Il est aussi possible d’enregistrer ce sous-ensemble comme une nouvelle carte.
En effet, un utilisateur peut filtrer par :
– Type de nœud donné en paramètre : cette opération permet d’extraire le graphe des
fragments (GF ) ou l’un des graphes des ontologies (Goi ).
– Nœud (ou un ensemble de nœuds) donné en paramètre : ceci permet d’afficher
uniquement les nœuds qui sont liés au nœud donné en paramètre. Par exemple,
nous pouvons mettre l’accent sur une personne dans un réseau social pour étudier
ses relations.
– Type d’arc ou d’arête : cette opération permet d’extraire les nœuds d’un graphe
avec les liens d’un type donné. Elle permet de simplifier les graphes qui contiennent
plusieurs types de liens pour donner la possibilité à un utilisateur de les appréhender.
– Score : cette opération de filtrage permet de laisser uniquement les arcs ou arêtes
dont le score appartient à un intervalle donné.
1.2.2 Les opérations d’analyse distributionnelle

Nous rappelons que l’analyse distributionnelle consiste à lier les entités qui appa-
raissent dans des contextes similaires [134]. Nous pouvons distinguer trois étapes dans
cette analyse, à savoir la transformation distributionnelle, le calcul de distance et le clus-
tering.
i) La transformation distributionnelle
Cette opération permet d’inférer des liens distributionnels à partir des connaissances en-
codées dans les arcs et les arêtes ou dans les attributs des nœuds d’un graphe. Les nou-
veaux liens sont représentés par des arêtes ajoutées dans le même graphe ou exportés dans
un nouveau graphe. Nous distinguons donc la transformation basée sur les attributs et la
transformation basée sur les arcs. La première permet de lier deux nœuds s’ils possèdent
la même valeur d’un attribut donné en paramètre. Le nouveau lien aura comme label le
nom de l’attribut. Par exemple, dans un réseau social il est possible de lier deux personnes
si elles habitent au même endroit.
3. http ://www.prefuse.org/
118
La transformation basée sur les arcs et les arêtes procède comme suit. Les arêtes qui
représentent des relations symétriques sont gardées. Les arcs qui encodent des relations
non-symétriques sont transformés en relations symétriques. Nous considérons qu’un arc
relie une tête (sa source) et une expansion (sa destination). Inférer un lien distribution-
nel consiste à lier deux têtes qui partagent la même expansion ou deux expansions qui
partagent la même tête. Dans le cas où les arcs sont pondérés, la nouvelle arête prend
comme poids le minimum des poids des deux arcs qui relient les deux têtes (respective-
ment les deux expansions) à la même expansion (respectivement tête). Les labels sont
aussi modifiés en ajoutant une indication qui permet de distinguer les relations en tête et
les relations en expansion. Par exemple, si deux têtes (respectivement expansions) sont
reliées par des arcs dont le label est ”R” à une même tête (respectivement expansion), le
nouveau lien distributionnel est étiqueté ”R expansion” (respectivement ”R head ”).
ii) Le calcul de distance distributionnel

Ce calcul vise à pousser l’interprétation sémantique des liens en évaluant la proximité de
deux nœuds d’un graphe distributionnel (donc non orienté). Notre plate-forme implémente
les mesures à base de table de contingence (voir section 3.2.2 du chapitre III, page 57). En
effet, nous généralisons ces mesures qui peuvent maintenant être utilisées pour n’importe
quel type de connaissances représentées comme un graphe. La table de contingence de
deux nœuds n1 et n2 est générée à partir des poids des arêtes du graphe. La valeur O11
de cette table de contingence est égale au poids de l’arête reliant n1 et n2 . Pour obtenir
la valeur O12 , nous calculons la somme des arêtes qui relient n1 avec un nœud autre que
n2 , etc.
En plus, les graphes distributionnels sont considérés comme des RPMH [219] sur les-
quels nous pouvons appliquer l’approche à base de circuit pour le calcul de distance [98].
Nous supposons que les nœuds maintiennent des relations qui, dans certains cas, se tra-
duisent par des circuits dans le graphe. Ceci suppose aussi que des nœuds non reliés par
aucune arête peuvent être similaires. L’approche à base de circuit permet donc d’éliciter
des connaissances implicites que les autres types de mesures ne peuvent pas dégager.
Etant donné que l’objectif final est de grouper les nœuds d’une manière cohérente, nous
supposons que les nœuds d’un même groupe constituent une unité fortement reliée par
des circuits, même si ces nœuds ne sont pas reliés deux à deux par des arêtes.
Un paramètre important dans ce type de distance est la longueur maximum du circuit.

Prendre en compte uniquement des circuits courts peut avoir comme conséquence d’éclater
un groupe en plusieurs. Par contre, plus les circuits sont longs, plus nous risquons de
fusionner des groupes différents. Elayeb [98] a montré que la longueur optimale de circuits
est égale à 4 en faisant ses expérimentations sur un graphe de dictionnaire. Notre travail
trouve son originalité dans le sens qu’il essaie de tester ce type de distance dans le cadre
d’un contexte générique.
iii) Le clustering distributionnel

L’objectif de cette opération est de grouper les nœuds d’une manière cohérente dont la
signification dépend de la nature des connaissances encodées dans le graphe. Par rapport
aux mécanismes de représentation (voir chapitre I, section 4.3.3), cela permet d’avoir des
structures agglomératives représentant une vue synthétique des connaissances.
119
Nous commençons par construire une matrice de similarité à partir du graphe distribu-
tionnel. Le contenu d’une cellule (ni , nj ) représente le score de similarité entre ni et nj .
Selon le type de distance, il est égal au score LLR, M I, DF , T S ou la distance à base de
circuit.
Quel que soit le type de distance, nous normalisons les scores de similarité en divisant
chaque cellule par le maximum de la matrice. Ensuite, nous extrayons les couples de nœuds
ayant un score de similarité supérieur au seuil d’acceptation qui correspond selon Elayeb
[98] à la moyenne de la matrice. Enfin, nous appliquons les algorithmes de regroupement
et de fusion proposés par Elayeb [98] comme suit :
L’algorithme de regroupement par contrainte minimale part de l’ensemble des couples

ayant un score de similarité supérieur ou égal au seuil. Il ajoute, d’une manière récursive,
les nœuds à ces groupes en utilisant la même condition. Un nœud peut donc apparaı̂tre
dans plusieurs groupes. Ainsi, nous pouvons retrouver deux ou plusieurs groupes qui
correspondent en réalité au même ensemble. Un algorithme de fusion permet de fusionner
deux groupes Gi et Gj , de tailles respectives Ci et Cj , avec Cj ≤ Ci , si les conditions
suivantes sont satisfaites :
– Gi contient (Cj -1) nœuds de Gj ;
– Il existe une arête entre n1 et n2 , tel que n1 ∈ {Gj \Gi } et n2 ∈ {Gi \Gj }.
Le choix de cette démarche en deux étapes est justifié par le fait que, dans un même
graphe, nous pouvons avoir plusieurs types de relations. Nous pouvons donc effectuer
l’étape de regroupement plusieurs fois en considérant que chaque type de relation constitue
un graphe. Les groupes issus de plusieurs graphes peuvent être fusionnés en utilisant
l’algorithme de fusion.
1.2.3 Les opérations de recherche et de navigation

Plusieurs opérations simples et complexes permettent à un utilisateur de naviguer
et d’interroger les cartes. D’ailleurs, l’outil Prefuse propose des opérations de base qui
permettent de naviguer au sein d’un même graphe, telles que le changement de focale
(zoom) et le déplacement vers les quatre directions. Il permet aussi de personnaliser
l’affichage en proposant plusieurs mécanismes d’affichage que nous découvrirons avec des
exemples dans ce chapitre et dans l’annexe D. S’ajoutent à cela, les opérations de filtrage
que nous avons présentées dans la section 1.2.1 (page 118) et qui constituent des moyens
simples pour retrouver l’information. En outre, nous avons conçu notre interface graphique
sous forme de plusieurs fenêtres, dont chacune affiche l’un des graphes de la carte, le graphe
GF étant mis au centre de cette interface. Par exemple, la Figure VI.1 affiche la carte
du domaine des hadiths avec trois composantes qui sont dans l’ordre : (1) le graphe des
hadiths (Metn) ; (2) le graphe sémantique qui contient des termes (Terme) ; et, (3) le
graphe social qui contient des narrateurs (Rawi ).
La navigation entre les différentes fenêtres est possible grâce aux réseaux possibilistes
qui les lient. Ces fenêtres permettent de (re)formuler des requêtes simples ou multi-critères.
Dans chaque fenêtre, qui représente une ontologie Goi , un utilisateur peut choisir un
ensemble de nœuds qui constituent une requête. Ensuite, il peut ajouter automatiquement
les nœuds les plus proches aux nœuds de la requête initiale (selon un type de distance)
120
afin de la reformuler. Enfin, il peut lancer le processus de recherche qui retourne les
nœuds du graphe GF triés par ordre de pertinence possibiliste décroissant. Dans le cas
où l’utilisateur a sélectionné des nœuds d’ontologies différentes, les mesures de pertinence
relatives aux différentes requêtes sont agrégées en utilisant l’opérateur produit. Ceci dit,
des exemples plus détaillés sur les interactions possibles sur l’interface graphique sont
présentés dans l’annexe D.
2 Structuration socio-sémantique des livres du

hadith
Dans cette section, nous instancions notre modèle générique de cartes socio-sémantique
multi-critères (voir chapitre IV, section 1, page 70) pour structurer les connaissances
extraites des livres du hadith. Dans ce cas, une carte socio-sémantique est composée
de quatre éléments, à savoir une carte de thèmes multi-points de vue, deux ontologies
représentant respectivement une carte sémantique et une carte sociale et enfin les hadiths.
La carte de thèmes multi-points de vue est extraite à partir des titres des thèmes des
différents livres. Elle représente un axe vertical qui permet à l’utilisateur d’explorer les
hadiths d’une manière hiérarchique. Cette cartographie est inspirée des modèles proposés
dans le courant du Web socio-sémantique [230]. Par rapport à Hypertopic [39, 230] inspiré
du modèle des topic maps [9], les items dans notre cas représentent les hadiths. Comme
dans Hypertopic, les thèmes des livres du hadith constituent plusieurs thématisations
potentiellement concurrentes d’un item [228]. Cependant, dans notre cas, les thèmes sont
extraits directement du corpus, alors que dans les projets du Web socio-sémantique ils
sont construits d’une manière coopérative par un ensemble d’experts. Néanmoins, si dans
nos expérimentations nous adoptons les classifications des collecteurs, qui sont des acteurs
internes, rien n’empêche à l’avenir de construire de nouvelles thématisations. Par rapport
aux réseaux de description [39], nos cartes de thèmes sont des graphes acycliques et leurs
thèmes constituent des descripteurs qui indexent les hadiths.
Rappelons que cette thématisation a plusieurs avantages. Etant donné la richesse et la

diversité des classifications proposées dans les différents livres du hadith, l’utilisateur peut
choisir la classification qui lui convient, analyser les différents points de vue et comparer,
pour chaque hadith, les différentes interprétations.
121
122
Figure VI.1 – Interface de recherche et de navigation dans la carte socio-sémantique des hadiths.
Notre processus d’analyse distributionnelle permet de générer des cartes sémantiques

ou sociales. Par rapport aux formalismes existants, ces cartes ressemblent aux réseaux
sémantiques semi-formels [221], où nous pouvons représenter des relations de divers types.
En effet, une carte sémantique organise les termes d’un domaine selon une sémantique
différentielle. Elle permet à l’utilisateur de comprendre la structure d’un domaine à tra-
vers les regroupements proposés. En outre, le système peut inférer des liens de proxi-
mité utiles pour les tâches de recherche d’information, telles que l’expansion de requêtes.
Ces remarques s’appliquent aussi aux cartes sociales qui se distinguent en plus par la
représentation des relations sociales. Dans le cas des hadiths, l’une des relations les plus
importantes est la relation (cheikh-disciple) qui permet de structurer les narrateurs selon
un arbre qui ressemble aux taxonomies du Web sémantique formel.
Notons que cette structuration tient compte des différents axes d’organisation des
connaissances. L’axe sémiotique est représenté à l’aide des cartes de thèmes multi-points
de vue et à travers le modèle d’indexation des hadiths et des chaı̂nes qui représente tous
les détails sur l’acheminement de l’information. L’axe différentiel est représenté à l’aide
des liens distributionnels de la carte sémantique et de la carte sociale. L’axe référentiel
est représenté au niveau social étant donné que chaque nom arabe réfère à une per-
sonne. Notre algorithme de reconnaissance de l’identité permet d’identifier ces liens (voir
la section 4 du chapitre V, page 96). Cependant, nous considérons que les éléments de la
carte sémantique sont des termes et non pas des concepts. Structurer ces connaissances
dans l’axe référentiel nécessite le développement d’outils d’analyse et de désambiguı̈sation
sémantique. De tels outils se basent souvent sur des ressources électroniques (comme les
dictionnaires) qui donnent les sens de chaque mot. Malheureusement, de telles ressources
ne sont pas disponibles pour la langue arabe. Enfin, notre processus de cartographie offre
certains mécanismes de raisonnement tels que l’analyse distributionnelle basée sur les
RPMH et un algorithme de calcul de la fiabilité. De tels mécanismes permettent d’inférer
de nouvelles connaissances sans pour autant adopter des choix hautement formels tels que
les formalismes logiques et les langages formels du Web sémantiques [109]. Cependant,
la structuration différentielle est une première étape qui pourra être complétée par une
analyse formelle des concepts si les ressources sémantiques nécessaires sont développées.
Pour organiser les connaissances hadithiennes selon ce modèle, nous utilisons les opéra-
tions génériques précédemment détaillées. Les sections suivantes présentent les résultats
obtenus dans l’analyse distributionnelle sémantique et sociale et l’évaluation de la fiabilité.
3 Analyse distributionnelle sémantique

Notre approche hybride d’extraction de termes (voir chapitre V, section 5, page 102)
génère des réseaux syntaxiques dont les nœuds sont des termes et les liens sont des relations
symétriques et non-symétriques. En outre, nous pouvons générer à partir des indexes
des hadiths des graphes de co-occurrence. L’analyse distributionnelle nous permettra de
regrouper les termes co-hyponymes ou les termes qui partagent le même hyperonyme pour
restructurer les connaissances selon un axe différentiel. Comme dans [59], nous considérons
que ce type d’analyse permet de construire une ”ontologie documentaire” qui facilite
l’accès aux documents.
123
Nos expérimentations, résumées dans [51], permettent de comparer l’analyse distri-

butionnelle basée sur les relations syntaxiques par rapport à l’approche basée sur la co-
occurrence. En outre, nous supposons que regrouper tous les types de relations syntaxiques
dans un seul graphe conduit à mélanger des connaissances hétérogènes, ce qui risque de
fausser les résultats. Ainsi, nous comparons cette solution par rapport à celle qui consiste
à traiter chaque relation syntaxique dans un graphe à part. Enfin, nous comparons les
mesures à base de table de contingence par rapport à la distance à base de circuit. Avant
de détailler les résultats relatifs à nos expérimentations, nous présentons un exemple in-
troductif qui explique le principe de l’analyse distributionnelle et éclaircit nos hypothèses.
3.1 Exemple
Le tableau VI.1 présente les textes arabes (qui sont des fragments de livres du hadith)
utilisés dans cet exemple. Le tableau VI.2 présente les syntagmes nominaux extraits de
ces textes. Nous rappelons que ”SA” et ”SC” signifient respectivement, Syntagme Annexé
et Syntagme Conjonctif. La Figure VI.2 illustre le réseau syntaxique constitué à partir de
ces syntagmes.
Texte arabe Traduction

I.
K. QË@ áÓ g áÓ
éÔ ©J
QÒm Ì '@ La boisson enivrante est faite à partir de cinq éléments :
ÉªË@ð Q
ªË@ ð é¢ Jm Ì '@ð QÒJË@ð le raisin sec, les dattes, le blé, l’orge et le miel.
Qm.Ì '@ YJ
.K Vin des jarres

. Qå
áÒJ
éKñK
Ë@ Éë @ àA ¿ , ÉªË@ YJ
.K . Le vin du miel était bu par les gens du Yemen.
Tableau VI.1 – Exemples de textes arabes.
Syntagme Traduction Type

ÉªË@ð Q
ªË@ Jm Ì '@ð QÒJË@ð IK QË@
ð é¢ Le raisin, les dattes, le blé, l’orge et le miel SC
.
.
Qm.Ì '@ YJ
.K Vin des jarres SA
ÉªË@ YJ
.K Vin de miel SA
Tableau VI.2 – Les syntagmes nominaux extraits des textes du tableau VI.1.
Ce réseau est transformé pour construire un ou plusieurs réseaux distributionnels.

Nous gardons les relations de type ”SC”, car elles sont symétriques. Les relations non-

symétriques comme ”SA” sont transformées. Le terme ” èQk. ” (jarre) et ” É« ” (miel)

seront liés car ils partagent la même tête (” YJ
. K ” : vin). Étant donné que le terme ”
É«” (miel) est lié à un groupe de termes qui représentent des substances utilisées pour
fabriquer des boissons enivrantes, garder toutes les relations dans le même graphe signifie
124
Figure VI.2 – Exemple de réseau syntaxique.

ajouter le terme ” èQk.” (jarre) à ce groupe (voir Figure VI.3). Nous évitons ce problème
en construisant un réseau distributionnel par type de relation syntaxique comme illustré
par la Figure VI.4. Enfin le graphe de co-occurrence (voir Figure VI.5) connecte tous les
nœuds.
Figure VI.3 – Exemple de réseau distributionnel contenant toutes les relations syn-
taxiques.

Dans ces expérimentations, nous continuons à utiliser le corpus de test composé de
trois domaines (voir section 5.8.1 du chapitre V, page 109) et nous exploitons les réseaux
syntaxiques correspondants. Il convient d’abord de comparer la taille de notre corpus
par rapport à ceux utilisés dans d’autres travaux dans le domaine de l’extraction des
relations sémantiques arabes. Mokbel et al. [169] ont évalué leur algorithme de clustering
dans un corpus de 423440 mots différents. Al-Qabbany et al. [20] ont testé leur mesure de
similarité pour un corpus composé de 208596 documents à partir desquels ils ont extrait
248311 termes pour constituer un thésaurus. Les auteurs ont évalué uniquement les dix
premiers termes de vingt groupes.
125
(b) Réseau distributionnel des

relations d’annexation en tête.
(a) Réseau distributionnel des relations
conjonctives.
Figure VI.4 – Exemples de réseaux distributionnels relatifs à des relations syntaxiques
différentes.
Figure VI.5 – Exemple de graphe de co-occurrence.
Nous tenons aussi à noter que nous utilisons une méthodologie d’évaluation similaire
à celle que nous avons utilisée pour évaluer les termes pertinents au domaine (voir 5.8.2,
page 110). Nous rappelons qu’il n’existe pas une ontologie de référence avec laquelle nous
pouvons nous comparer. Nous avons donc eu recours aux mêmes méthodes, à savoir la
validation par l’expert et la validation par le système.
3.2.1 Validation par l’expert

Dans le cas de l’évaluation des liens de co-hyponymie, il est difficile de construire
manuellement une liste de couples. Pour résoudre ce problème et réduire la subjectivité
lors de la validation, nous avons procédé comme suit. Nous avons exécuté différentes
approches de regroupement de termes en variant le type de liens et de distance utilisés.
Les résultats ont été stockés dans une base de données. Ensuite, les groupes sont visualisés
dans une interface graphique où l’utilisateur peut valider les termes qui sont réellement
des co-hyponymes. La Figure VI.6 illustre cette interface qui affiche les termes d’un groupe
donné au moyen de cases à cocher.
En effet, l’interface contient les boutons suivants :
126
Figure VI.6 – Interface de validation des groupes de co-hyponymes.
– Sélectionner tout ( É¾Ë@ PA

JJk@ ) : cocher tous les éléments du groupe.
– Désélectionner tout ( É¾Ë@ PAJ
Jk@ ÐY«) : décocher tous les éléments du groupe.
–

Enregistrement définitif ( úG Aî E ÉJ
j.) : enregistrer tous les couples valides et passer
au groupe suivant.

–

Enregistrement partiel ( úG Q k. É J
j. ) : enregistrer tous les couples valides et
décocher tous

les termes.
– Suivant ( úÍAJË@) : passer au groupe suivant.

L’enregistrement partiel est utile dans le cas où le groupe affiché correspond à deux
ou plusieurs groupes valides. Dans ce cas, l’utilisateur aura à cocher les éléments des
sous-groupes pour les valider chacun à part avant de passer au groupe suivant.
A partir de cette interaction, nous inférons, pour chaque domaine, une liste de référence
composée des couples valides. Cependant, nous ne pouvons pas calculer avec ces listes
une valeur objective du rappel. Néanmoins, ces listes permettent de comparer relative-
ment différentes approches. C’est pourquoi nous parlons de rappel relatif. En suivant
cette méthode, nous présentons les résultats de deux phases d’évaluation qui consistent
respectivement, à comparer la distance à base de circuit aux autres types de distance et
l’approche basée sur le contexte syntaxique à celle basée sur la co-occurrence [51].
i) Evaluation de l’approche à base de circuit

Nous évaluons différentes distances en terme de leur capacité à grouper correctement les
co-hyponymes des listes de références. Dans nos expérimentations, la distance à base de
circuit (RMPH ) a donné de meilleurs résultats que les scores LLR, TS , DF et MI . Cette
distance permet de grouper les termes qui ne sont pas reliés par un arc mais par un
circuit, ce qui augmente le rappel. En outre, la précision augmente aussi car certaines
arêtes insignifiantes perdent leur poids au profit des circuits qui renforcent notre croyance
concernant les couples réellement valides. Ceci signifie que les circuits contiennent moins
127
de bruit que les arêtes. Nous avons donc tendance à croire plus la validité d’un couple
de termes quand ils sont liés par un circuit, que quand ils sont liés par une simple arête.
La Figure VI.7 illustre les valeurs moyennes du rappel, de la précision et de la F-mesure
pour les cinq types de distance dans les trois domaines pour les relations syntaxiques
symétriques. Nous avons obtenu des résultats similaires pour d’autres types de relations
[51].
Figure VI.7 – Valeurs moyennes du rappel, de la précision et de la F-mesure pour cinq

types de distance pour la liaison des termes.
ii) Evaluation de l’approche basée sur le contexte syntaxique pour la liai-

son des termes
Dans cette section, nous évaluons trois approches de liaison de termes. Dans la première, le
réseau distributionnel est constitué du graphe de co-occurrence. Dans la deuxième (notée
”Tout”), nous construisons un réseau distributionnel à partir de toutes les relations syn-
taxiques groupées dans un même graphe. Dans la troisième (notée ”unique-fusion”), nous
construisons un réseau distributionnel pour chaque type de relation syntaxique. Ensuite,
les groupes obtenus à partir de ces réseaux sont fusionnés. Dans les trois approches, nous
utilisons l’approche à base de circuit. La Figure VI.8 récapitule les résultats à travers les
valeurs moyennes de rappel, précision et F-mesure.
Figure VI.8 – Comparaison de différentes approches de liaison de termes.
Ces résultats valident nos hypothèses de départ. D’une part, l’approche à base de
contexte syntaxique donne de meilleurs résultats par rapport à celle basée sur la co-
occurrence. Ceci révèle que les termes sont plus liés au contexte syntaxique qu’au contexte
128
de co-occurrence. Nous avons aussi remarqué que certains hadiths parlent à la fois de plu-
sieurs thèmes, ce qui implique que les réseaux de co-occurrence contiennent beaucoup de
bruit. D’autre part, nous obtenons des résultats relativement faibles en combinant tous les
types de relations syntaxiques dans un seul graphe (comme cela a été proposé par Bouri-
gault [57]). Nous concluons que les liens distributionnels obtenus par différentes relations
syntaxiques ont des sémantiques différentes et doivent donc être interprétés séparément.
Dans le but de comprendre plus précisément l’impact de chaque relation syntaxique,

nous présentons l’évaluation suivante. La Figure VI.9 récapitule les valeurs moyennes des
trois métriques pour les trois familles de relations : les relations en tête, les relations en
expansion et les relations symétriques.
Figure VI.9 – Résultats obtenus pour différents types de relations syntaxiques.
En comparant les résultats des différents types de relations syntaxiques, nous remar-
quons que les relations symétriques ont donné les meilleures performances. Ceci s’explique
par le fait que ces relations relient les termes directement. Cependant, le fait de lier les
termes partageant la même tête ou la même expansion peut engendrer du bruit. En outre,
nous n’avons pas enregistré de bons résultats pour les relations adjectivales et les valeurs
des trois métriques étaient négligeables pour ces relations. Ceci signifie que les adjectifs
dans nos corpus relient des termes sémantiquement différents. Enfin, nous enregistrons
de petites valeurs de rappel pour la majorité des types de relations. Ceci implique que
chaque relation couvre une partie du domaine et qu’aucune d’elles ne permet de lier tout
les co-hyponymes.
En appliquant l’approche ”unique-fusion”, nous obtenons les groupes les plus cohérents.
Le tableau VI.3 donne des exemples de groupes pour les trois domaines. La Figure VI.10
illustre la carte sémantique du domaine des boissons où les groupes sont numérotés
conformément au tableau VI.3. La Figure VI.11 est un raffinement de la partie cadrée
de la Figure VI.10 en mettant l’accent sur le groupe 5 de cette carte.
129
Figure VI.10 – Aperçu sur la carte sémantique du domaine des boissons.
130
Boissons Mariage Purification

1- Types de boissons et de substances 1- Caractéristiques des
utilisées pour fabriquer des boissons. femmes.
1- Organes et parties du
2- Types de conteneurs utilisés pour 2- Types de femmes.
corps.
conserver ou consommer des bois- 3- Outils utilisés dans la
2- Manières de purifica-
sons. maison.
tion.
3- Opérations qui peuvent être ap- 4- Relations familiales.
3- Actes de purification.
pliquées aux boissons. 5- Types de mariage.
4- Conteneurs utilisés pour
4- Opérations qui peuvent être ap- 6- Comportement de
la purification.
pliquées aux conteneurs. femmes.
5- Types de vêtements.
5- Ethiques à respecter lors de la 7- Droits des femmes.
6- Sources d’impureté.
consommation des boissons. 8- Nombre de femmes
7- Types de matériel utilisé
6- Lois qui concernent la consomma- qu’un homme peut
lors de la purification.
tion des boissons. épouser.
8- Unités de mesure des
7- Unités de mesure des boissons et 9- Manières de s’asseoir
surfaces et des fluides.
des substances utilisées pour les fa- et de dormir.
briquer
Tableau VI.3 – Titres des groupes obtenus pour les trois domaines.
Figure VI.11 – Zoom sur le groupe numéro 5 de la carte sémantique de la Figure VI.10.
3.2.2 Validation par le système

Les listes de référence constituées d’une manière semi-automatique ne sont pas un
moyen optimal pour évaluer nos ontologies. Intégrer les ontologies dans des SRI a été pro-
posé comme un moyen pour les évaluer [162]. En effet, nous étudions l’effet de l’intégration
de ces ontologies dans un SRI où leur rôle consiste à aider à l’expansion de requêtes. En
effet, nous considérons, pour chaque domaine, une première requête constituée par son
terme principal. La requête est ensuite étendue en ajoutant, d’une manière itérative, des
termes similaires à ce dernier dans l’ordre décroissant de proximité selon une mesure
donnée. En effet, nous évaluons la distance à base de circuit (RPMH ) en plus des scores
131
LLR, MI , TS et DF dans le réseau des relations syntaxiques symétriques. En outre, nous

évaluons l’approche de co-occurrence en ajoutant, à chaque itération, les termes qui co-
occurrent le plus avec le terme principal. Les Figures VI.12, VI.13 et VI.14 représentent
les courbes de la F-mesure par rapport au nombre de termes ajoutés à la requête initiale.
Figure VI.12 – Résultats d’expansion des requêtes dans le domaine des boissons.
Figure VI.13 – Résultats d’expansion des requêtes dans le domaine du mariage.
Figure VI.14 – Résultats d’expansion des requêtes dans le domaine de la purification.
Ces courbes montrent que l’approche à base de circuit a donné des résultats meilleurs
132
que les autres approches, ce qui valide nos hypothèses et confirme les résultats obtenus
avec la validation par l’expert. Ces résultats montrent aussi l’importance de nos ontologies
étant donné que les valeurs de la F-mesure se sont améliorées de manière significative.
Ainsi, nous confirmons les résultats obtenus pour d’autres langues concernant l’intégration
des ontologies dans les SRI [206].
A titre de comparaison, Harrag et al. [133], qui ont appliqué leur SRI dans le corpus du
hadith, ont rapporté une valeur de F-mesure égale à 0.47, alors que nos courbes atteignent
des valeurs supérieures dès l’ajout du premier terme. Ceci ne donne qu’une évaluation
relative de notre contribution, car nous n’utilisons pas les mêmes requêtes et les mêmes
hadiths que Harrag et al. [133].
4 Analyse distributionnelle sociale

Les mêmes opérations appliquées au niveau sémantique peuvent être utilisées pour
analyser le réseau social des narrateurs. La Figure VI.15 illustre le réseau des narrateurs
des hadiths dans le domaine des boissons sous forme d’arbre radial. Dans cet arbre, les
Figure VI.15 – Graphe social des narrateurs du hadith sous forme d’arbre radial.
133

arcs représentent les relations (cheikh-disciple). Ainsi, le prophète (PBSL) ( é<ÊË@ ÈñP

ÕÎ ð é J
Ê « é <Ë@ úÎ ) figure au centre. Les nœuds sont colorés en fonction des degrés
de fiabilité des narrateurs. La couleur verte est utilisée pour les narrateurs fiables. Les
personnes non crédibles et suspectes sont respectivement représentées en rouge et en
orangé. En effet, les narrateurs proches du prophète (PBSL) sont ses compagnons. Plus
nous nous éloignons du centre, plus la couleur converge vers l’orangé.
En appliquant la transformation basée sur les arcs, les disciples partageant le même
cheikh sont liés et nous obtenons le graphe de la Figure VI.16.
Dans ce graphe, les nœuds sont étiquetés par les générations des narrateurs. Par rap-
port aux paradigmes de représentation étudiés dans le chapitre I (section 4.3.3, page 26),
il s’agit d’inférer des structures temporelles. Nous remarquons que les narrateurs appar-
tenant à la même génération ont tendance à partager les mêmes cheikhs. En effet, dans
cette figure, les narrateurs en haut sont les compagnons du prophète (PBSL). Ceux situés
en bas de la figure correspondent aux cheikhs des rédacteurs des six livres. Cependant,
nous remarquons qu’il n’y a pas une séparation complète entre les générations. Etant
donné que les générations sont temporellement proches les unes des autres, il arrive dans
certains cas, que des narrateurs de générations différentes reçoivent des hadiths du même
cheikh. Ce graphe prouve que les hadiths ont été transmis d’une manière continue et qu’il
n’y pas eu une rupture temporelle entre les différentes générations.
De la même manière, la Figure VI.17 illustre le même graphe mais avec les nœuds
étiquetés par l’attribut nisba. Nous remarquons une correspondance entre les résultats
d’analyse distributionnelle et la dispersion géographique. En effet, le hadith était au début

limité aux compagnons du prophète (PBSL) qui habitait à Médine ( éJK
YÖÏ @) ou à la Mecque

( éºÓ). C’est pourquoi nous trouvons des nisba qui se rapportent aux tribus de ces deux

villes (par exemple, ” úk P Q mÌ '@ ” : Al-khazraji). Les narrateurs commencent ensuite à

.
s’éloigner de ces endroits notamment en allant vers les villes de l’Iraq qui abritait la
capitale de l’état à l’époque.
5 Evaluation de la fiabilité des hadiths

L’objectif de cette étape est d’évaluer la fiabilité d’un hadith préalablement analysé et
dont la chaı̂ne est indexée. Si nous rappelons la méthodologie des sciences du hadith, nous
pouvons identifier trois principaux critères, à savoir [50] : la crédibilité des narrateurs,
la continuité de la chaı̂ne et la fiabilité de transmission. Nous utilisons la théorie des
possibilités pour classer un hadith dans l’une des trois classes : fiable (F), non fiable (NF)
et suspect (S). En effet, nous nous basons sur la théorie des experts du hadith pour définir
les distributions de possibilité de ces trois classes par rapport aux trois critères. Ensuite,
l’évaluation d’un hadith donné consiste à donner un score à chaque classe de fiabilité
en utilisant une agrégation à base de minimum ou à base de produit [50]. Enfin, nous
comparons les résultats respectifs par rapport aux décisions des savants dans la section
5.6. Notons aussi que le processus d’évaluation des hadiths est illustré par un affichage
graphique qui met l’accent sur les sources de suspicion ou de (non) fiabilité.
134
Figure VI.16 – Résultat de la transformation basée sur les arcs du réseau social des
narrateurs dans le domaine des boissons (l’attribut ”génération” affiché aux nœuds).
135
Figure VI.17 – Résultat de la transformation basée sur les arcs du réseau social des
narrateurs dans le domaine des boissons (l’attribut ”nisba” affiché aux nœuds).
136
c π(c|F ) π(c|S) π(c|N F )

[1..4] 0 0 1
[5..9] 1/6 4/6 1/6
[10..12] 3/6 2/6 1/6
Tableau VI.4 – Distribution de possibilité selon la crédibilité des narrateurs.
5.1 La crédibilité des narrateurs

Le tableau VI.4 illustre la distribution de possibilité des trois classes selon le critère
de crédibilité des narrateurs (c).
Remarquons que l’existence d’une seule personne non crédible (degré entre 1 et 4)
implique que la chaı̂ne est non fiable. En effet, le fait qu’un narrateur non crédible A reçoit
une histoire d’un narrateur crédible B signifie que sa narration est inacceptable, mais ceci
n’affecte pas notre confiance en B. Néanmoins, le fait qu’un ou plusieurs narrateurs soient
crédibles, n’implique pas que la chaı̂ne soit fiable car nous devons tenir compte des autres
critères. Dans le cas de suspicion (degré compris entre 5 et 9), nous attribuons une forte
possibilité que la chaı̂ne soit suspecte, mais nous estimons qu’il est possible qu’elle soit
fiable ou non à un certain degré (1/6).
5.2 La continuité de la chaı̂ne

La continuité d’une chaı̂ne de narrateurs est calculée en utilisant les trois critères
suivants :
– La relation sociale (RS) : existence d’une relation de parenté ou de type (cheikh-
disciple) entre deux narrateurs successifs.
– Le gap temporel (GT).
– Le gap géographique (GG).
Les relations sociales sont chargées à partir de la base des biographies. Pour calculer
le gap temporel, nous utilisons les dates de naissance et de décès des narrateurs. Si la
date de naissance (respectivement la date de décès) est inconnue, nous la remplaçons par
la date de naissance la plus ancienne (respectivement la date de décès la plus récente)
de la génération du narrateur. Cet attribut peut donc prendre l’une des quatre valeurs
suivantes :
– Oui : aucune donnée n’est manquante et il existe un gap temporel.
– Oui-manquant : certaines données sont manquantes et il existe un gap temporel.
– Non : aucune donnée n’est manquante et il n’existe pas un gap temporel.
– Non-manquant : certaines données sont manquantes et il n’existe pas un gap tem-
porel.
Nous calculons le gap géographique entre deux narrateurs comme suit. Soit v1 (respec-
tivement v2 ) un vecteur composé des informations suivantes sur le premier narrateur (res-
pectivement le deuxième) : le lieu de naissance, le lieu de décès et la valeur du composant
nisba de son nom. Le gap géographique peut prendre l’une des trois valeurs suivantes :
– Oui : v1 et v2 ne sont pas nuls et n’ont aucun élément en commun.
– Non : v1 et v2 ne sont pas nuls et ont au moins un élément en commun.
– Inconnu : v1 ou v2 est nul.
137
Pour les trois paramètres (RS, GT et GG), nous utilisons la valeur minimale de tous
les liens de la chaı̂ne. S’il y a une relation sociale entre deux narrateurs, la distribution de
possibilité est indépendante des deux autres paramètres (GT et GG). Sinon, nous donnons
une plus grande importance au gap temporel. Ainsi, si deux narrateurs ont vécu dans la
même période, nous estimons qu’ils pouvaient se rencontrer même s’ils n’ont pas vécu au
même endroit. Nous calculons la continuité de la chaı̂ne (cc) comme cela est illustré par
le tableau VI.5 et la distribution de possibilité est donnée par le tableau VI.6.
Tableau VI.5 – Valeurs du critère de continuité selon la relation sociale, le gap temporel
et le gap géographique.
cc π(cc|F ) π(cc|S) π(cc|N F )

[1..6] 0 0 1
[7..12] 1/6 4/6 1/6
13 3/6 2/6 1/6
Tableau VI.6 – Distribution de possibilité selon le critère de continuité.
Pour le critère de continuité, nous avons une seule valeur du critère qui permet d’assu-
rer la fiabilité (cc = 13 qui signifie qu’il y a une relation sociale entre les deux narrateurs).
Les cas où il y a un gap temporel sont considérés comme non fiables. Si les narrateurs ont
vécu dans la même période mais n’ont pas une relation sociale, nous considérons que la
chaı̂ne est plutôt suspecte.
5.3 La fiabilité de transmission

Nous rappelons que les différentes manières de transmission ont été identifiées et
évaluées par les experts [4]. Ces manières sont numérotées de 1 à 8 selon le même ordre
du tableau II.1 (page 32). Le tableau VI.7 donne la distribution de possibilité selon le
critère de Fiabilité de Transmission (F T ). Dans ce tableau, nous utilisons la manière de
transmission la moins fiable de toute la chaı̂ne.
FT π(F T |F ) π(F T |S) π(F T |N F )

[1..3] 3/6 2/6 1/6
[4..5] 1/6 4/6 1/6
[6..8] 0 0 1
Tableau VI.7 – Distribution de possibilité selon le critère de fiabilité de transmission.
138
5.4 Identification de la classe de fiabilité

Pour avoir un score global, pour chaque classe de fiabilité (ci ), il faut agréger les trois
critères précédemment calculés. A ce stade, nous voulons comparer deux alternatives, à
savoir le score à base de minimum (Scoremin ) et le score à base de produit (Scoreprod )
qui sont donnés respectivement par les formules suivantes [50] :
Scoremin (ci ) = min{π(c|ci ), π(cc|ci ), π(F T |ci )} (VI.1)
Scoreprod (ci ) = π(c|ci ) ∗ π(cc|ci ) ∗ π(F T |ci ) (VI.2)
Dans les deux cas, la classe à choisir (c*) est celle qui a le score le plus grand, soit
[50, 130] :
c∗ = arg max(Score(ci )) (VI.3)

ci
5.5 Visualisation des chaı̂nes de narrateurs

L’interface de visualisation des arbres des chaı̂nes de narrateurs permet à l’utilisateur
de comprendre à la fois le cheminement de l’information entre les personnes, mais aussi les
décisions du système concernant la fiabilité. Les structures visuelles utilisées accélèrent
le processus cognitif de l’utilisateur qui est ainsi capable de distinguer rapidement les
sources de suspicion ou de non fiabilité à travers les couleurs.
En effet, une chaı̂ne est un graphe orienté où les nœuds représentent les narrateurs et
les arcs indiquent le cheminement de l’information. Les labels des arcs représentent les
manières de transmission. Chacun de ces trois éléments (les nœuds, les arcs et leurs labels)
peut prendre l’une des trois couleurs comme indication de fiabilité (vert, orangé et rouge).
Ainsi, la couleur d’un nœud indique la crédibilité du narrateur (c). Le critère continuité
(cc) est illustré par la couleur de l’arc. Le label de l’arc est coloré selon la fiabilité de
transmission. La Figure VI.18 illustre la cartographie de la chaı̂ne suivante :
èQªÖ Ï @ á«
, ½K Qå
á« , é <Ë@ YJ« AK Qg @ ÈA¯ , Qå áK YK ñ AK Qg @

. . .
.
Qui peut être traduite comme suit : ”Soayd ibn Nasr nous a informé que Adb Allah
l’a informé que, selon Charik, selon Al-moughira.”

Cette chaı̂ne est extraite du livre de ” úG A Ë@” qui est le dernier narrateur (en bas de

la figure). Le prophète (PBSL) se trouve en haut de la figue comme la première source
de l’information. L’utilisateur peut remarquer facilement le suspect dans cette chaı̂ne au
niveau du narrateur coloré en orangé, ainsi que celle de l’arc qui le relie avec son cheikh.
Il est clair que la chaı̂ne est suspecte du point de vue crédibilité et continuité.
139
Figure VI.18 – Exemple de cartographie d’une chaı̂ne.

Dans cette section, nous présentons les résultats des expérimentations de notre classi-
fieur possibiliste de calcul de la fiabilité. L’objectif consiste à comparer les jugements de ce
classifieur par rapport aux décisions des savants. Pour avoir des cartes socio-sémantiques
complètes, nous continuons à utiliser les hadiths des trois domaines utilisés dans l’axe
sémantique.
Les tableaux VI.8 et VI.9 donnent les moyennes des scores de trois classes dans les six
livres du hadith respectivement, pour les algorithmes à base de minimum et à base de
produit. Nous remarquons que les deux livres les plus authentiques ont eu les scores les

plus élevés de la classe fiable. En outre le livre ” ø PAjJ.Ë@ iJ
m” s’avère le plus authentique.

Nous concluons donc que le résultat que nous avons obtenu correspond à la réalité.
Pour comprendre plus précisément ce résultat, nous les analysons attribut par attribut.
Notons d’abord que le critère de fiabilité de transmission n’a aucun effet dans les hadiths
que nous avons examinés, étant donné que les six savants ont toujours utilisé des manières
fiables de transmission. A travers le tableau VI.10, nous analysons les deux autres critères,
à savoir la crédibilité (c) et la continuité (cc), en donnant les valeurs moyennes et minimales
pour chaque livre.
Nous remarquons, encore une fois, que nos résultats correspondent à la réalité. Ainsi,
les deux livres authentiques possèdent les meilleures valeurs pour ces deux critères. En
140
Fiable Suspect Non fiable

ø
PAjJ . Ë@ iJ
m 95.31% 69.79% 34.90%
ÕÎÓ iJ
m 91.84% 72.11% 36.05%

Xð@ X ú
G. @ á 79.37% 80.42% 40.21%
AÓ áK á
ék . . 77.78% 81.48% 40.74%
ú
G A Ë@ á
91.33% 72.00% 36.00%
QË@ á
ø
YÓ 82.43% 71.17% 40.99%
Tableau VI.8 – Moyennes des scores attribués pour les trois classes de fiabilité selon
l’algorithme à base de minimum [6].
Fiable Suspect Non fiable

ø
PAjJ . Ë@ iJ
m 95.90% 36.23% 03.94%
ÕÎÓ iJ
m 90.18% 45.43% 04.28%

Xð@ X ú
G. @ á 80.46% 58.67% 04.66%
AÓ áK á
ék . . 79.07% 60.91% 04.74%
ú
G A Ë@ á
91.75% 40.89% 04.03%
QË@ á
ø
YÓ 82.69% 45.15% 09.44%
Tableau VI.9 – Moyennes des scores attribués pour les trois classes de fiabilité selon
l’algorithme à base de produit.
Livre Moyenne (c) Minimum (c) Moyenne (cc) Minimum (cc)

ø
PAjJ.Ë@ iJ
m 9.70 8.00 13.00 13.00
ÕÎÓ iJ
m 9.41 8.00 12.94 08.00

Xð@ X ú
G. @ á 8.78 5.00 12.73 07.00
AÓ áK á
ék . . 8.22 5.00 12.67 07.00
ú
G A Ë@ á
9.40 6.00 12.73 07.00

QË@ á
ø
YÓ 8.97 5.00 12.70 07.00
Tableau VI.10 – Valeurs moyennes et minimales des critères de fiabilité dans les six livres.
effet, le degré minimal de leurs narrateurs est de 8. Dans les autres livres, nous trouvons

des narrateurs
des classes 5, 6 et 7. Ceci confirme que Al-Bukhari( ø PA jJ. Ë@) et Muslim (
ÕÎ Ó ) sont plus exigeants en terme de crédibilité. Cette remarque
est valable pour le
141

critère de continuité. Notons que ø PAjJ.Ë@ a une valeur idéale de ce critère à savoir 13. Ceci

nous rappelle que ce savant vérifie que le disciple a rencontré son cheikh pour accepter
ses narrations.
Afin d’avoir une évaluation globale, nous comparons les résultats de notre système
par rapport aux décisions des savants. Le tableau VI.11 présente, pour chaque classe
de fiabilité, le pourcentage de hadiths de la base de test (dans la deuxième colonne), le
pourcentage des hadiths qui ont été jugés fiables (F), suspects (S) et non fiables (NF)
(respectivement dans les trois dernières colonnes). Les dernières lignes, avec un fond gris,
contiennent les classes rares dont nous ne pouvons pas interpréter les résultats.
Classe % %F %S %NF
iJ
m(authentique) 84.33% 78.76% 21.24% 00.00%
iJ
m ák (entre bon et authentique) 01.74% 71.43% 28.57% 00.00%
iJ
m (chaı̂ne authentique)
XAJB@ 03.48% 64.29% 35.71% 00.00%
ák
XAJB@ (chaı̂ne bonne) 01.00% 50.00% 50.00% 00.00%
éJ« HñºÓ
(inconnu) 01.49% 33.33% 66.67% 00.00%
J
ª (faible) 04.98% 20.00% 70.00% 10.00%
(bon)
ák 00.75% 66.67% 33.33% 00.00%
èQ
ªË iJ
m(Authentique en vertu d’autres hadiths) 00.75% 33.33% 66.67% 00.00%
XAJB
¨ñ¢®Ó @ iJ
m (la chaı̂ne est authentique 00.50% 100.00% 00.00% 00.00%
mais le contenu est assigné à un disciple)
XAJB
¨ñ¢®Ó @ ák(la chaı̂ne est bonne 00.25% 100.00% 00.00% 00.00%
mais le contenu est assigné à un disciple)

XAJB @ iJ
m ák(bon avec chaı̂ne authentique) 00.25% 100.00% 00.00% 00.00%

h. PYÓ XAJB @ iJ
m(la chaı̂ne est authentique mais 00.25% 100.00% 00.00% 00.00%
certaines expressions ont été ajoutées au contenu)
Tableau VI.11 – Comparaison des résultats du système par rapport aux décisions des
savants [6].
Nous remarquons aussi que la majorité des hadiths (95.02%) sont réellement fiables
avec des degrés différents. Ceci prouve la valeur théologique des six livres en tant que
sources de hadith. Notons aussi que notre système attribue la classe ”Suspect” à un
pourcentage important de hadiths fiables. Ceci est dû au fait que certains narrateurs ont un
degré de crédibilité compris entre 5 et 9. En effet, les savants traitent ces narrateurs d’une
manière sélective. Autrement dit, ils acceptent certains de leurs hadiths et en rejettent
d’autres. Ce fait est confirmé si nous examinons les hadiths non fiables dont 70% ont
été classés comme suspects vu l’existence de ce genre de narrateurs. Nous concluons que
les narrateurs suspects existent aussi bien dans les hadiths fiables que non fiables ; ceci
démontre à la fois l’expertise des savants du hadith et la difficulté d’automatisation de
leur méthodologie.
Le tableau VI.11 trie les classes de fiabilité (colonne numéro 1) selon la moyenne des
scores attribués à la classe ”fiable”. Nous déduisons que l’ordre établi correspond à la
142
réalité. Conformément à la méthodologie des sciences du hadith, la classe ” iJ

m ák
”
regroupe les hadiths dont le degré de fiabilité est entre ” iJ
m” et ” ák
”. Remarquons

aussi que les classes ” XA JB@
iJ
m” et ” XAJB@ ” sont attribuées aux hadiths dont
ák
les savant ont étudié uniquement les chaı̂nes de narrateurs. Ils sont moins fiables que les
hadiths des classes ” iJ
m ” et ” ák
” dont le contenu a été inspecté. Ce résultat est
confirmé par notre calcul.
Ajoutons que, dans tous les hadiths que nous avons examinés, les deux algorithmes (à
base de minimum et à base de produit) conduisent au choix de la même classe. Cependant,
l’algorithme à base de produit s’avère plus exigeant si nous comparons les scores attribués
à la même classe pour le même hadith. En passant du tableau VI.8 au tableau VI.9, le score
de la classe ”fiable” augmente et ceux des classes ”non fiable” et ”suspect” diminuent.
Etant donné que la majorité des hadiths examinés sont fiables, l’algorithme à base de
produit semble le plus réaliste. Cependant, généraliser ces résultats nécessite d’évaluer
un échantillon plus grand de hadiths éventuellement en considérant d’autres livres moins
authentiques.
Enfin, nous arrivons à identifier correctement la bonne classe dans 73.75% des cas. Ce
taux peut s’avérer faible par rapport à celui enregistré par Ghazizadeh et al. [117] et qui
est égal à 94%. D’abord, il faut reconnaı̂tre que dans 25.25% des cas, notre algorithme a
attribué la classe ”suspect” au lieu de la classe ”fiable” ou ”non fiable”. Cette classe a été
définie afin de mettre l’accent sur les cas douteux. Avec l’affichage graphique, l’utilisateur
peut analyser le problème et prendre la bonne décision. Ensuite, notre algorithme a at-
tribué une classe fausse uniquement dans 1% des cas. En outre, pour pouvoir se comparer
précisément, il faut utiliser la même collection de test que Ghazizadeh et al. [117] qui
n’ont pas bien expliqué l’étape d’évaluation.
Comme travail futur et conjointement à l’élargissement du champ des expérimentations,
il serait intéressant d’identifier, d’une manière plus précise, la classe de fiabilité en adop-
tant les classes reconnues dans la méthodologie du hadith. Dans ce cas, il serait difficile de
fixer manuellement les distributions de possibilité. Ainsi, il faudra procéder à une étape
d’apprentissage à partir de hadiths déjà évalués.
En outre, nous pouvons améliorer notre analyse des critères de fiabilité. Pour mieux
évaluer l’objectivité de narration, il est nécessaire de développer des outils de comparaison
de versions pour découvrir les anomalies. Ceci permettra de découvrir si un narrateur a
ajouté ou supprimé certaines parties de l’histoire et si ces modifications sont justifiées.
En effet, un narrateur peut simplement rapporter la même histoire différemment en choi-
sissant des termes différents par rapport à son prédécesseur, malgré que les deux soient
d’accord sur l’évènement et son interprétation. Dans certains autres cas, ces modifications
affectent le contenu, si le narrateur est influencé par son interprétation ou par son point de
vue. C’est une dimension historique où nous devons tenir compte du fait qu’en fonction de
la période et de l’évolution de la société, le narrateur ne va pas rapporter un évènement
de la même manière ni lui donner la même importance. Cependant, la découverte de
143
telles anomalies requiert des mécanismes plus poussés d’analyse permettant d’évaluer la
cohérence logique d’un ensemble de versions du même hadith.
6 Conclusion
Dans ce chapitre, nous avons présenté et discuté des résultats de différentes expérimentations
afin de structurer les connaissances extraites des livres du hadith selon les axes socio-
sémantiques. Nous avons aussi décrit les mécanismes nécessaires à la recherche et à la
navigation dans les cartes socio-sémantiques. Ces mécanismes permettent d’évaluer la
pertinence de l’information selon des contraintes multi-critères spécifiées par l’utilisateur.
En effet, le système évalue chaque hadith et fournit des informations analytiques sur les in-
dicateurs de fiabilité. Etant donné que plusieurs opérations sont communes aux différentes
étapes et axes de structuration, nous avons défini et implémenté une plate-forme de car-
tographie multi-critères réutilisable, qui pourra éventuellement être utilisée pour d’autres
types de connaissances. Cette plate-forme n’est que l’un des modules développés tout au
long du processus de cartographie. Ces modules constituent une boite à outils réutilisable,
dont les détails d’implémentation et de test seront présentés dans les annexes de cette
thèse.
144
Conclusion Générale et Perspectives
L es travaux existants dans le domaine de la RI arabe souffrent de plusieurs limites.

Certains proposent des heuristiques (comme par exemple la pseudo-racinisation
[153]) ou des approches statistiques pour indexer les documents et extraire les connais-
sances [47, 48]. D’autres exploitent des ressources existantes dans d’autres langues pour
produire des systèmes d’organisation de connaissances arabes [195]. Ces travaux évitent
l’analyse morphosyntaxique complète des textes arabes afin de réduire les ambigüités.
L’analyse superficielle s’est avérée comme solution appropriée, car elle nécessite moins de
ressources que l’analyse complète. En particulier, l’analyse de textes arabes requiert des
corpus d’apprentissage et des outils sophistiqués, qui puissent traiter ces textes quel que
soit leur période afin de fournir les informations pertinentes indispensables aux systèmes
d’extraction de connaissances et de RI. Actuellement, ces systèmes utilisent des infor-
mations incomplètes sur les mots et les expressions qui sont par conséquent fortement
ambigus.
Malheureusement, les recherches portant sur les systèmes d’extraction de connaissances

et les SRI arabes ont permis certaines contributions qui sont dispersées sur plusieurs ni-
veaux d’analyse. Par exemple, plusieurs chercheurs se sont investis dans l’analyse et la
désambiguı̈sation morphologique de textes arabes sans que leurs outils soient massivement
utilisés dans les systèmes d’extraction de connaissances et de RI. En outre, la notion de
pertinence dans les SRI arabes est actuellement traitée comme une notion monodimen-
sionnelle. Ainsi, la majorité des travaux de recherche sont concentré sur l’axe sémantique
alors que l’émergence du Web socio-sémantique impose une codétermination des besoins
sociaux et sémantiques. Par exemple, plusieurs SRI sémantiques ont été évalués en utili-
sant le corpus du hadith sans tenir compte de la dimension de fiabilité, malgré l’existence
de travaux sur l’évaluation automatique de la fiabilité des hadiths.
Les travaux récents en RI [92, 103, 145, 161, 212] s’orientent vers des mécanismes plus
développés qui dépassent le scénario (requête - liste de résultats). En effet, la RI est vue
comme une démarche d’enquête qui tient compte de plusieurs critères. En outre, un espace
informationnel devrait être structuré et présenté d’une manière appréhensible qui permet
une vue globalisante et détaillée de cet espace. Une variété de mécanismes de visualisation
et d’interaction permettraient un accès personnalisé aux ressources documentaires. Ainsi,
les tâches d’extraction, de représentation et d’accès à la connaissance s’inscrivent dans un
processus de cartographie qui implique l’utilisateur dans ses différentes étapes.
Le présent travail s’inscrit dans la problématique de la cartographie socio-sémantique

des documents arabes. Il est à base de fondements théoriques et d’applications dans les
145
CONCLUSION GENERALE ET PERSPECTIVES
domaines de RI [98], de la cartographie des connaissances [212], du Web socio-sémantique

[226] et de la qualité de l’information [210]. Dans ce cadre, la cartographie est un proces-
sus qui dépend des besoins des utilisateurs et de leur organisation sociale. Il est composé
d’une série d’étapes d’analyse et d’évaluation qui permettent de structurer l’espace infor-
mationnel et de fournir un accès multidimensionnel à cet espace.
Pour répondre aux nouvelles exigences de la RI moderne, nous avons proposé un pro-
cessus de cartographie qui puisse tenir compte de la richesse et des spécificités de la
langue et de la civilisation arabes. Dans ce cadre, nous avons défini des approches d’ana-
lyse et de désambigüisation de textes arabes, afin de faciliter l’intégration de cette langue
dans les systèmes d’ingénierie des connaissances. Nous avons remarqué qu’il est nécessaire
d’intégrer différents axes d’analyse en considérant les aspects sémantiques et sociaux à
la fois. A ce stade, nous soulignons l’importance de l’évaluation de la fiabilité comme
critère important de la pertinence de l’information. Pour tenir compte de ce critère, nous
avons adopté les sciences du hadith comme méthodologie d’évaluation de la fiabilité. Cette
méthodologie est parfaitement cohérente avec les visions récentes du Web qui insistent
sur le concept de confiance. En outre, elle tient compte des critères reconnus dans la
littérature relative à la qualité de l’information [173].
Choix principaux
Le choix des livres du hadith comme cas d’application de la cartographie socio-
sémantique est justifié par leurs caractéristiques. En effet, ces livres possèdent une struc-
ture qui facilite plusieurs étapes dans le processus de cartographie. Cette structure repré-
sente l’empreinte du processus de production des documents qui est fondamentale dans
les livres du hadith qui documentent toutes les transactions sémiotiques de transfert et
d’interprétation des informations. En outre, la structure est exploitée afin de modéliser
les connaissances et de permettre une recherche précise et personnalisée de l’informa-
tion. L’organisation thématique des hadiths permet un accès multi-points de vue adap-
table selon les pratiques des utilisateurs. De plus, la taille de ces livres et leur richesse
permet le développement et le test d’approches d’extraction de connaissances et de RI
multi-critères. En fait, il ne s’agit pas uniquement d’un fonds riche en thèmes et en
connaissances socio-sémantiques, mais sa constitution a été accompagnée par l’élaboration
d’une méthodologie rigoureuse pour l’évaluation de la fiabilité de l’information. Vu ces
caractéristiques, le corpus hadithien a été sujet de plusieurs études et applications infor-
matiques [19, 22, 133, 224].
Etant donné que nos contributions sont basées sur les fondements du Web socio-
sémantiques, nous avons fait le choix d’utiliser une approche semi-formelle de représenta-
tion des connaissances en adoptant le langage XML et ses dérivés. Ce choix est compa-
tible avec la démarche d’enquête dans laquelle s’inscrit la recherche d’information dans le
Web socio-sémantique en général [226] et dans les livres du hadith en particulier. Cette
démarche offre un certain équilibre entre les besoins humains et les traitements automa-
tiques et permet d’affronter la complexité des documents et la divergence des points de
vue.
146
En ce qui concerne l’organisation des livres du hadith, nous avons choisi de garder les
thématisations proposées par les collecteurs du hadith dans leurs livres, chacune étant
considérée comme une carte de thèmes [64]. Afin de diversifier les mécanismes d’accès aux
hadiths, nous avons développé des outils d’organisation et d’évaluation automatique des
connaissances qui sont utilisés conjointement à une recherche arborescente dans les cartes
de thèmes. Pour cela, nous avons exploité deux types de réseaux récemment combinés
dans le domaine de la RI [98], à savoir les Réseaux Petits Mondes Hiérarchiques (RPMH)
et les réseaux possibilistes. Les RPMH représentent un outil d’organisation des connais-
sances qui permet à la fois d’éliciter les liens implicites et d’avoir une vue globalisante
des connaissances. Leur généricité permet de représenter n’importe quelle dimension d’un
espace informationnel. Pour lier les différentes dimensions d’un tel espace, nous avons
utilisé les réseaux possibilistes. La théorie des possibilités a été proposée comme modèle
efficace de classification et de RI dans des études comparatives récentes [60]. En effet, cette
théorie permet de traiter les données d’une manière quantitative ou qualitative. En outre,
elle tient compte des phénomènes d’imperfection dans les données tels que l’imprécision,
l’incertitude et l’incomplétude [130].
Contributions
Nous avons proposé un modèle générique d’une carte socio-sémantique multi-critères
où les fragments de documents sont indexés par plusieurs ontologies, dont chacune repré-
sente une dimension de la carte. Le processus de cartographie lié à ce modèle est guidé
par la codétermination des besoins sociaux et sémantiques des utilisateurs. Nous pensons
que les pratiques des utilisateurs et les mécanismes que le système doit fournir dépendent
de l’organisation sociale des utilisateurs et de leurs besoins. Ceci nous a conduit à mener
une étude sociale en amont du processus d’analyse. Cette étude retrace le processus de
production/transmission des documents vus comme des productions sémiotiques. Elle
détermine entre autres les outils d’analyse nécessaires et le niveau de granularité lors
de la segmentation des documents. La structure des documents a donc une importance
fondamentale dans notre approche. Afin de favoriser la réutilisation des outils d’analyse,
nous avons proposé une analyse micro-logique basée sur les grammaires hors contexte
[54]. Cette solution permet de pallier à la complexité des textes en traitant chaque type
de fragment à part et en simplifiant l’apprentissage semi-automatique des règles de ces
grammaires.
Etant donné les limites des travaux existants [20, 47, 188, 234], nous avons donné une
importance particulière aux aspects linguistiques, notamment aux ambiguı̈tés morphosyn-
taxiques [52]. En effet, nous essayons, à travers cette thèse, d’introduire la langue arabe
aux environnements de l’ingénierie ontologique [40]. Dans ce cadre, nous avons adopté la
même démarche que d’autres chercheurs [143] en effectuant une analyse linguistique appro-
fondie pour la construction d’ontologies [51]. Ainsi, à l’inverse de certains autres systèmes
(ex. OntoLearn [166], Text2Onto [73] et le système de Rajaraman et Tan [190]), nous
exploitons les informations morphosyntaxiques dans les différentes étapes de construc-
tion d’ontologies. Les informations morphologiques permettent de reconnaı̂tre les termes
simples et sont exploitées dans les règles d’analyse syntaxique pour extraire les termes
composés. L’analyseur syntaxique que nous avons développé [53] reconnaı̂t la structure de
chaque syntagme sous forme d’arbre d’analyse qui spécifie le rôle de chaque constituant. A
ce stade, nous ne sommes pas limités aux termes composés de deux mots, mais nous avons
147
considéré des N-grammes dont la taille peut atteindre 10 mots. Notons que la structure
des documents du hadith a joué un rôle important dans la désambiguı̈sation morpho-
syntaxique [52]. En effet, les titres des thèmes constituent un contexte sémantique utile
pour la désambiguı̈sation. En outre, la pondération des termes en fonction de leurs posi-
tions dans la structure a permis une évaluation qualitative de leur pertinence au domaine.
Ainsi, la désambiguı̈sation et l’évaluation de la pertinence au domaine sont effectuées en
une seule étape. Cette solution constitue une contribution dans le sens où nous avons
accéléré le processus d’analyse, prouvé l’apport de la structure dans la désambiguı̈sation
morphosyntaxique et démontré l’interdépendance des différents niveaux d’analyse. En
fait, le réseau de dépendances syntaxiques a été exploité afin de tester plusieurs alterna-
tives lors de l’analyse distributionnelle qui a permis de grouper les termes d’une manière
cohérente. Lors de cette analyse, il a été montré que les relations syntaxiques arabes ont
des sémantiques différentes, ce qui nous a amené à les interpréter séparément [51].
Par opposition aux SRI monocritères, nous avons aussi considéré l’axe social à tra-
vers la reconnaissance des entités nommées et des identités des personnes comme étapes
préliminaires à l’étape d’évaluation de la fiabilité [50]. Il est à signaler qu’à l’heure actuelle,
aucune des approches existantes n’a considéré toutes ces étapes à la fois [3, 28, 30, 117].
Ajoutons que l’utilisation des grammaires hors contexte nous a permis d’extraire la struc-
ture de chaque entité nommée au format XML et de représenter explicitement les relations
sociales. En outre, notre outil de reconnaissance de l’identité représente un véritable SRI
social qui exploite le réseau social afin de lever les ambiguı̈tés dans les noms arabes. Enfin,
nous avons renforcé l’analyse de la fiabilité en utilisant des indices graphiques en plus du
calcul automatique de la classe de fiabilité [50].
Du point de vue environnement, nous avons développé une boite à outils générique qui
traite la structure, la morphologie, la syntaxe et les entités nommées dans les documents
arabes. Ces outils, étant développés en Java, pourront être intégrés dans les plate-formes
d’ingénierie ontologique, telles que KAON [176] et TERMINAE [85]. Nous avons exploité
les réseaux générés par ces outils pour construire les ontologies qui composent nos cartes.
Ayant remarqué que ces réseaux ne sont autres que des graphes, nous avons proposé un
processus d’analyse distributionnelle générique qui permet de structurer les connaissances
en ontologies. Ainsi, nous avons pu, à travers des opérations basiques sur les graphes tels
que le filtrage, la transformation et le clustering, produire des modèles qui servent à un
utilisateur pour appréhender son espace informationnel et au système d’automatiser cer-
taines tâches de RI, telles que la reformulation de requêtes [51]. Le processus d’organisation
des connaissances a été enrichi par l’implémentation d’un modèle d’appariement possibi-
liste multi-critères, afin d’évaluer les informations en fonction de contraintes spécifiées de
manière interactive par l’utilisateur. L’ensemble de ces éléments constitue une plate-forme
qui fournit les mécanismes de base pour la cartographie multi-critères.
A l’inverse de certains travaux existants [30], nous avons évalué les étapes intermédiaires
en plus des résultats finaux, afin de mettre l’accent sur les sources d’erreurs et de fournir
une interprétation plus détaillée des résultats. Cependant, notre travail était limité par le
manque de standards d’évaluation surtout au niveau sémantique où nous étions obligés
de construire manuellement des listes de référence. Vu les limites de ces listes, nous avons
renforcé notre évaluation par une validation automatique dans le cadre de la RI [51, 52].
148
Perspectives
L’implémentation des outils d’analyse de textes arabes a nécessité des traitements
manuels, que ce soit dans les phases d’apprentissage ou d’évaluation. Malgré notre souci
de réduire les taux d’intervention de l’utilisateur, ces phases demeurent coûteuses du point
de vue temps et effort. L’ambigüité morphologique a constitué pour nous le principal
challenge que nous avons rencontré dans nos expérimentations. La source principale de
ce type d’ambigüité est l’absence des voyelles courtes dans les textes. Pour relever ce
challenge, l’utilisation de textes partiellement ou complètement voyellés serait une solution
envisageable. Le corpus hadithien offre cette opportunité, vu que certains de ses livres
sont voyellés. Nous estimons qu’il serait possible d’améliorer l’analyse linguistique si les
principales entités logiques (principalement les titres et les sous-titres) étaient voyellées.
Cependant, la performance de notre approche de désambiguı̈sation dépend aussi de

la nature du corpus et de sa structure. Le Web actuel contient de plus en plus des do-
cuments semi-structurés. Pour généraliser nos résultats, il nous semble utile d’appliquer
notre approche dans le contexte du Web. Ceci permettrait de mieux comprendre l’im-
pact de la structure sur les performances d’extraction de termes. Contrairement aux
livres du hadith qui ont une structure arborescente, la structure des pages Web n’est
pas forcément hiérarchique. Ainsi, nous serons amenés à utiliser des relations autres que
la relation ”Sup”. Ceci signifie que nous considérons une description plus détaillée de la
structure. Pondérer des fragments particuliers a constitué une première solution pour leur
donner des poids proportionnels à leur importance dans le texte. Comme exentension à
cette pondération, nous pensons que les techniques d’annotation automatique seraient
utiles pour représenter d’une manière plus détaillée la structure des documents. Il se-
rait intéressant d’exploiter les marqueurs rhétoriques en plus de l’organisation spatiale,
la taille et les styles afin de caractériser les fragments. Ceci conduira à une intégration
de notre analyseur micro-logique avec notre outil d’analyse morphosyntaxique. En effet,
nous avons traité les entités nommées au niveau lexical sans une analyse morphologique
pour éviter les ambigüités. Comme travail futur, il serait envisageable de combiner les
deux types d’analyse en un seul outil pour extraire à la fois les entités nommées et les
syntagmes nominaux arabes.
La résolution des ambiguı̈tés au niveau morphosyntaxique permettra de pousser les ana-

lyses dans les autres niveaux (social et sémantique). Ainsi, il serait intéressant de réfléchir
à la désambiguı̈sation sémantique. En général, la même forme linguistique d’un terme liée
à des concepts différents peut apparaı̂tre dans plusieurs domaines . En outre, il serait pos-
sible d’élargir les expérimentations à tous les thèmes des livres du hadith, voire à d’autres
types de textes. Les réseaux syntaxiques pourront être exploités pour reconnaı̂tre d’autres
types de relations sémantiques (dépendante ou non du domaine) entre les termes ou les
groupes de termes. Cette analyse sémantique permettra une meilleure représentation des
hadiths, ce qui aidera à mettre en place des mécanismes de raisonnement plus sophistiqués
notamment pour considérer d’autres critères dans l’évaluation de la fiabilité. Par exemple,
il serait possible de comparer des versions différentes du même hadith afin de découvrir
les anomalies et l’excentricité.
Du point de vue environnement d’expérimentation, le prototype de la plate-forme de

cartographie nécessite une amélioration au niveau des mécanismes de visualisation et
149
d’interaction. Par exemple, le prototype dans son état actuel ne permet de chercher que
des hadiths. Il serait intéressant de fournir à l’utilisateur des fragments plus ou moins
complexes tels que les sous-chapitres ou les commentaires associés aux hadiths. En outre, il
est possible d’implémenter différentes stratégies d’adaptation, qui guident l’utilisateur lors
de la navigation [140] ou qui lui permettent de constituer de nouveaux documents [103].
Cependant, la personnalisation des cartes nécessite aussi la prise en compte des profils des
utilisateurs. A priori, il serait envisageable d’inclure deux aspects fondamentaux dans le
profil. Le premier permet d’adapter le contenu affiché selon l’expertise de l’utilisateur. Par
exemple, les utilisateurs novices ont tendance à négliger les longues chaı̂nes de narrateurs
et certains commentaires. Le deuxième considère l’organisation sociale des utilisateurs en
adoptant par exemple les approches qui distinguent le profil d’une communauté de ceux
de ses membres [91].
Nos expériences avec les livres du hadith nous a amené à proposer une démarche qui
vise à les transformer en un corpus de référence [6]. Un tel corpus permettra entre autres
d’étudier l’évolution historique et géographique de la langue arabe étant donné que les
hadiths ont été sujet d’études et d’interprétation au fil des siècles et dans plusieurs régions.
Pour atteindre cet objectif, nous pensons qu’il est nécessaire de rassembler les différentes
versions de ces livres disponibles sous divers formats. Ces versions sont hétérogènes du
point de vue taille, couverture, richesse en commentaires et même en terme crédibilité de
leurs sources. A l’heure actuelle, aucune des ces versions ne semble surpasser les autres ni
quantitativement ni qualitativement. Ainsi, il serait intéressant de rassembler toutes les
versions fiables et les combiner afin de bénéficier des avantages de chacune. En outre, pour
constituer un corpus standard de test de SRI, il serait indispensable de définir un ensemble
de requêtes types et d’identifier les fragments de documents qui leurs sont pertinents. Cette
tâche peut être effectuée d’une manière semi-automatique et collaborative.
En tant que méthodologie pour la fiabilité de l’information, les règles des sciences du
hadith pourraient être appliquées dans d’autres domaines où l’aspect fiabilité est critique.
Ainsi, certains chercheurs ont appliqué cette méthodologie pour faire face aux crimes
électroniques [224]. Il est donc envisageable de réutiliser cette méthodologie pour assurer
la confiance dans le cadre du Web socio-sémantique. En outre, certains types de textes,
comme les articles de journaux, contiennent des expressions qui ressemblent aux chaı̂nes
de narrateurs qui pourront être analysés avec les outils que nous avons proposés afin
d’évaluer leur fiablité.
150
Bibliographie

JË@ ð QåJ ÊË ÐCË@ P@X . éJË@ I.JºË@ : qJ
Ë@
È @ .
[1] 1999 , úÍð B@ éªJ.¢Ë@ , ©K
Pñ
S. Al-chikh. Les six livres du hadith, édition Dar Al-salam, Première édition, 1999.
[2] éJË@
Hñm éÊm .× . éJ
K. QªË@
'. Q»QÓ AJ
k. ñËðXñJJ
ÖÏ AK. AKPA
®Ó á KYjÖÏ @ YJ« Y® JË@ iîDÓ : ø QÒªË@ . @

.
. 1988 , 134 - 107 . , 3
, èQ
Ë@ð
A. Al-Omri. Méthodologie de critique dans les sciences du hadith comparée à la
méthodologie occidentale. Journal du centre de recherche en sunna et sira, 3 :107-
134, 1988.
ÊË IñjÖÏ @ h XñÖ
[3]
,ú
Í B@ I.AjÊË Qå« ©K. AË@ ú
æ£ñË@ QÖ ßñÖ Ï @ . éK
ñJ.JË@ éJ . .
éÓY
ß B@
g ú¯:
.h
ð PQË@
2004 ÉK
Q¯ @ , èPñJÖ Ï @ éJK
YÖÏ @ , éK
XñªË@ , áÔ gQË@ ¬ñJ

éJ
KAÓñÊªÖÏ @

H. Al-Rizzo. Un modèle informatisé de la sunna. 17ème conférence nationale de

l’ordinateur, Arabie Saoudite, la Médine, Avril, 2004.
[4] JË@ð QåJ ÊË ¬PAªÖ
,©K
Pñ Ï @ éJ JºÓ : AK
.
QË@ , éK
XñªË@ . IK

YmÌ '@ iÊ¢Ó Q

K : àAj¢Ë@
.Ð
1985
M. Tahan. Introduction aux sciences du hadith. édition Al-maarif, Riyad, Arabie
Saoudite, 1985.
[5] I.K
ñË@ ú
¯ éJ
K. QªË@ KA KñË@ ÉJ
JÖßð ÉJ
ÊjJË éÊÓA ñm' : úGAÒJ
éK PA®Ó Ê .ø ð Am' ñK .@
.

Jk.. B@
, 210 - 197 . , H. ñAm Ì '@ éY Jëð ÐñÊªË éXAË@ éJ
ËðYË@ èðYJË@ .ú
ÍBYË@ ú «AÒ
éYJëð ÐñÊªË éJ
ËðYË@ éÊj.ÖÏ @ ú
¯ A
@ QåJ
, 2010 ø
AÓ 21-20 ,ñ K ,
HAÓAÒm Ì '@

. ( QåJË@ XY. ) H. ñAmÌ '@
I. Bounhas and Y. Slimani. Towards a generic approach for modeling and analy-
zing Arabic documents in the socio-semantic Web. The sixth International Com-
puting Conference in Arabic, pages 197-210, Hammamet, Tunisia, May 20-21, 2010.
International Journal of Computing in Arabic (to appear).
[6] H. @ñË@ ú
¯ éJ
K. QªË@ éJ
KAÓñÊªÖÏ @ éÓY
g ú¯ éKðYÓð
jîDÓ ñm' : úGAÒJ
éJ Ê .ø ð Am' ñK .@

.

.
.2011 , 80 - 67 : ( 3 ) 3 , H . ñAmÌ '@ éYJëð ÐñÊªË éJ
ËðYË@ éÊj.ÖÏ @ .ú
ÍBYË@ ú
«AÒJk. B@
I. Bounhas and Y. Slimani. Toward a methodology and a corpus for arabic infor-
mation sciences in the socio-semantic web. International Journal of Computing in
Arabic, 3(3) :67-80.
[7] La norme ISO 2788. http://www.iso.org/iso/fr/catalogue_detail.htm?
csnumber=7776, 1986.
[8] The GraphML File Format. http://graphml.graphdrawing.org/, 2001.
[9] XML Topic Maps (XTM) 1.0, TopicMaps.Org Specification.
http ://www.topicmaps.org/xtm/1.0, 2001.
151
BIBLIOGRAPHIE
[10] RDF, Resource Description Framework Specification. http://www.w3.org/TR/

REC-rdf-syntax, 2002.
[11] RDFS, Resource Description Framework Schema Specification. http://www.w3.
org/TR/rdf-schema, 2002.
[12] XML, eXtended Markup Language Specification. http://www.w3.org/TR/
REC-xml, 2002.
[13] SVM - Support Vector Machines. http://www.support-vector-machines.org,
2005.
[14] Alkhalil morpho sys. http://sourceforge.net/projects/alkhalil/, 2010.
[15] N. S. Abdul Karim and N. R. Hazmi. Assessing islamic information quality on
the internet : A case of information about hadith. Malaysian Journal of Library &
Information Science, 10(2) :51–61, 2005.
[16] S. Abuleil. Extracting names from arabic text for question-answering systems. In
Proceedings of the 7th International Conference on Coupling Approaches, Coupling
Media, and Coupling Languages for Information Retrieval. (RIAO’04), pages 638–
647, University of Avignon (Vaucluse), France, 26-28 Avril, 2004.
[17] C. Al-Charfi and H. Ammar (Eds.). Proceedings of the Sixth International Com-
puting Conference in Arabic. Hamamet, Tunisia, 20-21 May 2010.
[18] M. N. Al-kabi and S. I. Al-sinjilawi. A comparative study of the efficiency of different
measures to classify arabic texts. Journal of Pure & Applied Sciences, 4(2) :13–26,
2007.
[19] H. A. Al-Muhtaseb, S. A. Mahmoud, and R. S. Qahwahi. A novel minimal script
for arabic text recognition databases and benchmarks. International Journal of
Circuits, Systems and Signal Processing, 3(3) :145–153, 2009.
[20] A. Al-Qabbany, A. Al-Salman, and A. Almuhareb. An automatic construction of
arabic similarity thesaurus. In Proceedings of the 3rd IEEE International Conference
on Arabic Language Processing (CITALA’2009), pages 31–36, Rabat, Morocco, May
4-5, 2009.
[21] S. Alansary, N. Magdy, and A. Noha. Building an international corpus of arabic
(ICA) : Progress of compilation stage. In 7th International Conference on Language
Engineering, Cairo, Egypt, 2008.
[22] M. Alkhatib. Classification of al-hadith al-shareef using data mining algorithm.
In European Mediterranean & Middle Eastern Conference on Information Systems
(EMCIS 2010), Abu-Dhabi, UAE, April 12-13, 2010.
[23] C. Aloulou. Un modèle multiagent pour l’analyse syntaxique de la langue arabe
non voyellée. Thèse de doctorat, École Nationale des Sciences de l’Informatique,
Université de la Manouba, Tunisie, 2005.
[24] M. Attia. Handling Arabic Morphological and Syntactic Ambiguity within the LFG
Framework with a View to Machine Translation. PhD thesis, University of Man-
chester, Faculty of Humanities, UK, 2008.
[25] A. Auger and C. Barriere. Pattern-based approaches to semantic relation extrac-
tion : A state-of-the-art. Terminology journal, Special issue on ”Pattern-based ap-
proaches to semantic relation extraction”, 14(1) :1–19, 2008.
152
BIBLIOGRAPHIE
[26] N. Aussenac-Gilles and A. Condamines. Documents électroniques et constitution

de ressources terminologiques ou ontologiques. Information-Interaction-Intelligence,
4(1) :75–94, 2004.
[27] H. Aydemir. The reliability coefficient of ’umar b. ’abdullah b. ’urwa : An application
of the theory of system of transmission of hadith based on probability calculations.
Journal of Hadith Studies, 3(2) :7–36, 2005.
[28] H. Aydemir. A theoretical approach to the system of transmission of hadith based
on probability calculations. Journal of Hadith Studies, 3(1) :39–72, 2005.
[29] M. Azami. Studies in hadith methodology and literature. American Trust Publica-
tions, 1978.
[30] M. Azmi Aqil and N. Bin Badia. e-narrator - an application for creating an ontology
of hadiths narration tree semantically and graphically. The Arabian Journal for
Science and Engineering (AJSE), 31(2C) :51–68, 2006.
[31] D. Bagni, M. Cappella, M. T. Pazienza, M. Pennacchiotti, and A. Stellato. Harves-
ting relational and structured knowledge for ontology building in the WPro archi-
tecture. In Proceedings of the 10th Congress of the Italian Association For Artificial
Intelligence on AI*IA 2007 : Artificial Intelligence and Human-Oriented Compu-
ting, pages 157–169, Rome, Italy, September 10-13, 2007.
[32] A. Barabási, R. Albert, and H. Jeong. Scale-free characteristics of random networks :
The topology of the world wide web. Physica, A281 :69–77, 2000.
[33] J. Bateman. Modeling the importance of end-user relevance criteria. In Proceedings
of the 62nd ASIS Annual Meeting, Knowledge Creation, Organization and Use,
volume 36, pages 396–406, Washington, DC, USA, October 31-November 4, 1999.
[34] M. Baziz, M. Boughanem, and N. Aussenac-Gilles. Une approche pour la
représentation sémantique de documents. In Colloque Veille Stratégique, Scien-
tifique et Technologique (VSST’2004), pages 43–54, Université Paul Sabatier, Tou-
louse, France, 25-29 Octobre, 2004.
[35] K. R. Beesley. Finite-state morphological analysis and generation of arabic at Xerox
research : Status and plans in 2001. In Proceedings of the 39th Annual Meeting of
the Association for Computational Linguistics : Arabic Language Processing : Status
and Prospect, pages 1–8, Toulouse, France, July 9-11, 2001.
[36] K. R. Beesley and L. Karttunen. Finite State Morphology. The Center for the Study
of Language and Information, CSLI Publications, Stanford, USA, 2003.
[37] F. Z. Belkredim and A. El-Sebai. An ontology based formalism for the arabic lan-
guage using verbs and their derivatives. Communications of the IBIMA, 11(5) :44–
52, 2009.
[38] F. Ben Fraj. Un analyseur syntaxique pour les textes en langue arabe à base d’un
apprentissage à partir des patrons d’arbres syntaxiques. Thèse de doctorat, École
Nationale des Sciences de l’Informatique, Université de la Manouba, Tunisie, 2010.
[39] A. Bénel. Consultation assistée par ordinateur de la documentation en sciences
humaines : considérations épistémologiques, solutions opératoires et applications à
l’archéologie. Thèse de doctorat, Institut National des Sciences Appliquées (INSA),
Lyon, France, 2003.
[40] M. Bergman. Comprehensive listing of 250 semantic web tools. http://mkbergman.
com/?p=291, 2006.
153
BIBLIOGRAPHIE
[41] T. Berners-Lee, J. Hendler, and O. Lassila. The Semantic Web. Scientific American,
2001.
[42] D. Bikel. Multilingual statistical parsing engine. http://www.cis.upenn.edu/
~dbikel/software.html#stat-parser, 2008.
[43] C. M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press,
New York, 1996.
[44] E. Blomqvist and A. Ohgren. Constructing an enterprise ontology for an automotive
supplier. Engineering Applications of Artificial Intelligence, 21(3) :386–397, 2008.
[45] G. Bordogna and G. Pasi. A flexible multi criteria information filtering model. Soft
computing - A fusion of foundations, methodologies and applications, 14(8) :799–809,
2009.
[46] I. Boujelbene, S. Mesfar, and A. Ben Hamadou. Arabic Compound Nouns Proces-
sing : Inflexion and Tokenization. In Proceedings of NooJ Conference, Komotini,
Greece, May 27-29, 2010.
[47] S. Boulaknadel. Utilisation des syntagmes nominaux dans un système de recherche
d’information en langue arabe. In Conférence Francophone en Recherche d’Infor-
mation et Applications (CORIA), pages 341–346, Lyon, France, 15-17 Mars, 2006.
[48] S. Boulaknadel, B. Daille, and D. Aboutajdine. A multi-word term extraction pro-
gram for arabic language. In Proceedings of the 6th International Conference on
Language Resources and Evaluation (LREC), pages 1485–1488, Marrakech, Mo-
rocco, May 17-23, 2008.
[49] I. Bounhas. Un analyseur de contenu des documents scientifiques du web. Mémoire
de Mastère, Ecole Nationale des Sciences de l’Informatique, Universté de la Ma-
nouba, 2006.
[50] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Toward a computer study of
the reliability of arabic stories. Journal of the American Society for Information
Science and Technology, 61(8) :1686–1705, 2010.
[51] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Arabonto : Experimenting a
new distributional approach for building arabic ontological resources. International
Journal of Metadata, Semantics and Ontologies (IJMSO), 6(2) :81-95 , 2011.
[52] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Organizing contextual know-
ledge for arabic text disambiguation and terminology extraction. Knowledge Orga-
nization, 38(6) :473–490, 2011.
[53] I. Bounhas and Y. Slimani. A hybrid approach for arabic multi-word term ex-
traction. In Proceedings of the IEEE International Conference on Natural Language
Processing and Knowledge Engineering (IEEE NLP-KE), pages 429–436, Dalian,
China, August 21-23, 2009.
[54] I. Bounhas and Y. Slimani. A social approach for semi-structured document mo-
deling and analysis. In Proceedings of the International Conference on Knowledge
Management and Information Sharing (KMIS), pages 95–102, Madeira, Portugal,
October 6-8, 2009.
[55] I. Bounhas and Y. Slimani. A hierarchical approach for semi-structured document
indexing and terminology extraction. In Proceedings of the International Conference
on Information Retrieval and Knowledge Management (CAMP), pages 314–319,
Shah-Alam, Malaysia., March 16-18, 2010.
154
BIBLIOGRAPHIE
[56] D. Bourigault. LEXTER, ”un logiciel d’EXtraction de TERminologie, Application

à l’acquisition des connaissances à partir de textes”. Thèse de doctorat, Ecole des
Hautes Études en Sciences Sociales, Paris, France, 1994.
[57] D. Bourigault. Upery : un outil d’analyse distributionnelle étendue pour la construc-
tion d’ontologies à partir de corpus. In 9ème Conférence annuelle sur le Traitement
Automatique des Langues Naturelles (TALN), pages 75–84, Nancy, France, Juin
2002.
[58] D. Bourigault, C. Fabre, C. Frérot, M. P. Jacques, and S. Ozdowska. Syntex, ana-
lyseur syntaxique de corpus. In Actes des 12èmes journées sur le Traitement Auto-
matique des Langues Naturelles, Dourdan, France, 2005.
[59] D. Bourigault and G. Lame. Analyse distributionnelle et structuration de terminolo-
gie, application à la construction d’une ontologie documentaire du droit. Traitement
automatique des langues (TAL), 43(1) :129–150, 2002.
[60] A. Brini. Un modèle de recherche d’information basé sur les réseaux possibilistes.
Thèse de doctorat, Université Paul Sabatier, France, Toulouse, 2005.
[61] J. Brown. Hadith : Muhammad’s Legacy in the Medieval and Modern World. One-
world Publications, London, England, 2009.
[62] M. Brunzel and M. Spiliopoulou. Discovering multi terms and co-hyponymy from
XTHML documents with XTREEM. In Workshop on Knowledge Discovery from
XML Documents (KDXD 2006), pages 22–32, Singapur, April 9, 2006. Springer
LNCS 3915.
[63] J.-P. Cahier and M. Zacklad. Expérimentation d’une approche coopérative et mul-
tipoint de vue de la construction et de l’exploitation de catalogues commerciaux
”actifs”. In Actes de la Conférence Extraction et Gestion des Connaissances, pages
221–226, Montpellier, France, 21-23 Janvier 2002.
[64] J.-P. Cahier, M. Zacklad, and A. Monceaux. Une application du web socio-
sémantique à la définition d’un annuaire métier en ingénierie. In 15èmes Journées
Francophones d’Ingénierie des Connaissances, pages 29–40, Lyon, France, Mai 2004.
[65] J. Caussanel, J. P. Cahier, M. Zacklad, and J. Charlet. Les topic maps sont-ils un
bon candidat pour l’ingénierie du web sémantique ? In Actes des 13èmes Journées
Francophones sur l’Ingénierie des Connaissances, pages 233–252, Rouen, France,
Mai 2002.
[66] N. Chaâben Kammoun, L. Hadrich Belguith, and A. Ben Hamadou. The morph2
new version : A robust morphological analyzer for arabic texts. In Actes des 10èmes
Journées internationales d’analyse statistique des données, pages 1033–1044, Rome,
Italy, June, 9-11 2010.
[67] J. Charlet, B. Bachimont, and M. C. Jaulent. Building medical ontologies by termi-
nology extraction from texts : An experiment for the intensive care units. Computer
in Biology and Medicine, 36(7) :857–870, 2006.
[68] J. Charlet, P. Laublet and C. Reynaud. Web sémantique, action spécifique 32, v3.
Rap. tech., Département Sciences et Technologies de l’Information et de la Com-
munication (STIC), Centre National de la Recherche Scientifique (CNRS), France,
2003.
[69] J. Chen, Y. Hao, and S. Wang. Improving information reliability in mass custo-
mization of services : a case study from china’s catering services. In the 6th Wu-
155
BIBLIOGRAPHIE
han International Conference on E-Business, pages 87–92, Wuhan, Hubei province,

China, May 2007.
[70] F. Chevalier, S. Huot, and J. D. Fekete. Visualisation de mesures agrégées pour
l’estimation de la qualité des articles wikipedia. In Conférence Internationale Fran-
cophone sur l’Extraction et la Gestion des Conaissances (EGC’10), pages 351–362,
Hammamet, Tunisia, 26-29 Janvier, 2010.
[71] N. Chinchor. Overview of muc-7. In E. Voorhees, editor, Proceedings of the Seventh
Message Understanding Conference (MUC-7), San Francisco, CA, April 7-9, 1998.
[72] K. Church, W. Gale, P. Hanks, and D. Hindle. Using statistics in lexical analysis.
In U. Zernik, editor, Lexical Acquisition, Exploiting On-Line Resources to Build a
Lexicon, pages 115–164. Hillsdale, Michigan, USA, 1991.
[73] P. Cimiano and J. Volker. Text2onto - a framework for ontology learning and
data-driven change discovery. In Proceedings of the Tenth International Conference
on Applications of Natural Language to Information Systems, volume 3513, pages
227–238, Berlin, Germany, June 15-17, 2005.
[74] T. Cohen and D. Widdows. Empirical distributional semantics : Methods and bio-
medical applications. Journal of Biomedical Informatics, 42(2) :390–405, 2009.
[75] S. Connolly. 7 key attributes of social web applications. http://connollyshaun.
blogspot.com/2008/05/7-key-attributes-of-social-web.html, 2008.
[76] T. M. Cover and P. E. Hart. Nearest neighbour pattern classification. IEEE Tran-
sactions on Information Theory, 13(1) :21–27, 1967.
[77] J. Cowie and A. Abdelali. Multi-language text pre-processor user guide. Technical
report, Computing Research Laboratory, New Mexico State University, USA, 2004.
[78] M. Crampes and S. Ranwez. Ontology-supported and ontology-driven conceptual
navigation on the world wide web. In The 11th ACM Conference on Hypertext
(HT’00), pages 191–199, San Antonio, Texas, USA, May 30 - June 03, 2000.
[79] E. Crestan and C. de Loupy. Browsing help for a faster retrieval. In Proceedings
of the 20th International Conference on Computational Linguistics (COLING ’04),
pages 576–582, Geneva, Switzerland, August 23-27, 2004.
[80] C. Da Costa Pereira and G. Pasi. Fuzzy indices of document reliability. Applications
of Fuzzy Sets Theory, Lecture Notes in Computer Science, 4578 :110–117, 2007.
[81] B. Daille. Approche mixte pour l’extraction de terminologie : statistique lexicale et
filtres linguistiques. Thèse de doctorat, Université Paris 7, France, 1994.
[82] K. Darwish. Al-stem : A light arabic stemmer for cp1256 and utf8 encoding. http:
//www.glue.umd.edu/~kareem/research/download/stem.tar.gz, 2008.
[83] J. De Bruin, T. K. Cocx, W. A. Kosters, J. F. J. Laros, and J. N. Kok. Data mining
approaches to criminal career analysis. In Proceedings of the 6th IEEE Internatio-
nal Conference on Data Mining (ICDM’2006), pages 171–177, Washington, USA,
December 18-22 , 2006.
[84] S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, and R. Harshman. In-
dexing by latent semantic analysis. Journal of the American Society for Information
Science, 41(6) :391–407, 1990.
[85] S. Desprès and S. Szulman. Merging of legal micro-ontologies from European direc-
tives. Journal of Artificial Intelligence and Law, 15(2) :187–200, 2007.
156
BIBLIOGRAPHIE
[86] M. T. Diab, H. Kadri, and D. Jurafsky. Automatic tagging of arabic text : From raw
text to base phrase chunks. In Proceedings of The 5th Meeting of the North Ame-
rican Chapter of the Association for Computational Linguistics/Human Language
Technologies Conference (HLT-NAACL04), pages 149–152, Boston, Massachusetts,
USA, May 2-7, 2004.
[87] J. Dichy. Spécificateurs engendrés par les traits [±ANIME], [±HUMAIN],
[±CONCRET] et structures d’arguments en arabe et en français. In Actes du col-
loque ”De la mesure dans les termes”, pages 151–181, Université Lumière Lyon 2,
France, 23-25 Septembre, 2005.
[88] J. Dichy, A. Braham, S. Ghazali, and M. Hassoun. La base de connaissances lin-
guistique DIINAR 1 (dictionnaire informatisé de l’arabe - version 1). In Colloque
international sur le traitement automatique de l’arabe, pages 45–56, Tunis, Tunisia,
18-20 Avril, 2002.
[89] J. Dichy and A. Fargaly. Roots & patterns vs. stems plus grammar-lexis specifi-
cations : on what basis should a multilingual lexical database centred on arabic be
built ? In Proceedings of the Workshop on Machine Translation for Semitic Lan-
guages : Issues and Approaches, pages 1–8, New-Orleans, USA, September 23-27,
2003.
[90] R. Dieng, O. Corby, F. Gandon, A. Giboin, J. Golebiowska, N. Matta and M. Ri-
biere. Méthodes et outils pour la gestion des connaissances : une approche pluridis-
ciplinaire du knowledge management. Dunod Edition, 2ème édition, 2001.
[91] L. Ding, X. Li, and Y. Xing. Pushing scientific documents by discovering interest in
information flow within e-science knowledge grid. In 4th International Conference on
Grid and Cooperative Computing (GCC), pages 498–510, Beijing, China, November
30 - December 3, 2005.
[92] O. Dridi. Plate-forme de Recherche Intelligente dans un Référentiel de Ressources
Contextualisées et Annotées sémantiquement à base d’Ontologies : Application au
domaine médical. Thèse de doctorat, École Nationale des Sciences de l’Informatique,
Université de la Manouba, Tunisie, 2010.
[93] D. Dubois and H. Prade. Théorie des possibilités : application à la représentation
des connaissances en informatique. Masson, Paris, 1987.
[94] D. Dubois and H. Prade. Possibility Theory. Plenum Press, New York, 1988.
[95] D. Dubois and H. Prade. Possibility Theory : An Approach to Computerized Pro-
cessing of Uncertainty. Plenum Press, New York, 1994.
[96] D. Dubois and H. Prade. Possibility theory. qualitative and quantitative aspects.
In D. Gabbay and P. Smets, editors, Handbook on Defeasible Reasoning and Uncer-
tainty Management Systems, pages 169–226. Kluwer Academic, Dordrecht, 1998.
[97] T. Dunning. Accurate methods for the statistics of surprise and coincidence. Com-
putational Linguistics, 19(1) :61–74, 1994.
[98] B. Elayeb. SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste
des Documents Web. Thèse de doctorat, Institut National Polytechnique de Tou-
louse, France & Ecole Nationale des Sciences de l’Informatique, Université de la
Manouba, Tunisie, 2009.
[99] B. Elayeb, F. Evrard, M. Zaghdoud, and M. Ben Ahmed. Towards an intelligent
possibilistic web information retrieval using multiagent system. The International
157
BIBLIOGRAPHIE
Journal of Interactive Technology and Smart Education (ITSE), Special issue : New
learning support systems, 6(1) :40–59, 2009.
[100] S. Elkateb, W. J. Black, P. Vossen, H. Rodriguez, A. Pease, M. Alkhalifa, and
F. Christiane. Building a WordNet for arabic. In The 5th Conference on Language
Resources and Evaluation (LREC), pages 29–34, Genoa, Italy, May 24-26, 2006.
[101] O. Ertzscheid and G. Gallezot. Etude exploratoire des pratiques d’indexation sociale
comme une renégociation des espaces documentaires. vers un nouveau big bang
documentaire ? In Document numérique et société, pages 1–11, Fribourg, Suisse,
20-21 septembre, 2006.
[102] G. Falquet and J. P. Hurni. Content and interface models for multi point of view
scientific hyperbooks. Technical report, University of Genova, 2001.
[103] G. Falquet, C. L. M. Jiang, and J. C. Ziswiler. Intégration d’ontologies pour l’accès
à une bibliothèque d’hyperlivres virtuels. In 14ème Congrès Francophone AFRIF-
AFIA de Reconnaissance des Formes et Intelligence Artificielle (RFIA 2004), Tou-
louse, France, 28 - 30 Janvier, 2004.
[104] H. Fehri, K. Haddar, and A. Ben Hamadou. Proposal of a framework for the re-
presentation of Arabic named entities to use the transfer approach with NooJ. In
Proceedings of NooJ Conference, Komotini, Greece, May 27-29, 2010.
[105] H. Fehri, O. Piton, and A. Ben Hamadou. Extraction of relations between Arabic
Named Entities using NooJ platform : Case of sport domain. In Proceedings of NooJ
Conference, Komotini, Greece, May 27-29, 2010.
[106] M. Fellah. Modélisation et implantation d’une bibliothèque virtuelle pour un Intra-
Web Communautaire. Thèse de doctorat, École Nationale des Sciences de l’Infor-
matique, Université de la Manouba, Tunisie, 2010.
[107] M. Fernandez, A. Gomez-perez, and N. Juristo. Methontology : from ontological
art towards ontological engineering. In Spring Symposium Series on Ontological
Engineering (AAAI’97), pages 33–40, Stanford, USA, March 24-26, 1997.
[108] A. Freeman. Brill’s POS tagger and a morphology parser for arabic. In ACL
Workshop on Arabic Language Processing, Toulouse, France, July 6, 2001.
[109] F. Fürst. L’ingénierie ontologique. Rap. tech., Institut de Recherche en Informatique
de Nantes, France, 2002.
[110] G. Salton The SMART retrieval system. Prentice-Hall, Englewood Cliffs, N J, 1971.
[111] G. Salton, E. A. Fox, and H. Wu. Extended boolean information retrieval. Com-
munications of the ACM, 26(12) :1022–1036, 1983.
[112] L. Gaëlle. Etat de l’art ontologies et intégration/fusion d’ontologies. Rap. tech.,
Centre de Recherche et Développement de France Télécom (FTR&D), Paris, France,
2002.
[113] B. Gaume. Balades aléatoires dans les petits mondes lexicaux. Information Inter-
action Intelligence (I3), 4(2) :39–96, 2004.
[114] B. Gaume, K. Duvignau, and J. M. Mas. Petits mondes hiérarchiques et dynamiques
d’acquisition pour l’enseignement du lexique. In Technologies langagières et appren-
tissage des langues : Actes du colloque les nouvelles technologies et le traitement
automatique des langues au coeur des dispositifs d’apprentissage, 72ème Congrès de
l’ACFAS, pages 105–123, Montréal, Canada, 11-12 Mai, 2006.
158
BIBLIOGRAPHIE
[115] B. Gaume, N. Hathout, and P. Muller. Désambiguisation par proximité structu-

relle. In Traitement Automatique du Language Naturel (TALN), pages 205–214,
Fes, Maroc, 19-21 avril, 2004.
[116] S. Geva, J. Kamps, and A. Trotman (Eds.). INEX 2010 pre-proceedings, initia-
tive for the evaluation of XML documents. Huize Bergen, Vught, the Netherlands,
December 2010.
[117] M. Ghazizadeh, M. H. Zahedi, M. Kahani, and B. Minaei Bidgoli. Fuzzy expert
system in determining hadith validity. In Advances in Computer and Information
Sciences and Engineering : Proceedings of the International Conference on Systems,
Computing Sciences and Software Engineering (SCSS 2007), pages 354–359, Brid-
geport, USA, December 3-12, 2008.
[118] M. Gilens and C. Hertzman. Corporate ownership and news bias : Newspaper
coverage of the 1996 Telecommunications Act. The Journal of Politics, 62(2) :369–
386, 2000.
[119] C. Ginzburg. Traces : Racines d’un paradigme indiciaire. In Mythes, Emblèmes,
Traces, Morphologie et histoire, pages 139–180. Flammarion, Paris, 1989.
[120] A. Gomez-perez. Développements récents en matière de conception, de maintenance
et d’utilisation des ontologies. Terminologies Nouvelles, 19 :9–20, 1999.
[121] T. Gruber. A translation approach to portable ontology specifications. Knowledge
Acquisition, 5(2) :199–220, 1993.
[122] T. Gruber, S. Vemuri, and J. Rice. Model-based virtual document generation.
International Journal of Human-Computer Studies, Special issue : innovative appli-
cations of the World Wide Web, 46(6), 1997.
[123] N. Guarino and P. Giaretta. Ontologies and knowledge bases, towards a termino-
logical clarification. In N. J. I. Mars, editor, Towards very large knowledge bases :
knowledge building and knowledge sharing, pages 25–32. IOS Press, 1995.
[124] J. Guyot, S. Radhouani, and G. Falquet. Conceptual indexing for multilingual
information retrieval. Lecture Notes in Computer Science, 4022 :102–112, 2005.
[125] N. Habash and O. Rambow. Arabic tokenization, morphological analysis, and part-
of-speech tagging in one fell swoop. In The Proceedings of the Conference of Ame-
rican Association for Computational Linguistics (ACL), pages 573– 580, University
of Michigan, Ann Arbor, USA, June 25-30, 2005.
[126] N. Habash and O. Rambow. Arabic diacritization through full morphological tag-
ging. In The Proceedings of the North American chapter of the Association for Com-
putational Linguistics (NAACL), pages 53–56, Rochester, New York, USA, 2007.
[127] N. Habash, O. Rambow, and R. Roth. MADA + TOKAN : A toolkit for arabic toke-
nization, diacritization, morphological disambiguation, POS tagging, stemming and
lemmatization. In The Proceedings of the 2nd International Conference on Arabic
Language Resources and Tools (MEDAR), pages 102–109, Cairo, Egypt, 2009.
[128] J. Hajic, O. Smrz, T. Buckwalter, and H. Jin. Feature-based tagger of approxima-
tions of functional arabic morphology. In The Fourth Workshop on Treebanks and
Linguistic Theories, pages 53–64, University of Barcelona, Spain, December 9-10,
2005.
[129] M. T. Hannan, L. Pólos, and G. R. Carroll. Logics of Organization Theory : Au-
diences, Codes, and Ecologies. Princeton University Press, Princeton, 2007.
159
BIBLIOGRAPHIE
[130] B. Haouari, N. Ben Amor, Z. Elouedi, and K. Mellouli. Naı̈ve possibilistic network
classifiers. Fuzzy Sets and Systems, 160(22) :3224–3238, 2009.
[131] F. Harrag, E. El-Qawasmeh, and P. Pichappan. Improving arabic text categoriza-
tion using decision trees. In First International Conference on Networked Digital
Technologies (NDT’09), Ostrava, Czech Republic, July 29 - 31, 2009.
[132] F. Harrag and A. Hamdi-Cherif. UML modeling of text mining in arabic language
and application to prophetic traditions ”hadith”. In Proc. of 1st Int. Symp. on
Computers and Arabic Language, pages 11–20, Riyadh, Arabie Saudite, November
10-12, 2008.
[133] F. Harrag, A. Hamdi-Cherif, A. M. S. Al-Salman, and E. El-Qawasmeh. Experiments
in improvement of arabic information retrieval. In 3rd International Conference on
Arabic Language Processing (CITALA), Rabat, Morocco, May 4-5, 2009.
[134] Z. Harris. Mathematical Structures of Language. John Wiley & Sons, New-York,
1968.
[135] T. Z. Hasanain. Automatic question answering system for arabic language textual
data. Master’s thesis, Faculty of Computing and Information Technology, Arabie
Saoudite 2009.
[136] M. Hattab, B. Haddad, M. Yaseen, A. Duraidi, and A. Abu Shmais. Addaall arabic
search engine : Improving search based on combination of morphological analysis
and generation considering semantic patterns. In Proceedings of the 2nd Interna-
tional Conference on Arabic Language Resources & Tools, pages 159–162, Cairo,
Egypt, April 22-23, 2009.
[137] M. Hazman, S. R. El-Beltagy, and A. Rafea. Ontology learning from domain speci-
fic web documents. International Journal of Metadata, Semantics and Ontologies,
4(1/2) :24 – 33, 2009.
[138] T. Helmy and A. Daud. Intelligent agent for information extraction from arabic text
without machine translation. In Proceedings of the 1st International Workshop on
Cross-Cultural and Cross-Lingual Aspects of the Semantic Web, volume 1, Shanghai,
China, November 7-8, 2010.
[139] T. Herrmann, M. Hoffmann, G. Kunau, and K.-U. Loser. A modeling method for
the development of groupware applications as socio-technical systems. Behaviour &
Information Technology, 23(2) :23, 2004.
[140] S. Iksal and S. Garlatti. Spécification déclarative pour des documents virtuels per-
sonnalisables. In Actes du congrès Documents Virtuels Personnalisables (DVP),
pages 127–140, Brest, France, 2002.
[141] J. Quinlan. C4.5 : Programs for machine learning. San Francisco : Morgan Kauf-
mann, 1993.
[142] C. Jacquemin. Variation terminologique : Reconnaissance et acquisition automa-
tiques de termes et de leurs variantes en corpus. Thèse d’habilitation, Université
de Nantes, France, 1997.
[143] X. Jiang and A.-H. Tan. CRCTOL : A semantic-based domain ontology learning
system. Journal of the American Society for Information Science and Technology
(JASIST), 61(1) :150–168, 2010.
[144] M. R. Kala Jih and H. S. Knibi. Dictionary of Jurists- language. Dar Ennafeis,
Beirut, Libanon, 2nd edition, 1988.
160
BIBLIOGRAPHIE
[145] F. Kboubi. Médiation et Navigation Sémantiques dans un Corpus Textuel an-

noté conceptuellement et thématiquement. Thèse de doctorat, École Nationale des
Sciences de l’Informatique, Université de la Manouba, Tunisie, 2010.
[146] S. Khoja. Khoja arabic stemmer. http://zeus.cs.pacificu.edu/shereen/
research.htm, 2001.
[147] D. Klein and C. D. Manning. Accurate unlexicalized parsing. In The 41st Meeting
of the Association for Computational Linguistics, pages 423–430, Sapporo, Japan,
July 7-12, 2003.
[148] D. Klein and C. D. Manning. Fast exact inference with a factored model for natural
language parsing. In Proceedings of the 16th Annual Conference on Advances in
Neural Information Processing Systems (NIPS), volume 15, pages 3–10, Cambridge,
MA, December 9-11, 2003.
[149] S. Knight and J. Burn. Developing a framework for assessing information quality
on the world wide web. Informing Science Journal, 8 :59–73, 2005.
[150] H. W. Kuhn. Variants of the hungarian method for assignment problems. Naval
Research Logistics Quarterly, 3(4) :253–258, 1956.
[151] C.-V. Langlois and C. Seignobos. Introduction aux études historiques. Paris : Kimé,
1992.
[152] L. Larkey, N. Abdul Jaleel, and M. Connell. What’s in a name ? proper names in
arabic cross language information retrieval. Technical report, Center for Intelligent
Information Retrieval (CIIR), Massachusetts, USA, IR-278, 2003.
[153] L. S. Larkey, L. Ballesteros, and M. E. Connell. Improving stemming for arabic infor-
mation retrieval : Light stemming and cooccurrence analysis. In The 25th Annual
International Conference on Research and Development in Information Retrieval
(SIGIR), pages 275–282, Tampere, Finland, August 11-15, 2002.
[154] O. Le Deuff. Folksonomies : Les usagers indexent le web. Bulletin des Bibliothèques
de France (BBF), 4 :66–70, 2006.
[155] X. Lelubre. A scientific arabic terms data base : Linguistic approach for a represen-
tation of lexical and terminological features. In ACL 39th Annual Meeting, pages
66–72, Toulouse, France,July 9-11, 2001.
[156] C. A. Lynch. When documents deceive : Trust and provenance as new factors
for information retrieval in a tangled web. Journal of the American Society for
Information Science and Technology, 52(1) :12–17, 2001.
[157] M. Frisse. Searching for information in a hypertext medical handbook. Communi-
cation of the ACM, 31(7) :880–886, 1988.
[158] M. Maamouri, A. Bies, J. Hubert, and T. Buckwalter. Arabic treebank : Part
1 v 2.0. http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=
LDC2003T06, 2003.
[159] M. Maamouri, A. Bies, S. Kulick, F. Gaddeche, W. Mekki, S. Krouna, and B. Bou-
ziri. Arabic treebank : Part 3 v 3.0. http://www.ldc.upenn.edu/Catalog/docs/
LDC2009T24/treebank/arabic-treebank-readme-1.htm, 2008.
[160] G. Madey, V. Freeh, and R. Tynan. Modeling the f/oss community : A quantitative
investigation. In S. Koch, editor, Free/Open Source Software Development. New
York, USA : Idea Publishing, 2004.
161
BIBLIOGRAPHIE
[161] V. Malaisé. Méthodologie linguistique et terminologique pour la structuration d’on-

tologies différentielles à partir de corpus textuels. Thèse de doctorat, Université
Paris 7 - Denis Diderot, France, 2005.
[162] M. T. Maliappis. Applying an agricultural ontology to web-based applications.
International Journal of Metadata, Semantics and Ontologies, 4(1-2) :133–140, 2009.
[163] Z. Marx, I. Dagan, and E. Eli Shamir. A generalized framework for revealing ana-
logous themes across related topics. In Proceedings of the Conference on Human
Language Technology and Empirical Methods in Natural Language Processing, pages
979 – 986, Vancouver, British Columbia, Canada, October 6-8, 2005.
[164] S. Mesfar. Analyse morpho-syntaxique automatique et reconnaissance des entités
nommées en arabe standard. Thèse de doctorat, Université Franche-Comté, France,
2008.
[165] R. Mihalcea and R. Radev. Graph-based algorithms for information retrieval and
natural language processing. In Recent Advances in Natural Language Processing
(RANLP), Borovetz, Bulgaria, September, 2005.
[166] M. Missikoff, P. Velardi, and P. Fabriani. Text mining techniques to automatically
enrich a domain ontology. Applied Intelligence, 18(3) :323–340, 2003.
[167] R. Mizoguchi and J. Bourdeau. Le rôle de l’ingénierie ontologique dans le domaine
des EIAH. Revue des Sciences et Technologies de l’Information et de la Communi-
cation pour l’Education et la Formation (STICEF), 11, 2004.
[168] S. Mizzaro. Relevance : the hole history. Journal of the American Society for
Information Science, 48(9) :810–832, 1997.
[169] C. Mokbel, H. Greige, C. Sarraf, and M. Kurimo. Arabic documents indexing and
classification based on latent semantic analysis and self-organizing map. In The
IEEE Workshop on Natural Langage Processing in Arabic, Beirut, Lebanon, June,
2001.
[170] F. Moreau. Revisiter le couplage traitement automatique des langues et recherche
d’information. Thèse de doctorat, Université de Rennes 1, France, 2004.
[171] J. Munkres. Algorithms for the assignment and transportation problems. SIAM
Review, 5(1) :32–38, 1957.
[172] N. Fuhr. Probabilistic models in information retrieval. The Computer Journal,
35(3) :243–255, 1992.
[173] F. Naumann and C. Rolker. Assessment methods for information quality criteria.
In Proceedings of the International Conference on Information Quality (IQ), pages
396–403, Cambridge, MA, USA, October 20-22, 2000.
[174] M. E. J. Newman. The structure and function of complex networks. SIAM Review,
45(2) :167–256, 2003.
[175] Z. Noorian and M. Ulieru. The state of the art in trust and reputation systems : A
framework for comparison. Journal of Theoretical and Applied Electronic Commerce
Research (JTAER), 5(2) :97–117, 2010.
[176] D. Oberle, R. Volz, B. Motik, and S. Staab. An extensible ontology software envi-
ronment. In S. Staab and R. Studer, editors, Handbook on Ontologies, chapter 3,
pages 311–333, 2004, Springer-Berlin.
162
BIBLIOGRAPHIE
[177] P. Pantel, E. Crestan, A. Borkovsky, A.-M. Popescu, and V. Vyas. Web-scale distri-
butional similarity and entity set expansion. In Proceedings of the 2009 Conference
on Empirical Methods in Natural Language Processing, pages 938–947, Singapore,
August 6-7, 2009.
[178] P. Pantel and D. Ravichandran. Automatically labeling semantic classes. In Procee-
dings of North American Chapter of the Association for Computational Linguistics -
Human Language Technologies (HLT/NAACL), pages 321–328, Boston, MA, USA,
May 2-7, 2004.
[179] G. Paquette, I. de la Teja, K. Lundgren-Cayrol, M. Léonard, and D. Ruelland. La
modélisation cognitive, un outil de conception des processus et des méthodes d’un
campus virtuel. Journal of distance education, 17(3) :4–28, 2002.
[180] M. Parker, C. Stofberg, and R. De la Harpe. Data quality : how the flow of data
influences data quality in a small to medium medical practice. In Community Infor-
matics for Developing Countries : Understanding and organizing for a participatory
future information society, Cape Town, South Africa, August, August 31 - Septem-
ber 02, 2006.
[181] M. T. Pazienza, M. Pennacchiotti, and F. M. Zanzotto. Terminology extraction : An
analysis of linguistic and statistical approaches. In S. Sirmakessis, editor, Knowledge
Mining Series : Studies in Fuzziness and Soft Computing, pages 255–279. Berlin,
Heidelberg : Springer, 2005.
[182] J. Pearl. Probabilistic reasoning in intelligent systems : networks of plausible infe-
rence. Morgan Kaufmann, San Francisco, California, 1988.
[183] F. Peguiron and O. Thiery. Modélisation des acteurs, des ressources documentaires :
application à un entrepôt universitaire. In Colloque Veille Stratégique, Scientifique
et Technologique (VSST), Lille, France, 16-17 Janvier, 2006.
[184] V. Piek, W. Peters, and J. Gonzalo. Towards a universal index of meaning. In
Proceedings of the ACL-99 Siglex workshop, pages 81–90, University of Maryland,
USA, June, 1999.
[185] D. Pinto, P. Rosso, Y. Benajiba, A. Ahachad, and H. Jiménez-salazar. Word sense
induction in the arabic language : A self-term expansion based approach. In Pro-
ceedings of the 7th Conference. on Language Engineering, The Egyptian Society Of
Language Engineering (ESOLE), pages 235–245, Cairo, Egypt, December 5-6, 2007.
[186] Y. Portrait. Modélisation de la structure du langage. Rap. tech., Institut de Re-
cherche en Informatique de Toulouse (IRIT), France, 2003.
[187] H. Prade and C. Testemale. Application of possibility and necessity measures to
documentary information retrieval. In R. Bouchon, B. Yager, editors, Uncertainty
in Knowledge-Based Systems, pages 265–274. Berlin, Springer-Verlag, 1987.
[188] Z. Qawaqneh, E. El-Qawasmeh, and A. Kayed. New method for ranking arabic
web sites using ontology concepts. In Proceedings of Sixth International Conference
on Digital Information Management, pages 649–656, The University of Melbourne,
Australia, September 26-28, 2007.
[189] J. R. Quinlan. Introduction to decision trees. Machine Learning, 1(1) :81–106, 1986.
[190] K. Rajaraman and A.-H. Tan. Mining semantic networks for knowledge discovery.
In Proceedings of the 3rd IEEE International Conference on Data Mining, pages
633–636, Washington, DC, USA, November 19-22, 2003.
163
BIBLIOGRAPHIE
[191] S. Ranwez and M. Crampes. Conceptual document and hypertext documents are
two different forms of virtual document. In Workshop on Virtual Document, Hy-
pertext Functionality and the Web, pages 35–44, Toronto, May 11, 1999.
[192] E. Ravasz and A. L. Barabasi. Hierarchical organisation in complex networks.
Physical Review E, 67 :026112-026118, 2003.
[193] M. Richardson, R. Agrawal, and P. Domingos. Trust management for the semantic
web. Lecture Notes in Computer Science, 2870 :351–368, 2003.
[194] S. Y. Rieh. Judgment of information quality and cognitive authority in the
web. Journal of the American Society for Information Science and Technology,
53(2) :145–161, 2002.
[195] H. Rodriguez, D. Farwell, J. Farreres, M. Bertran, M. Alkhalifa, and M. A. Marti.
Arabic WordNet : Semi-automatic extensions using bayesian inference. In Procee-
dings of the the 6th Conference on Language Resources and Evaluation (LREC),
pages 1702–1706, Marrakech, Morocco, May 17-23, 2008.
[196] M. Romney and G. W. Romney. Security & reliability are provided by a web-
based classroom electronic document management process. In Proceedings of the
6th International Conference on Information Technology Based Higher Education
and Training (ITHET), pages T3A/1 – T3A/4, Piscataway, USA : IEEE, July 7-9,
2005.
[197] R. Roth, O. Rambow, N. Habash, M. T. Diab, and C. Rudin. Arabic morphological
tagging, diacritization, and lemmatization using lexeme models and feature ranking.
In Proceedings of Association for Computational Linguistics (ACL), pages 117–120,
Columbus, Ohio, June 15-20, 2008.
[198] L. Saadani and S. Bertrand-Gastaldy. Cartes conceptuelles et thésaurus : essai de
comparaison entre deux modèles de représentation issus de différentes traditions
disciplinaires. In congrès des sciences sociales et humaines du Canada, Université
d’Alberta Edmonton, Alberta, Canada, 28-30 Mai, 2000.
[199] M. Sahami. Learning limited dependence bayesian classifiers. In Proceedings of the
2nd International Conference on Knowledge Discovery and Data Mining (KDD),
pages 335–338, Portland, August 2-4, 1996.
[200] G. Salton and M. J. McGill. Introduction to modern information retrieval. McGraw-
Hill, Inc., New York, USA, 1986.
[201] L. Schamber, M. Eisenberg, and S. M. Nilan. A re-examination of relevance to-
ward a dynamic, situational definition. Information Processing and Management,
26(6) :755–776, 1990.
[202] F. Scharffe. Croisements sémantiques dans les graphes petits mondes. Thèse de
doctorat, Université Paul Sabatier Toulouse III, Toulouse, France, 2004.
[203] K. Shaalan and H. Raza. Person name entity recognition for arabic. In Proceedings
of the Workshop on Computational Approaches to Semitic Languages, pages 17–24,
Prague, Czech Republic, June 28-29, 2007.
[204] K. Shaalan and H. Raza. NERA : Named entity recognition for arabic. Journal
of the American Society for Information Science and Technology, 60(8) :1652–1663,
2009.
[205] G. Shafer. A mathematical theory of evidence. Princeton University Press, 1976.
164
BIBLIOGRAPHIE
[206] T. Slimani, B. Ben Yaghlane, and K. Mellouli. SSERank : semantic search engine
for page ranking based on the relations weight. International Journal of Metadata,
Semantics and Ontologies, 5(1) :72 – 84, 2010.
[207] F. Smadja, K. R. McKeown, and V. Hatzivassiloglou. Translating collocations for
bilingual lexicons : a statistical approach. Computational Linguistics, 22(1) :1–38,
1996.
[208] J. P. Spradley. The Ethnographic Interview. New York : Holt, Rinehart and Winston,
1979.
[209] B. Stvilia. A workbench for information quality evaluation. In Proceedings of the 8th
ACM/IEEE-CS Joint Conference on Digital libraries, page 469, Pittsburgh, USA,
June 16-20, 2008.
[210] B. Stvilia, L. Gasser, M. B. Twidale, and L. C. Smith. A framework for information
quality assessment. Journal of the American Society for Information Science and
Technology, 58(12) :1720–1733, 2007.
[211] S. Tazi and Y. Altawki. Création de documents virtuels : Cas des support de cours.
In Atelier Documents Virtuels Personnalisables : De la Définition à l’Utilisation,
11ème Conférence Francophone sur l’Interaction Homme-Machine (IHM), Mont-
pellier, France, 22-26 Novembre, 1999.
[212] C. Tricot. Cartographie des connaissances, des connaissances à la carte. Thèse de
doctorat, Université de Savoie, France, 2006.
[213] M. Uschold and M. King. Towards a methodology for building ontologies. In
Workshop on Basic Ontological Issues in Knowledge Sharing, International Joint
Conferences on Artificial Intelligence (IJCAI), Montréal, Canada, August 20-25,
1995.
[214] C. V. van Rijsbergen. Information Retrieval. 2nd Edition. London, Boston : But-
terworth, 1979.
[215] P. Velardi, M. Missikof, and P. Fabriani. Using text processing techniques to au-
tomatically enrich a domain ontology. In 2nd International Conference on Formal
Ontology in Information Systems (ACM FOIS), pages 270–284, Ogunquit, Maine,
USA, October 17-19, 2001.
[216] G. Vignaux. La recherche d’information : Panorama des questions et des recherches.
Rap. tech., Paris : CNRS-MSH, 2005.
[217] P. Viola and M. Narasimhand. Learning to extract information from semi-structured
text using a discriminative context free grammar. In Proceedings of the 28th Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval, pages 330–337, Salvador, Brazil, August 15-19, 2005.
[218] C. Watters and M. Shepherd. Research issues for virtual documents. In Workshop
on Virtual Document, Hypertext Functionality and the Web, pages 1–10, Toronto,
Canada, May 11, 1999.
[219] D. J. Watts and S. H. Strogatz. Collective dynamics of ”small-world” networks.
Nature, 393(3) :440–442, 1998.
[220] E. Wenger. Communities of Practice : Learning, Meaning and Identity. Cambridge
University Press, 1998.
[221] W. Woods. What’s in a Link : Foundations for Semantic Networks. Bolt, Beranek
and Newman, 1975.
165
BIBLIOGRAPHIE
[222] Y. Xu and Z. Chen. Relevance judgment : What do information users consider

beyond topicality ? Journal of the American Society for Information Science and
Technology, 57(7) :961–973, 2006.
[223] A. Yousfi, H. Aouragh, and J. Allal. Modèle p-contexte de classe pour la génération
automatique des phrases arabes. In Proceedings of the International Conference
on Web and Information Technologies (ICWIT), pages 170–174, Sidi Bel Abbes,
Algeria, June 29-30, 2008.
[224] Y. Yusoff, R. Ismail, and Z. Hassan. Adopting hadith verification techniques in to
digital evidence authentication. Journal of Computer Science, 6(5) :484–489, 2010.
[225] M. Zacklad. Introduction aux ontologies sémiotiques dans le web socio sémantique.
In 16èmes Journées Francophones d’Ingénierie des Connaissances, Grenoble : PUG,
1-3 Juin, 2005.
[226] M. Zacklad. Classification, thésaurus, ontologies, folksonomies : comparaisons du
point de vue de la recherche ouverte d’information (ROI). In 35ème Congrès annuel
de l’Association Canadienne des Sciences de l’Information. Partage de l’information
dans un monde fragmenté : Franchir les frontières (CAIS/ACSI 2007), Montréal,
Canada, 10-12 Mai, 2007.
[227] M. Zacklad. Processus de documentarisation dans les documents pour l’action
(DopA). In Actes du colloque ”Le numérique : impact sur le cycle de vie du docu-
ment”, pages 1–28, Montréal, Québec, 13-15 Octobre, 2004.
[228] M. Zacklad, A. Bénel, L. Zaher, C. Lejeune, J.-P. Cahier, and C. Zhou. Hypertopic :
une métasémiotique et un protocole pour le web socio-sémantique,. In Actes des
18ème Journées Francophones d’Ingénierie des Connaissances (IC), pages 217–228,
Grenoble, 4-6 Juillet, France, 2007.
[229] M. Zacklad, J.-P. Cahier, and X. Pétard. Du web cognitivement
sémantique au web socio sémantique - exigences représentationnelles de la
coopération. http://www.zacklad.org/articles_web_socio_semantique/
diapowebsemantiqueetSHS.pdf, 2008.
[230] M. Zacklad, J. Caussanel, and J.-P. Cahier. Proposition d’un méta-modèle basé
sur les topic maps pour la structuration et la recherche d’information. In Journées
Scientifiques Web sémantique, Ivry, France, 10-11 Octobre, 2002.
[231] L. A. Zadeh. Fuzzy sets. Information and control, 8(3) :338–353, 1965.
[232] L. A. Zadeh. Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems,
1(1) :3–28, 1978.
[233] L. Zaher, J.-P. Cahier, C. Lejeune, and M. Zacklad. Construction coopérative de
carte de thèmes : vers une modélisation de l’activité socio-sémantique. In Extraction
et Gestion des Connaissances (EGC 2007), pages 57–68, Namur, Belgique, 23-26
Janvier, 2007.
[234] S. Zaidi and M. T. Laskri. A cross-language information retrieval based on an
arabic ontology in the legal domain. In Proceedings of the International Confe-
rence on Signal-Image Technology and Internet-Based Systems (SITIS), pages 86–
91, Yaoundé, Cameroun, November 27 - December 1, 2005.
[235] X. Zhu and S. Gauch. Incorporating quality metrics in centralized/distributed in-
formation retrieval on the world wide web. In Proceedings of the 23rd Annual In-
ternational ACM SIGIR Conference on Research and development in information
retrieval, pages 288–295, New York, USA, July 24-28, 2000.
166
BIBLIOGRAPHIE
[236] I. Zitouni, J. Sorensen, X. Luo, and R. Florian. The impact of morphological stem-
ming on arabic mention detection and coreference resolution. In Proceedings of the
ACL Workshop on Computational Approaches to Semitic Languages (ACL), pages
63–70, Michigan, USA, June 25-30, 2005.
[237] N. Zniber and C. Cauvet. Des composants aux services pédagogiques. In Tech-
nologies de l’Information et de la Communication pour l’Enseignement (TICE
Méditerranée), pages 1–10, Marseille, France, 31 Mai - 2 Juin, 2007.
[238] A. Zouaghi and M. Zrigui. Considération du contexte pertinent pour améliorer les
performances d’un étiqueteur sémantique de la parole arabe spontanée. In Ren-
contres Jeunes Chercheurs (RJC), Toulouse , France, 27-28 Septembre, 2005.
[239] P. Zweigenbaum and N. Grabar. Liens morphologiques et structuration de termi-
nologie. In Actes des Journées Francophones d’Ingénierie des Connaissances (IC),
pages 325–334, Toulouse, France, 10-12 Mai, 2000.
167
Annexes
168
Annexe A
Implémentation de l’analyseur de
textes semi-structurés et exemple
d’application
Cette annexe présente un exemple de document réel (voir section 1) avec les étapes de
son analyse. Après avoir présenté notre analyseur générique de textes semi-structurés dans
la section 2, nous présentons les grammaires hors contexte obtenues avec cet outil lors de
l’analyse des hadiths. Nous illustrons l’utilisation de ces grammaires par des résultats sur
notre exemple de référence (voir section 3).
1 Exemple de document de référence

La Figure A.1 présente le document que nous allons utiliser pour illustrer les différentes
étapes de notre processus de cartographie. Le document contient le titre du chapitre de

purification ( èPAê¢Ë@ H
. A J»), un verset mis entre accolades, le titre d’un sous-chapitre (
¼AJ
J
» H. AK.), un hadith représenté par son numéro (3), sa chaı̂ne de narrateurs et son

Ë B@ ÈA¯ ).
contenu et un commentaire indiquant que le hadith est fiable ( iJ
m . qJ
Ë@
ú
GAJ

Pour simplifier l’analyse, le document est modifié en remplaçant l’expression ” é <Ë@ ÈñP
ÕÎð éJ
Ê« é<Ë@ úÎ” par ” ÈñQË@”.
2 Un analyseur générique de textes semi-structurés

Cet outil permet d’apprendre des grammaires hors contexte et de les utiliser pour
analyser des textes semi-structurés [54]. Il est basé sur le package Chaperon 1 qui se dis-
tingue par l’utilisation du langage XML pour représenter la grammaire, le lexique et le
résultat d’analyse. Notre outil est composé de trois modules comme illustré par la Fi-
gure A.2. Après avoir intégré Chaperon, nous avons développé une interface graphique
permettant à l’utilisateur de segmenter le texte, d’étiqueter ses blocks et de les regrouper
d’une manière hiérarchique. Le composant d’apprentissage assure la communication entre
cette interface et Chaperon. Dans les sous-sections suivantes, nous détaillerons les deux
composants que nous avons développés.
1. http://sourceforge.net/projects/chaperon
169
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION
Figure A.1 – Exemple de document et sa traduction en français.
Figure A.2 – Architecture de l’analyseur de textes semi-structurés.
2.1 L’interface graphique

Cette interface (illustrée par la Figure A.3) implémente des mécanismes qui permettent
d’accélérer le travail de l’utilisateur lors de l’apprentissage semi-automatique. Ses princi-
pales fonctionnalités sont :
– Segmentation du texte à analyser par simple clic.
170
– Etiquetage et groupement manuels de blocs.

– Etiquetage et groupement automatique de blocs.
– Modification et enregistrement des lexiques et des grammaires.
– Test des grammaires apprises.
Figure A.3 – L’interface graphique de l’analyseur de textes semi-structurés.
Nous illustrons ces opérations par les exemples suivants. Soit le texte suivant à analy-
ser : ” YK
P áK
. XAÔg” (Ahmed ibn Zeyd). En cliquant dans la zone de texte juste après le
mot ” XAÔg” (Ahmed), ce dernier est chargé dans la zone ”Mot courant ”. L’utilisateur peut
cliquer sur la liste des terminaux pour choisir ou définir le nouveau terminal (voir Figure
A.4 (a)). S’il clique sur ”Nouveau”, une nouvelle interface s’affiche pour lui permettre de
saisir le nouveau terminal (voir Figure A.4 (b)). Les éléments analysés sont ajoutés dans
la liste des résultats (voir Figure A.4 (c)). En effet, nous obtenons deux blocs étiquetés
171
(c)
(a) (b)
Figure A.4 – Exemple d’analyse lexicale.
”ism” ( XAÔg et YK
P ) et un bloc étiqueté ”ibn” ( áK
. ).
La Figure A.5 illustre le lexique au format XML appris suite à ces interactions.
Figure A.5 – Exemple de lexique.
L’utilisateur peut ensuite regrouper deux ou plusieurs éléments pour inférer les règles
de la grammaire. Il commence par sélectionner les éléments dans la liste, puis il utilise la
liste déroulante pour définir un nouveau non-terminal (voir Figure A.6(a)). Les éléments
sont regroupés comme illustré par la Figure A.6(b).
Après avoir regroupé tous les éléments, nous obtenons la grammaire au format XML
illustrée par la Figure A.7. Cette grammaire est composée de deux règles représentées
par la balise ”production” et un symbole de départ (start symbol=”Acteur”. Elle permet
donc de reconnaı̂tre la structure du nom d’un acteur.
(b)
(a)
Figure A.6 – Exemple de regroupement.
172
Figure A.7 – Exemple de grammaire.
(a) (b)
Figure A.8 – Exemple d’analyse semi-automatique.
Après l’étape d’apprentissage, l’utilisateur peut tester la grammaire sur d’autres exem-
ples. Prenons le nom suivant : ” XAÔg áK . YK
P ” (Zeyd ibn Ahmed). L’utilisateur peut lancer
l’analyse semi-automatique en spécifiant le nombre maximum d’éléments à regrouper dans
la liste ”Itérer” comme affiché par la Figure A.8(a). L’interface peut proposer des labels à
des blocs simples ou des groupements possibles applicables à un ensemble de blocs (voir
Figure A.8(b)).
L’utilisateur peut aussi lancer une analyse automatique complète en appuyant sur le
bouton ”Tester”. L’outil affiche le résultat de l’analyse au format XML (voir Figure A.9).
2.2 Le composant d’apprentissage

Ce composant permet d’extraire les informations à partir des fichiers des lexiques et
des grammaires. Il permet aussi de mettre à jour ces fichiers en ajoutant des lexèmes ou
des règles. Pour ce faire, il accède aux structures de données de Chaperon afin d’effectuer
les tâches suivantes :
– Extraire les entrées du lexique et les règles de la grammaire.
– Formater le lexique et la grammaire au format texte lisible par l’utilisateur.
173
Figure A.9 – Exemple de résultat d’analyse.
– Extraire la liste des terminaux et des non-terminaux à partir du lexique et des règles.
– Ajouter un lexème suite à un étiquetage manuel.
– Ajouter une règle suite à un regroupement manuel.
– Identifier le label d’un bloc pour le proposer à l’utilisateur.
– Etant donnée une liste de terminaux et de non-terminaux, identifier la règle qui doit
être appliquée et retourner le non-terminal approprié.
3 Analyse automatique des hadiths et reconnaissance

des entités nommées
Afin d’illustrer le processus d’analyse, nous présentons les grammaires apprises pour
reconnaı̂tre la structure des livres du hadith avec leur application sur notre document
de référence. L’usage de ces grammaires (voir les sections 3.1 à 3.8), fait l’objet d’une
évaluation qui consiste à calculer le taux d’intervention lors de l’apprentissage semi-
automatique (voir section B.3.9).
3.1 La grammaire des versets

L’identification des versets coraniques est relativement simple. En effet, dans les do-
cuments que nous avons utilisés, les versets sont encadrés par des accolades. La règle
suivante permet de modéliser cette structure :
Aya → expr aya ?, acc, words, accFer
Cette règle considère un verset comme une suite de mots (words) délimités par une
accolade ouvrante ”{” et une accolade fermante ”}”. Un verset peut être précédé par une

expression (expr aya) du genre ” é<Ë@ ÈA¯” (Dieu a dit). Dans certains livres, les versets sont
suivis par leurs références exactes dans le Coran. Nous pouvons citer la règle suivante :
RefAya → crochet, numero, nomSurat, numero, crochetFer
Cette règle représente la référence à un verset qui est délimitée par deux crochets (cro-
chet et crochetFer ). Elle est constituée du nom de la surate (nomSurat), de son numéro
174
et du numéro du verset dans cette surate.
En appliquant la grammaire des versets à notre document de référence, nous obtenons

le résultat illustré par la Figure A.10. En effet, le verset est remplacé par un code qui
pointe vers sa structure au format XML stockée dans un autre fichier.
Figure A.10 – Exemple de document après identification des versets.
3.2 La grammaire des noms propres arabes

La Figure A.11 présente les principales règles de cette grammaire :
Figure A.11 – Les principales règles de la grammaire des noms propres arabes [50].
En effet, nous considérons qu’un nom arabe est composé de sous-éléments notés ”sub-
Name” qui représentent ses composantes. Remarquons que nous distinguons le terminal
”ism” (avec la première lettre en minuscule) qui correspond à un prénom composé d’un
seul mot du non-terminal ”Ism” (avec la première lettre en majuscule) qui est composé
d’une série de prénoms précédée par le terminal ”ismouh”. La même remarque est valable
pour les terminaux ”laqab” et ”nisba” pour lesquels nous retrouvons les non-terminaux
”Laqab” et ”nisba”, respectivement. Le tableau A.1 explique les autres terminaux de cette
grammaire.
La Figure A.12 illustre le résultat d’analyse du document de référence. Les noms des
acteurs sont remplacés par des codes pointant vers leurs structures au format XML.
175
Terminal Signification (exemples)

separator

Expressions comme ” éË ÈA®K
” (il est appelé) et la ponctuation qui sépare
les composantes du nom.
kownAs
Expressions comme ” H
” (Son surom
. ¬ðQªÖÏ @” (connu par) et ” éJ. ®Ëð
est) qui précèdent le laqab ou la konia.
aw
La conjonction ” ð @” (ou) utilisée quand il y a un doute sur la nisba d’un

narrateur. Par exemple l’expression ” ú¯ñºË@ ð @ ø QåJ.Ë@” (Al-basri ou Al-

koufi) signifie que l’origine du narrateur est Al-basra ou Al-koufa (deux

villes en Iraq)
wa
La conjonction ”ð” (et) qui indique que le narrateur a plus qu’une origine

(nisba). Par exemple, ” ú¯ñºË@ð ø QåJ. Ë@ ” (Al-basri et Al-koufi) signifie

que le narrateur a vécu dans les deux villes (Al-basra et Al-koufa).

thoumma
La particule ” Õç' ” (puis) indique que le narrateur a vécu dans deux en-

droits. Par exemple, l’expression ” ú¯ñ º Ë@ Õç' ø Qå J. Ë@ ” (Al-basri puis

Al-koufi) signifie que le narrateur a vécu dans Al-basra puis s’est déplacé
à Al-koufa
Abou and
Om Les mots ”ñK. @” et ” Ð @” qui apparaı̂ssent dans la konia.
ibn

. @” et ” I K.” qui précèdent le nom du père.
Les mots ” áK
ismouh
Expressions comme ” éÖÞ @ð” (et son prénom est) utilisées pour spécifier
le prénom.
Mawla
Les expressions qui indiquent le nom du maı̂tre comme ” úÍñÓ”.
Tableau A.1 – Terminaux de la grammaire des noms propres arabes.
3.3 La grammaire des chaı̂nes de narrateurs

Cette grammaire tient compte des problèmes reliés aux manières de transmission des
noms de narrateurs que nous avons discutés dans la section 3 (page 92). Nous avons aussi
traité le cas des chaı̂nes composées de sous-chaı̂nes comme indiqué dans la Figure A.13.
Dans ce cas, les deux sous-chaı̂nes sont séparées par le caractère ” h ” représenté dans
notre grammaire par ”HaCharacter”.
La deuxième règle de cette figure définit une chaı̂ne comme composée de plusieurs
éléments désignés par ”riwaya”. Une ”riwaya” est composée d’un verbe indiquant la
manière de transmission et d’une référence à un narrateur. En effet, l’étape d’appren-
tissage nous a permis de définir des règles pour les différentes formes de narration. Ces
règles combinent des prépositions, des verbes de transmission et des noms de personnes
pour constituer des blocs étiquetés ”riwaya”. Nous rapportons dans le tableau A.2 des
exemples de règles avec les exemples correspondants.
176
Figure A.12 – Exemple de document après identification des acteurs.
Figure A.13 – Exemples de règles de la grammaire des chaı̂nes de narrateurs.
Règle Exemple
Riwaya → tahamoul , rawi , kala ÈA¯ Q
K. QË@ áK . é<Ë@ YJ.« ø
YJ
ÒmÌ '@ AJ KYg
áK . áÔ gQË@ YJ.« à @
Riwaya → anna ,rawi , tahamoulEnd éKYg h. Q« B@ QÓQë

Riwaya → An, rawi , anna , kala ÈA¯ éK @ ø
QëQË@ á«
Tableau A.2 – Exemples de règles combinant les noms de personnes et les manières de
transmission.
Les non-terminaux tahamoul et tahamoulEnd représentent les différentes manières

de transmission. Tahamoul (respectivement tahamoulEnd ) est assignée aux verbes qui
précèdent (respectivement viennent après) le nom du narrateur.
Le non-terminal ”rawi” fait référence à un narrateur tout en intégrant les cas qui contiennent
des relations sociales. Nous considérons la règle suivante :
rawi → Person ?, Relation ?, Person ?
Selon cette règle, la référence d’un narrateur peut contenir :

– Le nom d’une personne.
– Un terme indiquant une relation sociale avec le narrateur précédent de la chaı̂ne ou
une autre personne.
177

– Une référence à deux personnes ; par exemple ” lÌ 'A ð ÐX @” (Adam et Saleh).
L’application de ces règles à notre document de référence produit le document de la Figure
A.14.
Figure A.14 – Exemple de document après identification des chaı̂nes.
3.4 La grammaire des commentaires sur les acteurs

Les commentaires sur les acteurs contiennent généralement une référence à un narra-
teur et un jugement sur sa crédibilité. Dans certains cas, ce jugement est précédé par le
nom du savant. La règle suivante modélise de tels jugements :
CommentaireActeur → (Kala, Acteur) ? Acteur, JugementActeur
Cette règle s’applique à l’exemple suivant :

J
ª úÎ« Xð@X ñK. @ ÈA¯
Qui peut être traduit : ”Abou Daoud a dit qu’Ali est faible.”
Dans d’autres cas, les commentaires concernent les relations entre les narrateurs. Par
exemple, la règle suivante modélise le cas où un narrateur n’a pas atteint son prédécesseur :
CommentaireActeur → (Kala, Acteur) ? Acteur, NaPasAtteint, Acteur
Elle s’applique à l’exemple suivant :

AmÌ 'A ¼PYK
ÕË úÎ« Xð@X ñK. @ ÈA¯
Dont la traduction est : ”Abou Daoud a dit qu’Ali n’a pas atteint
Saleh.”
3.5 La grammaire des commentaires sur les hadiths

Ces commentaires contiennent les jugements des hadiths que nous avons énumérés
dans les sections 2.1.3 et 2.1.4 du chapitre II (voir page 33) précédés optionnellement par
le nom du savant ayant évalué le hadith. Nous citons, dans ce qui suit un exemple de
règle :
CommentaireHadith → (Kala, Savant) ? (ceHadith) ? JugementActeur
178
Dans cette règle, le terminal ”ceHadith” désigne des expressions du genre ” @ Y ë

IK
YmÌ '@”.
La Figure A.15 illustre le résultat d’analyse du document de référence après avoir appliqué
la grammaire des commentaires sur les hadiths.
Figure A.15 – Exemple de document après l’analyse des commentaires sur les hadiths.
3.6 La grammaire des indications de versions

Ces indications sont composées généralement du verbe ” øðP ” (citer) et d’un acteur
ou d’une référence à un livre. Comme exemples de règles, nous pouvons citer :
IndicationVersion → Rawah, Acteur
Cette règle s’applique sur des expressions du genre : ÕÎÓ è@ð P (Muslim l’a cité).
IndicationVersion → ceHadith, Fi, Livre
Cette règle permet d’analyser des indications du type : ÕÎÓ iJ

m ú
¯ IK (ce

YmÌ '@ @ Yë
hadith est dans sahih Mouslim).
3.7 La grammaire des titres

Cette grammaire permet d’analyser le texte du titre d’un chapitre ou d’un sous-
chapitre. Entre autres, elle recense les expressions qui précèdent le contenu réel du titre
telles que ” H
. AJ»” (chapitre) et ” H. AK.” (sous-chapitre) et les numéros s’ils existent. Comme
résultat, elle regroupe tous les éléments du titre en une structure au format XML. La
Figure A.16 présente le résultat obtenu pour le document de référence.
3.8 La grammaire des hadiths

La dernière étape consiste à utiliser la grammaire des hadiths en mode analyse complète
afin de reconnaı̂tre la structure de chaque hadith. Nous identifions les éléments restants
dont essentiellement le contenu (le metn) et le numéro s’il existe. Enfin, nous regroupons
tous les éléments dans une seule balise ”hadith” comme illustré par la Figure A.17.
Notons que nous pouvons générer la structure complète du document en remplaçant
les identifiants ”chaine1” et ”commentaireHadith1” par leurs codes XML respectifs.
179
Figure A.16 – Exemple de document après l’analyse des titres des chapitres et sous-
chapitres.
Figure A.17 – Exemple de document après l’analyse des hadiths.
3.9 Calcul des taux d’intervention

Etant donné que nous avons opté pour l’analyse semi-automatique, il convient de cal-
culer le taux d’intervention de chaque grammaire. Ce taux est défini comme le rapport
entre le nombre d’actions effectuées manuellement et le nombre d’actions effectuées auto-
matiquement. Une action permet soit d’étiqueter un bloc soit de regrouper un ensemble
de blocs. Le tableau A.3 donne les taux d’intervention des grammaires que nous avons
utilisées pour analyser les livres du hadith. Pratiquement, le nombre d’interventions est
égal au nombre de lexèmes (NBLex ) auquel nous ajoutons le nombre de règles (NBRegles),
180
puisque chaque règle ou lexème est appris une seule fois. Nous avons donc :
N BLex + N BRegles
TI = ( ) (A.1)
N BExemples
Grammaire NBLex NBRegles NBExemples TI

Verset 42 118 795 20.13%
Acteur 9744 48 36869 26.56%
Chaine 248 197 8743 05.09%
Commentaire Fiabilite Hadith 114 10 1756 07.06%
Commentaire Acteur 76 14 237 37.97%
Indication Version 188 6 483 40.17%
Hadith 20 3 670 03.43%
Titre 49 51 2241 04.46%
Total 10113 815 51794 21.10%
Tableau A.3 – Taux d’intervention des grammaires hors contexte.

Nous remarquons que le taux d’intervention dépend de deux facteurs. D’une part,
plus les valeurs possibles des entités (NBLex ) ou de règles (NBRegles) augmente plus
ce taux augmente. Ce phénomène est remarqué pour la grammaire des acteurs et celle
des indications de versions. En effet, il nous était difficile d’énumérer toutes les valeurs
possibles des composantes d’un nom arabe. Les indications de versions sont des expressions
en langage naturel qui ne suivent pas un format régulier. Il était donc difficile de définir
toutes les règles d’analyse possibles. D’autre part, le taux d’intervention est inversement
proportionnel au nombre d’exemples. C’est pourquoi il est élevé dans les cas où le nombre
d’exemples ne suffit pas pour apprendre tous les lexèmes et les règles nécessaires. Nous
remarquons ce fait pour la grammaire ”CommentaireActeur”. Malgré ces problèmes, le
taux d’intervention est acceptable. Alors que les approches d’apprentissage automatique
utilisent 80% des données pour la phase d’apprentissage, nous avons traité uniquement
21.10% des cas manuellement.
181
Annexe B
Exemple de calcul des identités des
acteurs et de la fiabilité
Cette annexe présente les calculs liés à la reconnaissance des identités des narrateurs
de notre hadith de référence présenté dans l’annexe A. L’identification des narrateurs nous
permet de calculer, dans une deuxième étape, les critères et la classe de fiabilité.
1 Reconnaissance des identités

Nous reprenons la chaı̂ne de notre document de référence afin d’identifier ses narra-
teurs :
èXQK. úG @ á«
á«
« AK Q.g @ ÈA¯ YK
P áK . XAÔg AJ KYg ÈA¯ ø QåJ.Ë@ èYJ.« áK . AK Q.g @
QK
Qk. áK . àCJ

.

úæñÓ ú
G. @
Nous rappelons que nous procédons en trois étapes, à savoir l’indexation, l’appariement
et le filtrage.
1.1 L’étape d’indexation

Nous commençons par générer la structure de la chaı̂ne ci-dessus au format XML
(voir Figure B.1(a)). En effet, nous stockons, pour chaque acteur, son nom brut (la balise
”nom”) et sa structure au format XML (la balise ”Detail ”). Ensuite, nous indexons chacun
des noms des acteurs qu’elle contient. A cet effet, nous avons développé un parseur SAX 1
qui analyse les balises XML pour générer une liste de couples (clé-valeur). Dans la Figure
B.1 (b), nous indexons le premier nom de notre chaı̂ne en ajoutant la balise ”index”. Dans
ce cas, l’acteur est indexé par deux items qui sont : (P1, èYJ.«) et (B, ø QåJ.Ë@).

1.2 L’étape d’appariement

L’identification d’un narrateur commence par l’envoi d’une requête à la base des nar-
rateurs contenant les items de son index. Pour le premier narrateur de notre chaı̂ne, nous
définissions la requête Qname comme suit :
1. http://sax.sourceforge.net/
182
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ
(a) Avant indexation

(b) Après indexation
Figure B.1 – Exemple de chaı̂ne avant et après indexation des noms de narrateurs.

Qname = (itQ1 , itQ2 ) où itQ1 = (P1 , èYJ.«) et itQ2 = (B, ø QåJ.Ë@)

En interrogeant la base des narrateurs, nous retrouvons les données suivantes :

– 63 personnes ont l’item (P1 , èYJ.«)
– 15 personnes ont l’item (P2 , èYJ.«)
– 1426 personnes possèdent l’item (B, ø QåJ.Ë@)

– Aucune personne n’a l’item ” ø QåJ.Ë@” avec une balise autre que ”B ”.

Nous identifions six ensembles de personnes en fonction de l’existence/absence des

items de la requête (voir tableau B.1). La troisième colonne de ce tableau indique le
nombre de narrateurs de l’ensemble. Les fréquences des deux items de la requête (F req1j
et F req2j ) sont données par la quatrième et la cinquième colonne. Nous remarquons que
la fréquence du premier item, dans les ensembles S3 et S4 , est égale à 0.5, car ” èYJ.«” est
le nom du grand père de ces narrateurs (la clé est P2 et non pas P1 ) d’où la réduction
du score. Dans les trois dernières colonnes, nous calculons la possibilité (Π), la nécessité
(N ) et le degré de pertinence possibiliste (DP P ). Nous présentons le détail du calcul de
N comme suit :
183
Items Cardinal F req1j F req2j Π = F req1j × N DP P

F req2j
S1 Personnes ayant les items 2.0 1.0 1.0 1.0×1.0 = 1.0 1.2 2.2

(B, ø QåJ.Ë@) et (P1 , èYJ.«)

S2 Personnes ayant l’item 61.0 1.0 0.0 0.0×1.0 = 0.0 2.0 2.0

(P1 , èYJ.«) mais pas l’item
(B, ø QåJ.Ë@)

S3 Personnes ayant les items 3.0 0.5 1.0 1.0×0.5 = 0.5 1.0 1.5

(B, ø QåJ.Ë@) et (P2 , èYJ.«)


(P2 , èYJ.«) mais pas l’item
(B, ø QåJ.Ë@)

(B, ø QåJ.Ë@) mais pas les

items (P1 , èYJ. « ) et (P2 ,
èYJ«)
.
S6 Personnes n’ayant aucun 7359.0 0.0 0.0 0.0×0.0 = 0.0 0.0 0.0
item valide
Tableau B.1 – Résultats de la reconnaissance par calcul possibiliste pour le premier nar-
rateur.
N (S1 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 1) × (1 − Log10 (8858/1426) × 1] = 1.2

N (S2 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 1) × (1 − Log10 (8858/1426) × 0] = 2.0
N (S3 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0.5) × (1 − Log10 (8858/1426) × 1] = 1.0
N (S4 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0.5) × (1 − Log10 (8858/1426) × 0] = 1.0
N (S5 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0) × (1 − Log10 (8858/1426) × 1] = 0.8
N (S6 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0) × (1 − Log10 (8858/1426) × 0] = 0.0
Nous remarquons que les personnes qui appartiennent à S1 ont eu le score le plus
élevé, ce qui correspond à une décision correcte. Nous notons aussi que les personnes de
S2 qui répondent uniquement au premier critère ont eu un score meilleur que celles de S3
qui contiennent le premier item avec remplacement de clé (P 1 ⇒ P 2) et le deuxième item
exactement. Ceci s’explique par le fait que peu de personnes (78) contiennent le premier
item alors que le deuxième item est très fréquent (il existe dans 1426 noms d’acteurs).
Ainsi, le premier critère a un impact discriminant plus important que le deuxième. En
conséquence, les personnes de S2 sont préférées à celles de S3 puisque F req12 = 1 et
F req13 = 0, 5.
En appliquant les mêmes calculs sur tous les narrateurs de la chaı̂ne, nous obtenons les
résultats présentés dans le tableau B.2.
1.3 L’étape de filtrage

En combinant tous les cas possibles du tableau B.2, nous obtenons 2880 (2 x 3 x
3 x 4 x 40) chemins différents. La fonction de filtrage permet de désambiguı̈ser chaque
184
Numéro Index Nombre de candidats Identifiants des candidats

1

(P1 , èYJ.«) (B, ø
QåJ.Ë@) 2 74, 75
2 (N , XAÔg)(P1 , YK
P ) 3 1487, 1492, 1498
3
« )
(N , àCJ 3 5368, 5369, 5370

4 (K, èXQK. úG @) 4 5140, 658, 7952, 7953

.
5 (K, úæñÓ úG @) 40 1098, 2957, 3542, ..., 8777

.
Tableau B.2 – Liste des narrateurs candidats pour un exemple de chaı̂ne
Identifiant du disciple Identifiant du cheikh

74 1498
1487 1498
1487 658
1498 5369
5369 7952
7952 3542
7952 3704
Tableau B.3 – Exemples de relations sociales.
nom en éliminant les candidats qui n’ont pas des relations (cheikh-disciple) avec leurs
prédécesseurs. Le tableau B.3 énumère les relations sociales entres les candidats identifiés.
Nous remarquons qu’il existe deux chemins valides :
74 ⇒ 1498 ⇒ 5369 ⇒ 7952 ⇒ 3542

74 ⇒ 1498 ⇒ 5369 ⇒ 7952 ⇒ 3704
La seule ambigüité restante réside au niveau du dernier narrateur. En effet, les deux

personnes codées respectivement 3542 et 3704 ont l’item (K, úæñÓ úG @) dans leur index

.

et ont une relation (cheikh-disciple) avec l’avant dernier narrateur ( èXQK. úG @ ). Il n’y a

.
donc aucun moyen pour lever cette ambigüité. Cependant, ceci n’influence pas le calcul
de fiabilité car ces deux personnes sont des compagnons crédibles. Ces cas étant rares, il
est possible de les éliminer manuellement. Dans cet exemple, nous choisissons le chemin
correct à savoir le premier.
2 Evaluation de la fiabilité
Le tableau B.4 présente les noms complets, les jugements et les degrés de crédibilité
des narrateurs des chemins valides. Les éléments de la requête sont mis en gras dans le
185
nom complet.
Code Nom complet Jugement Degré

74 ø
QåJ.Ë@ é<Ë@ YJ.« ñK. @ ú
æ.Ë@ èYJ.« èYJ.« áK . YÔg @ é® K 10
.

.Ì '@ ø XP B@ . K é® K
1498 ÉJ
«AÖÞ @ ñK. @ ù
Òêm
ÑëPX áK . YK
P áK . XAÔg I 11
áK . QK
Qk. È @ úÍñÓ P P B@ ø QåJ.Ë@
Ð PAg
éJ
® ¯
.
ÉJ
¯ ð ø QåJ.Ë@ ø XP B@
«
5369 ú
æ.Ë@

ú
ÍñªÖÏ @ QK
Qk. áK . àCJ é® K 10
.

7952 é<Ë@ YJ.« áK . QÓA« éÖÞ @ ÉJ
¯ ø
Qª B@ úæñÓ ú
G. @ áK . èXQK. ñK. @ é® K 10
Ì '@ ð @
¯ áK .
HPAm
.
3704 Ì '@ áK . ðQÔ« áK . á
k áK . YK
P áK
HPAm . YK
QK
áK . é<Ë@ YJ.« ú
G. Am 12

ù
Ò¢mÌ '@ úæñÓ ñK. @ ø
PA B@ éÒ¢k áK .
3542 áK . QÓA« áK . H. Qk áK . PAk áK . ÕæÊ áK .

¯ áK . é<Ë@ YJ.« ú
G. Am 12

ø
Qª B@ úæñÓ ñK. @ Qª B@
.
Tableau B.4 – Méta-données sur les narrateurs d’un exemple de chaı̂ne.
Nous calculons les critères de fiabilité comme suit.
2.1 Evaluation de la crédibilité

Nous remarquons que le degré minimum de crédibilité est 10 :
c = min{c(74), c(1498), c(5369), c(7952), c(3542)} = 10
Selon le tableau VI.4 (page 137), la distribution de possibilité de l’intervalle [10..12]
est :
π(c|F ) = 3/6; π(c|N F ) = 2/6; π(c|S) = 1/6
2.2 Evaluation de la continuité

Tous les couples de narrateurs possèdent une relation (cheikh-disciple). Nous avons
donc, cc=13
La distribution de possibilité de cette valeur est :

π(cc|F ) = 3/6; π(cc|N F ) = 2/6; π(cc|S) = 1/6.
2.3 Evaluation de la fiabilité de transmission

Toutes les manières de transmission de la chaı̂ne sont fiables. Nous avons donc la
distribution suivante :
π(F T |F ) = 3/6; π(F T |N F ) = 2/6; π(F T |S) = 1/6.
186
2.4 Identification de la classe de fiabilité

Nous calculons les scores des trois classes F (fiable), N F (non fiable) et S(suspect) selon
les algorithmes à base de minimum (Scoremin ) et à base de produit (Scoreprod ) comme
suit :
Scoremin (F ) = min{π(c|F ), π(cc|F ), π(F T |F )} = min{3/6, 3/6, 3/6} = 0.5

Scoremin (N F ) = min{π(c|N F ), π(cc|N F ), π(F T |N F )} = min{1/6, 1/6, 1/6} = 0.16
Scoremin (S) = min{π(c|S), π(cc|S), π(F T |S)} = min{0, 4/6, 0} = min{2/6, 2/6, 2/6} =
0.33
Scoreprod (F ) = π(c|F ) × π(cc|F ) × π(F T |F ) = 3/6 × 3/6 × 3/6 = 0, 125

Scoreprod (N F ) = π(c|N F ) × π(cc|N F ) × π(F T |N F ) = 1/6 × 1/6 × 1/6 = 0.0046
Scoreprod (S) = π(c|S) × π(cc|S) × π(F T |S) = 2/6 × 2/6 × 2/6 = 0.037
Ce résultat montre que l’algorithme à base de minimum est plus exigeant que l’al-
gorithme basé sur le produit en terme de fiabilité, étant donné qu’il accorde des poids
relativement élevés aux classes NF et S malgré que la chaı̂ne soit fiable.
187
Annexe C
Exemples d’analyse et de
désambiguı̈sation morphosyntaxique
Dans cette annexe, nous analysons le contenu du hadith du document de référence au

nouveau morphologique et syntaxique, afin d’extraire les termes pertinents au domaine
en question, à savoir le domaine de la purification.
1 Analyse morphologique
La première étape d’analyse linguistique consiste à faire appel à l’outil MADA qui
analyse chaque phrase au niveau morphologique, identifie et trie les solutions morpho-
logiques de chaque mot par ordre de pertinence décroissant selon le contexte gauche et
droit. La Figure C.1 illustre le code généré pour le premier mot du contenu du hadith de
notre document de référence.
Figure C.1 – Exemple de résultat généré par l’outil MADA.
MADA commence par rappeler la phrase translitérée par une ligne qui commence
par ” ; ; ;SENTENCE”. Ensuite, il énumère les mots avec les solutions respectives. Nous
remarquons par exemple que le premier mot (” IÊ gX ”) possède quatre solutions qui sont
gX ” et ” I ÊgX
” (elle a entré), ” I ÊgX ” (tu as entré, avec le féminin et
dans l’ordre : ” IÊ
188
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE

ÊgX” (je suis entré). Chaque solution est représentée par un score
le masculin) et enfin ” I
et un ensemble d’attributs. Afin de simplifier l’analyse, nous avons développé un outil qui
transforme ce code dans un format exploitable pour l’analyse syntaxique. La Figure C.2
présente un exemple de résultat généré par cet outil.
Figure C.2 – Exemple de calcul des attributs morphologiques.
Dans cette figure, les solutions correspondant à deux mots différents sont séparées par
”###”. Chaque solution contient un ensemble d’items dont chacun est décrit par cinq
attributs qui sont dans l’ordre :
– Le lemme : par exemple ” ¼@ñ”.
– Un attribut indiquant si l’item est défini : par exemple ”DET ” signifie que le mot
est défini par le déterminant ” È@”.
– La catégorie grammaticale : par exemple ”NN ” pour les noms.
– Deux caractères spécifiant le genre et le nombre : par exemple ”MS ” signifie masculin
singulier.
– Le texte original : par exemple ” ¼@ñË@ ”.
189
Notons que nous procédons à une première étape de désambiguı̈sation morphologique

qui consiste à éliminer les solutions dont le score normalisé (divisé par le maximum) est
supérieur à 0.7. Nous avons fixé ce seuil après plusieurs expérimentations qui ont montré
que la solution correcte n’existe généralement pas au delà de cette valeur. Nous obtenons
donc le résultat de la Figure C.3.
Figure C.3 – Exemple de résultat de l’analyse morphologique après désambiguisation

par seuil de pertinence.
2 Analyse syntaxique
L’analyseur syntaxique utilise des règles implémentées sous forme de programmes Java.
La Figure C.4 illustre le pseudo-code de la méthode Java qui permet de tester si deux
mots successifs peuvent constituer un syntagme annexé.
Figure C.4 – Pseudo-code de la méthode Java qui permet de reconnaı̂tre les syntagmes
annexés.
190
La méthode accepte comme paramètres les attributs ”POS” (catégorie grammaticale),

”genderMumber” (genre et nombre) et defType (indique si le mot est défini) de la tête et
de l’expansion. Elle impose les conditions suivantes :
1. La tête doit être un nom singulier (”NN”) ou pluriel (”NNS”).
2. La tête ne doit pas être définie (”ND”).
3. L’expansion doit être un nom singulier (”NN”), pluriel (”NNS”) ou propre (”NNP”).
4. L’expansion doit être définie (defTypeexp = ”NNP” ou ...).
5. Les attributs genre et nombre des deux mots doivent se correspondre (genderMum-
berTete = genderMumberexp).
Si les conditions sont satisfaites, la fonction retourne les attributs du nouveau terme. Dans
ce cas, il hérite la catégorie grammaticale, le genre et le nombre de la tête. Le résultat
indique aussi qu’il s’agit d’un nom défini par annexation. Si l’une des conditions n’est pas
satisfaite, la fonction retourne une chaı̂ne vide.
De telles fonctions sont exécutées d’une manière itérative en enregistrant toutes les
solutions possibles. En effet, nous ne traitons que les séquences susceptibles de contenir
des syntagmes nominaux. Dans l’exemple de référence, il s’agit de l’expression ” ¬Q£ð

úÎ« ¼@ñË@”. Son analyse conduit à deux itérations d’analyse chacune conduisant à
éKAË
deux alternatives comme illustré par le tableau C.1.
Itération Alternative 1 Alternative 2

1
@ ¼@ñ@Annexation@
¬Q£ @ úÎ«/PREP@
¼@ñ@ àAË
¼@ñË@
¬Q£ úÎ« ¼@ñË@
éKAË
2
@ àAË
¬Q£
¼@ñË@ @ úÎ«/PREP@ @ éKAË
¬Q£ úÎ« ¼@ñË@
@Annexation@
úÎ« ¼@ñË@
éKAË ¬Q£
@ éKAË

¬Q£
úÎ« ¼@ñË@
Tableau C.1 – Exemple d’analyse et d’ambigüité syntaxique.

Dans la première itération, il s’agit de regrouper les mots ” ¬Q£ ” et ” ¼@ñ ” en un
syntagme annexé (alternative 1) ou de regrouper ” ¼@ñ ” et ” àA Ë ” en un syntagme
prépositionnel (alternative 2). La deuxième itération permet d’ajouter le troisième mot
de l’expression pour former un syntagme prépositionnel ou annexé respectivement pour
les deux alternatives.
191
3 Désambiguı̈sation morphosyntaxique et évaluation

de la pertinence au domaine
L’évaluation de chaque solution morphologique ou syntaxique permet de désambiguı̈ser
les textes et d’évaluer la pertinence au domaine. Pour notre texte de référence, nous ob-
tenons les termes du tableau C.2. Ce tableau donne pour chaque terme, le nombre de ses
composantes, ses parties, la relation syntaxique s’il s’agit d’un terme composé et ses poids
dans les trois domaines selon les approches quantitatives (Quant) et qualitatives (Qual)
possibilistes.
Boissons Purification Mariage

Terme Taille Tête Expansion Relation Qual Quant Qual Quant Qual Quant
ÈñP 1 0 0 0 0 0 0

¬Q£ 1 0 0 0.0005 0.0006 0 0
¼@ñ 1 0 0 0.0284 0.0211 0 0

àAË 1 0 0 0.0001 0.0002 0 0
¬Q£ 2

¬Q£ ¼@ñ Annexation 0 0 0.0006 0.0009 0 0

¼@ñË@
¬Q£ 3

¬Q£
àAË 0 0 0.0019 0.0025 0 0

¼@ñË@
¼@ñË@ úÎ «
úÎ « /PREP
àAË@
Tableau C.2 – Exemple de termes simples et composés extraits du corpus hadithien.
Nous remarquons que le terme ” Èñ P ” (prophète) a un poids nul dans les trois
domaines car il est distribué sur les trois corpus. Les cinq autres termes ont des poids nuls
dans les corpus des boissons et du mariage, car ils n’y apparaı̂ssent pas. Le terme ” ¼@ñ”
(cure-dent) a le poids le plus important dans le domaine de la purification car il est plus
fréquent que les autres termes.
192
Annexe D
Implémentation des mécanismes de
cartographie et exemple
d’application
Cette annexe présente les détails d’implémentation des mécanismes de cartographie

dans un premier temps. Dans un deuxième temps, nous illustrons la cartographie en
GraphML de notre hadith de référence présenté dans l’annexe A.
1 Réalisation de la plate-forme de cartographie

L’interface principale de notre plate-forme d’organisation des connaissances et de re-
cherche d’information multi-critères est présentée dans la Figure D.1.
Figure D.1 – Interface principale de la plate-forme d’organisation des connaissances et

de recherche d’information multi-critères.
Cette interface est composée de trois zones principales :
193
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION
1. La barre de menu qui contient éléments :

– Le menu ”Fichier” : nous permet d’ouvrir un fichier GraphML, de sauvegarder
une carte ou de quitter l’application.
– Le Menu ”Opération” : permet de faire appel aux opérations de cartographie.
2. Zone de dessin : réservée à l’affichage des cartes et des résultats de recherche.
3. Zone de paramétrage : Contient cinq onglets dont chacun permet de paramétrer un
type d’opérations :
– Affichage : permet à l’utilisateur de choisir les attributs des nœuds et des arcs
à afficher. La liste des labels des arcs permet de filtrer les arcs selon leurs labels.
Après avoir fixé ces paramètres, l’utilisateur peut adapter l’affichage en cliquant
sur le bouton ”réaffichage”.
– Transformation : cet onglet (voir Figure D.2) présente un ensemble de possibi-
lités de transformations sur les graphes. La transformation basée sur les attributs
utilise l’attribut en cours d’affichage comme moyen pour lier les nœuds. L’utilisa-
teur peut aussi spécifier le type des nœuds et/ou des arcs (labels) concernés par
la transformation.
Figure D.2 – L’onglet transformation.
– Mise à jour : c’est l’onglet responsable des opérations de mise à jour qui consiste
en l’ajout et la suppression des nœuds et des arcs.
– Regroupement (voir Figure D.3) : regroupe les opérations d’analyse distribu-
tionnelle en commençant par le calcul de distance. L’utilisateur peut donc choisir
le type de distance. Si la distance à base de circuits est choisie, l’utilisateur peut
spécifier la longueur maximale du circuit. Dans tous les cas, il peut paramétrer
l’algorithme de clustering en spécifiant le seuil d’acceptation (distance minimale).
L’utilisateur peut enregistrer les résultats des opérations intermédiaires à travers
les boutons ”Enregistrer”. Un tel bouton permet donc d’effectuer l’étape en ques-
tion et de créer un fichier XML qui contient son résultat. L’utilisateur peut se
servir plus tard de ces fichiers en utilisant le bouton ”Ouvrir” afin de continuer
les autres étapes.
– Filtre : cet onglet permet d’exécuter un ensemble d’opérations de filtrage sur les
nœuds, les arcs et les scores des arcs (voir Figure D.4).
Nous signalons que ces opérations sont aussi accessibles à travers des menus contex-
tuels qui permettent, en plus, d’effectuer un filtrage en partant d’un nœud donné. Ceci
permet de se focaliser sur un nœud afin d’afficher d’une manière récursive les nœuds qui
lui sont liés.
194
Figure D.3 – L’onglet regroupement.
Figure D.4 – L’onglet filtre.
Nous allons maintenant étudier la complexité de l’opération de recherche des circuits,

qui est au cœur de l’analyse distributionnelle. Une critique qui peut être adressée à notre
approche est la complexité de cette opération. En effet, les RPMH possèdent moins d’arcs
que les autres types de graphes. La complexité de cette opération dépend du nombre de
nœuds (N ), du nombre moyen d’arcs par nœud (E) et de la longueur maximale du circuit
(CL). La complexité est donnée par :
CRP M H = N ∗ E CL (D.1)
La complexité des mesures basées sur la table de contingence comme LLR, TS, DF et
MI est donnée par :
Ccontingency = N 2 (D.2)
Dans les RPMH, nous avons en général E CL < N . Par exemple, dans nos expérimenta-
tions, le graphe le plus grand (celui qui contient toutes les relations syntaxiques du do-
maine de la purification) contient 1276 nœuds avec un nombre moyen d’arcs égal à 4.6.
La longueur maximale d’un circuit est de 4. Nous obtenons ainsi : Ccontingency = 12762 =
1628176 opérations de parcours et CRP M H = 1276 ∗ 4.64 ' 571323 opérations. De plus,
cette complexité est réduite quand nous utilisons un graphe pour chaque relation syn-
taxique.
195
2 Représentation GraphML des cartes du hadith

Afin de pouvoir traiter les hadiths et les rechercher dans notre plate-forme, il est
nécessaire de coder leurs connaissances au format GraphML. Ce format impose de définir
explicitement les attributs des nœuds et des arcs à l’entête du fichier. Ensuite, il est
possible de définir des instances en fonction des besoins. Dans notre cas, il s’agit de
représenter les hadiths, les ontologies qui les indexent et les réseaux possibilistes qui
représentent les liens d’indexation. Les sous-sections suivantes illustrent des exemples sur
les parties du fichier GraphML correspondant à notre document de référence.
2.1 Définition des attributs

Comme illustré par la Figure D.5, le fichier GraphML commence par se référer à
l’espace des noms ”namespace” (xmlns) et au schéma XML (graphml.xsd). Notons d’abord
que GraphML impose que chaque nœud ait un identifiant unique représenté par l’attribut
”id ”. En outre, nous définissons un ensemble d’attributs pour les nœuds et les arcs. Les
deux attributs ”name” et ”type” sont communs. Le premier indique l’attribut principal à
afficher par défaut comme texte du nœud ou de l’arc. Le deuxième permet de spécifier la
nature des connaissances notamment pour distinguer des éléments d’ontologies différentes
ou la nature de la relation codée dans l’arc. Enfin, nous définissons des attributs spécifiques
aux nœuds et aux arcs respectivement. Par exemple, la Figure D.5 affiche les attributs
”idDomain”, ”Sanad ” et ”Chaine” relatifs aux hadiths et l’attribut ”degré” relatif aux
narrateurs. Pour les arcs, nous définissions l’attribut ”score” qui pondère la relation entre
la source et la destination. Ces attributs seront expliqués avec plus de détails à travers les
exemples.
Figure D.5 – Entête du fichier GraphML.
196
2.2 Représentation des hadiths

Chaque hadith est représenté avec un nœud (la balise ”node”) comme illustré par la
Figure D.6. Il possède les attributs suivants :
– ”id ” : identifiant unique du hadith sachant que cet attribut est utilisé pour localiser
le fichier XML qui contient la structure de la chaı̂ne des narrateurs, Dans notre
exemple, le fichier ”9001.XML” contient le code XML illustré par la Figure B.1.
– ”name” : le texte du ”metn”.
– ”Sanad ” : le texte de la chaı̂ne des narrateurs.
– ”Chaine” : la liste des identifiants des narrateurs séparés par le caractère ”#”.
– ”idDomain” : l’identifiant du domaine ; dans ce cas, il est égal à 3 car le hadith
appartient au domaine de la purification.
Figure D.6 – Exemple de hadith au format GraphML.
2.3 Représentation des ontologies

Une ontologie est un ensemble de nœuds de même type avec des liens typés. Nous
illustrons dans la Figure D.7, un élément du RPMH des termes à savoir le premier terme

de notre hadith (” ¬Q£”) :
Figure D.7 – Exemple de terme au format GraphML.
Le réseau social contient des nœuds de type ”narrateur ” avec des relations sociales.
La Figure D.8 donne le code GraphML des deux premiers narrateurs de notre hadith
de référence. Nous illustrons, à titre d’exemple, l’attribut ”name” qui contient le nom
complet et l’attribut ”degré” qui indique le degré de crédibilité.
La Figure D.9 donne le code XML qui permet de représenter les relations cheikh-
disciple. Chaque relation induit un arc (la balise ”edge”) orienté (directed=”true”) entre
197
Figure D.8 – Exemples de narrateurs au format GraphML.
une source (ici le nœud ayant l’identifiant 1498) et une destination (dans ce cas, le nar-
rateur numéroté 74) ayant le label ”cheikh-disciple”. La valeur affichée par défaut est
l’expression ” qJ
” (cheikh).
Figure D.9 – Exemple de relation sociale au format GraphML.
2.4 Représentation des réseaux possibilistes

La Figure D.10 présente un exemple d’indexation sémantique.
Figure D.10 – Exemple de lien d’indexation au format GraphML.
Un réseau possibiliste est un ensemble d’arcs orientés qui permettent d’indexer les
hadiths (dont les identifiants constituent les sources des arcs) avec des entités provenant
des ontologies (qui représentent les destinations des arcs). Ces arcs sont pondérés par un
score qui, dans ce cas, indique la fréquence du terme dans le hadith. Dans cet exemple,
nous indexons le hadith numéro 9001 avec le terme dont l’identifiant est 9002 avec un
score égal à la fréquence, à savoir 1.
198
Annexe E
Phonétique des lettres arabes
Le tableau E.1 donne pour chaque lettre arabe son nom, sa graphie lorsqu’elle est
placée au début, au milieu ou à la fin d’un mot (respectivement) et sa prononciation selon
l’alphabet phonétique international.
Tableau E.1 – Phonétique et graphie des lettres arabes.
199
Index
Π : mesure de possibilité, 74–79, 99, 100, 107 MI : Mutual Information (Information mu-
π : distribution de possibilité, 75, 76, 105, tuelle), 57, 58, 120, 127, 131
117, 137, 138 MIN : opérateur possibiliste minimum, 76,
85, 134, 139–141, 143
Autorité (de contrôle, d’un document), 13,
35, 38, 40, 41, 43 N : mesure de nécessité, 74, 75, 77–79, 99,
100, 107
c : crédibilité, 7, 30, 35–38, 40–43, 87, 90, Nasab (composante d’un nom propre arabe),
91, 93, 134, 137, 139–142, 178 64, 96
cc : continuité d’une chaı̂ne de narrateurs, NF : classe de fiabilité (Non Fiable), 32, 36,
42, 43, 89, 91, 134, 137–141 39, 85, 134, 137, 138, 141–143
Nisba (composante d’un nom propre arabe),
DF (Dice Factor) : Facteur de Dice, 57, 58,
64, 96, 98, 134, 137, 175, 176
120, 127, 132
ns : relation non symétrique, 104
DPP : Dégré de Pertinence Possibiliste, 78,
79, 100, 101, 106–108 Objectivité (d’une personne, d’une informa-
DV : Document Virtuel, 22, 23 tion), 33, 35, 37–41, 43, 143
DVP : Document Virtuel Personnalisable, occ : Nombre d’occurrences, 20, 57, 102
22
PBSL : Paix et Bénédiction Sur Lui (le prophète
e : expansion, 60, 62, 83, 104, 119, 129 Mohamed), 31, 33, 134, 139
PDP : Pertinence au Domaine Possibiliste,
F-mesure (métrique d’évaluation de SRI),
106
21, 56, 95, 101, 110, 112–115, 128,
Précision (métrique d’évaluation de SRI),
132, 133
21, 47, 56, 95, 101, 108, 110, 112,
F : classe de fiabilité (Fiable), 85, 134, 140–
113, 127, 128
143
PROD : opérateur possibiliste produit, 76,
Freq : Fréquence (d’un terme, d’une entité),
85, 121, 134, 139–141, 143
19, 20, 57, 59, 63, 67, 78, 79, 99, 100,
102–104, 110 R expansion : relation en expansion, 104–
106, 108, 119
H : Head (Tête), 60–62, 102, 104, 119, 124, R head : relation en tête, 104–106, 108, 119
129 Rappel (métrique d’évaluation de SRI), 21,
Konia (composante d’un nom propre arabe), 47, 55, 95, 101, 110, 112, 113, 127–
64, 96, 176 129
RI : Recherche d’Information, 6, 8, 18, 19,
Laqab (composante d’un nom propre arabe), 29, 46, 47, 50, 51, 62, 75, 78, 79, 84,
64, 96, 98, 175, 176 114, 116, 123
LLR : Log-Likelihood Ratio, 57, 58, 108, ROI : Recherche Ouverte d’Information, 17,
110, 112–114, 120, 127, 131 18
200
INDEX
RPMH : Réseaux Petits Mondes Hiérarchiques,

73, 74, 79, 84, 85, 116, 119, 123, 131
S : classe de fiabilité (Suspect), 85, 134, 137–

139, 141–143
SA : Syntagme Annexé, 52, 105, 108, 124
SC : Syntagme Conjonctif, 52, 124
SJ : Syntagme Adjectival, 51
SNC : Syntagme Nominal Complexe, 52
SOC : Système d’Organisation de Connais-
sances, 12, 13, 17, 18, 56, 60, 63, 71,
85
SP : Syntagme Prépositionnel, 52
SRI : Système de Recherche d’Information,
19–21, 27–29, 36, 38, 47, 55, 56, 66,
70, 72–74, 77, 89, 95, 102, 110, 114,
131, 133
Sup : relation contextuelle structurelle, 103–
105, 107
sy : relation symétrique, 103, 104
Tahamoul : manière de transmisson, 32, 92,

97, 98, 138, 176, 177
Termhood (propriété d’un terme), 56, 57,
59, 84, 102, 105–108, 110
TF-IDF : Term Frequency-Inverse Document
Frequency, 19, 20, 57, 62, 84, 110,
112–114
TF :Term Frequency (Fréquence d’un terme),
19, 20
TPD : Terme Pertinent au Domaine, 102,
115
TS : T-score, 57, 58, 120, 127, 132
Type d’usage (d’un fragment de document),
73, 81, 91
Unithood (propriété d’un terme), 56, 57, 60,

83, 84, 102, 106, 108, 110
Vérifiabilité (d’une information), 38, 40, 41
201
Construction et intégration d'ontologies pour la cartographie socio-sémantique de fonds documentaires arabes
guidée par la fiabilité de l'information
Résumé. La présente thèse propose un processus de cartographie des connaissances de fonds documentaires arabes.
L'objectif principal de ce processus est de permettre à des utilisateurs différents de retrouver l'information pertinente
qu'ils recherchent. Etant conscient que la pertinence est une notion multidimensionnelle, nous avons conçu un modèle
générique pour représenter des cartes de connaissances multi-critères. En effet, une carte est composée d'un ensemble
d'ontologies (dont chacune représente une dimension) qui sont liées aux fragments de documents. Les cartes sont
munies de mécanismes d'évaluation de l'information selon les besoins des utilisateurs. A ce stade, nous avons donné une
importance primordiale à la fiabilité de l'information en tant qu'exigence critique dans la situation actuelle du Web.
Nous avons adopté le point de vue du Web socio-sémantique qui considère les documents comme des productions
sémiotiques. Un autre choix primordial, effectué dans le cadre de cette thèse, consiste à utiliser le corpus hadithien qui
est un fonds documentaire volumineux, structuré et riche en connaissances et en divergences. En outre, le hadith
constitue une méthodologie solide pour assurer la fiabilité de l'information. De part ces caractéristiques, les livres du
hadith constituent des productions sémiotiques adaptées aux traitements socio-sémantiques.
La représentation multidimensionnelle nécessite l'extraction et l'organisation des connaissances selon plusieurs axes.
Dans l'axe sémantique, nous proposons d'extraire les termes pertinents à chaque thème, considéré comme un domaine
de connaissances. Dans l'axe social, nous proposons un moteur de recherche social qui permet d'extraire les entités
nommées et de reconnaître les identités des acteurs. Les connaissances extraites sont organisées en utilisant la méthode
d'analyse distributionnelle basée sur les réseaux petits mondes hiérarchiques, ce qui permet de construire des ontologies
différentielles. Enfin, nous intégrons les réseaux possibilistes en tant qu'outil d'évaluation de l'information. Ainsi,
l'utilisateur dispose du jugement du système sur la pertinence thématique et sur la fiabilité, mais aussi des outils
nécessaires pour conduire une démarche d'enquête dans une perspective de recherche ouverte de l'information.
Mots clés. Web socio-sémantique, Cartographie des connaissances, TALN Arabe, Ontologie, Fiabilité de l'information.
________________________________________________________________________________________________________________________________________________________________________________________________
‫بناء وإدماج أنطولوجيات من أجل الخورطة االجتماعية الداللية لألرصدة الوثائقية العربية المبنية على اعتمادية المعلومة‬
‫ تقترح ھذه األطروحة نموذجا "لخورطة" األرصدة الوثائقية العربية بھدف تمكين مختلف المستخدمين من الحصول على المعلومة‬.‫الملخـص‬
‫ إن‬.‫ وعيا منا بأن تقييم المستخدم للمعلومة يعتمد على عدة أبعاد فقد قمنا بتصميم نموذج شامل لتمثيل خرائط المعارف متعددة المقاييس‬.‫المطلوبة‬
‫ تحتوي الخريطة أيضا على آليات‬.‫الخريطة ھي عبارة عن عدة أنطولوجيات تُمثل كل واحدة منھا أحد األبعاد وتُستعمل لفھرسة أجزاء الوثائق‬
.‫لتقييم المعلومات حسب حاجيات المستخدمين ولقد أولينا أھمية خاصة لمقياس "اعتمادية المعلومة" الذي يُمثل تحديا نظرا النفتاح الواب الحالي‬
‫ ولقد اخترنا كمثال تطبيقي كتب الحديث الشريف‬."‫إننا نتبنى وجھة نظر الواب االجتماعي الداللي الذي يعتبر الوثائق "كمنتجات سيميائية‬
‫ نظرا لھذه‬.‫ إن الحديث يُمثل كذلك منھجية صلبة لتقييم اعتمادية المعلومة‬.‫باعتبارھا تُمثل رصيدا ضخما ومنظما وثريا بالمعارف واالختالفات‬
.‫الخصائص الفريدة تُعتبر كتب الحديث منتجات سيميائية يُمكن إخضاعھا للمعالجة االجتماعية الداللية‬
‫ في المحور الداللي نعتبر أن كل موضوع من‬.‫إن التمثيل المتعدد األبعاد للوثائق يفرض علينا استخراج المعارف وتنظيمھا حسب عدة محاور‬
‫ في المحور االجتماعي قمنا بتطوير محرك بحث اجتماعي يُعنى‬.‫كتب الحديث يُمثل ميدانا معرفيا نقوم باستخراج المصطلحات التي تُمثله‬
‫ كل ھذه المعارف يتم تنظيمھا باستخدام التحليل التوزيعي المبني على "شبكات العوالم‬.‫باستخراج أسماء الجھات الفاعلة والتعرف على ھوياتھا‬
‫ نستعمل محرك بحث متعدد المقاييس مبني على نظرية اإلمكانيات‬،ً‫ أخيرا‬."‫الصغيرة الھرمية" وھو ما يُ َم ّكن من إنتاج "أنطولوجيات تفاضلية‬
‫ إستعمال ھذه األدوات يُم ّكن من القيام بأبحاث مفتوحة تُشرك المستخدم في‬.‫وھو ما يُم ّكن من تقييم الوثائق من حيث الموضوع واالعتمادية‬
.‫التحري عن المعلومات المطلوبة‬
‫ إعتمادية المعلومة‬،‫ األنطولوجيا‬،‫ التحليل اآللي للنصوص العربية‬،‫ خورطة المعارف‬،‫ الواب االجتماعي الداللي‬.‫الكلمات المفاتيح‬
________________________________________________________________________________________________________________________________________________________________________________________________
Building and integrating ontologies for a reliability-guided mapping of arabic corpora

Abstract. In this thesis, we suggest a process for mapping knowledge of collections of arabic documents. The main
goal of this process is to allow different users to acquire relevant information according to their needs. Being convinced
that relevance is a multidimensional notion, we conceived a generic model to represent multicriteria maps. In fact, a
map is composed of several ontologies (one for each dimension) linked to fragments of documents by means of
possibilistic networks. These maps implement mechanisms allowing to evaluate information according to the users'
needs. As far as criteria are concerned, we give a particular importance to reliability as a critical requirement within the
actual situation of the Web. We adopted the point of view of the socio-semantic Web which considers documents as
semiotic productions whose structure describe the process of information production and transmission. We have choose
to use books of hadith because they represent a big and structured corpus rich of knowledge and points of view. In
addition, the hadith represents a solid methodology for assessing information reliability. Consequently these books
constitute semiotic productions adapted to socio-semantic treatments.
Building multidimensional maps requires to extract and organize knowledge according to many axes. In the semantic
axis, we propose to extract terms relevant to each theme considered as a knowledge domain. In the social axis, we
propose a social information retrieval system which allows to recognize the named entities and the identities of actors.
The extracted socio-semantic knowledge is organized through a method of distributional analysis based on hierarchical
small worlds networks what allows to build differential ontologies. Finally, we integrate possibilistic networks as a
mean for information evaluation. Thus, the user has the system judgment but also the required tools to conduct inquiries
in a perspective of open information retrieval.
Keywords. Socio-semantic Web, Knowledge mapping, Arabic NLP, Ontology, Information reliability.

Rapport

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport

Transféré par

Droits d'auteur :

Formats disponibles

Université Tunis El-Manar

Faculté des Sciences de Tunis

Construction et intégration d'ontologies pour la

Diplôme de Doctorat de l’université de Tunis El-Manar

A Mes frères et soeurs,

Mes remerciements s'adressent à mon directeur de thèse, le Professeur Yahya

III Extraction et organisation des connaissances à partir des documents

VI Organisation de connaissances et recherche d’information multi-critères116

Conclusion Générale et Perspectives 145

B Exemple de calcul des identités des acteurs et de la fiabilité 182

C Exemples d’analyse et de désambiguı̈sation morphosyntaxique 188

D Implémentation des mécanismes de cartographie et exemple d’applica-

E Phonétique des lettres arabes 199

I.1 Les couches du Web sémantique [109]. . . . . . . . . . . . . . . . . . . . . 9

III.1 Exemple d’ambigüité syntaxique. . . . . . . . . . . . . . . . . . . . . . . . 53

IV.1 Modèle d’une carte socio-sémantique multi-critères. . . . . . . . . . . . . . 72

V.1 DTD illustrant la structure d’un livre du hadith. . . . . . . . . . . . . . . . 90

A.1 Exemple de document et sa traduction en français. . . . . . . . . . . . . . 170

C.1 Exemple de résultat généré par l’outil MADA. . . . . . . . . . . . . . . . . 188

D.1 Interface principale de la plate-forme d’organisation des connaissances et

I.1 Typologie des activités dans le domaine du e-learning. . . . . . . . . . . . . 7

II.1 Les manières de transmission du hadith [4]. . . . . . . . . . . . . . . . . . . 32

III.1 Comparaison des analyseurs morphologiques arabes. . . . . . . . . . . . . . 49

V.1 Caractéristiques du corpus du hadith. . . . . . . . . . . . . . . . . . . . . . 88

VI.1 Exemples de textes arabes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

A.1 Terminaux de la grammaire des noms propres arabes. . . . . . . . . . . . . 176

B.1 Résultats de la reconnaissance par calcul possibiliste pour le premier nar-

C.1 Exemple d’analyse et d’ambigüité syntaxique. . . . . . . . . . . . . . . . . 191

E.1 Phonétique et graphie des lettres arabes. . . . . . . . . . . . . . . . . . . . 199

L ’émergence du Web a engendré des changements majeurs dans le domaine de

La cartographie des connaissances est un processus qui utilise un ensemble de para-

Par ailleurs, le processus de cartographie dépend en grande partie des caractéristiques

La présente thèse s’intègre dans le cadre de la conception et l’expérimentation d’un

Pour structurer les connaissances, nous proposons un processus d’analyse distribution-

Le cinquième chapitre introduit le corpus du hadith comme cas d’application en jus-

Le sixième et dernier chapitre prolonge le processus de cartographie en détaillant les

En guise de conclusion, un bilan de nos travaux met en exergue nos propositions en

1 Problématique et objectifs de l’accès à un fonds

Tableau I.1 – Typologie des activités dans le domaine du e-learning.

outil de communication du savoir, ce qui correspond à la notion de transmission. Ensuite,

La multiplication du nombre de fournisseurs de l’information a causé un autre chan-

– S’assurer de la fiabilité de l’information.

2 Les visions du Web

2.1 Le Web sémantique

– Structuration logique des documents en utilisant le langage XML (eXtended Markup

Figure I.1 – Les couches du Web sémantique [109].

2.2 Le Web social

2.3 Le Web socio-sémantique

bénéficiaires. En outre, chaque macro-transaction est composée de micro-transactions aux-

2.4 Comparaison des trois visions

Figure I.2 – Les trois visions du Web.

technologies issues du courant du Web social. Le Web socio-sémantique répond

3 Les systèmes d’organisation des connaissances

3.1 Les thésaurus

3.2 Les systèmes d’indexation collaboratifs

3.3 Les ontologies

3.3.1 Typologie selon l’objet de conceptualisation

3.3.2 Les ontologies dans le Web sémantique formel

– La conceptualisation étant spécifiée parfois de manière très précise, une théorie

ii) Les constituants et les axes de structuration

Les connaissances inférentielles : selon le point de vue de la sémantique formelle,

iii) Les rôles des ontologies

3.3.3 Les ontologies dans le Web socio-sémantique

La lecture au cheikh ( èZ@Q ®Ë@) ¯ úÎ« H @Q¯ (J’ai appris de x)