Vous êtes sur la page 1sur 231

Université Tunis El-Manar

Faculté des Sciences de Tunis

Ecole Doctorale
Mathématiques, Informatique, Sciences et Technologies de la Matière

Construction et intégration d'ontologies pour la


cartographie socio-
socio-sémantique de fonds documentaires arabes
guidée par la fiabilité de l'information

THESE
présentée et soutenue publiquement
le samedi 09 Juin 2012
pour l’obtention du

Diplôme de Doctorat de l’université de Tunis El-Manar


(spécialité informatique)

par:
Ibrahim BOUNHAS

Composition du jury:
Khaled BSAÏES, Professeur, Université de Tunis El Manar Président
Abdelmajid BEN HAMADOU, Professeur, Université de Sfax Rapporteur
Jean-Marie PINON, Professeur, INSA de Lyon Rapporteur
Rafik BOUAZIZ, Maitre de Conférence, Université de Sfax Examinateur
Yahya SLIMANI, Professeur, Université de Tunis El Manar Directeur de thèse
A la mémoire de mon père…
A ma mère,
En témoignage de ses sacrifices et de mon amour…

A Mes frères et soeurs,


En témoignage de mon amour…

A Hafsa…
En témoignage de mes meilleurs vœux…
Remerciements

Mes remerciements s'adressent à mon directeur de thèse, le Professeur Yahya


SLIMANI pour sa disponibilité, son soutien perpétuel, ses précieuses directives et ses
idées scientifiques. Qu’il trouve ici le fruit de nos efforts comme témoignage de ma
gratitude et de mon respect.
Je suis aussi très reconnaissant au Professeur Mohamed BEN AHMED et au Docteur
Anja HABACHA qui m'ont aidé à initier ce travail de recherche au sein du
laboratoire RIADI-GDL de l'ENSI.
Je souhaite également exprimer toute ma reconnaissance au Docteur Bilel Elayeb qui
a participé dans une grande partie de ce travail, par ses encouragements continus et
ses contributions pertinentes. Qu’il soit assuré de mon très grand respect et du plaisir
que j’ai à travailler avec lui.
Je tiens aussi à exprimer ma profonde gratitude à Monsieur Fabrice EVRARD pour
l’intérêt qu’il a manifesté à l’égard de mes recherches et de m’avoir accueilli en stage
au sein de son équipe à l’Institut de Recherche en Informatique de Toulouse (IRIT).
Mes remerciements s’adressent également à tous les membres du jury qui ont accepté
d’évaluer ce travail. En particulier, je remercie:
Le Professeur Khaled BSAÏES d’avoir accepté de présider le jury de cette thèse,
Les Professeurs Jean-Marie PINON et Abdelmajid BEN HAMADOU pour
l’honneur qu’ils m'ont fait en acceptant d’être les rapporteurs de cette thèse.
Le Professeur Rafik BOUAZIZ pour avoir accepté d’être l'examinateur de cette
thèse.
Je tiens à remercier aussi tous les membres de l'unité MOSIC et du Laboratoire
d’Informatique pour les Systèmes Industriels (LISI) et en particulier le Professeur
Samir BEN AHMED, pour son soutien et ses encouragements persistants.
Mes remerciements s’adressent également à l'administration de la Faculté des
Sciences de Tunis et en particulier le Professeur Mohamed JEMAL pour avoir soutenu
et encouragé mon stage à l'IRIT.
Mes remerciements vont également vers les responsables administratifs et financiers
de la Faculté des Sciences de Tunis et de l'INSAT, en particulier Mme Mofida
BAROUNI pour avoir facilité l'accomplissement de mes missions à l'étranger.
Remercier tous ceux qui m’ont aidé à finaliser ce travail est pour moi un devoir. Je
pense particulièrement à tous ceux qui m'ont aidé et encouragé à adopter le hadith
comme cas d'application, entre autres le Professeur Mohamed Taher AL-JAWABI de
l'Université de la Zitouna.
Je remercie aussi tous mes enseignants de l'ISG de Tunis et de l'ENSI de la Manouba
qui ont contribué à ma formation. Qu'ils trouvent ici le résultat de leurs efforts.
Je n'oublie pas de saluer fortement tous mes amis et les membres de ma grande famille
notamment ma mère de m'avoir encouragé et toléré mes absences continues et
répétitives. Qu'ils trouvent dans cette thèse une récompense de leurs sacrifices et
patience.
Table des matières

Introduction Générale 1
Problématique de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

A Etat de l’art 5
I Organisation et accès à l’information 6
1 Problématique et objectifs de l’accès à un fonds documentaire . . . . . . . 6
2 Les visions du Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1 Le Web sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Le Web social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Le Web socio-sémantique . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4 Comparaison des trois visions . . . . . . . . . . . . . . . . . . . . . 11
3 Les systèmes d’organisation des connaissances . . . . . . . . . . . . . . . . 12
3.1 Les thésaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Les systèmes d’indexation collaboratifs . . . . . . . . . . . . . . . . 13
3.3 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4 Comparaison des SOC . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 Les systèmes d’accès à l’information . . . . . . . . . . . . . . . . . . . . . . 19
4.1 Les systèmes de recherche d’information . . . . . . . . . . . . . . . 19
4.2 Les bibliothèques virtuelles . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 La cartographie des connaissances . . . . . . . . . . . . . . . . . . . 24
4.4 Comparaison des systèmes d’accès à l’information . . . . . . . . . . 27
5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

II Evaluation de l’information 29
1 Les critères de pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2 Méthodologies d’évaluation de la fiabilité de l’information . . . . . . . . . . 30
2.1 La fiabilité dans les sciences du hadith . . . . . . . . . . . . . . . . 31
2.2 La fiabilité dans les sciences de l’histoire . . . . . . . . . . . . . . . 34
2.3 La fiabilité dans les sciences de l’informatique . . . . . . . . . . . . 35
2.4 Comparaison des méthodologies . . . . . . . . . . . . . . . . . . . . 39
3 Evaluation automatique de la fiabilité des hadiths . . . . . . . . . . . . . . 41
3.1 Méthodes d’évaluation des critères de fiabilité du hadith . . . . . . 41
3.2 Approches existantes . . . . . . . . . . . . . . . . . . . . . . . . . . 42

i
4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

III Extraction et organisation des connaissances à partir des documents


arabes 45
1 Le niveau morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.1 Les lemmatiseurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.2 Les analyseurs morphologiques . . . . . . . . . . . . . . . . . . . . . 47
1.3 Les étiqueteurs grammaticaux . . . . . . . . . . . . . . . . . . . . . 50
1.4 L’outil MADA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2 Le niveau syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.1 Les syntagmes nominaux en langue arabe . . . . . . . . . . . . . . . 51
2.2 L’ambiguı̈té syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3 Etat de l’art sur l’analyse syntaxique des textes arabes . . . . . . . 53
3 Le niveau sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1 Le cycle de vie des ontologies . . . . . . . . . . . . . . . . . . . . . 54
3.2 Construction d’ontologies à partir de corpus textuels . . . . . . . . 56
4 Le niveau social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1 Structure d’un nom propre arabe . . . . . . . . . . . . . . . . . . . 64
4.2 Reconnaissance des entités nommées . . . . . . . . . . . . . . . . . 64
4.3 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . 65
5 La langue arabe dans le Web socio-sémantique . . . . . . . . . . . . . . . . 66
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

B Contributions 69
IV Modèle de cartographie multidimensionnelle des documents arabes 70
1 Modèle d’une carte socio-sémantique multi-critères . . . . . . . . . . . . . 70
2 L’apport de la structure des documents . . . . . . . . . . . . . . . . . . . . 71
3 Les réseaux petits mondes hiérarchiques . . . . . . . . . . . . . . . . . . . 73
4 La théorie des possibilités et ses applications . . . . . . . . . . . . . . . . . 74
4.1 Distribution de possibilité . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Les mesures de possibilité et de nécessité . . . . . . . . . . . . . . . 75
4.3 Les réseaux possibilistes . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Les classifieurs possibilistes . . . . . . . . . . . . . . . . . . . . . . . 76
4.5 Les SRI possibilistes . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5 Processus de cartographie de documents arabes . . . . . . . . . . . . . . . 79
5.1 Choix du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Etude sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3 Analyse de la structure des documents . . . . . . . . . . . . . . . . 82
5.4 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . 83
5.5 Analyse morphosyntaxique et extraction de termes . . . . . . . . . 83
5.6 Analyse distributionnelle . . . . . . . . . . . . . . . . . . . . . . . . 84
5.7 Evaluation de la fiabilité de l’information . . . . . . . . . . . . . . . 84
5.8 Navigation et recherche d’information . . . . . . . . . . . . . . . . . 85
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

ii
V Extraction de connaissances socio-sémantiques 86
1 Choix du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.1 Structure des livres du hadith . . . . . . . . . . . . . . . . . . . . . 86
1.2 Caractéristiques du corpus du hadith . . . . . . . . . . . . . . . . . 88
2 Etude sociale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3 Analyse de la structure des documents . . . . . . . . . . . . . . . . . . . . 92
3.1 La structure des chaı̂nes de narrateurs . . . . . . . . . . . . . . . . 92
3.2 Analyse automatique des livres du hadith . . . . . . . . . . . . . . 94
4 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.1 Le modèle d’indexation des noms propres arabes . . . . . . . . . . . 96
4.2 Le modèle d’indexation des chaı̂nes de narrateurs . . . . . . . . . . 98
4.3 Le modèle d’appariement . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4 La fonction de filtrage . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 Résultats d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Analyse morphosyntaxique et extraction de
termes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1 L’indexation qualitative . . . . . . . . . . . . . . . . . . . . . . . . 102
5.2 L’information contextuelle . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Les distributions de possibilité . . . . . . . . . . . . . . . . . . . . . 104
5.4 Le termhood possibiliste . . . . . . . . . . . . . . . . . . . . . . . . 105
5.5 Le unithood possibiliste . . . . . . . . . . . . . . . . . . . . . . . . 106
5.6 La pertinence au domaine possibiliste . . . . . . . . . . . . . . . . . 107
5.7 Exemple de désambigüisation . . . . . . . . . . . . . . . . . . . . . 107
5.8 Expérimentation et évaluation . . . . . . . . . . . . . . . . . . . . . 109
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

VI Organisation de connaissances et recherche d’information multi-critères116


1 Plate-forme générique de cartographie multi-critères . . . . . . . . . . . . . 116
1.1 Modèle à base de graphes d’une carte multi-dimensions . . . . . . . 117
1.2 Description des opérations de cartographie . . . . . . . . . . . . . . 118
2 Structuration socio-sémantique des livres du
hadith . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3 Analyse distributionnelle sémantique . . . . . . . . . . . . . . . . . . . . . 123
3.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3.2 Expérimentation et évaluation . . . . . . . . . . . . . . . . . . . . . 125
4 Analyse distributionnelle sociale . . . . . . . . . . . . . . . . . . . . . . . . 133
5 Evaluation de la fiabilité des hadiths . . . . . . . . . . . . . . . . . . . . . 134
5.1 La crédibilité des narrateurs . . . . . . . . . . . . . . . . . . . . . . 137
5.2 La continuité de la chaı̂ne . . . . . . . . . . . . . . . . . . . . . . . 137
5.3 La fiabilité de transmission . . . . . . . . . . . . . . . . . . . . . . . 138
5.4 Identification de la classe de fiabilité . . . . . . . . . . . . . . . . . 139
5.5 Visualisation des chaı̂nes de narrateurs . . . . . . . . . . . . . . . . 139
5.6 Expérimentation et évaluation . . . . . . . . . . . . . . . . . . . . . 140
6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Conclusion Générale et Perspectives 145


Choix principaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Contributions principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

iii
Bibliographie 167

Annexes 168
A Implémentation de l’analyseur de textes semi-structurés et exemple
d’application 169
1 Exemple de document de référence . . . . . . . . . . . . . . . . . . . . . . 169
2 Un analyseur générique de textes semi-structurés . . . . . . . . . . . . . . 169
2.1 L’interface graphique . . . . . . . . . . . . . . . . . . . . . . . . . . 170
2.2 Le composant d’apprentissage . . . . . . . . . . . . . . . . . . . . . 173
3 Analyse automatique des hadiths et reconnaissance des entités nommées . 174
3.1 La grammaire des versets . . . . . . . . . . . . . . . . . . . . . . . 174
3.2 La grammaire des noms propres arabes . . . . . . . . . . . . . . . . 175
3.3 La grammaire des chaı̂nes de narrateurs . . . . . . . . . . . . . . . 176
3.4 La grammaire des commentaires sur les acteurs . . . . . . . . . . . 178
3.5 La grammaire des commentaires sur les hadiths . . . . . . . . . . . 178
3.6 La grammaire des indications de versions . . . . . . . . . . . . . . . 179
3.7 La grammaire des titres . . . . . . . . . . . . . . . . . . . . . . . . 179
3.8 La grammaire des hadiths . . . . . . . . . . . . . . . . . . . . . . . 179
3.9 Calcul des taux d’intervention . . . . . . . . . . . . . . . . . . . . . 180

B Exemple de calcul des identités des acteurs et de la fiabilité 182


1 Reconnaissance des identités . . . . . . . . . . . . . . . . . . . . . . . . . . 182
1.1 L’étape d’indexation . . . . . . . . . . . . . . . . . . . . . . . . . . 182
1.2 L’étape d’appariement . . . . . . . . . . . . . . . . . . . . . . . . . 182
1.3 L’étape de filtrage . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
2 Evaluation de la fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
2.1 Evaluation de la crédibilité . . . . . . . . . . . . . . . . . . . . . . . 186
2.2 Evaluation de la continuité . . . . . . . . . . . . . . . . . . . . . . . 186
2.3 Evaluation de la fiabilité de transmission . . . . . . . . . . . . . . . 186
2.4 Identification de la classe de fiabilité . . . . . . . . . . . . . . . . . 187

C Exemples d’analyse et de désambiguı̈sation morphosyntaxique 188


1 Analyse morphologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
2 Analyse syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
3 Désambiguı̈sation morphosyntaxique et évaluation de la pertinence au do-
maine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

D Implémentation des mécanismes de cartographie et exemple d’applica-


tion 193
1 Réalisation de la plate-forme de cartographie . . . . . . . . . . . . . . . . . 193
2 Représentation GraphML des cartes du hadith . . . . . . . . . . . . . . . . 196
2.1 Définition des attributs . . . . . . . . . . . . . . . . . . . . . . . . . 196
2.2 Représentation des hadiths . . . . . . . . . . . . . . . . . . . . . . . 197
2.3 Représentation des ontologies . . . . . . . . . . . . . . . . . . . . . 197
2.4 Représentation des réseaux possibilistes . . . . . . . . . . . . . . . . 198

E Phonétique des lettres arabes 199

iv
Index 200

v
Table des figures

I.1 Les couches du Web sémantique [109]. . . . . . . . . . . . . . . . . . . . . 9


I.2 Les trois visions du Web. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
I.3 Les composantes d’un Système de Recherche d’Information [98]. . . . . . . 20
I.4 Métriques d’évaluation des SRI [214]. . . . . . . . . . . . . . . . . . . . . . 22

III.1 Exemple d’ambigüité syntaxique. . . . . . . . . . . . . . . . . . . . . . . . 53


III.2 Cycle de vie d’une ontologie. . . . . . . . . . . . . . . . . . . . . . . . . . . 54

IV.1 Modèle d’une carte socio-sémantique multi-critères. . . . . . . . . . . . . . 72


IV.2 Architecture du modèle de classification possibiliste. . . . . . . . . . . . . . 77
IV.3 Architecture du modèle de recherche d’information possibiliste. . . . . . . . 77
IV.4 Le processus de cartographie. . . . . . . . . . . . . . . . . . . . . . . . . . 80

V.1 DTD illustrant la structure d’un livre du hadith. . . . . . . . . . . . . . . . 90


V.2 Modèle d’indexation des noms propres arabes [50]. . . . . . . . . . . . . . . 96
V.3 Exemple d’index d’un nom propre arabe. . . . . . . . . . . . . . . . . . . . 97
V.4 Modèle d’indexation des chaı̂nes de narrateurs [50]. . . . . . . . . . . . . . 98
V.5 Exemple d’index d’une chaı̂ne de narrateurs. . . . . . . . . . . . . . . . . . 98
V.6 Exemple de document arabe désambigüisé ainsi que sa traduction. . . . . . 105
V.7 Exemple de document ambigu et sa traduction. . . . . . . . . . . . . . . . 107
V.8 Courbes rappel vs. précision relatives au domaine des boissons. . . . . . . . 111
V.9 Courbes rappel vs. précision relatives au domaine du mariage. . . . . . . . 111
V.10 Courbes rappel vs. précision relatives au domaine de la purification. . . . . 112
V.11 Evaluation de la reconnaissance des termes simples et composés dans le
domaine des boissons. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
V.12 Evaluation de la reconnaissance des termes simples et composés dans le
domaine du mariage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
V.13 Evaluation de la reconnaissance des termes simples et composés dans le
domaine de la purification. . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
V.14 Courbes de la F-mesure pour le domaine des boissons (tous les termes). . . 114
V.15 Courbes de la F-mesure pour le domaine des boissons (termes composés). . 114
V.16 Courbes de la F-mesure pour le domaine du mariage (tous les termes). . . 114
V.17 Courbes de la F-mesure pour le domaine du mariage (termes composés). . 114
V.18 Courbes de la F-mesure pour le domaine de la purification (tous les termes).114
V.19 Courbes de la F-mesure pour le domaine de la purification (termes composés).114

vi
VI.1 Interface de recherche et de navigation dans la carte socio-sémantique des
hadiths. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
VI.2 Exemple de réseau syntaxique. . . . . . . . . . . . . . . . . . . . . . . . . . 125
VI.3 Exemple de réseau distributionnel contenant toutes les relations syntaxiques.125
VI.4 Exemples de réseaux distributionnels relatifs à des relations syntaxiques
différentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
VI.5 Exemple de graphe de co-occurrence. . . . . . . . . . . . . . . . . . . . . . 126
VI.6 Interface de validation des groupes de co-hyponymes. . . . . . . . . . . . . 127
VI.7 Valeurs moyennes du rappel, de la précision et de la F-mesure pour cinq
types de distance pour la liaison des termes. . . . . . . . . . . . . . . . . . 128
VI.8 Comparaison de différentes approches de liaison de termes. . . . . . . . . . 128
VI.9 Résultats obtenus pour différents types de relations syntaxiques. . . . . . . 129
VI.10Aperçu sur la carte sémantique du domaine des boissons. . . . . . . . . . . 130
VI.11Zoom sur le groupe numéro 5 de la carte sémantique de la Figure VI.10. . 131
VI.12Résultats d’expansion des requêtes dans le domaine des boissons. . . . . . 132
VI.13Résultats d’expansion des requêtes dans le domaine du mariage. . . . . . . 132
VI.14Résultats d’expansion des requêtes dans le domaine de la purification. . . . 132
VI.15Graphe social des narrateurs du hadith sous forme d’arbre radial. . . . . . 133
VI.16Résultat de la transformation basée sur les arcs du réseau social des nar-
rateurs dans le domaine des boissons (l’attribut ”génération” affiché aux
nœuds). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
VI.17Résultat de la transformation basée sur les arcs du réseau social des nar-
rateurs dans le domaine des boissons (l’attribut ”nisba” affiché aux nœuds). 136
VI.18Exemple de cartographie d’une chaı̂ne. . . . . . . . . . . . . . . . . . . . . 140

A.1 Exemple de document et sa traduction en français. . . . . . . . . . . . . . 170


A.2 Architecture de l’analyseur de textes semi-structurés. . . . . . . . . . . . . 170
A.3 L’interface graphique de l’analyseur de textes semi-structurés. . . . . . . . 171
A.4 Exemple d’analyse lexicale. . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
A.5 Exemple de lexique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
A.6 Exemple de regroupement. . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
A.7 Exemple de grammaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
A.8 Exemple d’analyse semi-automatique. . . . . . . . . . . . . . . . . . . . . . 173
A.9 Exemple de résultat d’analyse. . . . . . . . . . . . . . . . . . . . . . . . . . 174
A.10 Exemple de document après identification des versets. . . . . . . . . . . . . 175
A.11 Les principales règles de la grammaire des noms propres arabes [50]. . . . . 175
A.12 Exemple de document après identification des acteurs. . . . . . . . . . . . 177
A.13 Exemples de règles de la grammaire des chaı̂nes de narrateurs. . . . . . . . 177
A.14 Exemple de document après identification des chaı̂nes. . . . . . . . . . . . 178
A.15 Exemple de document après l’analyse des commentaires sur les hadiths. . . 179
A.16 Exemple de document après l’analyse des titres des chapitres et sous-
chapitres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
A.17 Exemple de document après l’analyse des hadiths. . . . . . . . . . . . . . . 180

B.1 Exemple de chaı̂ne avant et après indexation des noms de narrateurs. . . . 183

C.1 Exemple de résultat généré par l’outil MADA. . . . . . . . . . . . . . . . . 188


C.2 Exemple de calcul des attributs morphologiques. . . . . . . . . . . . . . . . 189

vii
C.3 Exemple de résultat de l’analyse morphologique après désambiguisation par
seuil de pertinence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
C.4 Pseudo-code de la méthode Java qui permet de reconnaı̂tre les syntagmes
annexés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

D.1 Interface principale de la plate-forme d’organisation des connaissances et


de recherche d’information multi-critères. . . . . . . . . . . . . . . . . . . . 193
D.2 L’onglet transformation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
D.3 L’onglet regroupement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
D.4 L’onglet filtre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
D.5 Entête du fichier GraphML. . . . . . . . . . . . . . . . . . . . . . . . . . . 196
D.6 Exemple de hadith au format GraphML. . . . . . . . . . . . . . . . . . . . 197
D.7 Exemple de terme au format GraphML. . . . . . . . . . . . . . . . . . . . 197
D.8 Exemples de narrateurs au format GraphML. . . . . . . . . . . . . . . . . 198
D.9 Exemple de relation sociale au format GraphML. . . . . . . . . . . . . . . 198
D.10 Exemple de lien d’indexation au format GraphML. . . . . . . . . . . . . . 198

viii
Liste des tableaux

I.1 Typologie des activités dans le domaine du e-learning. . . . . . . . . . . . . 7


I.2 Critères de comparaison des SOC. . . . . . . . . . . . . . . . . . . . . . . . 18

II.1 Les manières de transmission du hadith [4]. . . . . . . . . . . . . . . . . . . 32


II.2 Typologie des hadiths inacceptables à cause des caractéristiques des nar-
rateurs [4]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
II.3 Méthodes, paramètres et outils d’évaluation des dimensions de la fiabilité
des hadiths [50]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
II.4 Critères de comparaison des approches d’évaluation des hadiths . . . . . . 43

III.1 Comparaison des analyseurs morphologiques arabes. . . . . . . . . . . . . . 49


III.2 Table de contingence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

V.1 Caractéristiques du corpus du hadith. . . . . . . . . . . . . . . . . . . . . . 88


V.2 Correspondance entre les types d’usage, les catégories des fragments et les
informations de la base des narrateurs. . . . . . . . . . . . . . . . . . . . . 91
V.3 Table de priorité de l’analyseur des titres des thèmes. . . . . . . . . . . . . 95
V.4 Table de priorité de l’analyseur des hadiths. . . . . . . . . . . . . . . . . . 95
V.5 Résultats d’expérimentation de l’analyseur des hadiths. . . . . . . . . . . . 95
V.6 Etude comparative des approches de reconnaissance des entités nommées. . 96
V.7 Composantes du modèle d’indexation des noms propres arabes. . . . . . . . 97
V.8 Matrice de correspondance (noms des personnes et des maı̂tres). . . . . . . 99
V.9 Matrice de correspondance (clés des pères). . . . . . . . . . . . . . . . . . . 99
V.10 Matrice de correspondance (clés des pères du maı̂tre). . . . . . . . . . . . . 100
V.11 Résultats de la reconnaissance des identités [50]. . . . . . . . . . . . . . . . 102
V.12 Fréquences des termes du document de la Figure V.6 . . . . . . . . . . . . 105
V.13 Distributions de possibilité relatives au document de la Figure V.6. . . . . 106
V.14 Statistiques sur les fragments et les termes de trois domaines. . . . . . . . 110
V.15 Distribution des termes pertinents. . . . . . . . . . . . . . . . . . . . . . . 112

VI.1 Exemples de textes arabes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 124


VI.2 Les syntagmes nominaux extraits des textes du tableau VI.1. . . . . . . . . 124
VI.3 Titres des groupes obtenus pour les trois domaines. . . . . . . . . . . . . . 131
VI.4 Distribution de possibilité selon la crédibilité des narrateurs. . . . . . . . . 137
VI.5 Valeurs du critère de continuité selon la relation sociale, le gap temporel et
le gap géographique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
VI.6 Distribution de possibilité selon le critère de continuité. . . . . . . . . . . . 138

ix
VI.7 Distribution de possibilité selon le critère de fiabilité de transmission. . . . 138
VI.8 Moyennes des scores attribués pour les trois classes de fiabilité selon l’al-
gorithme à base de minimum [6]. . . . . . . . . . . . . . . . . . . . . . . . 141
VI.9 Moyennes des scores attribués pour les trois classes de fiabilité selon l’al-
gorithme à base de produit. . . . . . . . . . . . . . . . . . . . . . . . . . . 141
VI.10Valeurs moyennes et minimales des critères de fiabilité dans les six livres. . 141
VI.11Comparaison des résultats du système par rapport aux décisions des savants
[6]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

A.1 Terminaux de la grammaire des noms propres arabes. . . . . . . . . . . . . 176


A.2 Exemples de règles combinant les noms de personnes et les manières de
transmission. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
A.3 Taux d’intervention des grammaires hors contexte. . . . . . . . . . . . . . . 181

B.1 Résultats de la reconnaissance par calcul possibiliste pour le premier nar-


rateur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
B.2 Liste des narrateurs candidats pour un exemple de chaı̂ne . . . . . . . . . . 185
B.3 Exemples de relations sociales. . . . . . . . . . . . . . . . . . . . . . . . . . 185
B.4 Méta-données sur les narrateurs d’un exemple de chaı̂ne. . . . . . . . . . . 186

C.1 Exemple d’analyse et d’ambigüité syntaxique. . . . . . . . . . . . . . . . . 191


C.2 Exemple de termes simples et composés extraits du corpus hadithien. . . . 192

E.1 Phonétique et graphie des lettres arabes. . . . . . . . . . . . . . . . . . . . 199

x
Introduction Générale

L ’émergence du Web a engendré des changements majeurs dans le domaine de


l’offre et de la demande de l’information [98]. Les caractéristiques du Web en
tant qu’espace ouvert, hétérogène, faiblement structuré, sans autorité de contrôle et de
taille gigantesque posent plusieurs défis. Ces changements influencent notre vision du Web
du futur essentiellement en matière d’organisation, d’accès et d’évaluation des connais-
sances. En effet, les différentes visions futuristes du Web [229] proposent une certaine
structuration des fonds documentaires et des utilisateurs à travers des Systèmes d’Or-
ganisation des Connaissances (SOC) [226]. L’objectif est de permettre à un utilisateur
d’appréhender son espace informationnel afin de pouvoir l’interroger et y naviguer d’une
manière adaptée [212]. Ces systèmes doivent aussi tenir compte de l’organisation sociale
des acteurs et de leur hétérogénéité, qui induit des divergences de points de vue difficiles
à cerner, à comprendre et à concilier.

Quelle que soit la perfection des SOC, l’utilisateur reste incapable de maı̂triser son
espace vu la complexité de ses besoins et la quantité d’informations disponibles [212]. Les
fonds documentaires doivent donc être munis, en plus des SOC, de systèmes de recherche
et de navigation qui permettent de filtrer et d’évaluer les informations en fonction de
contraintes imposées par l’utilisateur. Dans leur développement, ces systèmes ont subi
plusieurs changements. D’une part, il a fallu développer des mécanismes sophistiqués
d’expression des besoins et de présentation des résultats qui favorisent l’interaction avec
l’utilisateur impliqué dans une démarche d’enquête. D’autre part, les critères d’évaluation
se sont diversifiés afin de tenir compte à la fois des besoins sociaux et sémantiques des
utilisateurs. Ainsi, il est nécessaire de considérer toutes les dimensions de la qualité de
l’information. Cependant, l’une des principales dimensions qui suscite des inquiétudes vis-
à-vis du contenu du Web concerne la fiabilité de l’information [175]. Assurer la confiance
entre les fournisseurs et les bénéficiaires de l’information est une préoccupation primordiale
de toutes les conceptions récentes du Web [75, 109, 227].

La cartographie des connaissances est un processus qui utilise un ensemble de para-


digmes permettant de structurer et de rendre accessibles les connaissances [212]. Produire
une carte à partir d’un fonds documentaire brut consiste à structurer ses connaissances,
à les visualiser et à fournir les mécanismes nécessaires pour leur manipulation. Une carte
est donc composée d’un SOC et d’un ensemble de structures visuelles utilisées pour affi-
cher ses différents éléments et faciliter leur appréhension. Il faut adjoindre à ces éléments
un ensemble d’opérations d’interaction pour aider l’utilisateur à exprimer ses besoins et
à évaluer les informations mises à sa disposition. Il s’agit par conséquent d’un produit
multidimensionnel, dont la production passe nécessairement par l’analyse de documents,
l’extraction et la structuration des connaissances.

1
INTRODUCTION

Par ailleurs, le processus de cartographie dépend en grande partie des caractéristiques


du fonds documentaire. La langue, qui constitue le support des connaissances, s’avère
être un aspect déterminant qui influence le développement des SOC et des Systèmes de
Recherche d’Information (SRI). Alors que le Web se développe, les documents arabes
demeurent difficilement accessibles à cause des limites des outils d’analyse, d’indexation
et de recherche qui ne sont pas adaptés pour tenir compte des caractéristiques de cette
langue. Certes, cette situation impose des défis, mais il faut reconnaı̂tre que la richesse
de la langue et de la civilisation arabe inspire plusieurs opportunités de recherche qui
peuvent contribuer au développement du Web.

Problématique de la thèse
Le processus de cartographie commence par une étape d’analyse qui vise à indexer
les documents et à extraire les connaissances qui s’y trouvent. Les concepts véhiculés
dans les fonds documentaires sont représentés par des expressions linguistiques. Ainsi,
cette première étape nécessite des outils d’analyse linguistique capables de reconnaı̂tre les
attributs et les constituants de ces expressions. Malgré l’effort de recherche considérable
dans le domaine du traitement automatique de textes en langue arabe (voir par exemple,
[66, 127, 164]), les outils existants restent limités face à l’ambigüité et à la richesse de ces
textes et donc difficilement intégrables dans les systèmes d’extraction de connaissances et
de Recherche d’Information (RI) existants.

Les SRI arabes existants se basent sur des heuristiques ou des méthodes statistiques
afin de diminuer l’effet de l’ambigüité sur les autres étapes [133, 153]. De telles solutions
ne permettent pas à un système d’interpréter efficacement le sens des documents, ce qui
réduit significativement la qualité des SOC que nous sommes capables de développer.
Ceci dit, les travaux de recherche, dans le domaine du développement des SOC et des
SRI arabes, se concentrent sur l’axe sémantique en privilégiant la pertinence thématique.
Ces systèmes se trouvent démunis face à la diversité des besoins des utilisateurs et de la
nécessité de prendre en considération d’autres critères. En particulier, et malgré l’existence
d’une méthodologie solide pour la fiabilité de l’information, représentée par les sciences
du hadith, les SRI arabes n’intègrent pas cette dimension.

La présente thèse s’intègre dans le cadre de la conception et l’expérimentation d’un


processus de cartographie qui tient compte des spécificités de la langue arabe, qui in-
clut toutes les étapes d’analyse et qui modélise les fonds documentaires d’une manière
multidimensionnelle.

En tant que produit, nous générons des cartes socio-sémantiques dont chacune corres-
pond à un domaine. Une carte est constituée par un ensemble de fragments de docu-
ments indexés selon plusieurs dimensions. Pour modéliser ces dimensions, nous adoptons
le type de SOC le plus utilisé dans les visions récentes du Web, à savoir les ontologies
[109, 225]. Chaque ontologie est constituée d’entités sociales ou sémantiques organisées
par un ensemble de relations spécifiques à leur type. Ces ontologies sont reliées au fonds
documentaire par des réseaux possibilistes qui modélisent les liens de dépendance entre les
fragments et les entités. Les mécanismes de propagation dans ces réseaux constituent un
modèle d’appariement capable d’évaluer chaque fragment, étant donné un besoin exprimé
par l’utilisateur sous forme de requête. En plus, les cartes ainsi conçues permettent la
navigation entre les différentes dimensions et les ressources du fonds documentaire.

2
INTRODUCTION

En tant que processus, nous donnons une importance particulière aux problèmes d’ana-
lyse et de désambiguı̈sation linguistique. Ainsi, la première étape de ce processus consiste
en l’extraction des entités sémantiques et sociales. Dans l’axe sémantique, il est nécessaire
d’extraire les termes pertinents à chaque domaine, ce qui nous impose d’affronter les am-
biguı̈tés morphosyntaxiques. Dans l’axe social, nous extrayons les entités nommées qui
représentent les noms des acteurs impliqués dans le processus de production et de trans-
mission de l’information. Les noms propres arabes étant aussi ambigus, nous procédons
à une étape de désambiguı̈sation qui permet d’identifier d’une manière précise chaque
acteur.

Pour structurer les connaissances, nous proposons un processus d’analyse distribution-


nelle basée sur les Réseaux Petits Mondes Hiérarchiques (RPMH). Le principe consiste
à relier les entités qui se ressemblent du point de vue distribution sur les contextes pos-
sibles. Les graphes distributionnels se caractérisent par la concentration des arcs dans cer-
taines zones qui constituent des petits mondes. Ils permettent d’organiser les entités d’une
manière qui élicite la structure du domaine et les liens entre ses composantes. Il s’agit
donc d’une solution générique qui permet de traiter n’importe quels types de connais-
sances représentées par un graphe. Dans notre cas, elle est appliquée sur les réseaux de
dépendances syntaxiques qui relient les termes et sur les réseaux sociaux qui relient les
acteurs.

Notons enfin que le développement des SOC et des SRI arabes est limité par le manque
de standards d’évaluation requis pour valider et comparer différentes approches. Dans le
cadre de nos travaux, nous avons tenu à évaluer, étape par étape, notre processus de car-
tographie en analysant l’efficacité de nos choix au niveau de l’extraction, de l’organisation
des connaissances et de la recherche d’information.

Organisation de la thèse
La présente thèse est organisée en deux parties dont la première constitue un état de
l’art sur notre problématique et la deuxième détaille nos contributions. Ces deux parties
contiennent six chapitres que nous récapitulons comme suit. Le premier chapitre présente
la problématique d’organisation et de l’accès à l’information. Ainsi, nous commençons par
analyser le processus de gestion de l’information et les défis qu’il suscite dans le contexte
du Web actuel. Ensuite, nous étudions et nous comparons les différentes visions du Web
qui tentent de relever ces défis. Chacune de ces visions propose un type de SOC cohérent
avec ses fondements théoriques. En outre, les modalités d’accès aux documents se sont
développées en commençant par les SRI classiques de type requête-liste de résultats pour
arriver à la cartographie des connaissances en passant par les bibliothèques virtuelles.
Enfin, ce chapitre identifie les critères de choix entre les différentes visions, les systèmes
d’organisation et d’accès à l’information.

Etant donné que l’objectif final est de servir l’utilisateur avec une information perti-
nente, le second chapitre commence par définir la notion de pertinence et ses critères.
Nous nous focalisons en particulier sur le critère de fiabilité qui constitue un besoin cri-
tique vu le contexte ouvert du Web. Dans ce cadre, nous énumérons et nous comparons
les méthodologies d’assurance de la fiabilité existantes, afin d’identifier les critères et les
exigences de son évaluation. Enfin, ce chapitre présente une étude des applications infor-
matiques existantes et qui ont touché essentiellement le corpus hadithien.

3
Le troisième chapitre est consacré à l’étude des étapes nécessaires pour passer d’un fonds
documentaire arabe brut à un fonds documentaire structuré. L’extraction et l’organisation
des connaissances nécessitent plusieurs types d’analyses. Le processus commence au niveau
des mots et des expressions qui constituent les entités de base. Dans l’axe sémantique, il
s’agit d’énumérer les approches de construction d’ontologie en se focalisant sur l’extraction
de termes et de relations sémantiques à partir des corpus textuels. Dans l’axe social, nous
présentons un état de l’art des approches d’extraction des entités nommées arabes et de
reconnaissance de l’identité des acteurs.

Un aperçu général sur notre contribution est présenté dans le quatrième chapitre. Nous
proposons un modèle générique d’une carte socio-sémantique multi-dimensions comme un
réseau de fragments reliés à un ensemble d’ontologies par des réseaux possibilistes. Nous
discutons les composantes principales de ce modèle avant de proposer un processus de
cartographie composé de huit étapes.

Le cinquième chapitre introduit le corpus du hadith comme cas d’application en jus-


tifiant ce choix par une étude de ses caractéristiques. Il présente la conception et la
réalisation des outils d’extraction de connaissances socio-sémantiques. D’abord, nous
étudions la structure des documents du hadith et nous présentons les résultats de l’analyse
automatique de leurs textes. Ensuite, nous présentons et nous évaluons nos algorithmes
de reconnaissance des entités nommées et des identités des acteurs. Enfin, nous proposons
et nous validons notre approche d’analyse morphosyntaxique et d’extraction de candidats
termes.

Le sixième et dernier chapitre prolonge le processus de cartographie en détaillant les


étapes d’analyse distributionnelle, d’évaluation et d’accès à l’information. Nous com-
mençons par présenter une plate-forme générique qui implémente des opérations de struc-
turation et de navigation dans un espace informationnel modélisé par les graphes. Ces
opérations sont utilisées afin de structurer les connaissances hadithiennes dans l’axe
sémantique et social. En outre, nous présentons les résultats de nos expérimentations
dans le domaine de l’évaluation de la fiabilité des hadiths.

En guise de conclusion, un bilan de nos travaux met en exergue nos propositions en


rappelant les motivations liées à la problématique traitée dans cette thèse, les choix que
nous avons faits et les contributions que nous avons proposées. Nous terminons par des
suggestions de thématiques de recherche en vue de poursuivre les travaux couverts par
cette thèse.

4
Première partie

Etat de l’art

5
Chapitre I
Organisation et accès à l’information

L ’organisation d’un fonds documentaire est une étape préliminaire pour faciliter
l’accès aux documents qui le constituent. L’émergence du Web, comme fonds do-
cumentaire international, a engendré plusieurs problèmes liés essentiellement à la quantité
de l’information et à la diversité de ses fournisseurs. Plusieurs solutions ont été proposées
par les communautés de la recherche d’information et de l’ingénierie des connaissances
[226]. Ce chapitre fait un état de l’art des approches proposées pour modéliser et accéder
à un fonds documentaire ainsi qu’aux connaissances qu’il contient. Dans la section 1,
nous identifions les objectifs et les problèmes d’accès à un fonds documentaire. Nous
discutons par la suite les solutions proposées pour appréhender les fonds documentaires
en étudiant les différentes visions du Web (section 2). En effet, chacune des ces visions
propose des systèmes d’organisation des connaissances particuliers (section 3). En outre,
avec le développement de ces visions, plusieurs modèles d’accès à l’information ont été
proposés. La section 4 dresse un état des caractéristiques de ces modèles.

1 Problématique et objectifs de l’accès à un fonds


documentaire
Etant donné que les fonds documentaires sont le résultat d’interactions entre les acteurs
et les informations, nous commençons par analyser le processus de gestion de l’informa-
tion. Ce processus peut être modélisé par deux acteurs dont le premier (le rédacteur)
rédige un document et le transmet vers un deuxième qui joue le rôle de lecteur. Dans la
réalité, les interactions entre les acteurs sont plus complexes que cette vision simpliste.
Par exemple, dans le domaine du e-learning, Zniber et Cauvet [237] distinguent plusieurs
types d’acteurs, tels que le groupe de travail et les concepteurs pédagogiques et informa-
tiques en plus du tuteur et de l’apprenant. D’après les travaux de Paquette [179], Peguiron
[183] et Tazi [211], nous pouvons identifier le rôle de chacun de ces acteurs dans la gestion
de l’information ainsi que leurs interactions. Le tuteur et l’apprenant étant au centre de
la problématique, les verbes utilisés dans la description de leurs activités nous renseignent
sur la typologie des rôles dans ce domaine (voir tableau I.1).
Comme autre exemple, nous pouvons analyser les problèmes liés à la production d’ar-
ticles scientifiques. Ce domaine se caractérise par l’intervention de plusieurs types d’ac-
teurs dont les responsables de recherche, les encadreurs et les chercheurs. La typologie des
activités dans ce domaine est symétrique à celle du e-learning. D’abord, un article est un

6
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

Activité Type
Le tuteur met l’information à la disposition de l’apprenant Transmission
Un apprenant transforme une information en connaissance Interprétation
Le tuteur vérifie ou corrige le travail d’un apprenant Vérification
Le tuteur évalue un apprenant Jugement
Analyser, synthétiser, annoter, indexer un cours Synthèse
Un apprenant enrichit ou adapte un cours Adaptation
Un tuteur compose un cours Sélection, organisation,
rédaction, révision

Tableau I.1 – Typologie des activités dans le domaine du e-learning.

outil de communication du savoir, ce qui correspond à la notion de transmission. Ensuite,


nous retrouvons les activités liées à la production de documents (sélection, organisa-
tion, rédaction, révision et synthèse). Enfin, le rôle de l’encadreur nous rappelle le
rôle du tuteur avec des activités de type correction, vérification et jugement.
A partir de ces exemples, nous pouvons distinguer trois phases dans le cycle de vie
d’un document :
– La phase de production : selon Tazi [211], la composition d’un cours (d’un document)
englobe quatre activités : la sélection, l’organisation, la rédaction et la révision. La
tâche d’adaptation peut être vue comme une combinaison de ces quatre activités.
– La phase de transmission.
– La phase de lecture : le rôle d’un lecteur ne se limite pas à la lecture passive d’un
document, mais cette lecture est accompagnée d’une interprétation qui peut évoluer
vers d’autres tâches de vérification, de jugement ou de synthèse.
Certes ce processus de gestion de l’information n’est pas linéaire du fait qu’un pro-
ducteur effectue des tâches de lecture (par exemple pour sélectionner les fragments qui
constituent un document ou pour vérifier ce qu’il a rédigé). De même, un lecteur peut
se transformer en producteur, à partir du moment où il décide de produire de nouveaux
documents à partir de ceux qu’il a lu. La succession des opérations de rédaction, de
transmission et de lecture peut donc se transformer en une chaı̂ne où chaque nœud peut
modifier l’information à sa manière. En outre, la multiplication des rédacteurs et des
lecteurs ainsi que la diversification de leurs besoins et de leurs activités posent plusieurs
problèmes.
D’après Elayeb [98], le domaine de l’offre et de la demande de l’information a subi trois
changements majeurs. Le premier concerne la mise au format électronique des documents
papier. Le deuxième consiste en l’explosion de la quantité d’informations disponibles,
ce qui a fait naı̂tre, d’après Elayeb [98], des inquiétudes face à la fiabilité des sources
d’information et donc à la qualité de cette dernière. La validation de l’information qui
s’effectuait en amont par les auteurs, les éditeurs et les librairies est désormais la tâche
du lecteur [216]. Ce dernier se trouve, dans certains cas, incapable d’identifier la source
de l’information ou de juger de sa crédibilité. Cette difficulté s’amplifie dans le cas où
plusieurs acteurs participent à la production ou à la transmission d’une information.
C’est par exemple, le cas des forums où plusieurs informations sont échangées sans aucun
moyen d’identifier (ou de juger) leurs sources originelles ou les chemins qu’elles ont suivis.
La question qui se pose est donc : ”Comment s’assurer de la fiabilité d’une information
transmise par un ou plusieurs fournisseurs d’informations ?”.

7
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

La multiplication du nombre de fournisseurs de l’information a causé un autre chan-


gement. En effet, c’est la demande qui détermine le marché de l’information et non pas
l’offre. Ainsi, tout système de recherche d’information doit être centré sur l’utilisateur (ses
besoins, ses objectifs, ses préférences, etc.).
Les problèmes liés aux documents disponibles sur le Web restent valables pour un fonds
documentaire relatif à un domaine. Cette constatation est confirmée par Tricot [212] qui
traite de la problématique de l’accès à un fonds documentaire composé de documentation
scientifique et technique.
Avec une quantité énorme de documents, la première question qui se pose lors de
l’accès à un fonds documentaire est : ”Comment identifier l’information pertinente en
fonction d’un besoin ?”. La réponse à cette question passe par deux étapes. La première
permet l’expression des besoins et la deuxième s’attache à identifier l’information qui leur
correspond. Avec les moteurs de recherche actuels, un internaute trouve des difficultés
à exprimer ses besoins et à comprendre les résultats de ses recherches. Ces deux étapes
restent complexes du fait que l’utilisateur ignore la structure et le contenu de l’espace
qu’il interroge.
La deuxième question qui se pose est donc : ”Comment maı̂triser un espace infor-
mationnel ?”. Maı̂triser un espace vaste comme le Web est difficile, mais rechercher une
solution pour un fonds documentaire relatif à un domaine reste envisageable. Par exemple,
Tricot [212] a proposé des réponses à cette question en appliquant son approche dans le
domaine de l’industrie.
L’accroissement du nombre de fournisseurs de l’information et par conséquent de la
quantité des informations, pose un autre problème qui est celui de l’hétérogénéité. En effet,
nous nous plaçons dans un espace où chaque producteur d’informations peut avoir son
point de vue, sa compréhension personnelle d’un domaine et son interprétation particulière
de l’information. Il en résulte que chaque document représente un point de vue particulier.
C’est ainsi qu’émerge une autre problématique de l’accès à un fonds documentaire qui
concerne la gestion de la divergence [102, 167].

D’après cette analyse, nous pouvons identifier quatre besoins qui concernent l’accès à
un fonds documentaire relatif à un domaine :

– S’assurer de la fiabilité de l’information.


– Identifier l’information pertinente.
– Maı̂triser l’espace informationnel.
– Cerner et comprendre les divergences du domaine.
Vu que les technologies existantes ne permettent pas de répondre d’une manière sa-
tisfaisante à ces besoins, plusieurs réflexions ont été proposées pour faire évoluer le Web
selon diverses visions [65, 75, 229].

2 Les visions du Web


Les courants de recherche actuels s’orientent vers trois visions distinctes mais non
contradictoires du Web, à savoir [229] : le Web sémantique, le Web social et le Web
socio-sémantique.

8
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

2.1 Le Web sémantique


Les limites du Web actuel, qui est essentiellement syntaxique, ont poussé le W3C
(World Wide Web Consortium) à lancer le projet du Web sémantique [41]. Ce projet
apporte des solutions concrètes aux problématiques d’accès à un fonds documentaire.
L’idée consiste à ajouter au dessus des balises HTML, une couche qui permet au système
d’accéder directement à la sémantique des ressources. Ainsi, il est possible de libérer
l’utilisateur final d’une grande partie des tâches de manipulation de l’information.
Le projet Web sémantique est basé sur les principes suivants :

– Structuration logique des documents en utilisant le langage XML (eXtended Markup


Language [12]).
– Description structurée des ressources à travers les méta-données en utilisant les
langages RDF (Ressource Description Framework [10]) et RDFS (RDF Schema [11]).
– Utilisation des ontologies.
Les recherches dans le courant du Web sémantique ont permis de définir l’architecture
en couches du Web sémantique, qui est illustrée par la Figure I.1 [109].

Figure I.1 – Les couches du Web sémantique [109].

Cependant, cette architecture fortement formelle n’est pas la seule conception du Web
sémantique. D’autres auteurs tels que Zacklad [65] distinguent une deuxième approche
qu’ils appellent le ”Web cognitivement sémantique”. C’est une alternative à l’approche
présentée précédemment qu’ils qualifient de ”computationnelle”. Selon Zacklad, cette forte
formalisation, qui avait pour objectif d’automatiser la manipulation du sens par des agents
logiciels, néglige les besoins humains des utilisateurs. En outre, elle ne permet pas de faire
face au caractère évolutif et multi-points de vue des ressources, ce qui se traduit par
la difficulté de mise à jour des ontologies [225]. Comme solution, le Web cognitivement
sémantique propose que ”la structuration des contenus, si elle peut permettre une semi-
automatisation de certaines tâches, vise tout autant à accroı̂tre l’intelligibilité du Web pour
des utilisateurs humains engagés dans des pratiques de navigation et d’enrichissement
des contenus” [65]. En effet, le Web cognitivement sémantique donne une priorité à une
indexation permettant de guider la recherche et la navigation d’un acteur humain. C’est
une indexation partiellement manuelle de contenus évolutifs à travers des langages de
description normalisés mais suffisamment souples et ergonomiques [229].

9
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

2.2 Le Web social


Cette vision du Web a pour but de répondre aux besoins de communication, d’in-
teraction et d’échange de points de vue d’acteurs temporellement, géographiquement et
socialement dispersés. Ainsi, les fonctions d’interaction et de communication ont une prio-
rité, ce qui transforme l’ordinateur en un support de l’activité sociale. En plus, un intérêt
particulier est donné à la modélisation des réseaux sociaux, afin de se rapprocher des
relations sociales du monde réel tout en respectant les contraintes de confidentialité et
de protection de la vie privée. Etant orienté vers les humains, le Web social permet à
de simples utilisateurs non spécialistes de participer à l’indexation de documents et à
l’organisation des connaissances et des réseaux sociaux.
Selon Connolly [75], les applications du Web social (telles que le réseautage social, les
blogs et les wikis) combinent d’une façon ou d’une autre les attributs suivants :
1. L’identité : Comment identifier d’une manière précise les personnes ?
2. La réputation : Comment les personnes sont jugées ?
3. La présence : Où retrouver une personne ?
4. Les relations : Comment les personnes sont connectées ? Qui fait confiance à qui ?
5. Les groupes : Comment les connections sont organisées ?
6. Les conversations : Quels sont les objets des discussions ?
7. Le partage : Quel contenu partager ?

2.3 Le Web socio-sémantique


Cette dernière vision combine les deux précédentes en ajoutant une couche sociale au
Web cognitivement sémantique. Tel que décrit par Zacklad, le Web socio-sémantique [225]
”inscrit les pratiques de recherche et d’élaboration informationnelle des usagers du Web
dans des activités de coopération structurellement ouvertes qui reposent également sur des
pratiques communicationnelles intensives”. Il vise donc à intégrer les besoins sociaux des
utilisateurs, dont la communication, l’interaction avec l’information et l’échange des points
de vue, dans le processus de gestion des connaissances. Il s’en suit que la construction
d’ontologies doit répondre à ces besoins sociaux, d’où la nécessité d’adopter des modèles
de représentation semi-formels [229]. Dans ce cadre, un document est le résultat d’interac-
tions, pas forcément synchrones, d’acteurs dispersés spatialement, temporellement et so-
cialement. Ces interactions peuvent être initialisées, interrompues, réactualisées, répétées
dans toutes les configurations de présence ou d’absence du bénéficiaire et du réalisateur
[225]. Le sens du document se construit d’une manière progressive à travers les interactions
sociales qui constituent donc un support riche en connaissances. Ainsi, pour modéliser les
documents et/ou les connaissances, il faut tenir compte des éléments suivants [225] :
– La complexité des relations entre les documents et les fragments qui les composent.
– Le caractère évolutif des documents.
– La diversité des acteurs, leurs rôles et leurs privilèges.
– Le contexte de production des documents et les thèmes qu’ils abordent.
Ces caractéristiques ont mené Zacklad [226] à considérer les documents comme des pro-
ductions sémiotiques. Partant de cette constatation, il remarque que le Web actuel a causé
la multiplication des activités collectives centrées sur les documents. Ainsi, un document
doit être analysé comme le résultat d’une macro-transaction entre des réalisateurs et des

10
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

bénéficiaires. En outre, chaque macro-transaction est composée de micro-transactions aux-


quelles participent plusieurs acteurs. En effet, les documents sont plus fragmentés quand
le nombre d’acteurs qui participent à leur production augmente. Les micro-transactions
s’articulent dans le document à travers des éléments liés à sa structure, tels que les titres,
les sous-titres et d’autres éléments indiquant les statuts des fragments [226].

2.4 Comparaison des trois visions


La Figure I.2 situe les trois visions du Web l’une par rapport à l’autre. Le Web socio-
sémantique se situe entre le Web social et le Web sémantique sur le plan de la prise en
compte des besoins humains. En effet, si le Web sémantique se concentre sur les besoins
informationnels et si le Web social s’oriente vers les besoins de communication, le Web
socio-sémantique présuppose une co-détermination de ces deux types de besoins. Les trois
visions sont aussi hiérarchisées dans le même ordre en fonction du degré de formalisa-
tion. Ainsi, en allant du Web social au Web sémantique, des langages et des systèmes
d’organisation des connaissances, de plus en plus formels, sont utilisés. Enfin, le Web
sémantique modélise le point de vue de l’expert, ce qui constitue, selon Zacklad [225], les
attitudes ”hégémoniques” de cette vision. De l’autre coté, se situe le Web social qui ouvre
les perspectives vers une participation plus ouverte des utilisateurs finaux.

Figure I.2 – Les trois visions du Web.

Le choix d’une vision parmi ces trois peut se faire selon les critères suivants :
– La nature du corpus : plus le corpus est complexe et évolutif, plus il devient
difficile d’utiliser des systèmes formels.
– La nature des besoins : si les besoins sont plutôt informationnels, nous pouvons
adopter des solutions qui s’approchent de la vision du Web sémantique. Si nous
voulons nous concentrer sur les besoins de communication, nous adopterons des

11
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

technologies issues du courant du Web social. Le Web socio-sémantique répond


d’une manière synchrone aux deux types de besoins.
– La nature du support : selon Zacklad [225], le Web social privilégie souvent
la médiation substitutive pour faciliter les interactions synchrones à distance sans
recourir à des supports pérennes. Le Web socio-sémantique privilégie la stratégie
de documentarisation consistant à enregistrer une production sémiotique sur un
support pérenne. Cette stratégie permet la réutilisation des documents et facilite
l’investissement documentaire des usagers, ce qui garantit la qualité des transactions
ultérieures. Enfin, le Web sémantique formel tend à représenter les contenus et les
connaissances à travers des langages formels.
– La nature des collectifs visés : le Web sémantique préconise de représenter les
connaissances consensuelles d’un collectif alors que le Web socio-sémantique (et
encore plus le Web social) s’adresse à des collectifs hétérogènes ayant des points de
vues différents voire divergents.
– Degré d’ouverture (vs. fermeture) sémiotique : ce critère est défini par Za-
cklad comme suit [225] : Dans tous les cas où l’ouverture des situations transac-
tionnelles de référence implique de maintenir une relative ouverture sémiotique,
il est souhaitable d’utiliser les ontologies sémiotiques pour guider la navigation à
l’intérieur des corpus [...] : trouver des lieux touristiques correspondant à un pro-
jet culturel, par exemple. A l’inverse, le recours à la formalité machinale [...] est
nécessaire quand la signification véhiculée par les situations transactionnelles est
étroitement confinée : trouver des places d’avion entre deux dates précises, par
exemple.
La fermeture sémiotique correspond au cas où la machine prend la décision à la
place de l’être humain en dénombrant tous les cas possibles. L’ouverture sémiotique
est proportionnelle au degré de participation/coopération des utilisateurs dans le
processus de prise de décision.
Ces critères facilitent la conception des applications du futur en aidant à choisir le
Système d’Organisation de Connaissances (SOC) le plus adéquat.

3 Les systèmes d’organisation des connaissances


Les systèmes d’organisation des connaissances visent à représenter le langage natu-
rel ou les connaissances humaines et à faciliter l’accès aux documents. Les systèmes
les plus simples sont les lexiques et les glossaires qui visent à représenter le langage
au niveau lexical avec certains traits sémantiques [112]. Ensuite, les thésaurus viennent
ajouter une couche de relations sémantiques entre termes [198]. Pour représenter les re-
lations hiérarchiques, les hiérarchies informelles, telles que les classifications et les an-
nuaires thématiques, ont été introduites [226]. Pour arriver au formel, il a fallu définir des
hiérarchies de classes strictes auxquelles sont ajoutés des liens d’instanciation, ensuite la
description des propriétés des classes et enfin des connaissances inférentielles.
Dans cette section, nous introduisons et nous comparons les SOC actuellement utilisés
dans les trois visions du Web, à savoir les thésaurus, les systèmes d’indexation collaboratifs
et les ontologies.

3.1 Les thésaurus


La norme ISO 2788 définit un thésaurus comme [7] ”un vocabulaire d’un langage d’in-
dexation contrôlé, organisé formellement de façon à expliciter les relations a priori entre

12
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

les notions (par exemple relation générique/spécifique)”. La même norme définit un lan-
gage d’indexation comme ”un ensemble contrôlé de termes choisis dans une langue natu-
relle et utilisés pour représenter, sous forme condensée, le contenu des documents” [198].
Un thésaurus englobe un ensemble de termes qui constituent un lexique et qui sont
destinés à être utilisés par les indexeurs comme descripteurs des documents. Ils incluent
aussi un ensemble de relations dont la typologie diffère d’un thésaurus à un autre. WordNet
est l’exemple le plus célèbre de thésaurus disponible en plusieurs langues dont les langues
des pays européens [184] et la langue arabe [100].
Pour comprendre la nature des thésaurus, il est nécessaire de faire la distinction entre
”terme” et ”concept”. Selon Zacklad [226], les concepts correspondent à un ensemble
restreint de notions associées aux ressources cognitives d’une collectivité. Un terme est
une expression linguistique qui représente un concept. Etant donné qu’un concept peut
avoir plusieurs représentants, la construction d’un thésaurus consiste à sélectionner, pour
chaque concept, le meilleur représentant, à savoir celui qui sera le plus adéquat pour
indexer les documents.
Zacklad distingue deux caractéristiques des thésaurus [226] :
1. Les thésaurus sont crées pour des fins d’indexation et non pour un objectif de
représentation des connaissances.
2. Ils utilisent une représentation des concepts qui les font dépendre des langues et
des mises en discours. Ceci engendre des ambiguı̈tés et des incohérences dans le
thésaurus quand il est appréhendé comme un SOC.

3.2 Les systèmes d’indexation collaboratifs


Il s’agit de systèmes construits par une communauté d’indexeurs qui coopérent à tra-
vers le Web. Les annuaires de ressources sont pris en charge par des communautés de
volontaires dont chacun a des droits de mise à jour du SOC, qui sont proportionnels à sa
réputation. Il s’agit donc d’un processus social d’indexation où les individus qui ont plus
d’autorité contrôlent ceux qui en ont moins. La réputation ou l’autorité d’un individu est
définie selon ses contributions antérieures.
Les SOC préférés dans le Web social sont les folksonomies [154]. Une folksonomie est
le résultat d’une indexation sociale et collaborative, qui permet aux utilisateurs de choisir
librement les mots-clés qui indexent les documents. Ceci leur permet de les retrouver ou
de les partager avec les autres utilisateurs. Un tel système réduit l’effort cognitif étant
donné la simplicité de la tâche d’indexation. En outre, le fait que les ressources soient
accédées et indexées par un nombre élevé d’individus constitue une fonction de régulation
qui permet d’avoir un feedback sur les mots-clés choisis [101]. Cependant, avec l’ouverture
totale du système, cette fonction de régulation ne garantit pas la cohérence des indexes. En
effet, l’absence d’un mécanisme de contrôle peut causer des imprécisions et des ambiguı̈tés
terminologiques telles que la synonymie et la polysémie.

3.3 Les ontologies


C’est à l’occasion de l’émergence de l’ingénierie des connaissances que les ontolo-
gies sont apparues en intelligence artificielle, comme réponse aux problématiques de
représentation et de manipulation des connaissances au sein des systèmes informatiques
[109]. Ensuite, l’ontologie est devenue un élément central dans l’évolution du Web. Avec

13
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

la divergence des points de vue concernant cette évolution, il est difficile de donner une
définition du terme ontologie. Nous pouvons remarquer le degré de divergence en lisant
l’état de l’art de Gaëlle [112], qui considère les lexiques, les glossaires et les thésaurus
comme des ontologies. Cependant, nous pouvons distinguer deux points de vue concer-
nant la nature des ontologies et leurs rôles. Le premier est celui du Web sémantique
formel et le deuxième est celui du Web socio-sémantique. Avant de détailler ces deux
points de vue, il nous semble utile de présenter une typologie des ontologies selon l’objet
de conceptualisation.

3.3.1 Typologie selon l’objet de conceptualisation


Les typologies d’ontologies mises au point sont très diverses [120]. Gaëlle [112] s’est
proposé de présenter les types d’ontologies les plus couramment utilisés sans pour autant
fournir une typologie exhaustive. Il considère qu’il existe deux types, à savoir :
– Les ontologies de haut-niveau : ce type d’ontologie décrit des concepts généraux
ou des connaissances de sens commun telles que l’espace, le temps, l’événement,
l’action, etc. qui sont indépendants d’un problème ou d’un domaine particulier.
Ainsi, elles sont réutilisables d’un domaine à un autre.
– Les ontologies spécialisées : du point de vue formel, ces ontologies ”spécialisent”
un sous-ensemble d’ontologies de haut niveau en un domaine ou un sous-domaine.
Elles sont destinées à être utilisées dans des domaines et/ou applications particuliers.
Ainsi, il est possible de distinguer trois types d’ontologies spécialisées :
– Les ontologies de domaine qui contiennent des connaissances en relation avec un
domaine générique comme la médecine ou la physique.
– Les ontologies des tâches qui définissent un vocabulaire en relation avec une tâche
ou une activité générique comme le diagnostic ou la vente.
– Les ontologies d’application qui décrivent les rôles joués par les entités d’un do-
maine donné lorsqu’elles effectuent certaines activités.

3.3.2 Les ontologies dans le Web sémantique formel


i) Définitions
Même au sein du courant du Web sémantique, plusieurs définitions du terme ontologie
existent [109]. Cependant, un certain consensus s’est établi sur le rôle des ontologies dans
le processus de représentation des connaissances, consensus bâti autour de la définition
de Gruber [121]. Une ontologie est une spécification explicite d’une conceptualisation.
Guarino et Giaretta [123] affinent cette définition en considérant les ontologies comme des
spécifications partielles et formelles d’une conceptualisation. Les ontologies sont formelles
car exprimées sous forme logique, et partielles car une conceptualisation ne peut pas être
entièrement formalisée dans un cadre logique, à cause des ambiguı̈tés ou du fait qu’aucune
représentation de leur sémantique n’existe dans le langage de représentation d’ontologies
choisi [109].
Charlet et al. [68] précisent les contraintes qui s’imposent successivement aux concep-
teurs des ontologies :
– Une ontologie est bien une conceptualisation.
– Devant être par la suite utilisée dans un artefact informatique dont nous voulons
spécifier le comportement, l’ontologie devra également être une théorie logique pour
laquelle le vocabulaire manipulé est précisé.

14
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

– La conceptualisation étant spécifiée parfois de manière très précise, une théorie


logique ne peut pas toujours en rendre compte de façon exacte et ne le fait donc
que partiellement.
– Etant donné qu’une ontologie implique une vue du monde, celle-ci doit être partagée
par une communauté, sinon elle n’aura aucune utilité théorique ou pratique.

ii) Les constituants et les axes de structuration


Dans les ontologies formelles, les connaissances portent sur des objets auxquels nous nous
référons à travers des concepts. Un concept peut représenter un objet matériel, une notion
ou une idée [213]. Il peut être divisé en trois parties : un ou plusieurs termes, une notion
et un ensemble d’objets. La notion, également appelée ”intension du concept”, contient la
sémantique du concept, exprimée par des propriétés, des règles et des contraintes. L’en-
semble d’objets, également appelé ”extension du concept”, regroupe les objets manipulés
à travers le concept ; ces objets sont appelés instances du concept. Par exemple, le terme
”table” renvoie à la fois à la notion de table comme objet de type ”meuble” possédant un
plateau et des pieds, mais également à l’ensemble des objets de ce type.
Nous pouvons déduire les axes de structuration d’une ontologie comme suit. En pre-
mier lieu, un concept est lié par référence à un ensemble d’individus d’où la sémantique
référentielle. En second lieu, l’exemple du concept ”table” montre que cette notion ne
peut se définir qu’en utilisant d’autres concepts comme ”meuble”, ”plateau” et ”pied”.
De ce fait, les concepts manipulés, dans un domaine de connaissances, sont organisés au
sein d’un réseau. Les concepts y sont structurés hiérarchiquement et liés par des pro-
priétés conceptuelles [109]. Dans cette hiérarchie, un concept possède une sémantique
différentielle [67] qui permet de le distinguer de ses pères et de ses frères. En effet,
la construction d’une ontologie commence par l’identification des concepts et leurs rela-
tions à travers les termes qui les représentent. Ces termes sont ensuite désambiguı̈sés et
décontextualisés pour obtenir une ontologie différentielle. L’identification des instances de
chaque concept permet de passer à une ontologie référentielle. En dernier lieu, le passage
au niveau computationnel, par la traduction de l’ontologie dans un langage formel, permet
d’ajouter une sémantique inférentielle qui permet d’inférer de nouvelles connaissances.
Une ontologie contient donc en plus des concepts, des relations ainsi que des connaissances
inférentielles.

Les relations : Nous pouvons retrouver dans une ontologie divers types de relations.
Nous distinguons comme dans [68], la relation hiérarchique ”is-a” (ou hyperonymie) qui
est utilisée pour structurer les ontologies des autres relations. La relation ”is-a” permet -
au sens du formel - l’héritage de propriétés entre les concepts. Les autres relations unissent
les concepts ensemble pour construire des représentations conceptuelles complexes. Par
exemple, si nous définissons ”appendicite” comme une ”inflammation localisée-sur l’ap-
pendice”, ”localisée-sur ” est une relation entre ”inflammation” et ”appendice”.

Les connaissances inférentielles : selon le point de vue de la sémantique formelle,


décrire les connaissances à travers les concepts, les relations et les propriétés ne suffit
pas pour atteindre l’objectif opérationnel d’une ontologie. Il s’agit également de tirer au
maximum parti de ce qui fait la spécificité du support informatique par rapport au support
écrit traditionnel, c’est-à-dire la possibilité de manipuler les connaissances pour en inférer
de nouvelles.

15
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

Ces connaissances peuvent être des faits, des règles ou des contraintes. L’énoncé ”l’en-
treprise E compte 20 salariés” est un exemple de fait. Une règle permet d’inférer de nou-
velles connaissances et contient donc une implication. La règle ”si une entreprise compte
X salariés, alors elle paye X*100 DT de charges” permet de calculer les charges d’une
entreprise. Comme exemple de contrainte, il est possible d’imposer que toute société im-
portante possède obligatoirement un conseil d’administration.

iii) Les rôles des ontologies


Selon Mizoguchi et Bourdeau [167], l’ontologie permet de réaliser les objectifs suivants :
– Partage et réutilisation : le processus de construction des ontologies devrait
aider une communauté d’agents à partager une expérience de construction afin de
modéliser leurs connaissances consensuelles.
– Interopérabilité sémantique : la source de la puissance de l’ontologie vient du fait
qu’elle permet l’interopérabilité sémantique entre l’ordinateur et l’homme et entre
les humains. L’objectif est d’harmoniser des sources hétérogènes d’information ou
des personnes travaillant dans des domaines différents.
– Raisonnement sur les connaissances : l’ingénierie ontologique permet une bonne
structuration des problèmes dans un domaine, ce qui a pour conséquence de révéler
les incohérences, notamment en utilisant les connaissances inférentielles.
– Précision et expressivité du langage : étant donné que les concepts partagés
sont représentés par des termes décontextualisés et désambiguı̈sés, l’ontologie ga-
rantit la précision et l’expressivité du langage. Ainsi, l’un des rôles d’une ontologie
est de lever les ambiguı̈tés terminologiques et de trouver un consensus sur des signi-
fications précises des termes. En plus, le langage utilisé est suffisamment expressif
pour que les personnes puissent exprimer leurs intensions.

3.3.3 Les ontologies dans le Web socio-sémantique


i) Définitions
Les ontologies sémiotiques préconisées par le Web socio-sémantique sont définies comme
des productions sémiotiques cohérentes qui regroupent des expressions stéréotypées ex-
traites des transactions communicationnelles [225]. Il s’agit d’une approche situationnelle
de la sémantique décrite par Zacklad comme suit [225] : ”L’approche situationnelle (ou
pragmatique) ancre la signification dans la situation transactionnelle elle-même et dans
ses différentes composantes. Les expressions ne sont pas seulement rapportées à l’envi-
ronnement interne de la production sémiotique considérée, à leur proximité sémantique,
mais également aux paramètres de la situation transactionnelle dans leur diversité : pro-
jet commun, nature des relations sociales entre les participants et caractéristiques de ces
derniers, cadre spatio-temporel et conditions environnementales, terrain représentationnel
commun, etc.”.
Zacklad [225] ajoute qu’il faut discriminer finement les fragments de documents sur
la base d’attributs aussi divers que les auteurs impliqués, le contexte de production et les
thématiques abordées dans tel ou tel fragment. Ainsi, les ontologies sémiotiques doivent
représenter le contexte de production et les thèmes des fragments et tenir compte de leur
évolution. Enfin, elles sont multi-points de vue étant donné la diversité des acteurs, leurs
rôles et leurs privilèges.
Pratiquement, nous retrouvons dans les travaux de l’équipe dirigée par Zacklad, deux
formalismes dédiés aux ontologies sémiotiques, à savoir :

16
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

– Hypertopic : c’est un méta-modèle proposé par Zacklad et al. [230] qui hérite de
celui des cartes topiques [9]. Il représente un ensemble de ressources organisées en
des hiérarchies de thèmes (ou thématisations) multi-points de vue construites d’une
manière coopérative par des experts [64].
– Les réseaux de description : ce sont des graphes orientés acycliques dont les
nœuds sont des descripteurs et les arcs sont des spécialisations. Un nœud A spécialise
un nœud B si tout objet documentaire décrit par B l’est aussi par A. Aucune
sémantique ni contrainte n’est imposée sur la nature des connaissances à encoder
dans un tel réseau. Cependant, on y définit des facettes qui sont des descripteurs
non généralisables utilisés pour représenter les différents points de vue [39].

ii) Les constituants et les axes de structuration


Selon Zacklad [225], les ontologies sémiotiques regroupent des expressions stéréotypées ex-
traites des transactions communicationnelles et appelées ”concepts sémiotiques”. Ce sont
des expressions contextualisées dédiées à des types de problèmes impliquant l’exploration
systématique de corpus.
Les ontologies du Web socio-sémantique sont organisées selon un axe sémiotique qui in-
clut les paramètres des transactions communicationnelles, qui définissent le sens de chaque
concept. Ainsi, le sens n’est pas déterminé uniquement en fonction du contexte représenté
par le discours où il apparaı̂t, comme par exemple dans le cas de la construction d’une on-
tologie différentielle. Néanmoins, il est possible d’étudier les différences entre les concepts
sémiotiques à condition de prendre en compte tous les critères de la situation transac-
tionnelle. Reste à remarquer que les concepts sémiotiques ne sont pas décontextualisés
et que les ontologies sémiotiques ne sont pas construites pour des besoins d’inférence
automatique, ce qui implique l’inexistence d’une sémantique référentielle ou inférentielle.

iii) Les rôles des ontologies


Comparées aux ontologies du Web sémantique, les ontologies sémiotiques ne visent pas
l’interopérabilité sémantique entre machines ni le raisonnement automatique sur les connais-
sances. Le partage des connaissances est vu dans le cadre de la coopération entre acteurs
ayant des points de vue différents voire concurrents. L’objectif est de documenter les tran-
sactions communicationnelles en représentant l’historique des opérations de mise à jour
effectuées sur un SOC, qui devient ainsi une ressource évolutive. La précision et l’expressi-
vité du langage sont aussi vues sous l’angle des paramètres transactions entre les acteurs,
étant donné que le sens d’un concept dépend de ces paramètres.
La construction des ontologies sémiotiques s’inscrit dans une perspective de Recherche
Ouverte d’Information (ROI)[226]. Dans ce cadre, l’ontologie permet d’analyser une si-
tuation complexe dans une démarche d’enquête en vue de résoudre un problème. Zacklad
[226] affirme que ”la ROI ne consiste pas seulement à accéder à des documents ou à
des fragments documentaires pertinents mais à délimiter les contours du problème en
identifiant les informations existantes et celles qui ne le sont pas : c’est un processus
de découverte et d’apprentissage permettant de poser un problème dans le cadre d’une
démarche d’enquête”.

3.4 Comparaison des SOC


Les thésaurus, les systèmes d’indexation collaboratifs et les ontologies ont tous pour
objectif l’organisation des connaissances et des ressources documentaires. Cependant, ils

17
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

se distinguent par un ensemble de critères que nous pouvons déduire de l’article de Za-
cklad [226] qui les compare du point de vue de la ROI. Le tableau I.2 synthétise cette
comparaison.

Degré de Présence d’une Type de com- Mise à jour


formali- théorie munauté concep-
sation trice
Thésaurus Semi- Théorie discipli- Professionnels des Systématique,
formel naire bibliothèques ou de régulée par
la documentation l’évolution
du fonds
documentaire
Ontologie Formel Théorie discipli- Ingénieurs de la Rare et com-
formelle naire connaissance plexe
Ontologie Semi- Points de vue Conception partici- Progressive et
sémiotique formel complémentaires pative régulée (ex- négociée
mais conflictuels pertise multiple)
Annuaire Semi- Pas de théorie ex- Conception partici- Progressive et
collaboratif formel plicite du domaine pative régulée (ex- négociée
Internet pertise multiple)
Folksonomie Informel Pas de théorie ex- Grand public Fréquente,
plicite du domaine facile et
immédiate

Tableau I.2 – Critères de comparaison des SOC.

Le choix du SOC adéquat implique un choix du degré de formalisation. Du point de


vue présence d’une théorie, les folksonomies et les annuaires semblent être les systèmes
les plus faibles en terme de représentation des connaissances. La dépendance par rap-
port aux utilisateurs (des folksonomies) ou par rapport aux fonds documenatires (des
thésaurus) engendre des ambiguı̈tés et des incohérences. Cependant, les ontologies du
Web sémantique formel se concentrent sur les besoins de représentation des connaissances
plutôt que sur l’indexation des ressources documentaires. Les ontologies sémiotiques es-
saient de répondre, d’une manière équilibrée, à ces deux besoins. Le degré de collaboration
de ce type d’ontologies est relativement moyen ce qui les situe entre les systèmes ouverts
tels que les folksonomies et les systèmes fermés comme les ontologies formelles. Notons
enfin que le degré d’ouverture influence les tâches de mise à jour qui sont à la fois plus
fréquentes et plus faciles dans les systèmes ouverts.
Nous concluons que les ontologies (au sens formel ou sémiotique) sont les SOC les plus
adaptés pour gérer des fonds documentaires dans une perspective de représentation des
connaissances et de recherche d’information. En effet, l’ingénierie ontologique s’applique
à un domaine pluridisciplinaire, multidimensionnel, riche en connaissances et en théories
et ayant plusieurs niveaux de détail. En outre, elle permet l’étude des points de vue que
ce soit pour arriver à un consensus ou pour permettre l’étude des divergences. L’ontologie
représente ainsi un modèle qui offre une vue globalisante d’un domaine au dessus duquel
il est possible de mettre en place des moyens d’accès aux ressources documentaires. Enfin,
le choix du type d’ontologie doit se faire en fonction des critères que nous avons énumérés
dans la section 2.4 (voir page 11) et en fonction des mécanismes à implémenter pour
accéder à l’information.

18
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

4 Les systèmes d’accès à l’information


Une panoplie de modalités d’accès aux fonds documentaires a été proposée dans la
littérature [98, 106, 212]. Par exemple, Fellah [106] distingue quatre types de recherche, à
savoir la recherche arborescente (à base d’un annuaire, d’une ontologie ou d’une carte de
thèmes), la recherche par requête, la recherche par navigation et la recherche personnalisée
(qui tient compte du profil de l’utilisateur). Il est clair que ces catégories se chevauchent.
Par exemple, il est possible de tenir compte du profil de l’utilisateur dans une recherche par
requête. Il est aussi possible de combiner certaines modalités dans le même système. Ainsi,
certains portails tels que Yahoo !, combinent un moteur de recherche à base de requêtes
avec un annuaire. Face à cette diversité, nous préférons classer les systèmes d’accès à l’in-
formation en trois principales catégories, à savoir les systèmes de recherche d’information
(SRI), les bibliothèques virtuelles et les systèmes de cartographie des connaissances. Cette
classification correspond à l’évolution historique des systèmes d’accès à l’information et
nous permet de distinguer plusieurs critères qui discriminent ces trois catégories (voir
section 4.4).

4.1 Les systèmes de recherche d’information


L’objectif d’un SRI est de retrouver parmi un ensemble de documents ceux qui répon-
dent aux besoins d’un utilisateur, représentés souvent sous forme de requête. Les docu-
ments pertinents sont ceux qui contiennent les informations dont l’utilisateur a besoin
pour compléter son état de connaissance ou pour résoudre un problème. Cette section
rappelle les composantes d’un SRI et les principales étapes du processus de recherche, à
savoir l’indexation, l’appariement et l’évaluation.

4.1.1 Les composantes d’un SRI


La Figure I.3 présente les composantes d’un SRI et leurs interactions. Dans cette archi-
tecture, la requête et les documents sont analysés et indexés pour générer respectivement,
les modèles de requête et de documents. Ces modèles sont mis en correspondance dans
l’étape d’appariement pour évaluer la pertinence de chaque document à la requête. L’étape
d’évaluation permet d’avoir le jugement de l’utilisateur qui est propagé par rétroaction
au modèle de requête afin d’améliorer les résultats de la recherche.

4.1.2 Analyse et indexation


L’indexation consiste à associer à un document (ou à une requête) un ensemble de
”descripteurs” qui reflètent les idées et les concepts qu’il véhicule. L’indexation des docu-
ments est basée, d’une manière ou d’une autre dans les différents modèles, sur le calcul des
fréquences des termes afin de les pondérer ou identifier leur pouvoir discriminant. Parmi
les mesures les plus utilisées, citons TF-IDF [200] qui consiste à considérer qu’un terme
est pertinent pour indexer un document s’il est fréquent dans ce document et non fréquent
dans les autres documents de la collection. En effet, le poids d’un terme ti pour un do-
cument dj contenant N termes est calculé comme suit. Nous commençons par calculer la
fréquence de ti dans dj en utilisant la formule suivante [200] :

Occ(ti , dj )
T Fi,j = PN (I.1)
i=1 Occ(ti , dj )

19
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

Figure I.3 – Les composantes d’un Système de Recherche d’Information [98].

Dans cette formule, Occ(ti , dj ) est le nombre d’occurrences de ti dans dj . Il est di-
visé par la somme des nombres d’occurrences de tous les termes dans le document. Ces
fréquences sont souvent normalisées (en divisant par le maximum) pour tenir compte de
la différence de longueur entre les documents. Le terme ti est pondéré en utilisant TF-IDF
comme suit [200] :

TF-IDFi,j = T Fi,j ∗ IDFi (I.2)


Le poids de ti pour le document dj est égal au produit de sa fréquence (T Fi,j ) avec le
facteur IDFi qui dénote la fréquence inverse des documents donnée par :
|D|
IDFi = log (I.3)
|{dj |ti ∈ dj }|
où D est l’ensemble des documents du corpus et {dj |ti ∈ dj } est l’ensemble des documents
qui contiennent ti .

4.1.3 Mise en correspondance ou appariement


Il s’agit de mettre en correspondance ou d’apparier les deux représentations : celle de
la requête et celle du document. Leur comparaison permet de calculer un score de ressem-
blance qui traduit la pertinence du document par rapport à la requête. Avec l’évolution
des SRI, plusieurs modèles d’appariement ont été proposés [60, 110, 111, 157, 172]. L’un
des premiers est le modèle booléen [111] où les documents et les requêtes sont représentés
à l’aide de formules logiques. Pour apparier une requête q à un document d, il suffit de
vérifier que l’implication suivante est valide : d ⇒ q, ce qui donne un résultat booléen. Dans
le modèle vectoriel [110], qui constitue une alternative au modèle booléen, les requêtes et
les documents sont représentés à l’aide de vecteurs qui contiennent les poids des termes.
La distance entre le vecteur du document et celui de la requête peut être calculée en
utilisant plusieurs types de mesures, telles que le produit scalaire ou la mesure du cosinus
[110].

20
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

Le modèle probabiliste [172] se base sur l’hypothèse suivante : le résultat idéal d’une
requête est constitué de documents qui peuvent être caractérisés par un sous-ensemble de
termes d’indexation. L’appariement probabiliste permet de trier les documents en fonction
de la présence ou l’absence des termes appartenant à ce sous-ensemble. L’identification
des termes, ayant une forte probabilité d’être caractéristique de l’ensemble idéal des do-
cuments, se fait dans une étape d’apprentissage.
Tous ces modèles sont dits de ”première génération” [98] par opposition aux modèles
bayésien [157] et possibiliste [60] qui sont des modèles de la deuxième génération. Le
premier est basé sur les réseaux bayésiens et la formule de Bayes pour le calcul des
probabilités de pertinence. Selon Elayeb [98], la notion de pertinence est difficilement
raffinable dans ce modèle. En plus, l’évaluation des documents par rapport à une requête
ne prend en compte que les termes d’indexation présents à la fois dans les documents et
dans la requête. Le modèle possibiliste, basé sur la théorie des possibilités [232] et que
nous adoptons dans cette thèse, est présenté dans le chapitre IV (section 4, page 74).

4.1.4 Evaluation des SRI


La performance d’un SRI est mesurée en comparant les résultats retournés suite
l’exécution d’une requête par rapport à ceux attendus. Il faut donc connaı̂tre, pour
chaque requête, les documents qui constituent le résultat idéal. Pour cela, des corpus
de référence ont été crées (par exemple le corpus construit lors de la campagne INEX
[116]). Ils contiennent une liste de requêtes ainsi que les documents qui leurs sont perti-
nents et qui ont été identifiés à la main. En l’absence de tels corpus, les résultats d’un SRI
doivent être évalués manuellement par des experts. Dans les deux cas, trois métriques sont
utilisées pour évaluer un SRI, à savoir le rappel, la précision et la F-mesure [214]. Soit
P ert l’ensemble des documents pertinents dans un corpus et Res l’ensemble des résultats
d’une requête. Le rappel évalue la proportion de documents pertinents retrouvés par rap-
port à ceux réellement pertinents. Son complément s’appelle ”le silence” et il traduit la
proportion de documents pertinents non retrouvés. Nous avons alors [214] :

|P ert| ∩ |Res|
Rappel = ∈ [0, 1] et Silence = 1 − Rappel (I.4)
|P ert|

La précision évalue la proportion de documents pertinents retrouvés par rapport à


tous les documents retournés par le SRI. Son complément est ”le bruit” qui traduit la
proportion de documents retournés qui ne sont pas pertinents [214] :

|P ert| ∩ |Res|
P récision = ∈ [0, 1] et Bruit = 1 − P récision (I.5)
|Res|

La Figure I.4 illustre ces formules.


Pour donner une valeur globale de la performance d’un SRI, la F-mesure combine ces
deux métriques comme suit [214] :

(1 + β 2 ) ∗ P récision ∗ Rappel
F-mesure = (I.6)
(β 2 ∗ P récision) + Rappel

Dans cette formule, le facteur β a été introduit pour pondérer les deux métriques.
Généralement sa valeur est fixée à 1 pour donner le même poids aux deux métriques.

21
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

Figure I.4 – Métriques d’évaluation des SRI [214].

4.2 Les bibliothèques virtuelles


A l’inverse des SRI qui retournent une liste statique de documents (ou fragments), les
bibliothèques virtuelles modélisent les fonds documentaires comme un réseau de fragments
adaptable selon les besoins des utilisateurs. D’après Falquet et Hurni [102], la notion de
document virtuel est née du besoin d’une lecture active d’un document ayant une structure
complexe. La personnalisation consiste à fournir des vues différentes d’un même document
en fonction des types et des objectifs des utilisateurs. Pour mieux comprendre ces notions,
nous avons recensé les définitions existantes dans la littérature [103, 122, 191, 218] :

– Document virtuel (DV) : c’est un document généré à la demande, à partir de


plusieurs sources d’information [122]. Il ne possède pas d’état persistant et toutes
les instances (documents réels) sont générées lors de la consultation [218].
– Document virtuel personnalisable (DVP) : c’est un document virtuel muni de
mécanismes qui permettent de l’adapter aux besoins de l’utilisateur [191]. Il est com-
posé de deux parties désignées dans [103] par ”partie structurelle” et ”spécification
d’interface”. La première correspond à la partie statique du document (les frag-
ments) et la deuxième à la partie dynamique qui permet de constituer des documents
personnalisés.
– Bibliothèque virtuelle : c’est une collection de DV qui permet d’assembler des
informations issues de documents différents, d’où la disparition du caractère mono-
lithique du document [103].
Nous allons étudier les différents aspects des bibliothèques virtuelles à travers quatre
exemples de projets. Nous en déduisons quatre dimensions d’une bibliothèque virtuelle,
à savoir : la modélisation et l’indexation des documents, la gestion des points de vue, la
prise en compte du profil de l’utilisateur et les stratégies d’adaptation.

4.2.1 Exemples de projets basés sur les DVP

i) Le projet ICCARS
Iksal et Garlatti [140] proposent un modèle générique pour les DVP. Il a été appliqué dans
le projet ICCARS, dont le but est d’aider les journalistes à créer des dossiers thématiques
adaptatifs. Dans ce modèle, chaque fragment est indexé par des méta-données et par des

22
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

concepts provenant d’une ontologie de domaine (qui résument le sens de son contenu) et
les concepts d’une ontologie d’application (qui précisent son type).
L’auteur d’un document lui associe un ensemble de structures narratives. Une telle
structure est un graphe orienté dont les nœuds sont des spécifications de fragments et les
liens sont des relations sémantiques typées. Une spécification de fragment contient des
contraintes sur ses méta-données, sa description conceptuelle ou son type. La génération
d’un document destiné à être lu par un utilisateur est une instanciation d’une structure
narrative.

ii) La bibliothèque d’hyperlivres


Falquet [103] présente un modèle de DV pour les hyperlivres et un modèle de bibliothèque
virtuelle. Le modèle de document tient compte d’une structuration hiérarchique et d’une
indexation conceptuelle des fragments. Une deuxième version du même modèle est présentée
dans [102] pour tenir compte du caractère multi-points de vue d’un domaine.
Pour construire un document de lecture à partir d’une collection de fragments, Falquet
propose d’utiliser les schémas de nœuds qui définissent des contraintes qui permettent de
sélectionner un ensemble de nœuds et de les assembler [103].

iii) Le projet Karina


L’objectif de ce projet [78] est de construire des cours adaptés à un apprenant particulier.
Pour ce faire, chaque ressource pédagogique est indexée par son auteur qui doit en fournir
une description conceptuelle, les pré-requis nécessaires pour l’utiliser et le temps nécessaire
pour l’étudier. L’utilisateur étant décrit par ses connaissances initiales et ses objectifs, le
système propose un parcours composé d’une suite de ressources [78]. La première res-
source sélectionnée est celle qui correspond le plus à l’objectif de l’utilisateur. Le système
suppose ensuite que la ressource a été consultée par le lecteur et ajoute sa description aux
connaissances de ce dernier. Il itère ces deux étapes pour hiérarchiser toutes les ressources.

iv) Le projet Sybil


Ce projet adopte la même structuration que le projet Karina en ajoutant une couche
pédagogique. En effet, chaque ressource est indexée par son rôle pédagogique (exemple,
test, explication, etc.) issu d’une ontologie pédagogique qui définit des règles et des
stratégies pédagogiques utilisées pour composer un cours [78].

4.2.2 Modélisation et indexation des documents


La structure d’un document peut être vue comme une hiérarchie de fragments. Falquet
et al. [103] étendent cette définition puisqu’ils définissent un document comme un ensemble
de fragments reliés par des liens typés. A chaque fragment est attribuée une catégorie
qui indique la nature de son contenu. La catégorisation des fragments et des liens est
utilisée aussi dans le projet ICCARS [140] qui utilise une ontologie d’application qui fixe
la typologie des liens et des fragments.
Cependant, le point commun entre les quatre projets décrits ci-dessus consiste à utiliser
les concepts issus d’une ontologie de domaine pour indexer les fragments de documents.
Falquet et al. [103] proposent d’inférer de nouveaux liens entre fragments en se basant
sur les relations de l’ontologie et les liens d’indexation. Par exemple, il est possible de lier
deux fragments s’ils sont indexés par le même concept.

23
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

4.2.3 La gestion des points de vue


La gestion des points de vue est prise en compte soit au niveau du document soit au
niveau de la bibliothèque. Dans ce cadre, Falquet et Hurni [102] considèrent que chaque
document, relation ou définition reflète un point de vue particulier. En effet, nous pouvons
considérer que chaque livre représente le point de vue de son rédacteur. Une bibliothèque
est assimilée à une ontologie multi-points de vue constituée par intégration de plusieurs
ontologies dont chacune est issue d’un livre.

4.2.4 La prise en compte du profil de l’utilisateur


La modélisation de l’utilisateur est nécessaire pour la prise en compte de ses besoins.
A partir des projets décrits ci-dessus, nous pouvons distinguer plusieurs éléments qui
peuvent être incorporés dans le profil d’un utilisateur. Certains projets modélisent les
connaissances initiales de l’utilisateur, celles qu’il souhaite acquérir et ses préférences
(par exemple en terme de stratégie d’adaptation ou d’affichage). Parmi les éléments les
plus importants du point de vue social, citons les centres d’intérêt, la pratique ou le rôle et
le niveau d’expertise de l’utilisateur. Ces éléments permettent de regrouper les utilisateurs
en communautés dont chacune s’intéresse d’une manière spécifique aux documents.

4.2.5 Les stratégies d’adaptation


Les mécanismes d’adaptation dans un espace virtuel peuvent être définis selon deux
stratégies. La première consiste à définir explicitement des structures (de type schéma de
nœuds [103] ou structure narrative [140]) qui servent à construire des vues différentes du
même document. Ces vues ne pouvant pas être toujours exhaustives, la deuxième stratégie
favorise la flexibilité en proposant des chemins de lecture. L’idée consiste à implémenter
des techniques de guidage qui permettent de déterminer le ”meilleur lien suivant” à partir
du fragment courant [140]. Ainsi, cette stratégie se rapproche des approches navigation-
nelles où nous trouvons des techniques d’annotation et de tri [140]. Ces approches per-
mettent de présenter les fragments et les liens différemment, en fonction de leurs niveaux
de pertinence tout en masquant les éléments non pertinents. Enfin, il faut ajouter que
les liens peuvent être statiques ou inférés dynamiquement, soit en utilisant l’ontologie de
domaine soit en comparant les fragments.

4.3 La cartographie des connaissances


Si certains projets de bibliothèques virtuelles ancrent la modélisation des fonds docu-
menatires dans une perspective de constitution de nouveaux documents [103], la cartogra-
phie vise à représenter un espace informationnel sous forme de carte afin de l’appréhender.
Nous adoptons, comme Tricot [212], les définitions du comité français de cartographie 1
pour les termes ”cartographie” et ”carte”. Malgré que ces définitions soient issues de la
communauté des géographes, elles sont énoncées d’une manière générique qui permet de
les interpréter dans d’autres domaines. En effet, la cartographie est définie comme ”l’en-
semble des études et des opérations scientifiques, artistiques et techniques, intervenant à
partir des résultats d’opérations directes ou de l’exploitation d’une documentation, en vue
de l’élaboration et de l’établissement de cartes, plans et autres modes d’expression, ainsi
que dans leur utilisation.” [212]. Selon le même comité, ”une carte est une représentation
1. http://www.lecfc.fr/

24
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

géométrique conventionnelle, généralement plane, en positions relatives, de phénomènes


concrets ou abstraits, localisables dans l’espace ; c’est aussi un document portant cette
représentation ou une partie de cette représentation sous forme d’une figure manuscrite,
imprimée ou réalisée par tout autre moyen”[212].
En effet, la cartographie est née en géographie pour représenter tout ce qui est visible à
la surface du globe. Ensuite, et grâce à la prise de conscience de leurs qualités pour l’aide
à la décision, les cartes ont été utilisées pour représenter des données abstraites [212].
Cette évolution a ouvert des perspectives pour des applications dans divers domaines dont
la gestion informatisée des fonds documentaires. Une carte est donc une représentation
graphique d’un espace d’informations. Elle permet de connaı̂tre la nature, les relations,
la localisation ou l’importance des données ou des phénomènes qui composent l’espace
cartographié [212].

4.3.1 L’utilité de la cartographie


Selon Tricot [212], la cartographie exploite deux caractéristiques naturelles de l’être
humain, à savoir la cognition externe et la perception visuelle. En effet, l’être humain ex-
ploite des supports externes chaque fois qu’il est face à un problème complexe qui dépasse
les capacités de sa mémoire (comme par exemple, la multiplication de deux nombres très
grands). Le support externe constitue l’aide-mémoire qui permet d’accéder à des infor-
mations non mémorisées et de les partager. Il s’agit donc de distribuer le processus de
cognition en externalisant ce qui est complexe ou ce que la mémoire interne est incapable
de traiter. La capacité visuelle permet ensuite de mémoriser juste l’information nécessaire
(comme le résultat du calcul). A ce stade, l’être humain exploite ses capacités visuelles
qui permettent de percevoir rapidement et sans effort une grande quantité d’informations.
Nous pouvons donc déduire les rôles d’une carte en disant qu’elle permet de [212] :

– Communiquer : une carte transmet un message.


– Appréhender : avec la cartographie, il devient possible de percevoir simultanément
l’espace informationnel dans sa globalité à petite et à grande échelle.
– Analyser : la cartographie permet d’analyser les propriétés des données (ou connais-
sances) afin de découvrir certains problèmes (par exemple les erreurs de collecte).
– Décider : la cartographie permet de formaliser des hypothèses sur l’espace infor-
mationnel et de dégager des propriétés qui ne sont pas anticipées.

4.3.2 Le processus de cartographie


Selon Tricot [212], la cartographie est un processus en niveaux. Dans le domaine de la
cartographie des données abstraites, il distingue trois niveaux :

– L’espace informationnel brut : c’est l’espace initial qui correspond dans notre
cas aux fonds documentaires.
– L’espace informationnel représenté : cet espace associe des structures visuelles
aux éléments de l’espace brut. Chaque structure visuelle possède des caractéristiques
graphiques correspondant à des variations des différentes variables visuelles (forme,
position, taille, etc.). Par exemple, nous pouvons associer au nombre sept le symbole
”7” ou ”VII”. Ainsi, pour chaque espace brut correspondent plusieurs représentations
possibles.

25
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

– L’espace informationnel visualisé : cet espace permet de constituer une carte


graphique en visualisant un espace informationnel représenté. Par exemple, nous
pourrons afficher le symbole ”7” ou ”VII” sur un écran ou l’imprimer sur papier. De
même, pour un espace informationnel représenté, nous pouvons associer plusieurs
visualisations.
Tricot [212] a raffiné ce processus dans l’objectif de l’adapter à la cartographie sémanti-
que. D’une part, il propose de structurer l’espace informationnel brut avant de le représenter.
Cette étape inclut les tâches d’indexation, de description et de structuration des ressources
documentaires et enfin l’organisation des connaissances, ce qui permet d’obtenir un es-
pace structuré. D’autre part, l’utilisation de l’outil informatique permet à l’utilisateur
d’interagir avec l’espace visualisé afin d’obtenir un espace adapté à ses besoins.

4.3.3 Les paradigmes de la cartographie


A chacune des opérations de transformation qui permettent de passer d’un niveau à
un autre, correspond un type de paradigmes. Nous reprenons ici la classification de Tricot
[212] qui consiste à distinguer trois types de paradigmes, à savoir : les paradigmes de
représentation, les paradigmes de visualisation et les paradigmes d’interaction.

i) Les paradigmes de représentation


Ces paradigmes sont classés en fonction de la structure de l’espace à cartographier. Tricot
[212] distingue trois types de représentations : les représentations orientées valeurs qui
modélisent les connaissances par des vecteurs, les représentations orientées relation qui
utilisent les graphes pour modéliser les connaissances et les représentations arborescentes
qui définissent des relations hiérarchiques. Kboubi [145] affine cette typologie en ajoutant
les représentations de structures temporelles qui tiennent compte de la dimension temps
dans les données et les représentations de structures agglomératives qui permettent de
regrouper les objets similaires en clusters, afin d’avoir une vue synthétique de l’espace
informationnel.

ii) Les paradigmes de visualisation


Pour rendre visible une carte, deux classes de techniques existent, à savoir les visualisations
uniformes et les visualisations non uniformes. Dans la visualisation uniforme, il n’est
possible de faire que des transformations affines telles que le changement de focale (zoom),
la translation ou la rotation. Les visualisations non uniformes permettent de faire des
transformations plus complexes pour afficher les éléments de la carte avec un niveau de
détails variable en fonction de l’intérêt que leur porte l’utilisateur [212].

iii) Les paradigmes d’interaction


L’outil informatique permet à l’utilisateur d’interagir avec les cartes. Nous parlons ici
d’interaction en utilisant des opérations de mise à jour, mais aussi de techniques de
réarrangement et d’adaptation de l’espace qui permettent de changer les paramètres de
point de vue et les caractéristiques des structures visuelles ou de proposer des vues à
différentes échelles du même espace. D’autres techniques permettent de visualiser des
vues différentes du même espace avec propagation des changements d’une vue à une
autre. Enfin, ces paradigmes incluent des techniques de filtrage et de navigation similaires
aux tâches de recherche d’information et aux stratégies d’adaptation [212] (voir section
4.2.5).

26
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

La combinaison de ces techniques transforme l’utilisateur en un cartographe qui peut


intervenir à tous les niveaux du processus de cartographie. Entre autres, il peut participer
à la structuration de l’espace brut et à l’organisation des connaissances. Cela nous rappelle
la dimension collaborative des ontologies sémiotiques.

4.4 Comparaison des systèmes d’accès à l’information


Nous pouvons distinguer cinq critères qui caractérisent les trois approches d’accès à
l’information. Ces approches diffèrent du point de vue objectif opérationnel, du processus
de structuration, de la gestion de la taille de l’espace, de l’expression des besoins et de la
présentation des résultats.
Du point de vue objectif opérationnel, les SRI ont pour but de retrouver les docu-
ments. Leur force réside dans leur modèle d’appariement qui permet de sélectionner les
informations pertinentes dans une grande collection de documents. Dans les projets de
bibliothèques virtuelles, l’objectif est de constituer de nouveaux documents à partir d’une
base de fragments ou de proposer des chemins de lecture. Les cartes quant à elles consti-
tuent un outil d’appréhension, d’analyse et d’aide à la décision. En effet, certaines appli-
cations de cartographie se concentrent plus sur les paradigmes de représentation et de vi-
sualisation. Cependant, nous pensons qu’il est possible de munir une carte de mécanismes
de sélection et d’assemblage, ce qui lui permettra d’englober les tâches de recherche et de
constitution de documents virtuels. En ce sens, la cartographie peut bénéficier des forces
des SRI et des bibliothèques virtuelles.
Du point de vue processus de structuration, les SRI proposent un système simple
basé sur les indexes. Les projets des bibliothèques virtuelles supposent souvent l’existence
d’une base de fragments déjà annotés. Cependant, l’approche de cartographie considère le
processus de structuration comme fondamental. En suivant les recommandations du Web
socio-sémantique, nous pouvons proposer dans les cartes, des mécanismes d’interaction
au cours de ce processus.
Du point de vue gestion de l’espace, ce sont les SRI qui se distinguent par leur capacité
à couvrir des espaces vastes (comme le Web) étant donné qu’ils réduisent chaque document
à un index. Les bibliothèques virtuelles et les cartes visent des collections de taille plus
réduite. Cependant, les cartes peuvent être adaptées à de grandes collections à condition
d’implémenter des mécanismes sophistiqués de visualisation et d’interaction.
Du point de vue expression des besoins, les SRI sont les systèmes les plus pauvres étant
donné que l’utilisateur est incapable d’appréhender l’espace informationnel vu l’absence
d’un modèle explicite des connaissances. C’est pourquoi, certains chercheurs ont proposé
de guider la recherche par un système d’organisation des connaissances (par exemple, un
thésaurus [161] ou une ontologie [34, 92, 124]). Cette intégration vise entre autres à faciliter
la (re)formulation des requêtes et à faire face aux ambiguı̈tés terminologiques. Dans la
même perspective, les nouveaux systèmes tendent à intégrer de plus en plus le profil de
l’utilisateur et ses préférences [98]. Les mécanismes implémentés dans les bibliothèques
virtuelles sont plus expressifs, puisque l’objectif est de produire des documents virtuels
personnalisables. Enfin, les cartes sont les outils les plus faciles à personnaliser étant donné
l’infinité des combinaisons des paradigmes que nous pouvons choisir à tous les niveaux.
Du point de vue présentation des résultats, les cartes sont les outils les plus génériques.
En effet, les bibliothèques virtuelles conduisent souvent à un affichage linéaire sous forme
d’un nouveau document ou d’un chemin de lecture. Les SRI quant à eux affichent une liste
souvent statique de liens. Dans ces deux systèmes, l’utilisateur est incapable d’appréhender

27
CHAPITRE I. ORGANISATION ET ACCÈS À L’INFORMATION

son espace et les relations complexes qui peuvent exister entre ses éléments. C’est pour-
quoi, certains moteurs de recherche proposent de construire des cartes à partir des résultats
de recherche. Citons à titre d’exemples, les moteurs Exalead, Kartoo et MapStan décrits
dans [216].
En fonction de ces critères, nous pouvons dire que c’est l’approche de cartographie
qui tend à englober les techniques utilisées dans les SRI et les bibliothèques virtuelles,
surtout si nous l’appliquons à un domaine particulier. Nous voyons qu’il est possible de
généraliser cette approche en implémentant des mécanismes d’interaction qui permettent
de faire participer l’utilisateur dans le processus de structuration ainsi que de fournir
des services de recherche, de navigation et d’assemblage adaptés. En plus, elle permet
de traiter l’espace informationnel à plusieurs échelles et selon des vues différentes, ce qui
permet d’analyser des collections relativement grandes. Les paradigmes de visualisation et
d’interaction permettent de réduire la charge cognitive de l’utilisateur et donc de faciliter
l’accès aux ressources.

5 Conclusion
Nous avons considéré, dans ce chapitre, la problématique de l’accès à un fonds docu-
mentaire dans le cadre du processus de gestion de l’information. Ce processus devient de
plus en plus complexe avec l’accroissement de la quantité d’informations, de la diversité
des points de vue et des attentes des acteurs. Nous avons étudié les différentes visions
et approches qui proposent des solutions pour gérer les fonds documentaires. En effet, la
complexité du processus de gestion de l’information nous oblige à concevoir des systèmes
capables d’organiser et de faciliter l’accès aux connaissances. Comparée aux SRI et aux
bibliothèques virtuelles, l’approche de cartographie est la plus générique puisqu’elle per-
met de traiter tous les aspects de modélisation des connaissances et des documents. En
plus, les cartes proposent des mécanismes de visualisation et d’interaction qui soutiennent
la cognition de l’utilisateur dans son activité de recherche et de navigation.
L’objectif de tous ces systèmes est la satisfaction de l’utilisateur en fournissant l’in-
formation qui complète son état des connaissances suite à un besoin qu’il a exprimé. Il
est donc nécessaire d’évaluer les informations disponibles dans un fonds documentaire en
fonction des besoins des utilisateurs. Cette évaluation est basée sur un ensemble de critères
de pertinence. Dans ce chapitre, nous nous sommes focalisés sur le critère de pertinence
thématique, qui permet d’évaluer les ressources en fonction de leur sujet ou leur sens.
En plus de l’aspect thématique, il existe d’autres critères aussi importants dont il faudra
tenir compte, comme par exemple le critère de fiabilité. Ces critères seront discutés dans
le chapitre suivant.

28
Chapitre II
Evaluation de l’information

L es systèmes d’accès aux fonds documentaires évaluent l’information en fonction


d’un besoin exprimé par un utilisateur. Le secteur de la demande d’information
subit des changements qui conduisent vers la diversification des besoins des utilisateurs
qui sont de plus en plus exigeants. La pertinence de l’information est désormais une notion
multidimensionnelle qui couvre tous les critères de qualité de l’information. En plus de la
pertinence thématique, l’un des critères les plus importants, dans le cadre de l’ouverture
des systèmes d’information, est celui de la fiabilité. Ce n’est pourtant pas un problème
nouveau étant donné qu’il est invoqué dans plusieurs disciplines telles que les sciences de
l’histoire et de la religion. Dans ce cadre, ce chapitre reprend, en grande partie, une étude
que nous avons effectuée sur les méthodologies et les applications dans le domaine de la
fiabilité de l’information [6]. Après un rappel sur la notion de pertinence et ses dimensions
(voir section 1), nous étudions la notion de fiabilité selon divers points de vue (voir section
2). La section 3 est consacrée aux approches d’évaluation automatique des hadiths qui
sont les seuls textes arabes ayant été sujet d’étude dans ce domaine.

1 Les critères de pertinence


La pertinence, qui est une notion centrale dans tout Système de Recherche d’Informa-
tion (SRI) [98], peut être appréhendée selon deux points de vue. D’un coté, l’utilisateur
cherche les documents qui répondent à son besoin en informations. La pertinence idéale
ou absolue, appelée ”pertinence utilisateur”, est la relation entre le besoin en informations
et les documents attendus par l’usager. De l’autre coté, la pertinence est un phénomène
mesurable. En effet, le système répond aux besoins d’un utilisateur par un ensemble de
documents. La valeur (ou le score) attribuée par le système à chaque document traduit
la ”pertinence système”. L’objectif final est de renvoyer une mesure qui se rapproche de
celle de la pertinence utilisateur.

Au niveau utilisateur, Schamber et al. définissent la pertinence de la manière suivante


[201] : ”La pertinence est un concept dynamique qui dépend du jugement de l’utilisateur sur
la proximité de l’information lue et celle qui est nécessaire. La pertinence est un concept
mesurable”.

29
CHAPITRE II. EVALUATION DE L’INFORMATION

Dans la même perspective, Mizzaro [168] récapitule les différents aspects de la perti-
nence en la définissant comme une relation entre des entités de deux groupes. Dans le
premier, nous trouvons le document, la description et l’information, et dans le deuxième
le problème, le besoin d’information, la question et la requête.

La notion de pertinence est complexe vu qu’elle est liée au jugement de l’utilisateur. En


effet, l’être humain se caractérise par ses capacités cognitives et visuelles. Plus les techno-
logies de l’information et de la communication évoluent, plus les besoins des utilisateurs
sont diversifiés. Ainsi, ils ont des critères différents et variés pour évaluer l’information,
ce qui implique que la notion de pertinence est utilisée pour couvrir un large éventail de
critères et de relations [98]. Il ne suffit donc plus d’évaluer la pertinence thématique qui
n’est qu’un critère de pertinence parmi tant d’autres. Il s’agit plutôt de répondre à la
question suivante : ”Comment les utilisateurs évaluent-ils un document comme étant per-
tinent ?”. Plusieurs études ont montré que les critères de pertinence sont très diversifiés.
Bateman [33] a résumé ces études et identifié quarante critères qu’il a classé selon trois
classes, à savoir la qualité, la crédibilité et la complétude. Il a ensuite envoyé des mails
à 500 universités en leur demandant d’évaluer l’importance relative de chaque critère en
attribuant un score entre 0 et 100. En calculant la moyenne de ces scores, il a pu trier
tous les critères. Ainsi, il a pu identifier 11 critères comme étant les plus importants.
Selon cette étude, le critère le plus important est la crédibilité alors que la pertinence
thématique vient en deuxième position. Comme exemple de classification plus récente, ci-
tons les travaux de Xu et Chen [222] qui distinguent cinq critères, à savoir : la pertinence
thématique, la nouveauté, la fiabilité, la compréhensibilité et la portée.

D’après ces différentes classifications, nous remarquons que les critères de pertinence
restent assez vagues. En résumé, nous pouvons conclure, comme le font remarquer Scham-
ber et al. [201], que la pertinence englobe tous les critères de la qualité d’information.
Dans la même perspective, nous considérons que la fiabilité (ou la crédibilité au sens
de Bateman [33]) est un critère de qualité. Dans ce cadre, nous pouvons nous référer à
plusieurs travaux qui présentent des taxonomies des critères de qualité de l’information
[149, 173, 194, 209, 210]. Nous pouvons aussi déduire que la fiabilité est l’un des critères les
plus importants de la pertinence de l’information [45, 80, 194]. Comme cela est mentionné
par Zacklad [227], un lecteur ne peut exploiter un document sans ressentir une certaine
confiance envers son auteur. En outre, la fiabilité est liée à plusieurs autres critères. Par
exemple, plus l’information est présentée d’une manière ergonomique, plus l’utilisateur lui
accordera une plus grande confiance.

2 Méthodologies d’évaluation de la fiabilité de l’in-


formation
L’étude de la fiabilité de l’information trouve ses premières origines dans les sciences
de l’histoire [6]. Depuis Hérodote, le père de l’histoire, on s’est intéressé à la transmission
et à l’étude des événements passés. Les méthodologies d’évaluation ont été développées
dans plusieurs civilisations dont chacune a contribué, d’une manière ou d’une autre, à
l’évolution de ces méthodologies. D’abord, nous retrouvons les savants musulmans qui
se sont intéressés aux textes religieux appelés hadiths. Leur méthodologie a été ensuite
1. Né en 1160 et décédé en 1235

30
CHAPITRE II. EVALUATION DE L’INFORMATION

généralisée pour couvrir d’autres types de textes. Conjointement


à cette évolution, certains

savants arabes tels qu’Ibn Al-Athı̂r ( ø P Q m.Ì '@ Q
K B@ áK . @ ) et Al-Souyoûtı̂ ( áK
Y Ë@ ÈC g.
1

ù
£ñ J
‚ Ë@ ) 2 ont contribué à l’évolution
de l’histoire comme science. Cette évolution a
continué en occident dans l’ère de la renaissance. Enfin, avec l’émergence d’Internet, plu-
sieurs travaux de recherche se sont intéressés à la fiabilité de l’information dans le cadre
des sciences de l’informatique. Ainsi, nous étudions et nous comparons les méthodologies
de la fiabilité de l’information dans trois disciplines, à savoir les sciences du hadith, les
sciences de l’histoire et les sciences de l’informatique.

2.1 La fiabilité dans les sciences du hadith


Cette section présente l’historique de la méthodologie des sciences du hadith qui per-
met de distinguer les hadiths acceptables de ceux à rejeter en détaillant les critères d’ac-
ceptation.

2.1.1 Bref historique


Les sciences du hadith fournissent une méthodologie solide pour la transmission et
l’évaluation des informations. Cette méthodologie est née à cause de la nécessité de trans-
mission des textes religieux, notamment ceux qui décrivent la vie du prophète (PBSL : Paix
et Bénédiction Sur Lui). Au début, les règles d’évaluation des hadiths étaient mélangées
avec d’autres sciences de la religion. Les premières œuvres spécialisées sont celles d’Al-

ramahormozi ( ø Q ÓQ ê Ó@Q Ë@ ) 3 et Al-neysabouri ( ø Pñ K. A ‚ 
J Ë@ Õ»A mÌ '@ ) 4 . D’autres savants



(comme Khalifa Ibn Khayat (  A J
k áK . é ®J
Ê g ) 5 et Al-Fasawi ( ø ñ‚ ®Ë@ ) 6) ont appliqué

la même méthodologie pour les textes littéraires ou les histoires non religieuses. Ensuite,
les sciences du hadith ont été développées au fil des siècles par d’autres savants, tels que
Ë@ I J ¢ m Ì '@ ) 7, Ibn Al-Salah ( hC ’Ë@ áK @ ) 8, Al-Dhahabi (
Al-khatib Al-Baghdadi ( ø X@ Y ªJ

. .
.
 ®‚ªË@
ú
æ.ë YË@) , Al-Iraqui ( ú
¯@QªË@) 10 et Ibn Hajar ( ú
GC
9  Qmk áK @) 11. Enfin, cette méthodologie
. .
a fait l’objet de plusieurs études contemporaines [4, 29, 61].

2.1.2 Les critères d’acceptation


Basée sur l’identification précise des narrateurs et l’étude détaillée de leur compor-
tement, la méthodologie du hadith constitue une base pour le jugement des contribu-
teurs et des sources d’information. En effet, un hadith rapporte des paroles, des actions
ou des qualifications attribuées à une personne [4]. Parce que les hadiths décrivent des
évènements historiques, culturels et religieux importants, les savants arabes ont établi des
règles strictes pour leur transmission. En premier lieu, un narrateur est obligé de citer les
personnes à partir desquelles il a eu le hadith au début de sa citation. Ainsi, le contenu

du hadith ( á ÖÏ @) est précédé par une chaı̂ne de narrateurs ( YJ‚Ë@
). En second lieu, quand
un narrateur (appelé cheikh) communique un hadith à son successeur (le disciple), il utilise
des verbes qui indiquent la façon avec laquelle il a reçu le hadith de ses prédécesseurs.
2. Né en 1445 et décédé en 1505
3. Décédé en 971
4. Né en 933 et décédé en 1014
5. Né en 777 et décédé en 854
6. Né en 872 et décédé en 958
7. Décédé en 1071
8. Décédé en 1245
9. Décédé en 1347
10. Né en 1325 et décédé en 1403
11. Né en 1371 et décédé en 1448

31
CHAPITRE II. EVALUATION DE L’INFORMATION

Pour être accepté, un hadith doit être transmis par des personnes crédibles. En effet, un
narrateur doit être adulte (au moment de la transmission), sain mentalement et qualifié
en tant que témoin honorable. Etant donné que les personnes se distinguent par leur
capacité de mémorisation, un narrateur est dans l’obligation d’apprendre par cœur ou
d’écrire les hadiths qu’il rapporte pour éviter l’oubli et la déformation des hadiths. Ainsi,

nous distinguons deux qualités pour les narrateurs, à savoir l’honnêteté ( é Ë@ Y ª Ë@ ) et
l’exactitude ( ¡ J. ’ Ë@ ). La méthodologie du hadith tient compte du fait que ces capa-
cités peuvent se dégrader avec l’âge ou à cause d’une maladie. Ces qualités sont évaluées
par des savants spécialisés et reconnus comme experts. Etant proches historiquement et
géographiquement des narrateurs, ils étudient en détail les capacités de chacun d’eux et
distinguent leurs styles de narration.

En troisième lieu, il ne faut pas qu’il y ait un gap temporel ou géographique entre
deux narrateurs successifs. De plus, le hadith doit être transmis d’une manière fiable.
Huit classes de verbes ont été utilisées pour la transmission des hadiths. Le tableau II.1
rapporte les différentes manières de transmission et les verbes correspondants.

Manière de transmission Verbes



L’audition ( ¨A҂Ë@) ¯ IªÖ
àC  ޅ (J’ai entendu x)
¯ úæ KYg (x m’a dit)
àC
  

La lecture au cheikh ( èZ@Q ®Ë@) ¯ úΫ H @Q¯ (J’ai appris de x)


àC

¯ úG Q.g @ (x m’a informé)
àC


. B@ )
La permission ( èPAg àC ¯ úÍ PA g . @ (x m’a autorisé)


àC ¯ úG AJ.K @ (x m’a annoncé)

Transmission main en main ( éËðAJÖ Ï @)


 àC ¯ úæËðA K (x m’a donné)


Par écrit ( éK. AJºË@) ¯ úÍ@ IJ» (x m’a écrit)
àC


.
Par notification ( ÐC«B@ ) ¯ úæÒÊ«
àC @ (x m’a mis au courant)


Par recommandation ( éJ
“ñË@)
 àC ¯ úÍ@ úæ•ð @ (x m’a recommandé)


 àC ¯ ¡m ' HYg
Par découverte ( èXAg. ñË@)
.  . ð (J’ai trouvé écrit par x)
Tableau II.1 – Les manières de transmission du hadith [4].

Parmi ces manières, les trois premières sont considérées comme fiables. La quatrième
(la transmission main en main) est acceptée si elle est accompagnée par une permission.
La cinquième est considérée comme fiable par certains experts et rejetée par d’autres.
Enfin, les trois dernières sont considérées comme étant non fiables.

32
CHAPITRE II. EVALUATION DE L’INFORMATION

En quatrième lieu, les experts évaluent l’objectivité et la neutralité de chaque narrateur


dans le sens où il ne doit pas avoir des raisons politiques ou théologiques pour falsifier un
hadith. En dernier lieu, plusieurs versions du même hadith sont comparées pour détecter
d’éventuelles anomalies ou divergences. A ce stade, plus le hadith a des chaı̂nes de narra-

teurs variées, plus il a une chance d’être accepté. Ainsi, les hadiths anomaux ( É Ê ª Ó ) ou

excentriques ( XA ƒ ) ou qui contredisent des hadiths plus authentiques ( HA  ® J Ë@ é ® ËA m× )  
sont rejetés. Cette comparaison de versions permet aussi de détecter les déformations de
plusieurs types, telles que l’ajout d’expressions ( h. @P XB@ ), l’inversion ( I

. Ê ® Ë@ ) et le

métaplasme ( ­J
j’JË@). En outre, un hadith qui véhicule des connaissances religieuses ne
doit pas contredire le Coran ou les principes généraux de l’Islam.

En fonction de ces critères, les hadiths sont classés par degré d’acceptation ( é k. P X

 ). En effet, nous distinguons deux classes de hadiths, à savoir les hadiths acceptables
ÈñJ.®Ë@
et les hadiths inacceptables. Sous chacune de ces deux classes, nous retrouvons plusieurs
sous-classes [4].

2.1.3 Les hadiths acceptables ( ÈñJ.®Ó)



Cette classe englobe deux sous-classes définies comme suit :

– Le hadith authentique ( iJ
m•) 12 : c’est un hadith dont les narrateurs sont crédibles
et connus par leur bonne mémorisation et dont la chaı̂ne des narrateurs est continue.
De plus, il n’est ni anormal ni excentrique.
– Le hadith ”bon” ( á ‚ k ) 13 : c’est un hadith dont les narrateurs sont crédibles, dont
la chaı̂ne des narrateurs est continue et qui n’est ni anormal, ni excentrique, mais
dont la capacité de mémorisation des narrateurs est légèrement faible par rapport
au niveau requis.

Il est à noter qu’un hadith bon (respectivement inacceptable) peut devenir authentique
Q iJ
m• ) (respectivement bon ( èQ
ªË á ‚ k )) s’il a plusieurs chaı̂nes de narrateurs [4].
( è 
ªË

2.1.4 Les hadiths inacceptables ( XðXQÓ)



Ces hadiths sont classés en deux catégories selon la cause de suspicion :

– Le hadith inacceptable à cause d’une coupure dans la chaı̂ne de narrateurs, sachant


qu’une coupure se traduit par l’absence d’un ou plusieurs narrateurs : cette classe
englobe :
– Le hadith ”renvoyé” ( ɃQÖÏ @) 14 : il y a une coupure à la fin de la chaı̂ne des narra-
teurs. Généralement il s’agit du cas où un disciple des compagnons du prophète
(PBSL) assigne directement un hadith à ce dernier en disant ”le prophète (PBSL)
a dit...” ou ”le prophète (PBSL) a fait”.
 B ð Xð Y ƒ Q« áÓ 
É®JK. èYJƒ ɒ@ AÓ ñë iJ
j’Ë@ Q.m Ì '@ [4]
12. éÊ«
èAîDJÓ úÍ@ éÊJÓ á« ÈYªË@ ¡. A’Ë@
èAî DJÓ úÍ@ éÊJÓ á«
13. ð Xð Yƒ Q
« áÓ é¢J.“ ­ k ø YË@ ÈYªË@ É® JK èYJƒ ɒ@ AÓ ñë á‚m
Ì '@ Q .m Ì '@

.  B [4]
éÊ«
áÓ 
14. ùªK. AJË@ YªK. á Ó èXAJƒ@ 
YmÌ '@ [4]
¡®ƒ AÓ ñë ɃQÖÏ @ IK

33
CHAPITRE II. EVALUATION DE L’INFORMATION

 
– Le hadith dit ”suspendu” ( ‡Êª Ü Ï @ ) 15 : c’est un hadith qui présente une coupure
au début de la chaı̂ne de narrateurs.
– Le hadith ”problématique” ( ɒª Ü Ï @) 16 : c’est un hadith qui présente une coupure
de deux ou plusieurs personnes successives au milieu de la chaı̂ne de narrateurs.

– Le hadith ”coupé” ( ©¢ ® JÖ Ï @) : c’est un hadith qui contient l’un des autres cas de
coupure [4].
– Le hadith inacceptable à cause des caractéristiques des narrateurs : c’est un hadith
rejeté en raison d’un défaut imputé à l’un de ses narrateurs. Pour chaque type de
défaut, nous avons une classe de fiabilité comme indiqué dans le tableau II.2.

Classe de fiabilité Défaut


XðXQÖÏ @ (Repoussé)  êm Ì '@ (L’ignorance)
éËA .
XðXQÖÏ @ (Repoussé)  Ë@ (L’invention)
é«YJ .
QºJ Ü Ï @ (Refusé) ‡‚®Ë@ (La perversion)
¨ñ“ñÖ Ï @ (Fabriqué) (Le mensonge)
H. YºË@
¼ð QÖÏ @ (Ecarté) K éÒî
H. YºËA  DË@ (La suspicion de mensonge)
.
H. ñÊ®Ö Ï @ (Inversé)  ® JË@ é®ËA
HA m ×

­ j ’ Ü Ï @ (Altéré) (La contradiction avec les narrations crédibles)
  
Éʪ Ü Ï @ (Anomal) ÐAëð B@ èQ» (Les illusions)
QºJ Ü Ï @ (Refusé) éÊ ® ªË@
(L’omission)
XðXQÖÏ @ (Repoussé) ¡ ®m Ì '@ Zñƒ (La mauvaise capacité de mémorisation)
QºJ Ü Ï @ (Refusé) ¡ÊªË@ m ¯ (Les erreurs graves)
XA ‚Ë@ (Excentrique) Xð Y ‚Ë@
 (L’excentricité)
Tableau II.2 – Typologie des hadiths inacceptables à cause des caractéristiques des nar-
rateurs [4].

2.2 La fiabilité dans les sciences de l’histoire


L’histoire est à la fois l’étude des faits passés et leur ensemble. Son objectif est d’ana-
lyser le comportement des nations et des individus en vue de connaı̂tre les aspects positifs
et négatifs de leur histoire. Elle s’occupe aussi de l’étude des histoires des sciences étant
donné que tout chercheur est amené à étudier les travaux qui l’ont précédé.

La conception de l’histoire, en tant que science, n’a été instaurée qu’à partir du 17ème
siècle. En effet, au 15ème siècle, les européens ont commencé à revoir leur histoire et à
critiquer les citations. Malgré les efforts fournis, une méthodologie de critique élaborée
n’est apparue que vers la fin du 17ème siècle avec les efforts de plusieurs savants tels que
Descartes. Cette méthodologie n’a été appliquée en sciences sociales et psychologiques

15. Q» A¯ ð@P èXAJƒ@

Z
YJ. Ó
áÓ ¬ AÓ ñë ‡ ʪ
Yg Ï @ Q.m Ì '@ [4]
Ü

16. ú
Í@ñ JË@ úΫ Q» A¯ àA J K@ èXAJƒ@
áÓ
¡®ƒ AÓ ñë ɒªÖÏ @ Q.mÌ '@ [4]

34
CHAPITRE II. EVALUATION DE L’INFORMATION

que vers la fin du 19ème siècle. En 1898, Langlois et Seignobos [151] ont évalué les livres
de méthodologie de l’histoire qui les ont précédés comme ”très mauvais”, malgré le fait
qu’ils contenaient certaines règles et remarques importantes. Ainsi, les citations orales
grecques et romaines n’ont pas été bien critiquées à cause du manque de principes pour
l’évaluation de telles citations, ce qui a poussé Langlois et Seignobos [151] à soupçonner
les documents qui rapportent de telles citations.

Les mêmes auteurs expliquent que la connaissance historique est une connaissance indi-
recte. Selon Ginzburg [119], traces, archives, témoignages, documents sont les matériaux
et les objets de la discipline historique, qui ne permet ni expérimentation, ni observation
immédiate. Les histoires véhiculées dans un livre sont donc séparées historiquement des
évènements et des personnes ayant participé aux faits historiques. En analysant un do-
cument ou un vestige, l’historien contemple une image, prise depuis longtemps, d’un fait
historique. Cette image risque d’être partielle ou de manquer de certains détails impor-
tants, ce qui pousse les historiens à imaginer le reste. Dans ce cadre, Langlois et Seignobos
[151] affirment que les faits historiques sont imaginés et que presque tous les historiens,
sans s’en rendre compte, ne travaillent que sur des images.

En histoire, nous distinguons deux types d’analyse, à savoir la critique externe et la


critique interne. D’une part, un document doit être vérifié pour s’assurer qu’il correspond
à la copie originale. Pour s’assurer qu’un livre correspond à un auteur bien déterminé,
l’une des techniques consiste à comparer son style par rapport au style habituel de cet
auteur. Il s’agit donc d’apprendre les styles des auteurs pour pouvoir vérifier les nouveaux
documents. La critique externe inclut, en plus de la recherche de la version originale (dans
certains cas manuscrite), la recherche de parties manquantes d’un texte et la comparaison
de versions. A ce stade, plus nous avons de versions qui convergent vers un même point
de vue, plus nous avons confiance en l’histoire.

D’autre part, la critique interne s’occupe du contenu pour identifier les informations
fiables. Elle englobe une étude linguistique qui vise à comprendre les termes du document
dans leur contexte historique et géographique, ce qui facilite la compréhension du texte
dans sa globalité. Ensuite, elle considère des éléments rattachés au contenu tels que la
cohérence logique et la rigueur de la présentation, des choix et des argumentations. En
outre, cette étude tient compte de la crédibilité de l’auteur pour s’assurer de son objec-
tivité et de sa neutralité. En plus, les historiens préconisent de diagnostiquer la situation
sanitaire, intellectuelle et psychologique du narrateur aux moments de la collecte et de la
transmission des histoires.

2.3 La fiabilité dans les sciences de l’informatique


En informatique, le problème de la fiabilité de l’information a connu un essor particu-
lier avec l’émergence du Web. En effet, le grand nombre de fournisseurs d’informations et
l’énorme quantité d’informations disponibles suscitent des inquiétudes vis-à-vis de la fiabi-
lité, dans un environnement ouvert tel que le Web. La principale cause de ces inquiétudes
est l’absence d’une autorité de contrôle qui surveille ce qui existe sur Internet.

35
CHAPITRE II. EVALUATION DE L’INFORMATION

Dans la littérature informatique, la fiabilité est considérée comme l’un des critères de
qualité de l’information. Selon Naumann et Rolker [173], elle est définie comme le degré
de croyance que nous avons envers une information. Ainsi, elle est liée à la notion de
crédibilité qui traduit le degré à partir duquel l’information peut être vue comme vraie
et crédible [149]. En plus, l’assurance de la fiabilité nous amène à étudier la notion de
confiance dans les différentes visions du Web [175]. Du Web social au Web sémantique,
cette notion est perçue dans le cadre d’un réseau distribué et dynamique, qui lie des agents
(humains ou logiciels). Parmi ces agents, certains jouent le rôle de fournisseurs de service
alors que d’autres jouent le rôle d’agents de recommandation qui ont pour tâche de juger
les fournisseurs de service en fonction de la qualité des services qu’ils offrent.

Les travaux dans le domaine de l’évaluation de la fiabilité se sont intéressés à plusieurs


applications qui concernent les documents du Web [235] ou des types particuliers de
textes tels que les articles de journaux [45]. Etant donné que ces applications requièrent
des données sur les sources d’informations, d’autres travaux se sont intéressés à l’analyse
des biographies [83]. A partir de ces travaux, nous dégageons les grandes lignes de la
méthodologie d’évaluation de la fiabilité dans les sciences de l’informatique.

2.3.1 Evaluation des pages Web


L’évaluation de la fiabilité des pages Web a été considérée dans le cadre des SRI multi-
critères [80, 235]. Zhu et Gauch [235] ont exploité Yahoo Internet Life (YIL), qui attribue
un score compris entre 2 et 4 à chaque source d’information, pour évaluer sa réputation.
Pour les pages Web qui n’ont pas été évaluées, ils considèrent que ce critère vaut 0. De
tels cas de manque de données causent des problèmes dans les systèmes centralisés. L’une
des solutions possibles consiste à opter pour un système décentralisé en permettant aux
utilisateurs de juger les sources d’informations dans un environnement de collaboration
sociale. Par exemple, dans [80] un score de fiabilité est attribué par les utilisateurs à
chaque page Web. Dans ce cas, chaque utilisateur représente un agent de recommandation
qui évalue librement les pages. Ceci suppose que la fiabilité dépend du point de vue de
l’utilisateur dont la crédibilité en tant que témoin est très volatile. Ceci implique aussi
qu’une même page Web peut être considérée comme fiable par certains et non fiable par
d’autres.

Une autre solution consiste à automatiser le calcul de certains attributs à partir du


contenu d’un document ou de méta-données. Par exemple, les travaux sur Wikipedia
(www.wikipedia.org) considèrent des attributs liés au processus d’édition des articles,
tels que le nombre de contributeurs, le taux de contribution, le nombre et la taille des
éditions pour évaluer les articles [70]. Ces travaux insistent sur l’importance de la visuali-
sation. Il ne s’agit pas uniquement de calculer des indices de fiabilité mais de les afficher
d’une manière simple à percevoir et à comprendre selon le niveau d’expertise de l’utili-
sateur. En effet, pour les utilisateurs novices (qui représentent la majorité des usagers),
il faut opter pour des visualisations qui soient à la fois compactes et expressives et qui
donnent un résumé permettant de prendre une décision directe et finale. Dans ce cas, la
visualisation des indices ne devrait pas prendre une zone large par rapport au document.
Pour des utilisateurs expérimentés, il est possible d’afficher les résultats plus détaillés afin
de permettre une marge d’analyse et d’interprétation plus large. Aussi, Chevalier et al.
[70] insistent sur l’importance de la documentation des indices de fiabilité qui doivent
être connus des utilisateurs, pour qu’ils puissent les comprendre et les exploiter le plus
rapidement possible.

36
CHAPITRE II. EVALUATION DE L’INFORMATION

2.3.2 Evaluation des articles de journaux


La fiabilité est une dimension importante dans le domaine de la presse. Etant conscient
de l’effet de la presse sur le public, certains chercheurs ont essayé d’automatiser l’analyse
de la fiabilité des articles de presse. A titre d’exemple, Bordogna et Pasi [45] ont ap-
pliqué l’approche proposée par Da Costa Pereira et Pasi [80] sur ce type de textes. Ce
choix semble raisonnable, car ce modèle est adapté à ces cas d’applications où chaque
utilisateur peut avoir son jugement personnel. En effet, les articles sont influencés par les
interprétations personnelles que ce soit de la part des lecteurs ou des rédacteurs. C’est
pourquoi Gilens et Hertzman [118] ont essayé d’évaluer l’objectivité de ces articles. Ils
ont exploité les informations sur les propriétaires des médias pour évaluer l’objectivité
des articles qui concernent les projets des lois de télécommunication aux Etats-Unis en
1996. Ce travail montre que l’objectivité des articles des journaux est influencée par les
objectifs des propriétaires des médias. Ainsi, les entreprises, investissant dans le domaine
des télécommunications et possédant des médias, ont essayé d’influencer l’avis du public
concernant les nouvelles lois en leur faveur.

2.3.3 Analyse des biographies


Les biographies constituent l’une des sources importantes pour l’évaluation de la fiabi-
lité. Dans certaines applications, il s’agit d’un objectif en soi. Ainsi, la collecte de ce type
de méta-données sur les acteurs peut être d’une importance capitale pour certains types
d’applications comme l’analyse de la criminalité. Par exemple, De Bruin et al. [83] ont pro-
posé d’extraire et d’analyser les carrières des criminels pour construire leurs profils et les
grouper en fonction de leurs similarités. Dans d’autres applications, l’analyse des biogra-
phies constitue une première étape dont les résultats sont utilisés pour évaluer la fiabilité
des textes. Par exemple, l’évaluation de la fiabilité des hadiths requiert des informations
sur les narrateurs. C’est pourquoi certains chercheurs ont essayé d’automatiser l’extrac-
tion de telles informations à partir des livres décrivant les narrateurs. Helmy et Daud
[138] ont proposé d’analyser ces biographies pour inférer des jugements de crédibilité.
L’approche consiste à construire un classifieur SVM [13] à partir de biographies annotées
manuellement par des experts. Les attributs utilisés indiquent la présence (ou l’absence)
d’expressions utilisées par les experts pour juger les narrateurs. Les auteurs ont utilisé
une base composée de 526 biographies et enregistré un taux de réussite égal à 96.5%.

2.3.4 Le processus d’évaluation de la fiabilité


Les exemples d’applications que nous avons énumérés ci-dessus montrent l’importance
de la fiabilité dans l’évaluation de l’information. A partir de ces applications et des tra-
vaux dans le domaine de la qualité de l’information [149, 173, 209, 210], nous pouvons
identifier les étapes du processus d’évaluation de la fiabilité comme suit :

1. Identifier dans la littérature les critères d’évaluation adéquats pour un domaine et


une application donnés.
2. Identifier, pour chaque critère, la méthode d’évaluation à utiliser. Dans ce cadre,
nous pouvons nous référer à Naumann et Rolker [173] qui distinguent plusieurs
méthodes dont l’analyse du contenu et le jugement par les experts. En outre, les
revues de la littérature sur les systèmes d’assurance de la fiabilité ont énuméré les
sources des informations sur la réputation [175]. En effet, un agent peut décider la

37
CHAPITRE II. EVALUATION DE L’INFORMATION

réputation d’un autre en se basant sur les transactions qu’il a eu avec lui. Ainsi,
plus nous aurons fait de transactions réussies avec un agent, plus sa réputation
augmente. Dans d’autres cas, nous pouvons nous baser sur des informations four-
nies par un témoin qui a déjà évalué l’agent en question. Enfin, les relations et les
rôles joués par les agents peuvent déterminer leur réputation. Généralement, nous
avons tendance à croire les agents qui nous sommes socialement proches ou qui
ont des rôles particuliers (par exemple, les agents qui appartiennent à une autorité
gouvernementale).
3. Définir des scores/métriques pour chaque critère. Selon Naumann et Rolker [173],
le score doit être précis, pratique et connu par l’utilisateur et rapide à calculer pour
le système.
4. Trouver une méthode ou une formule d’agrégation des critères dans une seule mesure
[210].
5. Développer des mécanismes de visualisation adaptés à l’utilisateur qui tiennent
compte en particulier de son expertise. L’évaluation de la fiabilité ne se réduit pas
à un calcul d’indices, mais s’étend à une stimulation du processus cognitif de l’uti-
lisateur par des mécanismes de visualisation et d’interaction. Cette conclusion nous
permet de situer ce processus dans le cadre de la cartographie des connaissances.

Ces étapes sont influencées par la nature du système qui assure le calcul. Les approches
existantes peuvent être classées selon l’architecture ou la localisation des informations sur
la réputation [175]. Dans une première approche, un seul agent possède ces informations
(par exemple Yahoo Internet Life dans le travail de Zhu et Gauch [235]). Cette centra-
lisation est critiquée du fait qu’elle contredit le caractère dynamique et ouvert du Web.
Dans un système ouvert et dynamique, voire à large échelle, il est difficile d’établir un
consensus sur un seul agent de recommandation. La deuxième approche considère que
tout agent peut jouer le rôle de recommandation. C’est le cas du SRI multi-critères de
Da Costa Pereira et Pasi [80]. La décentralisation complète et l’absence d’une autorité de
contrôle peut ralentir le processus d’établissement de la confiance. De tels systèmes sont
aussi sensibles aux intrusions qui permettent à des agents non crédibles de publier des
jugements non fiables sur les autres. Une dernière solution, considérée comme hybride,
permet de profiter des avantages des deux approches précédentes en permettant à un
ensemble limité d’agents de fournir des recommandations.

Avant de clôturer cette partie, il convient d’identifier les dimensions de la fiabilité de


l’information indépendamment de l’application visée [50] :

– Autorité : c’est l’ensemble des indicateurs qui prouvent (ou qui peuvent être ex-
ploités pour vérifier) la crédibilité des acteurs. Par exemple, pour évaluer la fiabilité
d’un site, nous devons vérifier l’existence d’informations telles que les noms des
auteurs, leurs affiliations, les textes de copyright, etc.
– Objectivité : c’est la qualité d’une information qui n’est pas biaisée, préjugée ou
partielle [149]. L’objectivité d’une information est analysée en identifiant sa nature
(un fait ou une opinion) et son objectif (publicité commerciale, discours politique,
travail de recherche, etc.).
– Vérifiabilité : elle traduit l’existence d’éléments intrinsèques ou extrinsèques qui
aident à vérifier la fiabilité du point de vue autorité et objectivité.

38
CHAPITRE II. EVALUATION DE L’INFORMATION

En plus de ces éléments, Chen et al. [69] ont montré l’importance du moyen de trans-
mission. Par exemple, ils ont déduit que le format papier est plus fiable que la transmission
orale. Ils affirment que plus le flux de l’information est rationalisé, plus l’information est
fiable. D’autres études soulignent l’importance du flux pour la fiabilité dans le domaine
médical [180] et en e-learning [196]. D’autres encore ont utilisé des critères liés au processus
d’édition des documents [70].

2.4 Comparaison des méthodologies


Nous pouvons distinguer des similarités et des différences entre la méthodologie du
hadith et celle des sciences de l’histoire [6]. Comme premier point de comparaison, notons
que les historiens privilégient l’écrit alors que les savants du hadith ont commencé par
utiliser l’oral, puis sont passés progressivement à l’écrit. Ceci s’explique d’une part, par le
fait que certains hadiths rapportent des scènes qui contiennent des actes gestuels réalisés
par une personne. Dans ce cas, le narrateur est obligé de reproduire ces actions en citant
l’histoire. D’autre part, les textes arabes sont ambigus surtout quand ils sont non voyellés
( Èñº‚Ó  Q
« ). De ce fait, quand un narrateur rapporte une histoire qu’il a lue dans un livre,
il risque de la déformer. Comme point de similarité, notons que les deux méthodologies
(celle du hadith et celles des sciences de l’histoire) sont basées sur le principe de suspicion.
De ce fait, l’histoire n’est acceptée qu’après une étude détaillée qui prouve sa fiablité. En
effet, en histoire et en sciences du hadith, la critique externe est utilisée pour vérifier qu’un
texte correspond réellement à la personne à laquelle il est attribué ou à sa copie originale.
A ce stade, les savants du hadith, comme les historiens, comparent la nouvelle histoire
par rapport au style habituel de l’auteur ou du narrateur. Ensuite, les sciences du hadith
et de l’histoire préconisent la collecte et l’étude des différentes versions d’une histoire en
privilégiant les histoires récurrentes. En outre, les deux méthodologies utilisent la critique
interne en étudiant le contenu de l’histoire (du point de vue linguistique et logique) et
l’objectivité des narrateurs. Ainsi, dans les deux méthodologies, les spécialistes étudient
les capacités intellectuelles et psychologiques des narrateurs. Cependant, la méthodologie
du hadith se distingue par une étude plus précise des tous les narrateurs alors que les
historiens se limitent à l’évaluation de l’auteur. L’analyse de toute la chaı̂ne permet de
réduire l’effort lors de la critique étant donné que les savants du hadith ne sont pas obligés
d’étudier les hadiths ayant des chaı̂nes non fiables. Alors que les historiens se trouvent,
dans plusieurs cas, limités à l’étude du contenu en utilisant des preuves logiques, les savants
du hadith ne passent à cette étude qu’une fois que la chaı̂ne de narration est reconnue
fiable. En effet, leur méthodologie considère les narrateurs comme des témoins, ce qui
leur permet un accès direct aux faits historiques. Les historiens de leur coté sont souvent
incapables de trouver de tels témoins. C’est pourquoi ils considèrent que la connaissance
historique est indirecte. De ce fait, leur méthodologie n’est pas expérimentale alors que
les savants du hadith ont bâti leur méthodologie en examinant minutieusement les narra-
teurs et les histoires. Ainsi, l’expérience a un rôle crucial dans le développement de leur
méthodologie. Enfin, les savants du hadith arrivent à classer les hadiths d’une manière

39
CHAPITRE II. EVALUATION DE L’INFORMATION

plus précise, en proposant une taxonomie exhaustive des classes de fiabilité. En résumé,
la présence des chaı̂nes de narrateurs dans les hadiths permet un accès direct à la connais-
sance et une évaluation facile et précise de la fiabilité, alors que l’absence de témoins a
obligé les historiens à étudier les histoires d’une manière indirecte, voire à imaginer les
parties manquantes. Cette comparaison nous permet de confirmer le point de vue d’Al-
Omri [2] qui stipule que les sciences du hadith offrent une méthodologie plus consistante
pour la fiabilité de l’information.

Nous arrivons aussi à positionner la méthodologie du hadith par rapport aux dimen-
sions de la fiabilité dans les sciences de l’informatique [6]. D’abord, la dimension autorité
est prise en compte étant donné que tous les narrateurs de l’histoire sont explicitement
cités. En plus, les narrateurs sont évalués par des experts qui constituent des autorités
de contrôle. Notons à ce stade que certaines plate-formes existantes pour l’assurance de
la qualité de l’information manquent de méta-données suffisantes sur les acteurs. Par
exemple, Stivilia [209, 210] a proposé une plate-forme générique mais n’a pas expliqué
comment il juge la crédibilité des contributeurs. Pour les articles de Wikipedia, il considère
uniquement le fait que l’utilisateur, ayant édité un article, est inscrit ou non dans cette
encycolopédie. Comme mentionné par Lynch [156], connaitre l’identité de la source d’in-
formation n’est pas suffisant. Une étude approfondie de la biographie et du comportement
doit être alors effectuée pour évaluer chaque source.

Certaines approches délèguent l’évaluation de la fiabilité (ou de certaines de ses dimen-


sions) à l’utilisateur final [80, 193]. Alors que cette approche tient compte des opinions
des utilisateurs, évaluer les sources des informations est une tâche difficile. C’est pourquoi
dans plusieurs projets [118, 235], l’évaluation de la fiabilité est effectuée par des experts
qui assistent l’activité de l’utilisateur final.

L’étude du comportement des narrateurs, leurs capacités et leurs personnalités permet


d’évaluer l’objectivité de la narration. Cette évaluation est renforcée par une étude
critique du contenu du hadith aux niveaux linguistique et logique. En plus, les chaı̂nes de
narrateurs contiennent des informations exhaustives sur le processus de transmission. Le
flux informationnel est donc décrit d’une manière précise ce qui assure la vérifiabilité.

Par rapport aux systèmes d’assurance de la confiance dans le Web moderne [175],
les narrateurs du hadith constituent des fournisseurs de service, alors que les savants
constituent des agents de recommandation. Du point de vue localisation des informations
sur la réputation, il ne s’agit ni d’un système centralisé ni d’un système complètement
décentralisé, mais plutôt d’un système hybride. En effet, seuls les savants reconnus ont
le droit de juger les narrateurs et les hadiths. En contre partie, aucun de ces savants
ne prétend connaı̂tre tous les narrateurs ni tous les hadiths. Du point de vue source
d’information sur la réputation, les savants du hadith ont combiné plusieurs approches.
Leur méthodologie tient compte des expériences passées avec les narrateurs, et de leurs
relations sociales et des témoignages des autres savants.

Nous pouvons donc conclure que la méthodologie du hadith tient compte de toutes les
dimensions de la fiabilité de l’information. Les savants du hadith ont bâti un système
d’assurance de la confiance adapté à la nature de leur tâche et des réseaux sociaux de leur
époque.

40
CHAPITRE II. EVALUATION DE L’INFORMATION

3 Evaluation automatique de la fiabilité des hadiths


A notre connaissance, le hadith est le seul type de textes arabes qui a été sujet d’ap-
plications dans le domaine de la fiabilité de l’information. Vu l’importance des hadiths,
plusieurs chercheurs se sont intéressés à leur étude afin d’automatiser leur évaluation en
terme de fiabilité [3, 28, 117]. Avant de présenter ces travaux et en suivant la méthodologie
présentée dans la section 2.3.4 du chapitre II (voir page 37), nous commençons par associer
une méthode d’évaluation à chaque critère de fiabilité des hadiths.

3.1 Méthodes d’évaluation des critères de fiabilité du hadith


En se basant sur notre étude des critères d’acceptation des hadiths (voir chapitre II,
section 2.1.2, page 31), nous avons identifié quatre dimensions requises pour l’évaluation
des hadiths [50]. Le tableau II.3 résume les méthodes d’évaluation et les paramètres/outils
pour chaque dimension. Les méthodes d’évaluation sont extraites de la typologie proposée
par Naumann et Rolker [173]. Dans ce tableau, les noms de ces méthodes en anglais sont
indiqués entre parenthèses et en gras.

Dimension Méthode d’évaluation Paramètres/outils


Autorité Entrées de l’expert (expert Jugements des experts à pro-
input) pos de la crédibilité des narra-
teurs.
Objectivité Analyse du contenu Comparaison de versions.
(Content parsing)
Vérifiabilité Analyse de la structure
(structural parsing) – Analyse des chaı̂nes de
Fiabilité de transmission narrateurs et reconnaissance
– Analyse de la structure
des entités nommées.
(structural parsing)
– Reconnaissance des identités
– Entrées de l’expert (ex-
des narrateurs.
pert input)

Tableau II.3 – Méthodes, paramètres et outils d’évaluation des dimensions de la fiabilité


des hadiths [50].

En examinant la troisième colonne du tableau II.3, nous pouvons remarquer que l’éva-
luation des critères de fiabilité des hadiths requiert des méta-données qui contiennent les
évaluations des experts sur la crédibilité de chaque narrateur, ce qui permet d’assurer la
première dimension, à savoir l’autorité. La comparaison de versions permet de détecter
les anomalies et l’excentricité, ce qui assure l’objectivité. Pour vérifier la présence des
informations nécessaires sur le processus de transmission des informations, il est nécessaire
d’analyser la structure des chaı̂nes des narrateurs en identifiant les noms de narrateurs et
les verbes indiquant les manières de transmission. Enfin, il faut reconnaı̂tre l’identité de
chaque narrateur afin de pouvoir l’évaluer.

41
CHAPITRE II. EVALUATION DE L’INFORMATION

3.2 Approches existantes


Dans [6], nous avons relevé trois principales approches dans l’évaluation automatique
des hadiths. Al-Rizzo [3] a proposé de modéliser les connaissances relatives aux hadiths
sous forme de faits et de règles. Les données de base sont les livres du hadith et les
informations sur les narrateurs. Il propose de modéliser ces données sous forme de faits
sans préciser les méthodes ou les outils nécessaires à leur analyse. La base des faits contient
les attributs des narrateurs (crédibilité, dates de naissance et de décès, etc.). Le modèle
a besoin aussi de connaissances sur le hadith donné en entrée pour l’évaluation. Par
exemple, il faut spécifier s’il y a une rupture entre deux narrateurs successifs. L’auteur
n’explique pas comment ces faits sont déduits. Des règles de la logique des prédicats sont
utilisées pour inférer la classe de fiabilité de chaque hadith. Les prémisses représentent des
conditions sur la crédibilité des narrateurs ou sur la continuité de la chaı̂ne. La conclusion
est l’une des classes de fiabilité étudiées dans les sections 2.1.3 et 2.1.4 du chapitre II (voir
page 33). L’utilisation de telles règles a pour objectif d’identifier, d’une manière précise,
la classe de fiabilité. Cependant, elles ne permettent pas d’identifier le degré de fiabilité,
puisque la logique du premier ordre attribue à chaque décision une valeur binaire.

Aydemir [28] a proposé un modèle probabiliste pour juger de la fiabilité des hadiths.
Le modèle n’utilise pas les données sur les narrateurs. Il considère initialement que tous
les narrateurs sont inconnus et qu’ils possèdent tous une probabilité d’être crédibles égale
à 1/2. Cette probabilité augmente si d’autres narrateurs rapportent le même hadith de la
même manière. Elle diminue si les autres narrateurs racontent des versions qui divergent.
Ce calcul est illustré par un exemple dans [28]. Cela signifie que le jugement de la fiabilité
est basé uniquement sur la comparaison de versions. En outre, ce modèle est fortement
récursif étant donné que la fiabilité d’un narrateur dépend de la crédibilité d’autres nar-
rateurs, qui peuvent aussi être inconnus. En plus, il n’y a aucun moyen pour juger de la
continuité d’une chaı̂ne. Ainsi, une transmission composée de deux narrateurs fiables qui
ont vécu dans des périodes complètement séparées est considérée comme fiable.

Ghazizadeh et al. [117] ont présenté un système basé sur la logique floue pour évaluer
la fiabilité des hadiths. Les règles floues sont basées sur trois variables scalaires, à savoir
la continuité, le nombre de narrations de chaque narrateur et sa crédibilité. Par exemple,
le nombre de narrations est valué par ”élevé”, ”moyen” ou ”bas”. En tout cas, les auteurs
n’expliquent pas comment ces variables sont calculées, ni la source des données nécessaires
à ce calcul. Une règle floue contient des contraintes sur les trois variables et produit la
classe de fiabilité pouvant prendre l’une des cinq valeurs possibles en plus d’un taux de
certitude. Par exemple, si la chaı̂ne est continue, le nombre de narrations est moyen et
que la crédibilité du narrateur est élevée, alors le hadith est dit ”correct” et le taux de

certitude est égal à 0.9. Les tests ont été effectués sur le livre ” ú¯A¾Ë@” 17 qui contient plus

que 1900 hadiths. Les auteurs affirment qu’ils ont atteint un taux de réussite égal à 94%.
Cependant, ils n’expliquent pas si tous les hadiths de ce livre en été évalués.
 
17. á 
Ê¿ éJK
YÓ ú
¯ ø
Qj.êË@ IËA
 JË@ àQ®Ë@ áÓ ú
GAJË@ ­’ JË@ ú
¯ XñËñÖÏ @ ú
æJ
ʾË@ H ñ  áK YÒjÖÏ ú¯A ¾Ë@
®ªK

. Ï @ ñëð €PA
. ë 329 éJƒ ú¯ñJÖÏ @ úæJ
ʾË@ ÐCƒB @ é®. JK. ¬ðQªÖ
®K
.

Le livre ”Al-kefi” de Mohamed ibn Yakoub Al-Kellini né dans le deuxième moitié du troisième
siècle hégirien dans la ville de Kellin en Iran connu sous le nom de ”thikat Allah Al-Kellini”
décédé en 329 hégirien

42
CHAPITRE II. EVALUATION DE L’INFORMATION

Le tableau II.4 compare les trois approches citées précédemment en récapitulant les
techniques d’évaluation, le type de résultat, les critères pris en compte lors du calcul de
la fiabilité et le taux de réussite.

Approche Technique Type du Critères de fiabi- Taux de


d’évaluation résultat lité réussite
Al-Rizzo Inférence à Binaire Non
– Crédibilité des
[3] base de règles évalué
narrateurs
(logique des
– Continuité de la
prédicats)
chaı̂ne

Aydemir Calcul de pro- Taux de fiabilité - Comparaison de Non


[28] babilités dans l’intervalle versions évalué
[0..1]
Ghazizadeh Règles floues La classe de fia- 94%
– Crédibilité des
et al. [117] bilité avec un
narrateurs
taux de certi-
– Nombre de nar-
tude
rations de chaque
narrateur
– Continuité de la
chaı̂ne

Tableau II.4 – Critères de comparaison des approches d’évaluation des hadiths

Les approches existantes supposent que les chaı̂nes sont déjà analysées et que les nar-
rateurs sont identifiés. Si nous les comparons du point de vue besoin en données, nous
trouvons que l’approche de Ghazizadeh et al. [117] est la plus coûteuse, étant donné qu’il
est nécessaire de connaı̂tre le nombre de narrations de chaque narrateur, ce qui n’est
pas toujours possible. Al-Rizzo [3] utilise uniquement la crédibilité des narrateurs et la
continuité de la chaı̂ne. L’approche d’Aydemir [28] est la moins coûteuse du point de vue
besoin en données mais exige que les versions différentes d’un hadith soient alignées. Du
point de vue complexité, son implémentation nécessite des calculs récursifs coûteux. Par
rapport aux dimensions de fiabilité, la comparaison de versions permet d’évaluer l’objecti-
vité. Cependant, il est nécessaire de spécifier les mécanismes d’alignement qui ne semblent
pas faciles à mettre en œuvre. En effet, la détection des anomalies nécessite une analyse
logique du sens et du contexte du hadith, ce qui n’est pas possible dans l’état actuel des
travaux d’analyse automatique des textes en langue arabe (voir chapitre III). C’est pour-
quoi ce critère n’est pas pris en compte d’une manière directe par les approches d’Al-Rizzo
[3] et Ghazizadeh et al. [117] qui se concentrent sur la dimension ”autorité”.
Enfin, nous identifions trois limites des approches existantes :

1. Non prise en compte de la dimension ”fiabilité de transmission”.


2. Insuffisance au niveau de l’évaluation des résultats de test : seule l’approche de
Ghazizadeh et al. [117] a été évaluée. Avec l’absence de détails sur le calcul des
critères de fiabilité, il est difficile d’interpréter le taux de réussite rapporté.

43
CHAPITRE II. EVALUATION DE L’INFORMATION

3. Absence de mécanismes de visualisation qui, selon notre revue de la littérature,


présentent une importance particulière surtout pour les utilisateurs novices.

4 Conclusion
Dans ce chapitre, nous avons étudié les méthodologies et les applications dans le do-
maine de l’évaluation de la fiabilité, qui est considérée comme un critère de la pertinence
de l’information. Malgré la diversité des domaines d’application, nous avons pu recenser
une démarche générique qui combine les méthodologies classiques des sciences de l’histoire
et du hadith avec les développements modernes dans les sciences de l’informatique. En
guise de conclusion, nous pouvons dire que l’évaluation de la fiabilité est un processus
qui réunit toutes les étapes du processus de cartographie des connaissances. Du point de
vue résultat d’évaluation des critères de fiabilité, nous avons insisté sur l’importance de
la précision des métriques, des indices de fiabilité et de l’ergonomie de leur affichage. En
effet, pour pouvoir calculer ces indices, il faut passer par des étapes d’étude et d’analyse
qui permettent d’identifier et de structurer les informations nécessaires à ce calcul. Ces
étapes sont aussi indispensables pour évaluer les autres critères de pertinence dont la per-
tinence thématique. Ainsi, le chapitre suivant se focalisera sur les mécanismes d’analyse
nécessaires à la structuration des fonds documentaires arabes.

44
Chapitre III
Extraction et organisation des
connaissances à partir des
documents arabes

L ’objectif de ce chapitre est d’étudier les étapes nécessaires pour obtenir une struc-
turation socio-sémantique d’un fonds documentaire exploitable par un système
de recherche ou de navigation. Afin d’indexer les documents ou d’en extraire les connais-
sances, il est nécessaire de les analyser à plusieurs niveaux. Le processus d’analyse inclut
tous les niveaux du traitement automatique du langage naturel (TALN). Ce processus
commence au niveau morphologique qui analyse les caractéristiques et les constituants
des mots. La découverte de connaissances plus complexes et leur organisation nécessite
le passage au niveau syntaxique. Sur la base de ce travail préliminaire, il est possible de
mettre en place des mécanismes d’analyse socio-sémantique. Une revue des travaux de
recherche pour la langue arabe (par exemple à travers la conférence ICCA 2010 [17]),
montre que ces travaux se concentrent sur les deux premiers niveaux. Cependant, certains
travaux ont abordé le niveau sémantique et le niveau social. Ce chapitre présente un état
de l’art sur les approches et les outils d’analyse de documents arabes en consacrant une
section pour chacun des quatre niveaux d’analyse, à savoir le niveau morphologique, le
niveau syntaxique, le niveau sémantique et le niveau social. Il faut mentionner ici que ces
niveaux sont liés et que le processus d’analyse n’est pas forcément séquentiel. Avant de
conclure ce chapitre, nous présenterons, dans la section 5, une critique de l’existant en
évaluant l’état de la langue arabe dans le Web socio-sémantique.

1 Le niveau morphologique
La langue arabe possède une morphologie dérivationnelle et flexionnelle. L’élément de

base du lexique arabe est la racine (P Ym.Ì '@), à partir de laquelle il est possible de générer
des lemmes puis des mots. Mesfar [164] distingue les racines simples qui correspondent au
) ” ɪ ¯ ” (fa’ala), à partir desquelles il est possible de générer des racines
schème ( à PñË@
augmentées en utilisant des schèmes plus complexes. Par exemple, à partir de la racine
 
simple ” † € à ”, il est possible de générer le verbe à racine augmentée ” ‡‚ Jƒ@” (inspirer)

en appliquant le schème ” É ª ® J ƒ@ ”. Dans un tel schème, les trois dernières lettres
représentent les lettres de la racine simple. A partir des racines simples et augmentées,

45
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

nous pouvons dériver des noms. Par exemple, à partir de la racine précédente, nous pou-

vons dériver le nom ” †A ‚  Jƒ@ ” (inspiration). Les particules, verbes non conjugués et les

noms non déclinés constituent les lemmes [164]. L’inflexion change la forme d’un lemme
et ajoute des préfixes et des suffixes. Par exemple, le verbe précédent peut être conjugué
à l’inaccompli avec la troisième personne du masculin singulier comme suit : ” ‡‚  J‚


” (il inspire). Selon le rôle et la position du mot dans une phrase, des enclitiques et des
proclitiques peuvent être ajoutés [24]. Par exemple, à partir du verbe précédent, nous
pouvons

générer l’expression ” 鮂 J‚
@” (Est-ce qu’il l’inspire). Dans ce cas, le proclitique

” @ ” et l’enclitique ” è ”ont été ajoutés. Les textes arabes contiennent aussi d’autres ca-
ractères appelés voyelles courtes ou signes diacritiques ( ɾ‚Ë@ ) qui aident à prononcer les

 
mots. Par exemple, le mot précédent peut être voyellé comme suit : ” 鮂 J‚ 
@”.

L’analyse morphologique consiste à étudier la structure de chaque mot pour reconnaı̂tre


ses morphèmes et déterminer leurs natures. Elle permet aussi de déterminer la racine et/ou
le lemme selon la stratégie adoptée. Dans les deux cas, cette analyse engendre plusieurs
ambigüités qui influencent d’autres étapes dans le processus d’extraction de connaissances
et de recherche d’information. Les principales sources d’ambiguı̈té morphologique sont
l’absence de la voyellation et l’agglutination [238]. En effet, les voyelles courtes sont ab-
sentes dans la majorité des textes arabes, ce qui conduit à un niveau élevé d’ambiguı̈té.
Zouaghi [238] affirme ”qu’il est même impossible de déduire le sens de certains mots non
voyellés, si on ne connaı̂t pas le contexte de leurs énonciations”. Il cite l’exemple du mot
    
” éƒPYÓ ” qui peut signifier selon la voyellation ” é ƒ P Y Ó ” (école),” ” é ƒ P Y Ó ” (enseignante)

ou ” é ƒ P Y Ó” ”enseignée”. L’ambiguité s’amplifie quand certaines conjonctions et/ou par-
ticules collent aux mots. L’une des conséquences de l’agglutination est qu’un mot arabe

peut signifier toute une phrase dans d’autres langues. Par exemple le mot ” IK
@P @” permet
d’exprimer en français ”Est ce que vous avez vu ?”. Ces deux types d’ambiguı̈tés (i.e. celles
reliées à l’absence de voyelles et celles causées par l’agglutination) peuvent se combiner
dans le même mot. Prenons à titre d’exemple le mot ” Zñ“ð ” (wDw’) qui peut être analysé

comme ” Zñ “ ð ” (wuDuw’ / ablution), ” Zñ “ ð ” (waDuw’ / eau pour l’ablution) ou ” Zñ “ ”
(Dw’/lumière). Dans cet exemple, la lettre ”ð” est interprétée soit comme une conjonction
de coordination soit comme une lettre du lemme. Même dans ce deuxième cas, il existe
deux interprétations possibles du mot.

Pour réduire les ambiguı̈tés, deux solutions sont envisageables. La première consiste
à utiliser le contexte. Etant donnée une entité qui a plusieurs interprétations possibles,
il s’agit, dans une première étape, d’associer à chaque interprétation un ou plusieurs
contextes par apprentissage dans un corpus étiqueté. Dans une deuxième étape, les en-
tités sont désambiguı̈sées dans un corpus de test par comparaison des nouveaux contextes
à ceux appris dans la première étape. La deuxième solution consiste à résoudre les am-
biguı̈tés d’un niveau en passant au niveau suivant. Par exemple, un analyseur syntaxique

46
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

peut filtrer les solutions proposées par un analyseur morphologique pour ne garder que
les solutions compatibles avec les règles de la grammaire [23].

Les approches et les outils qui traitent les aspects morphologiques peuvent donc être
classés en deux principales catégories. La première regroupe des outils d’analyse qui visent
à identifier toutes les solutions possibles pour un mot donné indépendamment de son
contexte. Dans cette catégorie, nous distinguons essentiellement les lemmatiseurs [82, 146]
et les analyseurs morphologiques [14, 24, 35, 128]. La deuxième catégorie englobe les outils
de désambigüisation qui utilisent des informations extra-mot pour choisir la bonne solution
morphologique [86, 127]. Il ne s’agit pas d’outils purement morphologiques du fait qu’ils
dépassent le cadre du mot, mais nous les décrivons dans cette section car leur résultat
est morphologique. Parmi ces outils, nous distinguons les étiqueteurs grammaticaux qui
ne permettent d’identifier que la catégorie grammaticale [86]. D’autres outils, tels que
MADA, permettent à la fois l’analyse morphologique complète et la désambiguı̈sation
[127].

1.1 Les lemmatiseurs


La lemmatisation consiste à supprimer les préfixes et les suffixes qui peuvent coller
aux mots [153]. En langue arabe, le résultat de la lemmatisation peut être soit le lemme
du mot soit sa racine.

Par exemple, le lemmatiseur de Khoja [146] permet de retrouver la racine d’un mot. La
première étape consiste en l’élimination des préfixes et des suffixes. La deuxième étape
permet d’identifier le schème de dérivation qui correspond au lemme du mot pour identifier
sa racine. L’outil a été utilisé dans le Système de Recherche d’Information (SRI) en langue
arabe développé par Larkey et al. [153]. Ces derniers affirment que le lemmatiseur a
commis beaucoup d’erreurs mais il a permis d’améliorer les résultats de recherche en
termes de rappel et de précision.

Parmi les outils qui permettent de retrouver le lemme d’un mot arabe, citons le lem-
matiseur développé par Darwish [82]. Il faut rappeler ici que la lemmatisation fait partie
des fonctionnalités des analyseurs morphologiques.

1.2 Les analyseurs morphologiques


Dans [24], Attia énumère les sources d’ambiguı̈té de la morphologie arabe et concluent
que la langue arabe est une langue dont la morphologie est riche et complexe. Comme
les lemmatiseurs, les analyseurs morphologiques peuvent être classés en deux catégories
selon qu’ils utilisent les lemmes ou les racines des mots [24].
Il existe actuellement plusieurs analyseurs morphologiques arabes tels que DIINAR
[88] et Morph2 [66]. Cependant, nous nous limitons aux outils les plus cités dans la
littérature, bien documentés et disponibles pour évaluation. Dans sa revue des analy-
seurs actuellement disponibles, Attia [24] identifie deux outils qu’il considère comme les
”meilleurs” analyseurs : l’analyseur morphologique de Buckwalter [128] et celui de Xerox
[35]. Le premier est disponible pour téléchargement sous forme d’un package Java 1 et le
1. http://www.nongnu.org/aramorph/

47
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

deuxième est accessible à travers une interface Web 2 . Nous avons testé d’autres analyseurs
morphologiques disponibles et nous avons abouti à la même conclusion qu’Attia [24] en
confirmant que ces deux outils sont les plus performants. Par exemple, nous avons testé
l’analyseur morphologique du laboratoire de recherche en informatique de l’université de
New Mexico [77] qui permet d’analyser des textes en arabe, persan et urdu. Il produit
beaucoup plus d’erreurs que l’analyseur de Buckwalter, qui est en plus mieux documenté
et plus facilement intégrable. Attia [24] énumère les limites de ces deux analyseurs (celui
de Buckwalter et celui de Xerox) et propose son propre analyseur. En plus de ces outils,
un nouvel analyseur nommé ”Alkhalil” est récemment apparu [14].

1.2.1 L’analyseur morphologique de Buckwalter


Le code source de cet analyseur, baptisé ”AraMorph”, est livré avec trois dictionnaires :

– Le dictionnaire des préfixes : il contient les préfixes qui peuvent être ajoutés lors de
la flexion et les proclitiques.
– Le dictionnaire des suffixes : il contient les suffixes qui peuvent être ajoutés lors de
la flexion et les enclitiques.
– Le dictionnaire des radicaux : il englobe des lexèmes (formes graphiques) qui ne
contiennent ni préfixes ni suffixes. Pour chaque lexème, le dictionnaire énumère les
lemmes possibles, leurs catégories grammaticales et leurs traductions en anglais.
Trois tables de compatibilité sont définies, à savoir :

– La table de compatibilité entre préfixes et radicaux.


– La table de compatibilité entre préfixes et suffixes.
– La table de compatibilité entre radicaux et suffixes.
Dans l’ensemble, 135 catégories sont définies et attribuées aux préfixes, suffixes et
radicaux.

Cet analyseur, considéré comme la meilleure ressource de son type, souffre de quelques
limites comme cela a été mentionné par Attia [24]. Parmi ces limites, notons la non prise en
compte de certaines formes de verbes (par exemple, les formes passives et impératives).
Attia [24] affirme que les dictionnaires de cet analyseur contiennent des entrées de la
langue arabe classique, ce qu’il considère comme étant une limite. Nous considérons plutôt
qu’il s’agit d’une caractéristique de cet analyseur qui pourra être utilisé avec des textes
classiques.

1.2.2 L’analyseur morphologique de Xerox


Cet outil est à la fois un système d’analyse et de génération. Il est donc capable de
générer les mots possibles à partir d’une racine en utilisant des schèmes. Il est basé sur
les automates à états finis [36].

D’après Attia [24], cet analyseur commet beaucoup d’erreurs lors de la génération, ce
qui amplifie son taux d’ambigüité. En outre, il est moins adapté pour interopérer avec un
analyseur syntaxique, car la liste de catégories morphosyntaxiques qu’il définit est réduite
par rapport à celle d’AraMorph. Cependant, il contient moins d’entrées de la langue arabe
classique.
2. http ://www.arabic-morphology.com

48
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

1.2.3 L’analyseur morphologique d’Attia


Comme celui de Xerox, cet outil est un système d’analyse et de génération. Les règles de
génération sont implémentées en utilisant les automates à états finis [24]. Etant donné qu’il
est construit à partir d’un corpus d’articles de journaux, il est plutôt orienté vers la langue
arabe moderne. Il propose plusieurs techniques pour réduire l’ambiguı̈té notamment en
définissant des règles grammaticales précises. Par exemple, les adjectifs ne peuvent pas
coller aux pronoms possessifs. En outre, il spécifie pour chaque verbe sa voix (passive ou
active), sa transitivité et s’il peut avoir une forme impérative, ce qui réduit les solutions
possibles lors de la génération des résultats.

1.2.4 L’analyseur Alkhalil


Il s’agit d’un analyseur morphologique développé en coordination avec l’ALECSO 3
[14]. La version 1.0 a été distribuée dans la conférence ICCA 2010 [17] sous forme de
code source Java libre. La base de données de l’outil contient des dictionnaires pour les
préfixes, les suffixes et les racines. Des patrons au format XML implémentent les schèmes
qui permettent de générer tous les mots possibles. Il a la particularité de pouvoir analyser
des textes voyellés ou non. En sortie, il génère toutes les informations concernant un mot,
y compris les informations sur les préfixes, les suffixes, les racines possibles et les schèmes
qui leurs sont associés.

1.2.5 Synthèse
Dans cette section, nous comparons les outils précédemment décrits sur la base des
critères suivants : le type d’entrées (racines ou lemmes), la couverture (nombre d’entrées),
le type de la langue arabe considérée (classique ou moderne), le degré d’ambiguı̈té (nombre
moyen de solutions pour chaque mot) et la disponibilité. Le tableau III.1 présente les
caractéristiques des quatre outils présentés dans ce chapitre en fonction de ces critères.

Outil Nombre Type de la langue Degré Disponibilité


et type arabe d’am-
d’entrées biguı̈té
Buckwalter 38600 lemmes classique 02.60 Code source
Java libre
Xerox 4390 racines moderne avec 04.32 Interface Web
quelques entrées
classiques
Attia 9471 lemmes moderne 01.75 Fichiers FST
(Finite State
Technology)
compilés
Alkhalil 7500 racines classique et moderne 11.31 Code source
Java libre

Tableau III.1 – Comparaison des analyseurs morphologiques arabes.

3. Arabic League Educational, Cultural and Scientific Organization : http://www.alecso.org.tn/

49
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

Le choix du bon analyseur morphologique dépend de la nature des textes et de l’applica-


tion visée. Pour les textes qui relèvent de la langue arabe classique, AraMorph semble être
le plus adapté, alors que l’analyseur de Xerox et celui d’Attia sont utilisés pour les textes
modernes. Alkhalil se distingue par sa généricité à ce niveau. Cet outil à base de racines,
comme l’outil de Xerox, est un système de génération ayant un taux d’ambiguı̈té élevé.
Ces deux outils ne sont donc pas adaptés aux applications d’extraction de connaissances
ou de recherche d’information, étant donné que la précision est un critère important dans
ce type d’applications.

1.3 Les étiqueteurs grammaticaux


La fonction d’un étiqueteur grammatical consiste à attribuer des catégories gramma-
ticales aux mots d’un énoncé en se basant sur le contexte [86]. Le contexte est représenté
par N mots à droite et N mots à gauche, N étant généralement égal à 2.

Les étiqueteurs grammaticaux sont construits par apprentissage à partir de corpus


étiquetés manuellement. La prise en compte du contexte par apprentissage permet de
réduire l’ambiguı̈té morphologique. Un tel outil est livré avec des fichiers contenant les
résultats d’apprentissage (des règles contextuelles). Par exemple, Freeman [108] a dévelop-
pé des programmes qui permettent d’apprendre ces règles à partir d’un corpus étiqueté
et de les utiliser ensuite pour analyser des textes. Cet outil est théoriquement capable
d’analyser des textes en langue arabe, mais l’étape d’apprentissage n’a été effectuée que
pour l’anglais.

L’analyseur développé par Diab [86] est cependant disponible avec les ressources néces-
saires 4 . L’étape d’apprentissage a été effectuée sur le corpus ATB (Arabic Treebank [158]).
L’analyseur est composé de modules qui permettent de faire la lemmatisation pour en-
suite attribuer les catégories grammaticales aux mots. Ces catégories ont été définies en
réduisant les 135 catégories d’AraMorph.

1.4 L’outil MADA


MADA (Morphological Analysis and Disambiguation for Arabic) est un outil de désam-
biguı̈sation morphologique basé sur le même principe des étiqueteurs grammaticaux sauf
que l’analyse touche toutes les caractéristiques des mots [125, 126, 127, 197]. L’outil dis-
tingue 19 caractéristiques qui couvrent les préfixes, les suffixes et les lemmes. Pour chaque
caractéristique, un classifieur SVM [13] est construit par apprentissage dans un corpus.
MADA accepte comme entrée les solutions générées par l’analyseur morphologique de
Buckwalter [128]. Pour une solution donnée, il évalue chaque caractéristique en utilisant
son classifieur en fonction du contexte. Pour obtenir un score global de la solution, MADA
attribue un poids à chaque caractéristique. Le score global est égal au produit des scores
des caractéristiques ainsi pondérées. A notre connaissance, MADA est le seul outil dispo-
nible qui fournit une analyse morphologique complète tout en classant les solutions par
ordre de pertinence par rapport au contexte. Pour construire l’outil MADA, l’équipe de
Habash [125, 126, 127, 197] a utilisé le corpus ATB [159] version 3 dont la taille est de
l’ordre de 51K mots. Les auteurs rapportent un taux de réussite égal à 94.10% [197].
4. Cet outil est téléchargeable sur http://www1.cs.columbia.edu/~mdiab

50
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

2 Le niveau syntaxique
L’analyse syntaxique est censée reconnaı̂tre la structure d’une phrase et les fonctions
grammaticales de ses constituants. Elle peut être limitée à l’analyse ou à l’extraction de
certaines expressions utiles pour des fins d’indexation ou d’extraction de concepts. C’est
ainsi que plusieurs outils, dans le domaine de l’ingénierie ontologique, considèrent les syn-
tagmes nominaux comme les meilleures entités qui représentent le sujet d’un document
[47, 161]. Nous distinguons donc deux types d’analyse syntaxique. L’analyse superficielle
permet la découverte des constituants principaux des phrases (syntagmes en général)
et leurs têtes ainsi que la détermination des relations syntaxiques (sujet, objet) entre
les verbes et les têtes des autres constituants [38]. L’analyse profonde inclut, en plus
de ces tâches, l’affectation des fonctions aux syntagmes distingués, la désambiguı̈sation
syntaxique et l’attribution d’une structure syntaxique globale [38]. Si ce type d’analyse
garantit la qualité des résultats, il est plus complexe et plus coûteux en terme de connais-
sances linguistiques requises [38]. Les analyseurs superficiels gagnent du terrain vu la
facilité de leur mise en œuvre surtout dans les applications d’extraction de connaissances
et la recherche d’information qui traitent des données volumineuses.

Cette section présente des éléments de la grammaire arabe liés à la constitution des
syntagmes nominaux, avant d’étudier les problèmes d’ambiguı̈té syntaxique et les travaux
existants dans ce domaine.

2.1 Les syntagmes nominaux en langue arabe


Dans cette section, nous rappelons les différentes formes de syntagmes en langue arabe
en nous basant sur notre étude qui est présentée dans [52] et [53]. Nous nous limitons ici
à l’étude des caractéristiques syntaxiques des expressions composées qui peuvent avoir la

catégorie ”nom”. En effet, la langue arabe distingue les noms définis ( é ¯QªÓ ) de ceux

indéfinis ( èQº K ). Un nom simple est dit défini s’il appartient à l’une des catégories sui-
vantes :
– Les pronoms comme ” AK @” (je) et ” I  K @” (tu).
– Les noms propres.
– Les noms préfixés par le déterminant ” È@” comme ” Ég. QË@” (l’homme).
– Les pronoms relatifs et les pronoms démonstratifs.

Les syntagmes peuvent être composés de deux ou plusieurs noms simples et adjectifs.
Selon le type des mots qui composent un syntagme, nous pouvons identifier son type
comme suit :
 JË@ I»QÖÏ @), composé d’un nom (simple ou composé)
– Le Syntagme adJectival (SJ ) ( úæª

.

appelé ” Hñª JÓ ” (le nom modifié) et un adjectif (” Iª K ”). Les deux composantes
Ég. QË@” : l’homme savant)
doivent être toutes les deux définies (par exemple ” ÕËAªË@

ou indéfinies (par exemple ” ÕËA « Ég. P” : un homme savant). En plus, elles doivent

aussi avoir le même genre et le même nombre (” XQ®Ó” : singulier, ” ©Ôg.” : pluriel ou

51
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES


” úæ JÓ” : duel).

– Le Syntagme Annexé (SA) ( ú¯A “B@
I. »QÖÏ @ ), composé d’un nom indéfini appelé ”


¬A ’Ö Ï @” (l’annexé) et d’un terme défini ” éJ
Ë@ ¬A ’Ö Ï @” (la base d’annexion). Exemple :
” €PYË@ I 
. KA¿” (le rédacteur de la leçon).

– Le Syntagme Conjonctif (SC ) ( ù ®¢ªË@ I . »QÖÏ @) : composé d’une suite de noms liés



par la conjonction ”ð ” (et) ou ” ð @ ” (ou). Exemple : ” É ®¢Ë@ð Ég. QË@ ” (l’homme et
l’enfant).
– Le Syntagme Prépositionnel (SP ) ( ú¯QmÌ '@ I


. »QÖÏ @), composé de deux noms séparés
par une préposition. Exemple : ” Z@ñÊm ¨ñK ” (un type de bonbon).
Ì '@ áÓ
– Le Syntagme Nominal Complexe (SNC ) dans lequel deux ou plusieurs connecteurs
(par exemple les conjonctions et les prépositions) sont utilisés pour lier les noms.
 úÍ@ñmÌ P@QÒJƒB@” : Continuer à peu près une année.
Exemple : ” éJƒ

Tous ces types de syntagmes peuvent participer à la composition d’autres syntagmes


plus complexes. Ainsi, il est possible d’obtenir des syntagmes composés de plusieurs mots.
Les exemples présentés ci-dessus montrent aussi que ce type de compositions peut être
porteur de relations sémantiques.

2.2 L’ambiguı̈té syntaxique


Avec la complexité des écrits arabes, nous sommes face à la difficulté de séparer les
phrases vu l’inexistence de séparateurs explicites. L’analyse profonde peut rentrer dans
des boucles récursives fortement complexes. Même l’analyse superficielle peut générer des
résultats ambigus. Nous avons identifié deux principaux types d’ambiguı̈tés qui influencent
l’extraction des syntagmes nominaux [52]. D’une part, la langue arabe se caractérise par
la liberté dans le choix de l’ordre des mots d’une phrase. Par exemple, l’expression ”

I
J.Ë@ ú¯ É¿ B@ ” (manger à la maison) peut être exprimée par ” É¿ B@ I 
J.Ë@ ú¯ ”. D’autre

part, un nom arabe peut prendre le rôle d’un verbe, d’une préposition, d’un adverbe ou


d’un adjectif. Par exemple, le mot ” IjJ  . Ë@” dans la phrase ” èQÒ JÓ l. ' A J K á«  . Ë@ QÖß @”
IjJ

(la recherche a donné des résultats prometteurs) joue le rôle d’un nom. Cependant, il a le
  . Ë@ ÈðAg ” (Il a essayé de
rôle d’un nom verbal dans la phrase suivante : ”Qk @ Ég á« IjJ
chercher une autre solution).

Comme exemple d’ambiguı̈té syntaxique, considérons l’expression suivante : ” ZAîD KB@



” (la fin de la construction de la maison). L’analyse de cet exemple mènera
P@YË@ ZA JK. áÓ
à deux différents arbres comme le montre la Figure III.1. Dans cette figure, les sym-
boles ”SN”, ”N” et ”PREP” désignent respectivement, ”Syntagme Nominal”, ”Nom” et

52
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

”Préposition”. Il est nécessaire dans ce cas d’identifier tous les arbres syntaxiques pos-
sibles et de sélectionner celui qui correspond à l’analyse correcte, car cela influence la
sémantique des syntagmes extraits.

Figure III.1 – Exemple d’ambigüité syntaxique.

2.3 Etat de l’art sur l’analyse syntaxique des textes arabes


Un effort considérable a été consenti dans le domaine de l’analyse syntaxique des
textes arabes. Nous pouvons citer à titre d’exemple les thèses d’Aloulou [23], d’Attia [24]
de Mesfar [164] et de Ben Farj [38]. Malgré ces efforts, il n’existe pas, à notre connais-
sance, un outil générique qui puisse effectuer une analyse profonde ou même superficielle
et traiter la complexité des phrases arabes. Certes, il existe des outils syntaxiques mul-
tilingues tels que l’analyseur de Bikel [42], qui utilise une approche statistique basée sur
l’apprentissage à partir de corpus étiquetés. Ces outils ne sont pas exploitables pour la
langue arabe vu l’absence de corpus étiquetés. D’autres sont paramétrables et acceptent
comme entrée les règles grammaticales. Par exemple, le groupe TALN de l’université de
Stanford a développé un analyseur syntaxique multilingue [147, 148]. Dans sa version
actuelle, l’analyseur est incapable de traiter les textes arabes car il ne dispose pas de
grammaire pour cette langue.

3 Le niveau sémantique
Cette section présente les enjeux de construction des ontologies en tant que système
d’organisation des connaissances sémantiques. Notre étude concerne le cycle de vie et les
approches d’extraction de construction des ontologies à partir de corpus textuels.

53
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

3.1 Le cycle de vie des ontologies


Malgré le fait que la notion d’ontologie soit un sujet de discussion et de divergence dans
les différentes visions du Web (voir chapitre I, section 3.3, page 13), il possible d’identifier
quatre étapes communes aux différents visions. La Figure III.2 illustre un cycle de vie
générique inspiré de [90] et [109].

Figure III.2 – Cycle de vie d’une ontologie.

En réalité, ces étapes se chevauchent, ce qui est implique que ce cycle de vie n’est
pas séquentiel. Par exemple, il n’est pas possible de séparer les étapes de construction et
d’utilisation selon le point de vue du Web socio-sémantique. En examinant ce processus
et pour des raisons de clarté, nous pouvons réorganiser ces étapes en distinguant trois
phases : (i) l’évaluation des besoins ; (ii) la construction et l’utilisation ; et, (iii) l’évaluation
de l’ontologie.

3.1.1 Evaluation des besoins


Selon Uschold et King [213], l’évaluation des besoins inclut l’identification des utilisa-
teurs potentiels, l’étude de l’objectif opérationnel et enfin la délimitation du domaine de
connaissances visé.

Il convient donc de définir la notion de domaine. Nous pouvons citer la définition sui-
vante [129] : ”A domain is a culturally bounded segment of the social world containing
producers/products, audiences and a language that tells to whom these distinctions apply
and what they mean” .

A partir de cette définition, il est possible de conclure qu’un domaine est composé
d’items reliés (les produits). Il correspond à un intérêt commun d’une communauté (des
producteurs et une audience partageant des perceptions, des intérêts, des activités, des
valeurs, etc.). Cette communauté partage aussi un ensemble de concepts et une terminolo-
gie définie par ses membres. Selon Spradley [208], un domaine est représenté à l’aide d’un
terme principal, un ensemble de termes et des relations sémantiques entre les termes. Il
faut aussi définir des critères qui permettent de distinguer les connaissances qui entrent
dans les limites du domaine de celles qui doivent être écartées. Il est clair que ce processus
dépend des besoins et des interactions sociales entre plusieurs acteurs. Vu la complexité
de ces interactions, le Web socio-sémantique propose de construire les ontologies d’une
manière collaborative [225].

54
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

Enfin, l’évaluation des besoins doit permettre de déterminer le degré de formalisation


requis. Tel que nous l’avons précisé dans le chapitre I (voir section 2.4, page 11), plus
nous nous rapprochons du formel plus nous nous éloignons des besoins sociaux et nous
privilégions les traitements automatiques.

3.1.2 Construction et utilisation


Les choix liés à cette phase permettent de distinguer les tâches automatisables de
celles qui doivent être effectuées par l’utilisateur. Dans certaines applications du Web
sémantique formel, c’est la machine qui prend en charge la majorité du processus de
construction. La tâche de l’utilisateur se réduit à l’utilisation et à la validation. L’étape
de construction peut être décomposée en trois sous-étapes, à savoir la conceptualisation,
l’ontologisation et l’opérationnalisation [107]. La conceptualisation inclut l’extraction de
connaissances à partir de corpus. Cette étape, automatisable en grande partie, fournit
des termes candidats dont les libellés ont un sens pour le lecteur, souvent spécialiste du
domaine. Cependant, rien n’assure que ce sens soit unique : au contraire, nous sommes
dans un contexte linguistique où les significations sont ambiguës et les définitions sont
circulaires et dépendantes en particulier du contexte interprétatif des locuteurs. Il est
nécessaire, pour prendre le chemin du formel, de normaliser les significations des termes
pour ne retenir, pour chacun d’eux, qu’une seule signification, qu’une seule interprétation
possible pour un être humain. Ainsi, nous obtenons une ontologie différentielle [67]. L’on-
tologisation permet une formalisation partielle de cette ontologie tout en assurant sa
cohérence avec le domaine considéré. Enfin, l’opérationnalisation a pour objectif d’ou-
tiller une ontologie pour permettre une manipulation automatique des connaissances du
domaine [109].

Le Web socio-sémantique propose de construire les ontologies d’une manière collabo-


rative. Les utilisateurs sont libres d’ajouter des concepts et/ou des relations selon leurs
points de vue respectifs. Cela n’empêche pas que la machine peut participer à ce processus
de construction en facilitant l’analyse de corpus. Par exemple, dans le modèle hypertopic
[230], les ressources sont décrites par des attributs standards sous forme (clé,valeur). La
machine peut analyser les ressources pour calculer ces attributs. En outre, la construction
des ontologies multi-points de vue (préconisées dans le Web socio-sémantique), à partir
d’un corpus, peut être automatisée (au moins partiellement) si les points de vue sont
explicitement représentés dans les documents.

3.1.3 Evaluation des ontologies


Dans le Web socio-sémantique, les ontologies sont construites et évaluées au fur et à
mesure de leur utilisation. Selon le point de vue du Web sémantique formel, l’ontologie
et les besoins sont réévalués après chaque utilisation significative et l’ontologie peut être
étendue et, si nécessaire, en partie reconstruite. Nous concluons que l’utilisateur a un rôle
central dans les deux cas et que les ontologies ne peuvent être évaluées que dans le cadre
d’une utilisation réelle et massive.

Cependant, dans l’objectif de valider les approches de construction d’ontologies, il est


nécessaire de trouver des méthodes d’évaluation directes. Nous pouvons supposer qu’il
existe un résultat idéal que le système est supposé retrouver. Il s’agit dans ce cas de
comparer l’ontologie extraite par le système par rapport à une ontologie de référence.

55
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

Ensuite, il est possible d’utiliser les métriques d’évaluation des SRI, à savoir le rappel,
la précision et la F-mesure (voir section 4.1.4 du chapitre I, page 21). Néanmoins, la
difficulté réside au niveau de la définition d’une ontologie de référence. De telles ressources
peuvent être fournies directement ou construites par un expert par validation manuelle.
Par exemple, il est possible de trouver, pour certains domaines, des listes de référence
qui peuvent être utilisées pour évaluer les approches d’extraction de concepts (voir par
exemple [81]). De telles listes peuvent être construites par des experts qui examinent des
corpus et extraient les éléments valides. Si les listes de références ne sont pas disponibles, il
est possible d’opter pour la méthode de validation où un expert valide élément par élément
les connaissances extraites (voir par exemple [20, 166]). De telles approches sont coûteuses
en terme de temps. En outre, l’intervention humaine est influencée par la subjectivité et
l’interprétation personnelle des termes et des relations. Pour remédier à ces inconvénients,
nous pouvons recourir à une validation automatique qui consiste à utiliser l’ontologie dans
un cadre applicatif et à examiner son effet sur les résultats. Par exemple, il est possible
de l’intégrer dans un SRI puis d’évaluer son impact sur ses résultats.

3.2 Construction d’ontologies à partir de corpus textuels


Quel que soit le cadre théorique dans lequel nous nous plaçons, il est nécessaire d’ou-
tiller le processus de construction d’ontologies, surtout si l’objectif visé est la recherche
d’information. Les concepts et les relations du domaine doivent être identifiés par les
termes qui les dénotent. Quand il s’agit de construire une ontologie à partir d’un corpus
textuel, il faut donc distinguer deux étapes, à savoir l’extraction des candidats termes et
l’extraction des relations. Cette section présente un état de l’art des approches d’extrac-
tion de termes et de relations sémantiques en se focalisant sur les travaux qui concernent
la langue arabe.

3.2.1 Terminologie
Etant donné que l’unité de base d’un Système d’Organisation de Connaissances (SOC)
est le terme, il est nécessaire de définir cette notion. Jacquemin [142] la définit comme
une représentation de surface d’un concept du domaine. Tel que nous l’avons spécifié dans
la section 3.1.1 (page 54), un domaine est représenté à l’aide d’un ensemble de termes
qui constituent sa terminologie. Ces deux définitions étant circulaires, il est nécessaire
d’identifier les critères qui permettent de décider si une expression est ou non un terme.
Des recherches récentes ont permis de dégager deux propriétés des termes, à savoir le
”termhood ” et le ”unithood ”. Selon Pazienza et al. [181], le termhood exprime à quel
point (le degré) une unité linguistique est reliée aux concepts d’un domaine. Le uni-
thood exprime la force et la stabilité des collocations syntagmatiques. Cette propriété
concerne les termes qui sont des expressions composées. Pour être considérée comme une
expression composée, une suite de mots doit répondre à des contraintes syntaxiques et
sémantiques. Attia [24] dénombre plusieurs propriétés de telles expressions comme la stabi-
lité lexogrammaticale (l’expression est rigide ou non décomposable) et la paraphrasabilité
(l’expression peut être remplacée par un seul mot). Cependant, la principale propriété
qui distingue ces expressions est la non-compositionnalité qui signifie que le sens de ces
expressions ne peut pas être dérivé de leurs composantes. Par exemple, ”être calme”
est une expression compositionnelle. Par contre, ”avoir le sang froid” est une expression
non-compositionnelle parce que son sens n’est relié à aucun des mots qui la constituent.
Malgré le fait qu’il soit difficile de calculer la compositionnalité des expressions, seules les

56
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

expressions non-compositionnelles sont considérées comme expressions composées et donc


des termes. Cependant, Attia [24] affirme qu’il est possible d’accepter les expressions non
compositionnelles si elles sont conventionnées ou institutionnalisées. Ces expressions sont
tellement utilisées que leurs synonymes ou quasi-synonymes ne sont plus utilisés. Nous
estimons que de telles expressions sont utiles dans le contexte de la recherche d’informa-
tion, car elles constituent de bons candidats pour indexer les documents et formuler les
requêtes [52].

3.2.2 Extraction de termes


Nous distinguons trois types d’approches d’extraction de termes, à savoir les approches
statistiques, les approches linguistiques et les approches hybrides [52, 181].

i) Les approches statistiques


Ces approches utilisent des mesures statistiques pour évaluer le termhood et le unithood .
Le calcul de la première propriété est basé sur le calcul des fréquences. Un domaine étant
représenté par un ensemble de documents, nous pouvons considérer que plus le terme
est fréquent dans ce corpus, plus il représente le domaine. Même quand elle est combinée
avec des filtres linguistiques, cette approche génère beaucoup de bruit [181]. Pour résoudre
ce problème, il est nécessaire de comparer la fréquence de chaque terme dans plusieurs
corpus, dont chacun représente un domaine en utilisant par exemple la mesure TF-IDF
[200].

Ces calculs de fréquences s’appliquent aussi bien pour les termes simples que com-
posés. Cependant, pour calculer le unithood des expressions composées, nous avons be-
soin d’autres types de mesures qui permettent de calculer le degré d’association entre
les composantes d’une expression. Parmi les mesures utilisées pour les documents arabes
[48, 185], citons T-score (TS) [72], le score LLR [97], le coefficient de Dice (DF) [207] et
l’information mutuelle (MI) [81].

Ces mesures utilisent une table de contingence (voir tableau III.2) qui contient des
statistiques sur deux éléments u et v qui représentent dans ce cas, les composantes d’une
expression. O11 est le nombre d’occurrences de u avec v. O12 est le nombre d’occurrences
de u avec un élément autre que v, etc.

t1 = v t1 6= v
t2 = u O11 O12
t2 6= u O21 O22

Tableau III.2 – Table de contingence.

En plus de cette table, nous utilisons les équations suivantes [181] :

R1 = O11 + O12 (III.1)

R2 = O21 + O22 (III.2)

57
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

C1 = O11 + O21 (III.3)

C2 = O12 + O22 (III.4)

N = R1 + R2 = C1 + C2 (III.5)

Nous calculons aussi la fréquence attendue (ou espérance) de collocation comme suit
[181] :

E11 = (R1 ∗ C1 )/N (III.6)

Le score LLR est calculé en utilisant la formule suivante [97] :


L(O11 , C1 , r) ∗ L(O12 , C2 , r)
LLR(u, v) = −2 ∗ log( ) (III.7)
L(O11 , C1 , r1 ) ∗ L(O12 , C2 , r2 )
avec :

L(k, n, r) = k r ∗ (1 − r)(n−k) (III.8)

r = R1 /N (III.9)

r1 = O11 /C1 (III.10)

r2 = O12 /C2 (III.11)

MI [81], TS [72] et DF [207] sont données par les formules suivantes :


O11
M I(u, v) = log2 ( ) (III.12)
E11

O11 − E11
T S(u, v) = √ (III.13)
O11

O11
DF (u, v) = 2 ∗ (III.14)
R1 + C1

58
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

ii) Les approches linguistiques


Dans ces approches, il faut d’abord effectuer une analyse morphosyntaxique du corpus.
L’objectif est d’identifier les termes composés en se basant sur les étiquettes morphosyn-
taxiques. Malaisé [161] distingue deux types d’approches linguistiques :
1. Exploitation de la structure canonique des termes : Selon Malaisé [161], la
sélection des candidats termes dans ce type d’approche ”se fait sur la base d’une
structure syntaxique canonique d’un terme (par exemple la succession syntaxique
d’un nom et d’un autre nom, ou bien la suite Nom Prep Nom)”. Parmi les outils
qui implémentent cette approche, nous citons ACABIT [81] et OntoLearn [215].
2. Détection des marques de rupture de termes : Selon Malaisé [161], ce type
d’approche consiste à Repérer des marques de rupture de termes, c’est-à-dire des
configurations qui ne peuvent pas faire partie d’un terme, pour en donner les frontières
(ponctuation forte, pronom ou verbe conjugué par exemple). Cette approche est
implémentée dans l’outil Lexter développé par Bourigault [56].

Dans les deux cas, nous pouvons distinguer trois principales étapes [52] :
1. Analyse du corpus : des outils d’analyse linguistiques sont utilisés pour permettre
au moins de reconnaı̂tre les catégories grammaticales des mots.
2. Extraction de candidats termes : dans cette étape, on se limite généralement aux
syntagmes nominaux [181].
3. Filtrage : éliminer les mots vides et les expressions fréquemment utilisées.

L’extraction de termes composés arabes nécessite des grammaires syntaxiques [46]. Par
exemple, Attia [24] propose un analyseur purement linguistique pour la reconnaissance
des termes composés. En entrée, un lexique de termes composés construit manuellement
est fourni. Le système essaie d’identifier des variantes de ces termes en utilisant un analy-
seur morphologique. Des règles précises permettent de tenir compte des caractéristiques
morphologiques telles que le genre et le nombre. Les termes composés extraits sont décrits
sous forme d’arbres syntaxiques qui précisent le rôle de chaque constituant. Vu que l’ob-
jectif est d’améliorer les performances d’un analyseur syntaxique, Attia [24] n’a pas évalué
son outil dans un cadre applicatif tel que la recherche d’information.

iii) Les approches hybrides


Les approches purement linguistiques sont incapables de donner une définition du term-
hood . Les approches statistiques ne permettent pas d’extraire les termes composés ayant
des fréquences basses [48]. Pour contourner les limites de ces approches, une solution, qui
est largement adoptée par la communauté des chercheurs, consiste à combiner le calcul
statistique et l’information linguistique. Dans ce cas, l’analyse linguistique est effectuée
avant d’appliquer les filtres statistiques pour sélectionner les termes admissibles. La perfor-
mance des mesures statistiques s’améliore vu que ces dernières opèrent sur des candidats
linguistiquement acceptables. Enfin, les approches hybrides peuvent être améliorées en ex-
ploitant l’information contextuelle. L’idée consiste à calculer la corrélation entre chaque
terme et son contexte [166].

59
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

En ce qui concerne la langue arabe, Boulaknadel et al. [48] ont présenté une approche
hybride pour extraire les termes composés à partir d’un corpus représentant le domaine
 J Ë@ ). Ils ont défini des patrons qui exploitent la catégorie gram-
de l’environnement ( é J
.
maticale pour sélectionner les candidats termes. L’approche n’intègre pas un analyseur
morphologique mais un étiqueteur grammatical [86], ce qui ne permet pas de lemmatiser
les textes et extraire les lemmes des noms et des adjectifs. Ainsi, cette approche est in-
capable de prendre en compte les caractéristiques morphologiques dans la définition des
patrons. Par exemple, il n’est pas possible de vérifier la correspondance en genre entre un
nom et son adjectif lors de la reconnaissance des syntagmes adjectivaux. De plus, elle ne
permet pas de reconnaı̂tre les rôles respectifs des constituants d’un terme et sa structure.
Enfin, les expérimentations ont été effectuées sur un seul corpus en utilisant des mesures
d’association, ce qui implique que les auteurs n’évaluent que le unithood des termes.

3.2.3 Extraction de relations


Les SOC sont organisés à travers des relations sémantiques entre les termes ou les
concepts [25, 31]. L’organisation des connaissances, selon l’axe différentiel, requiert des
calculs de similarité et l’utilisation d’algorithmes de clustering. L’objectif consiste à re-
grouper les termes qui représentent le même concept ou à les organiser d’une manière
hiérarchique. Dans ce cas, il s’agit de découvrir les liens de co-hyponymie [62] (termes qui
partagent le même hyperonyme).

Les relations qui permettent de structurer un SOC peuvent être extraites de diverses
manières [51]. Nous pouvons exploiter plusieurs types d’informations telles que les infor-
mations morphologiques, syntaxiques et contextuelles. Il est aussi possible d’exploiter des
informations provenant de ressources multilingues.

i) Extraction de relations basée sur les informations morphologiques


L’idée consiste à regrouper les termes qui appartiennent à la même famille morphologique,
par exemple en calculant les morphèmes communs entre deux termes [239]. Le regroupe-
ment peut aussi se faire par des calculs sur la dérivation et des règles morphologiques. Par
exemple, Elkateb et al. [100] ont appliqué cette approche pour étendre le WordNet arabe
en considérant que les mots dérivés de la même racine sont sémantiquement proches.
Hattab et al. [136] ont proposé de calculer le degré de similarité de deux termes en ex-
ploitant leurs caractéristiques morphologiques (la catégorie grammaticale, l’existence d’un
déterminant, le schème, la racine, etc.). Belkredim et El-Sebai [37] ont proposé de lier les
verbes à leurs dérivés. La principale limite de ces approches est la génération de bruit,
mais nous pensons qu’il est possible de les appliquer dans les corpus génériques. Les corpus
spécifiques à des domaines contiennent peu de termes qui partagent des caractéristiques
morphologiques telles que la racine.

ii) Extraction de relations par exploitation de la structure des termes


La structure d’un terme composé peut être exploitée pour inférer des relations entre
termes. Un syntagme nominal est composé d’une tête et d’une expansion. Par exemple,
dans le syntagme adjectival, le premier élément (le nom) joue le rôle de tête et le deuxième
(l’adjectif) celui d’expansion. Ces informations sont exploitées notamment par Lexter et
Syntex [56] qui considèrent que la relation syntaxique entre la tête et l’expansion permet
d’induire une relation sémantique. Par exemple, l’existence du terme ”durée de vie” dans
un corpus dénote l’existence d’une relation entre ”vie” et ”durée”.

60
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

La structure des termes peut être exploitée pour inférer des relations d’hyperonymie
[143]. Généralement le syntagme composé est considéré comme l’hyponyme de sa tête ;

par exemple le terme ” ɂ«” (miel) est l’hyperonyme de ” ÈA®KQ.Ë@ ɂ«” (miel d’orange).
Cette approche a été appliquée sur les documents Web arabes par Hazman et al. [137],
mais elle reste limitée par le fait qu’elle ne permet pas de retrouver des relations entre les
termes simples indépendamment des termes composés.

iii) Extraction des relations basée sur la structure des documents


La structure d’un document peut être vue comme un arbre qui encode des relations
hiérarchiques entre ses fragments [55]. Cette structure peut être exploitée pour inférer
des liens sémantiques. Cependant, nous distinguons deux cas possibles. Dans certains
documents, les titres des fragments sont des termes et les liens structurels représentent
des relations taxonomiques. Par exemple, nous avons proposé d’extraire une ontologie
d’animaux à partir de documents semi-structurés [55]. L’idée consiste à lier deux termes
t1 et t2 par une relation taxonomique, s’il existe un chemin entre le fragment qui contient
t1 et celui qui contient t2 . Nous pouvons ensuite déterminer la racine de la taxonomie qui
n’est autre que le terme ayant le plus de relations taxonomiques avec les autres termes. Il
est aussi possible de calculer la similarité de deux termes en fonction des relations qu’ils
partagent.

Nous avons ensuite essayé d’expérimenter la même approche sur les documents du
hadith [5]. Nous avons réussi à retrouver l’hyperonyme commun de certains groupes de

termes tel que le terme ” ZA «ð ” (conteneur) pour le groupe qui contient les types de
conteneurs. Cependant, dans ce type de documents les liens entre les fragments sont plutôt
thématiques. Il nous était donc difficile de généraliser les résultats obtenus. Néanmoins, la
hiérarchie de titres constitue une carte de thèmes qui facilite l’accès et la compréhension
des textes.

iv) Extraction de relations basée sur le contexte


Dans ces approches, chaque terme a une signature composée de l’ensemble des contextes
dans lesquels il apparaı̂t [178]. Pour calculer le degré de similarité entre deux termes,
il suffit de calculer une distance entre leurs signatures. Dans ce cadre, Harris [134] a
défini la méthode d’analyse distributionnelle comme l’étude de la distribution relative des
termes sur les contextes. Cette méthode a été ensuite adoptée par plusieurs auteurs dont
Bourigault et Lame [59], Cohen et Widdows [74] et Pantel et al. [177]. Dans ces travaux, le
contexte peut être défini de plusieurs manières. Cependant, nous pouvons distinguer deux
types d’approches, à savoir les approches à base de co-occurrence [20, 47, 169, 185, 223]
qui utilisent le document comme contexte et celles qui exploitent les contextes syntaxiques
[57].

61
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

Les approches basées sur la co-occurrence : ces approches considèrent que les
termes qui co-occurrent dans le même document sont sémantiquement proches. Elle est
largement appliquée pour les documents arabes. Par exemple, Al-Qabbany et al. [20] ont
proposé d’indexer les termes par les documents en utilisant une variante de la mesure TF-
IDF, appelée TF-ITF. Chaque terme est représenté par un vecteur dont les composantes
représentent les poids du terme pour les documents en utilisant cette mesure. La similarité
de deux termes est égale au produit scalaire de leurs vecteurs respectifs. Boulaknadel [47] a
adopté une approche similaire en appliquant la méthode LSA (Latent Semantic Analysis)
[84]. Dans cette méthode, un fonds documentaire est représenté à l’aide d’une matrice dont
les lignes sont les mots et les colonnes sont les documents. La similarité de deux mots
est proportionnelle à la distance euclidienne entre leurs vecteurs respectifs. Mokbel et al.
[169] ont proposé d’améliorer la méthode LSA en étendant l’index de chaque document
par les documents qui lui sont proches, avant de procéder à une étape de clustering. Pinto
et al. [185] ont utilisé l’information mutuelle basée sur la co-occurrence pour calculer la
similarité de deux termes. Yousfi et al. [223] ont exploité les liens de co-occurrence pour
désambiguı̈ser les mots d’une phrase. L’objectif consiste à identifier la classe sémantique
d’un mot en fonction des sens des mots qui apparaı̂ssent dans la même phrase que lui.

En guise de conclusion, nous pouvons dire que les approches à base de co-occurrence ont
été largement utilisées avec divers types de distance. Cependant, elles sont plus orientées
vers des besoins d’indexation et de recherche d’information que vers l’organisation des
connaissances, car les graphes de co-occurrence sont fortement connexes. Ainsi, des termes
non-similaires peuvent apparaı̂tre dans le même document, ce qui produit des liens erronés.

Les approches basées sur le contexte syntaxique : Bourigault [57] a proposé d’uti-
liser l’analyse distributionnelle étendue qui consiste à considérer les termes composés en
plus des termes simples. Il a dévelopé un outil, appelé Upery [57], qui exploite un réseau
de dépendances syntaxiques généré par l’analyseur syntaxique Syntex [58]. L’idée de base
consiste à regrouper les têtes qui partagent la même expansion qui représente le contexte
commun. D’une manière analogue, nous pouvons relier les expansions qui partagent la
même tête. L’outil Upery calcule le degré de similarité entre deux termes t1 et t2 selon
trois mesures [57] :

– Le coefficient A qui représente le nombre de contextes communs entre t1 et t2 .


– Le coefficient prox défini par :
X 1
prox = p (III.15)
c∈C
P rod(c)
Dans cette formule, C est l’ensemble de contextes partagés entre t1 et t2 . Prod(c)
est la productivité du contexte c, qui est égale au nombre de termes qui ont en
commun ce contexte.
– Les coefficients j1 et j2 qui sont calculés comme suit :
j1 = A/P rod(t1 ) (III.16)
j2 = A/P rod(t2 ) (III.17)
(III.18)
où P rod(t1 ) et P rod(t2 ) sont les productivités de t1 et t2 , respectivement. La pro-
ductivité d’un terme est égale au nombre de contextes dans lesquels il apparaı̂t.

62
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

v) Extraction des relations basée sur les ressources multilingues


Ces approches exploitent les connaissances déjà modélisées dans d’autres langues pour
construire des SOC arabes. Dans ce cadre, Rodriguez et al. [195] ont proposé d’étendre
le WordNet arabe. Les termes à ajouter sont d’abord traduits en anglais. Ensuite, les
groupes correspondants dans le WordNet anglais sont identifiés. Enfin, les groupes arabes
susceptibles de contenir chaque terme sont identifiés en exploitant les liens entre les deux
WordNet. Malheureusement, les ressources multilingues ne sont pas disponibles pour tous
les domaines. Même si de telles ressources existaient, il est possible qu’elles ne contiennent
pas tous les termes requis. En plus, il faut garantir la fiabilité du processus de traduction
dans une telle approche.

3.2.4 Synthèse
Qu’il s’agisse d’extraire les termes d’un domaine ou de trouver des relations entre
ces termes, deux approches sont possibles, à savoir l’approche statistique et l’approche
linguistique. D’après les exemples d’outils que nous venons de présenter dans les sections
précédentes, il est nécessaire d’hybrider ces deux approches. En effet, l’approche statistique
permet d’éliminer les mots vides ou ceux qui ne sont pas pertinents pour le domaine
(par exemple en calculant la pertinence au domaine). L’approche linguistique permet de
contrôler la précision lors de l’extraction par exemple en imposant des contraintes sur la
structure des termes. Dans ces deux approches, nous distinguons trois critères pour juger
de la pertinence d’un terme ou pour identifier ses relations : la fréquence, le contexte et
la structure des termes.

4 Le niveau social
A ce niveau, nous nous intéressons aux entités sociales, leurs relations et leurs interac-
tions. Ces connaissances sont représentées dans les textes à travers des entités nommées
qui sont des expressions linguistiques désignant des noms propres (noms de personnes,
de lieux ou d’organisations), des expressions liées à la date, au temps ou à la monnaie.
Il est reconnu que ces expressions jouent un rôle important dans l’extraction et la re-
cherche d’information [152]. En outre, leur identification permet la navigation dans de
larges collections de documents [79]. Abuleil [16] et Chinchor [71] ont montré que les
informations importantes sont souvent localisées autour des noms propres. Ceci montre
encore une fois le degré de corrélation entre les connaissances sociales et les connaissances
sémantiques. Il s’agit de confirmer le fait que les informations dépendent de leurs sources
qui en constituent des indexes qui facilitent l’accès aux documents [71].

Dans ce cadre, la civilisation arabe a ses spécificités au niveau des règles de dénomination.
L’analyse sociale est aussi un processus qui commence par la reconnaissance des noms des
entités sociales dans les textes. Cette analyse peut être étendue pour couvrir la reconnais-
sance des expressions linguistiques qui dénotent des relations ou des interactions sociales.
Enfin, comme les termes arabes, les noms arabes sont ambigus du fait que plusieurs per-
sonnes peuvent partager le même nom. Une étape préalable à l’analyse des réseaux sociaux
consiste donc à identifier d’une manière précise chaque entité.

63
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

4.1 Structure d’un nom propre arabe


La structure d’un nom propre arabe diffère de celle d’un nom propre dans une autre
langue. En effet, un nom propre arabe est une combinaison des éléments suivants [50, 204] :
– Le prénom ( Õæ…B@) : un nom propre personnel attribué à la naissance (Par exemple
”Adam”). Dans certains cas, il est composé par le mot ” YJ.«” (esclave de) suivi de

l’un des noms de Dieu comme ” é<Ë@” (Allah).
 ) : c’est généralement une référence au premier fils de la personne
– La konia ( éJ
JºË@

en utilisant le terme ”ñK. @” (père de) ou ” Ð @” (mère de). Par exemple, ” úΫ ñK. @” (père

d’Ali) est la konia d’un homme dont le premier fils s’appelle ” úÎ « ” (Ali). Dans
d’autres cas, il est attribué pour d’autres raisons.

– Le nasab ( I

. ‚Ë@) : il indique les antécédents de la personne en utilisant le terme ”

áK . ” (fils de) ou ” I K . ” (fille de). Par exemple, une personne nommée ” ÐX @” (Adam)

et dont le père s’appelle ” YÔg @” (Ahmed) est référencée par ” YÔg @ áK . ÐX @” (Adam
fils d’Ahmed).
– Le laqab ( I
 Ê Ë@ ) : c’est une description, souvent religieuse, d’une personne qui
®
.
indique par exemple l’une de ses qualités. Exemple : ” YJ
ƒQË@  ” (sensé ou rationnel).

– La nisba ( éJ.‚Ë@) : un nom dérivé de la tribu, de la profession, du lieu de résidence
ou de naissance ou de l’affiliation religieuse. Exemples : ”PA j.J Ë@ ” (Al-Najjar : le

menuisier), ” úæ„ñJË@” (Al-Tounsi : le Tunisien).

En plus de ces éléments, certains narrateurs sont référencés par rapport à leurs maı̂tres.
Il s’agit d’indiquer les relations d’esclavage ou d’alliance qui existent entre les personnes

et les tribus arabes en utilisant le mot ” úÍñÓ”. Par exemple ”’ YÒm× úÍñÓ YÔg @” (Ahmed
dont le maı̂tre est Mohamed) signifie que Ahmed était l’esclave de Mohamed ou son allié.

4.2 Reconnaissance des entités nommées


La reconnaissance d’entités nommées arabes pose plusieurs problèmes liés aux ca-
ractéristiques de la langue arabe [203, 204]. En effet, cette tâche est influencée par l’am-
biguı̈té morphologique et syntaxique. S’ajoute à cela l’absence de majuscules qui aident à
identifier les noms propres dans d’autres langues. Les travaux dans ce domaine souffrent
du manque de ressources linguistiques telles que les corpus, les dictionnaires et les outils
d’analyse [203, 204].

Sans prétendre présenter un état de l’art exhaustif sur les travaux dans ce domaine,
nous tenons à noter que la reconnaissance des entités nommées utilise des techniques
d’analyse de textes semi-structurés [203, 204]. Dans ce domaine, nous pouvons distinguer
deux principales étapes. La première consiste en une analyse qui permet d’attribuer des

64
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

balises aux expressions ou aux mots d’un texte. Dans cette étape, nous avons besoin
de dictionnaires qui indiquent la catégorie de chaque expression. Ces dictionnaires sont
construits à partir de corpus étiquetés manuellement ou à partir de ressources existantes
telles que les dictionnaires de la langue. Dans une deuxième étape, il s’agit d’établir l’ordre
de combinaison de ces entités pour reconnaı̂tre la structure de la totalité ou d’une partie
du texte. Par exemple, Zitouni et al. [236] ont utilisé les chaı̂nes de Markov pour modéliser
la structure des entités nommées. Shaalan et Raza [203, 204] ont choisi les expressions
régulières pour le même objectif. Fehri et al. [104] ont utilisé des grammaires implémentées
dans la plate-forme Nooj pour faire face à la complexité et à la récursivité des entités
nommées. Viola et Narasimhand [217] ont fait un état de l’art sur les approches d’analyse
de textes semi-structurés. Selon ces auteurs, les grammaires hors contexte gagnent du
terrain par rapport aux modèles Markoviens et aux expressions régulières à cause de leur
flexibilité. En outre, ces grammaires sont capables de reconnaı̂tre la structure des textes,
notamment quand ils contiennent des relations et des contraintes complexes entre les
entités. Ces relations auront une importance particulière si elles sont utilisées dans des
traitements plus avancés, tels que la recherche d’information ou la cartographie sociale
[105].

Comme exemple d’application de l’extraction des entités nommées, Azmi et Bin Ba-
dia [30] ont proposé une architecture qui permet d’analyser le texte d’un hadith pour
reconnaı̂tre ses chaı̂nes de narrateurs et les représenter sous forme d’arbre. La phase
d’analyse se compose de deux étapes. La première est une analyse lexicale qui permet
de supprimer la ponctuation, les espaces inutiles et les voyelles courtes. La deuxième est
une analyse syntaxique qui implémente une grammaire hors contexte permettant de re-
connaı̂tre les verbes de transmission et les noms de narrateurs. Cependant, ces noms ne
sont pas analysés, ce qui veut dire qu’il n’est pas possible d’identifier leurs composantes
élémentaires. Les règles de la grammaire sont apprises par apprentissage supervisé à partir
d’une base d’exemples.

4.3 Reconnaissance des identités


La mise en place de mécanismes d’analyse ou de raisonnement sociaux nécessite l’iden-
tification précise des entités sociales [75]. Par exemple, pour évaluer la fiabilité d’un texte,
il est indispensable de connaı̂tre des informations précises sur sa source [156].

L’identification des personnes arabes est une tâche difficile, surtout pour les noms
propres fréquemment utilisés ou pour les personnes inconnues à l’échelle publique [50, 54].
En outre, nous avons déjà expliqué qu’un nom propre arabe a une structure complexe qui
peut être composée de plusieurs éléments de types différents. La même personne peut être
désignée de plusieurs manières dans des textes différents. Certaines des composantes des
noms d’une personne peuvent être célèbres et d’autres sont rarement utilisées.

La reconnaissance des identités a été particulièrement étudiée dans le coprus du hadith


par Azmi et Bin Badia [30]. Ces derniers ont proposé un analyseur, qu’ils ont qualifié de
”sémantique”, qui intervient après la phase de reconnaissance des entités nommées. Les
 
. K
YîDË@ I. K
Q ® K ” 5 comme corpus de narrateurs. L’algorithme
auteurs utilisent le livre ” I
de reconnaissance de l’identité calcule la distance entre la référence du narrateur dans le
hadith et son nom complet dans le corpus des narrateurs. Ces deux textes sont appariés
  
5. JJ . Ë , Hð
2008 , àA
Ð  Q
K. , éJ
ÒʪË@ I.JºË@ P@ X , úGC®‚ªË@ Qm.k áK . úΫ áK . YÔg B I.K
YîDË@ I.K
Q®K

”Takrib al-tehdhib”, ahmed ibn Ali ibn Hajar Al-Askalani, Maison des
livres scientifiques,
Beirut, Libanon, 2008
65
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

en utilisant l’algorithme de Levenshtein [150] et la méthode hongroise [171]. En l’absence


d’une analyse détaillée de ces expressions, ce calcul peut générer des
erreurs dûes à la
ressemblance des noms arabes. Par exemple, les deux noms ” YÔ @ ” (Ahmed) et ” YÒm×
g
” (Mohamed) sont très proches du point de vue lexical mais correspondent à des per-
sonnes différentes. Les auteurs ont testé leur système sur 90 hadiths dont 34 sont simples
(possédant chacun une seule chaı̂ne de narrateurs) et 56 sont complexes (chaque hadith
a plusieurs chaı̂nes). Ils ont évalué le taux de reconnaissance des arbres de narration à
86.70%. Ce taux global ne permet pas de juger les étapes intermédiaires qui peuvent
influencer le résultat final.

5 La langue arabe dans le Web socio-sémantique


Etant donné que le processus d’analyse socio-sémantique commence au niveau des
mots et des expressions, il est nécessaire d’évaluer les outils d’analyse morphosyntaxique.
En effet, pour analyser des textes non voyellés, il faut utiliser des outils de désambiguı̈sa-
tion tels que les étiqueteurs grammaticaux et MADA [125, 126, 127, 197]. Ces outils
souffrent de certaines limites, car ils restent sensibles à la nature et à la taille du corpus
d’apprentissage à partir duquel ils ont été construits. Ainsi, de tels outils doivent être
testés sur d’autres corpus pour une meilleure évaluation. En effet, les corpus utilisés pour
l’apprentissage sont composés de textes modernes, ce qui veut dire que ces outils peuvent
ne pas fonctionner avec la même performance avec des corpus classiques. L’intégration
de tels outils dans un SRI pose problème car nous sommes obligés soit de garder toutes
les solutions morphologiques, ce qui induit un grand taux d’ambiguı̈té, soit d’utiliser les
outils de désambiguı̈sation en choisissant une solution qui peut être fausse.

Cette situation a poussé certains chercheurs à utiliser des techniques du type pseudo-
racinisation [47, 133, 153]. Par exemple, Larkey et al. [153] ont utilisé des heuristiques
pour supprimer les préfixes et les suffixes. Ces techniques ont été ensuite adoptées par
d’autres chercheurs, tels que Boulaknadel [47] et Harrag et al. [133]. L’absence d’une
analyse morphologique approfondie ou d’une voyellation génère des candidats termes for-
tement ambigus, ce qui influence les performances du système de recherche. En outre,
une telle solution ne convient pas pour les systèmes qui ont besoin de connaı̂tre les ca-
ractéristiques des mots pour aller vers des niveaux d’analyse plus complexes. Sans analyse
morphologique efficace, il serait même difficile d’extraire les termes composés, ce qui est
une limite dont souffrent certains travaux de ce domaine [48]. Un SRI plus ”intelligent”,
qui utilise une analyse morphologique profonde, a été proposé par Hattab et al. [136].
Ce SRI devait démontrer l’importance de l’analyse linguistique mais aucune évaluation
ou comparaison quantitative n’a été effectuée. Nous rappelons que l’évaluation des SRI
nécessite des corpus de référence (voir chapitre I, section 4.1.4, page 21), et les les livres
du hadith peuvent constituer un standard d’évaluation. Par exemple, Harrag et al. [133]
ont utilisé 340 hadiths comme base de test. Pour évaluer leur SRI, les auteurs génèrent
une requête à partir d’un hadith donné, puis ils évaluent la capacité de leur système à
retrouver le même hadith en exécutant cette requête.

Cependant, il faut reconnaitre que certains chercheurs ont considéré des traits sémanti-
ques dans la conception des bases de connaissances linguistiques, telles que DIINAR
[87, 89]. Néanmoins, ces traits doivent être étendus pour représenter des connaissances
spécifiques à un domaine. Dans ce cadre, Lelubre [155] a proposé de construire une base

66
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

de termes scientifiques arabes aux dessus de DIINAR. De tels efforts pourront aider à
l’interprétation sémantique des documents à condition de couvrir d’autres domaines. Le
manque de ressources de ce type limite les travaux existants qui suivent, d’une manière ou
d’une autre, les technologies développées pour d’autres langues, sans tenir compte parfois
des spécificités de la langue arabe. Certains chercheurs ont même tenté de construire des
ontologies dans d’autres langues puis de les traduire. Citons à titre d’exemple, Qawaqneh
et al. [188] qui se sont proposés de trier les résultats des moteurs de recherche en utilisant
les concepts d’une ontologie. L’ontologie est générée en anglais en utilisant la plate-forme
KAON puis elle est traduite en arabe. Dans la phase d’expérimentation, les auteurs ont
utilisé une ontologie relative au domaine du commerce électronique composée uniquement
de 32 concepts. Cette ontologie contient aussi peu de relations sémantiques, ce qui soulève
un problème de couverture. D’autres ont construit leurs ontologies manuellement [234].

Cependant, certains travaux ont adopté une approche automatique sans avoir recourt
à la traduction. Ces travaux manquent d’outils d’analyse linguistique sophistiqués. Nous
pouvons voir l’effet de ce manque en examinant les groupes de mots générés par Al-
Qabbany et al. [20]. Par exemple, nous trouvons, dans le même groupe, les deux mots
” ø Xñªƒ” (un saoudien) et ” ø Xñª‚Ë@” (le saoudien). Hazman et al. [137] ont proposé d’ex-

traire les concepts en utilisant un lemmatiseur et le filtrage statistique. La lemmatisation,


qui consiste à supprimer les préfixes et les suffixes, ne tient pas compte des caractéristiques
morphologiques des mots, ce qui affecte négativement les résultats. Au niveau des filtres
statistiques, ils ont utilisé des mesures basées sur la fréquence ne travaillant que sur un
seul corpus, ce qui produit beaucoup de bruit. Pour résoudre ce problème, ils ont ex-
ploité, comme deuxième entrée, une liste de concepts de référence fournis par l’utilisateur.
Le système commence par ces concepts et essaie de chercher les concepts qui leurs sont
proches.

En passant au dernier niveau de l’axe sémantique, notons qu’il existe des outils d’ap-
prentissage et d’édition d’ontologies qui pourraient être utilisables si nous arrivons à ex-
traire les informations nécessaires. Bergman [40] estime que parmi les 250 outils du Web
sémantique qu’il a recensé, 12% seulement supportent la langue arabe.

Au niveau social, plusieurs travaux se sont intéressés à la reconnaissance des entités


nommées sans qu’il y ait, à notre connaissance, un outil générique et publiquement uti-
lisable. Cependant, peu de travaux se sont intéressés à la reconnaissance des identités de
ces entités. Les applications existantes concernent les livres du hadith avec les limites que
nous avons citées dans la section précédente.

Pour résumer, nous dénombrons les problèmes auxquels il faut faire face pour une
analyse socio-sémantique des documents arabes :

67
CHAPITRE III. EXTRACTION ET ORGANISATION DES CONNAISSANCES À PARTIR DES DOCUMENTS ARABES

– Limites des outils d’analyse morphosyntaxique et de reconnaissance des entités


nommées, malgré les travaux effectués dans ces domaines.
– Manque de corpus étiquetés de grande taille pour développer ces outils ou d’autres
traitements socio-sémantiques tels que l’évaluation des SRI.
– Non prise en compte de la langue arabe par les outils d’apprentissage et d’édition
d’ontologies existants.

Ces problèmes influencent les SRI arabes qui possèdent plusieurs limites que nous
résumons comme suit :
– Les limites des outils d’analyse influencent les performances de ces SRI, qui se
trouvent confrontés aux spécificités et à la richesse de la langue arabe.
– Vu les limites des approches d’extraction de connaissances, les SRI existants man-
quent d’une structuration des fonds documentaires, que ce soit au niveau des do-
cuments ou au niveau des connaissances. Par exemple, peu de travaux ont exploité
la structure des documents pour fournir une recherche précise. Cependant, les ap-
proches appliquées sur les hadiths font l’exception.
– Les SRI existants sont monocritères dans le sens où ils considèrent une seule di-
mension des documents. Les travaux existants se focalisent sur l’axe sémantique
en fournissant une recherche par mots ou termes clés. Nous avons montré dans le
chapitre II que les critères de recherche doivent être diversifiés.
– Les SRI existants manquent de mécanismes de visualisation et d’interaction.

6 Conclusion
Dans ce chapitre, nous avons présenté un état de l’art sur le processus d’extraction de
connaissances à partir de documents arabes. Ce processus requiert des traitements linguis-
tiques, ce qui nous oblige à tenir compte des caractéristiques de la langue arabe. En effet,
il faut réutiliser ou développer les outils de traitement automatique du langage naturel.
C’est pourquoi nous avons mené une étude des caractéristiques des outils disponibles pour
l’analyse des textes en langue arabe. Cette étude nous a permis de conclure que l’extrac-
tion de connaissances à partir de documents en langue arabe est une tâche complexe vu
les spécificités de cette langue et la non disponibilité d’outils robustes pour l’analyse des
textes arabes. Nous pensons tout de même que les outils existants pourront être utilisés
dans certaines étapes du processus d’extraction de connaissances. Ainsi, ces outils feront
partie de la solution que nous proposons dans le chapitre suivant pour cartographier les
fonds documentaires arabes.

68
Deuxième partie

Contributions

69
Chapitre IV
Modèle de cartographie
multidimensionnelle des documents
arabes

F ace aux limites des systèmes d’extraction de connaissances et des SRI arabes, il
est nécessaire de développer des modèles et des outils pour analyser et représen-
ter les documents arabes dans le Web socio-sémantique. Pour cela, nous proposons d’uti-
liser la cartographie comme approche d’analyse, de représentation et d’accès aux fonds
documentaires arabes. Du point de vue modélisation, il faut garantir la qualité des cartes
en tant que produit. Le modèle doit donc répondre aux exigences de l’utilisateur en lui
fournissant une recherche multi-critères et en l’aidant à appréhender son espace informa-
tionnel par une structuration du fonds documentaire et par des mécanismes de recherche
et de navigation intelligents. La définition de ce modèle fera l’objet de la première section
de ce chapitre. Les sections 2, 3 et 4 se focalisent sur les éléments de base de ce modèle,
à savoir la structure des documents, les réseaux petits mondes hiérarchiques [219] et les
réseaux possibilistes [96]. Du point de vue processus, la cartographie fournit les outils
nécessaires pour garantir la qualité du produit. Dans notre cas, ce processus devra tenir
compte de la spécificité de la langue arabe (voir section 5)

1 Modèle d’une carte socio-sémantique multi-critères


Ce modèle trouve ses origines dans les propositions que nous avons faites dans [5]
et [54]. D’abord, nous avons suggéré d’indexer les documents par une ontologie d’ac-
teurs [54]. Ensuite, nous avons intégré l’axe sémantique représenté à l’aide des concepts
du domaine [5]. Afin d’obtenir un modèle générique, nous proposons une cartographie
multi-critères qui permet d’accéder au fonds documentaire selon plusieurs dimensions qui
peuvent être sémantiques ou sociales. Pour faciliter l’appréhension de l’espace informa-
tionnel (éventuellement selon divers points de vue) et assister les mécanismes de recherche
d’information, chaque dimension est représentée par une ontologie. Dans la phase d’ana-
lyse et d’indexation, les documents sont fragmentés et reliés aux éléments de toutes les
ontologies. Ainsi, notre modèle offre une recherche précise de l’information, ce qui permet
de retrouver des fragments de tailles diverses selon les besoins des utilisateurs.

70
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Cependant, nous n’imposons aucune contrainte sur la nature de ces ontologies ni sur
leurs constituants. Il est donc possibile de représenter librement le fonds documentaire
selon plusieurs approches de modélisation et selon différents points de vue. Dans cette
perspective, il est envisageable d’utiliser à la fois plusieurs SOC (par exemple une onto-
logie sémiotique sous forme de carte de thèmes et une ontologie différentielle constituée
de termes pertinents au domaine). Pour pouvoir assurer cette généricité, nous utilisons le
language XML [12] pour encoder les connaissances, que ce soit au niveau des fragments
ou au niveau des ontologies. Ce langage standardisé fait l’objet de consensus entre toutes
les visions du Web. Sa structure arborescente facilite le parcours automatique des docu-
ments. Cette facilité de manipulation est augmentée avec la possibilité de représenter les
connaissances sous forme de graphes en utilisant le langage GraphML [8] qui est de la
même famille que XML. A ce sujet, rappelons que les algorithmes de manipulation de
graphes constituent un outil puissant dans le domaine de la manipulation des connais-
sances et de la recherche d’information [165].

Le modèle que nous proposons offre aussi la possibilité d’implémenter plusieurs scénarios
de recherche et/ou de navigation. Avec des mécanismes de visualisation diversifiés, l’uti-
lisateur peut naviguer dans le fonds documentaire en se déplaçant entre les différentes
ontologies et les fragments. Nous pouvons, en plus, imaginer un scénario de recherche
multi-critères. L’utilisateur peut choisir des éléments d’ontologies différentes pour compo-
ser plusieurs requêtes, dont chacune correspond à une dimension ou à un critère. Chaque
requête peut être reformulée en utilisant les liens de l’ontologie correspondante. Ensuite,
le système peut calculer et aggréger les scores de pertinence pour les différentes requêtes.
Pour cela, nous avons besoin d’un modèle d’appariement et d’agrégation qui est représenté
dans notre système par les réseaux possibilistes [96].

Comme l’illustre la Figure IV.1, notre modèle regroupe deux éléments, à savoir les onto-
logies et les fragments de documents liés par des réseaux possibilistes. A titre d’exemple,
nous prenons les articles scientifiques comme cas d’application en nous limitant au do-
maine informatique. Nous pouvons envisager de construire trois ontologies : (i) une ontolo-
gie sémiotique de type carte de thèmes multi-points de vue qui intègre plusieurs systèmes
de classification possibles (dont celui d’ACM 1 par exemple) ; (ii) une ontologie formelle
qui regroupe les concepts informatiques ; et, (iii) un réseau social qui modélise les auteurs
et leurs relations (par exemple, deux auteurs sont liés s’ils ont corédigé des articles ou
s’ils appartiennent à un même organisme de recherche). Il est clair qu’une telle structu-
ration permet une certaine flexibilité lors de la recherche, étant donné qu’un utilisateur
peut combiner plusieurs critères et peut visualiser l’espace informationnel constitué des
articles selon différentes vues.

2 L’apport de la structure des documents


La structure d’un document a une importance primordiale dans sa compréhension, son
analyse et sa modélisation. La structure est une empreinte du processus de production
du document. Selon Zacklad [227], un document doit être structuré d’une manière qui
facilite les pratiques des utilisateurs. Rappelons ici que la segmentation des documents et
la représentation des liens entre les fragments représentent un aspect fondamental dans
1. Association for Computing Machinery (http://www.acm.org/)

71
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Figure IV.1 – Modèle d’une carte socio-sémantique multi-critères.

les projets de bibliothèques virtuelles (voir section 4.2.2, page 23) et de cartographie de
connaissances (voir section 4.3.2, page 25) dont l’objectif est d’adapter la recherche et la
navigation aux besoins des utilisateurs. Notons aussi que la structure des documents peut
être utilisée pour structurer les connaissances d’un fonds documentaire (voir section 3.2.3,
page 60). Elle permet soit d’inférer des relations taxonomiques entre les concepts d’une
ontologie soit d’extraire des relations thématiques dans une carte de thèmes.

Dans le Web actuel, il existe une grande masse de documents au format XML ou
qui contiennent des éléments qui permettent de reconnaı̂tre leur structure (tels que les
articles scientifiques). Les SRI classiques (non structurés) ne tiennent pas compte de
cette structure ni au niveau de la requête ni au niveau des résultats. Or, dans certains
cas, il devient nécessaire de retourner une partie du document et non pas sa totalité.
Nous pouvons citer l’exemple d’un livre constitué d’un millier de pages et l’utilisateur
s’intéresse uniquement à un chapitre ou à une section donnée. En reprenant l’exemple
des articles scientifiques, certains lecteurs débutants, qui sont en phase d’exploration de
leurs domaines, s’intéressent à la totalité du papier. D’autres lecteurs, expérimentés et
connaissant les principales contributions dans leurs domaine, lisent juste la section qui
véhiculent de nouvelles idées ou les résultats obtenus.

La recherche d’information structurée exploite la structure des documents afin d’amélio-


rer la représentation des documents et de localiser plus précisément l’information re-
cherchée [170]. L’introduction de la structure influence plusieurs étapes dans le processus
de recherche d’information. Lors de la segmentation, il faut choisir le niveau de granularité
qui garantit à la fois la cohérence des fragments et la précision. Au niveau de l’expression

72
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

des besoins, il faut donner à l’utilisateur la possibilité de choisir les types de fragments
à retourner. Au niveau de l’appariement, si un fragment est pertinent, il faut décider s’il
faut retourner uniquement ce fragment, le fragment qui le contient (son père) ou tout
le document. A ce stade, il faut choisir le niveau de granularité minimum ou en d’autres
termes répondre à la question suivante : ”Quel est le fragment le plus fin que nous pouvons
retourner ?”.

Du point de vue social, la généralisation du Web induit un nouveau concept qui est ap-
pelé ”manière de lecture” ou ”type d’usage” [54]. Ce concept a été introduit par Aussenac-
Gilles et Condamines [26] qui affirment qu’il faut modéliser à la fois les textes et les usages
sachant que les types d’usage ne sont pas aussi nombreux que les utilisateurs. D’autres
chercheurs ont proposé des notions proches telles que la notion de ”rôle pédagogique” dans
le projet Sybil [78] et la notion de ”service” dans la bibliothèque virtuelle de Fellah et al.
[106]. Nous pensons que le concept de type d’usage est plus générique vu qu’il considère
le point de vue de l’utilisateur et non pas celui du système. Ce concept permet donc de
voir les documents dans une perspective sociale, ce qui veut dire qu’une communauté
d’utilisateurs partagent la même manière de lecture. Les besoins des utilisateurs et leurs
actions sur les fragments dépendent donc de leur appartenance à des communautés de
pratique [54, 220].

Nous pensons que la notion de type d’usage permet de résoudre les problèmes de gra-
nularité dans les SRI structurés. En effet, l’utilisateur serait intéressé par un fragment ou
par un autre selon ses besoins et son appartenance sociale. Ainsi, cette notion établit le
lien entre les utilisateurs et les fragments. Nous proposons donc de conduire une étude
sociale qui identifie les pratiques des utilisateurs avant de procéder à l’analyse et à la
modélisation des documents (voir section 5.2, page 81). Ceci implique que la même collec-
tion de documents peut être modélisée de plusieurs manières selon les usages potentiels et
l’organisation sociale des utilisateurs. Notons enfin que les usages peuvent être modélisés
sous forme d’une ontologie de tâches comme proposé par Fellah [106].

En revenant à notre cas d’application, nous pouvons considérer, qu’une référence biblio-
graphique qui figure dans un article scientifique est un bloc élémentaire, si le seul objectif
des lecteurs est d’explorer un nouveau domaine. Pour d’autres usages, qui nécessitent
l’évaluation de la biométrie, il serait indispensable de segmenter les références et de mettre
en place des systèmes intelligents d’indexation qui permettent d’évaluer leur impact et
leur nouveauté.

3 Les réseaux petits mondes hiérarchiques


Ce type de réseaux trouve ses origines dans les recherches relatives au domaine de
l’analyse des réseaux sociaux [219]. La théorie des réseaux sociaux modélise les individus
comme les nœuds d’un graphe, où les arcs représentent les relations entre ces individus
[160]. Plusieurs études ont montré l’existence d’une caractéristique intéressante dans ces
graphes [98, 113, 114, 115]. En effet, la majorité des individus ont peu de relations avec
d’autres, ce qui permet de constituer des petits mondes. Initialement proposés par Watts
et Strogatz [219] et dénommés ” Small-World Networks”, les Réseaux Petits Mondes
Hiérarchiques (RPMH) ont été repris par d’autres auteurs pour représenter divers types
de connaissances [32, 113, 114, 115, 174, 186, 192, 202].

73
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Les RPMH possèdent quatre caractéristiques statistiques [98] :

– C : il indique le taux de clustering (ou d’agrégation). Le taux de clustering d’un


nœud, noté Cs, est défini par le rapport entre le nombre d’arcs qui relient ses voisins
et le nombre total d’arcs possibles entre eux. Le taux de clustering d’un graphe
(toujours compris entre 0 et 1) est la moyenne des Cs de tous les nœuds. Un RPMH
ayant un taux de clustering élevé contient des zones denses en arêtes, ce qui forme
des agrégats ou des clusters. Ceci implique que les voisins d’un même nœud ont
tendance à être connectés par un arc.
– L : c’est la longueur moyenne du plus court chemin entre deux nœuds quelconques.
Les RPMH ont une petite valeur pour cette moyenne par rapport aux graphes
réguliers et aux graphes aléatoires [115].
– I : elle représente la distribution des degrés d’incidence des sommets qui suit une loi
de puissance. La probabilité P (k) qu’un sommet d’un graphe ait k voisins décroı̂t
comme une loi de puissance P (k) = k λ (où λ < 0).
– D : c’est la densité du graphe. Les RPMH ont une faible densité vu que le nombre
d’arcs est relativement petit par rapport au nombre de nœuds.

Ce qui fait la force des RPMH c’est leur caractéristique classificatoire qui permet de
découvrir des clusters de nœuds. Elayeb [98] a proposé de regrouper les termes d’un
dictionnaire structuré sous forme d’un RPMH en utilisant le nombre de circuits comme
distance. En partant d’un dictionnaire, qui représente la langue française, un graphe de
termes est construit. Deux termes sont liés si l’un d’eux apparaı̂t dans la définition de
l’autre. La proximité entre deux termes est calculée en utilisant la formule suivante [98] :
N ombre de circuits(T1 .T2 )
Similarite Semantique(T1 .T2 ) = (IV.1)
N ombre maximum de circuits dans RP M H
L’utilisation de ce type de réseau, dans notre système, est justifiée par plusieurs argu-
ments. Il s’agit d’abord d’un outil flexible qui permet d’analyser les connaissances pour
en inférer d’autres. La flexibilité vient de la théorie des graphes qui offre une panoplie
d’algorithmes [165], ce qui répond à notre besoin de personnalisation et d’adaptation. En
plus, les RPMH peuvent être utilisés pour divers types de connaissances qu’elles soient
sémantiques [98] ou sociales [219]. Ils sont aussi génériques du point de vue source de
données. Par exemple, nous pourrons facilement extraire les termes d’un réseau à partir
d’un thésaurus au lieu d’un dictionnaire. Rappelons aussi que la capacité classificatoire
est fondamentale dans le modèle que nous proposons, étant donné qu’elle permet à l’utili-
sateur de comprendre la structure de son espace informationnel et donc de l’appréhender.

4 La théorie des possibilités et ses applications


Introduite par Zadeh [232] et développée par plusieurs auteurs (par exemple Dubois
et Prade [94]), la théorie des possibilités traite l’incertitude dans l’intervalle [0..1], appelé
échelle possibiliste. Cette section rappelle les éléments de base de cette théorie, à savoir les
distributions de possibilité, les mesures de nécessité et de possibilité et les réseaux possibi-
listes. Pour plus de détails, le lecteur est invité à consulter les références [93, 95, 96]. Cette
théorie a été utilisée comme méthode de classification et comme modèle d’appariement
dans les SRI, qui sont des traitements de base vont nous servir dans plusieurs phases de
notre processus de cartographie.

74
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Notre choix s’appuie sur les résultats obtenus dans des recherches récentes qui ont
appliqué cette théorie à la RI et à la classification. Par exemple, Brini [60] a développé
le premier SRI possibiliste et démontré ses performances par rapport aux autres modèles
de RI. Ce modèle a été ensuite repris par d’autres chercheurs tels que Elayeb [98]. La
théorie des possibilités permet aussi de pallier au problème d’imprécision, d’incertitude
et de manque de données dans les attributs des instances lors de la classification. Par
exemple, Haouari et al. [130] ont développé un classifieur possibiliste qui tient compte
de ces phénomènes. Par rapport à notre problématique, l’évaluation de la qualité ou de
la fiabilité de l’information est souvent modélisée comme un problème de classification.
En effet, l’évaluation des sources d’information est basée sur des méta-données dont la
collecte n’est pas toujours évidente, ce qui conduit à des cas de manque, d’imprécision
ou d’incertitude. Les algorithmes classiquement utilisés (tel que l’algorithme C4.5 [141]
utilisé par Stvilia et al. [210]) sont incapables de faire face à ces phénomènes, ce qui nous
incite à adopter le modèle possibiliste.

4.1 Distribution de possibilité


La théorie des possibilités est basée sur les distributions de possibilité. Soit un univers
de discours Ω = {ω1 , ω2 , ..., ωn }. Un concept fondamental, dénoté par π, correspond à
une fonction qui associe à chaque élément ωi une valeur dans un ensemble linéairement
ordonné (L, <). Cette valeur est appelée degré de possibilité et encode les connaissances
du monde réel.

Par convention, π(ωi ) = 1 signifie qu’il est parfaitement possible que ωi soit du monde
réel. π(ωi ) = 0 signifie que ωi est impossible. La flexibilité est modélisée en permettant de
donner un degré dans l’intervalle ]0,1[. Dans la théorie des possibilités, les cas extrêmes
sont modélisés par [93] :
Connaissance complète :
∃ωi ∈ Ω|π(ωi ) = 1 et ∀ωj 6= ωi , π(ωj ) = 0 (IV.2)
Ignorance totale :
∀ωi ∈ Ω, π(ωi ) = 1 (IV.3)

4.2 Les mesures de possibilité et de nécessité


Une distribution de possibilité π sur Ω permet d’évaluer les événements en terme de
leur plausibilité et de leur certitude en utilisant deux mesures duales appelées respecti-
vement possibilité et nécessité [93]. Etant donnée une distribution de possibilité π sur un
univers de discours Ω, les valeurs de possibilité et de nécessité évaluent chaque événement
A ⊆ 2Ω comme suit [93] :
Π(A) = maxw∈A π(w) (IV.4)

/ (1 − Π(Ā))
N (A) = minw∈A (IV.5)
Π(A) évalue à quel niveau l’évènement A est consistant avec nos connaissances représen-
tées par π, alors que N (A) évalue à quel degré ce même évènement est certain selon nos
connaissances. La différence entre N (A) et Π(A) évalue le taux d’ignorance sur A [93].

75
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

4.3 Les réseaux possibilistes


Un réseau possibiliste est un graphe orienté acyclique sur un ensemble de variables V
[96]. Les arcs qui représentent des relations d’indépendance sont pondérés par les distri-
butions de possibilité conditionnelles de chaque nœud dans le contexte de ses parents. Des
contraintes de normalisation doivent être satisfaites par ces distributions. En effet, pour
chaque variable Vi , nous avons [96] :

– maxvi Π(vi ) = 1, ∀vi ∈ DVi si Vi est un nœud racine.


– maxvi Π(vi |P arVi ) = 1, ∀vi ∈ DVi . P arVi ∈ DP arVi si Vi n’est pas un nœud racine.
Dans ces formules DVi , P arVi et DP arVi représentent respectivement, le domaine de Vi ,
l’ensemble des parents de Vi et le domaine des parents de Vi .

Les réseaux et les distributions possibilistes peuvent être interprétés d’une manière
quantitative en utilisant l’opérateur produit (PROD) ou d’une manière quantitative en
utilisant l’opérateur minimum (MIN).

4.3.1 Les réseaux possibilistes à base de produit


Un réseau possibiliste basé sur l’opérateur produit est un réseau possibiliste où les
possibilités conditionnelles sont obtenues par l’opérateur produit [96]. La distribution de
possibilité de ces réseaux, notée par πp , est obtenue par la règle de chaı̂nage suivante [96] :

N
Y
πp (V1 , V2 , ..., VN ) = π(Vi |P arV i ) (IV.6)
i=1

4.3.2 Les réseaux possibilistes à base de minimum


L’opérateur minimum (MIN ) est utilisé pour obtenir les possibilités conditionnelles
dans un réseau possibiliste [96]. La formule suivante permet de calculer une distribution
de possibilité πM dans un réseau à base de l’opérateur minimum [96] :
N
πM (V1 , V2 , ..., VN ) = min π(Vi |P arV i ) (IV.7)
i=1

4.4 Les classifieurs possibilistes


Plusieurs méthodes de classification permettent de prédire la classe d’une instance
en fonction de ses attributs [43, 76, 182, 189, 199]. Les principales méthodes basées sur
l’apprentissage automatique sont les arbres de décision [189], les réseaux de neurones [43],
les K plus proches voisins [76] et les réseaux Bayésiens [182]. Ces derniers constituent
les classifieurs les plus efficaces. Cependant, les réseaux Bayésiens naı̈fs [199] comme les
approches probabilistes font face à quelques problèmes si les données sont imparfaites.

Plusieurs théories de l’incertitude ont été proposées pour traiter les données incertaines
et imprécises. Nous citons la théorie de l’évidence [205], la théorie des ensembles flous
[231] et la théorie des possibilités [94]. L’utilisation des réseaux possibilistes est encouragée
par leur simplicité et leur performance dans le traitement des données imparfaites [130].
Dans ce cas, le graphe relie les attributs aux classes possibles. Les poids des arcs sont
estimés dans l’étape d’apprentissage. La Figure IV.2 illustre ce type de réseaux où les Ci
représentent les classes et les Ai les attributs.

76
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Figure IV.2 – Architecture du modèle de classification possibiliste.

4.5 Les SRI possibilistes


Les réseaux possibilistes sont utilisés comme un modèle d’appariement dans les SRI.
Dans ce cas, ils relient les termes (ti ) aux documents (Dj ) comme illustré par la Figure
IV.3.

Figure IV.3 – Architecture du modèle de recherche d’information possibiliste.

Dans ce réseau, les arcs sont quantifiés par les mesures de possibilité et de nécessité,
ce qui permet au SRI de retourner les documents ”plausiblement” ou ”nécessairement
pertinents” à un utilisateur. En effet, un SRI possibiliste est capable de générer des pro-
positions du genre [98] :

1. Il est plausible, à un certain degré, que le document di constitue une bonne réponse
pour une requête Q.
2. Il est nécessaire ou certain, à un degré donné, que le document di soit pertinent
pour une requête Q.
3. Le document di est plus pertinent que dj pour une requête Q.
4. Un ensemble {di , dj } répond mieux à une requête Q qu’un autre ensemble {dk , dl }.

La mesure de possibilité tend, à travers le premier type de proposition, à éliminer


les documents non pertinents. Dans la deuxième, la mesure de nécessité renforce notre
croyance envers les documents pertinents. Cela permet d’organiser les documents selon
un ordre de pertinence exprimé par les troisième et quatrième propositions.

77
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Le modèle possibiliste suppose qu’il est difficile de traduire la notion de pertinence ayant
un caractère vague et imprécis avec une seule mesure de probabilité. En effet, la théorie
des probabilités permet uniquement de mesurer la certitude d’un événement et de son
contraire. En outre, les modèles probabilistes de RI ne tiennent pas compte des termes
de la requête qui sont absents dans les documents lors du calcul des scores de pertinence.
Face à ces limites restrictives, Prade et Testemale [187] ont proposé d’utiliser la théorie
des possibilités en RI. Brini [60] a présenté une première application de ce modèle qui a
été ensuite développé par Elayeb [98], afin de tenir compte de la structure des documents
et des préférences entre les termes d’une requête. Ce modèle permet de calculer un score
de ressemblance entre une requête et un document comme suit :

Soit une requête Q composée par des termes qui représentent des contraintes. Prenons le
cas général où ces termes sont pondérés (par exemple selon les préférences de l’utilisateur) :
Q = [(t1 , w1 )...(tm , wm )]
où wi représente le poids du terme ti .

Etant donné une requête Q, le Degré de Pertinence Possibiliste (DPP) d’un document
Dj est calculé par les deux mesures de possibilité (Π) et de nécessité (N ). Notre modèle
de base est inspiré des travaux de Elayeb et al. [99] qui montrent que Π(Dj |Q) est pro-
portionnelle à :

Π0 (Dj |Q) = Π(t1 |Dj ) ∗ w1 ∗ ... ∗ Π(tm |Dj ) ∗ wm (IV.8)

Les distributions de possibilité Π(ti |Dj ) sont estimées par les fréquences F reqij de
chaque terme ti dans chaque document Dj . Nous avons donc :

Π0 (Dj |Q) = F req1j ∗ w1 ∗ ... ∗ F reqmj ∗ wm (IV.9)

La mesure de nécessité de Dj pour la requête Q, notée N (Dj |Q), est calculée comme
suit :

N (Dj |Q) = 1 − Π(¬Dj |Q) (IV.10)

où :

Π(¬Dj |Q) = (Π(Q|¬Dj ) ∗ Π(¬Dj ))/Π(Q) (IV.11)

De la même manière, Π(¬Dj |Q) est proportionnelle à :

Π0 (¬Dj |Q) = Π(t1 |¬Dj ) ∗ ... ∗ Π(tm |¬Dj ) (IV.12)

Ce qui peut être exprimé comme suit :

Π0 (¬Dj |Q) = (1 − φ1j /w1 ) ∗ ... ∗ (1 − φmj /wm ) (IV.13)

avec :

φij = log10 (|D|/nDi ) ∗ F reqij (IV.14)

78
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Dans cette formule, |D| est le nombre de documents de la collection et nDi est le nombre
de documents de la collection contenant ti (i.e. avec une fréquence F reqij > 0).

Le degré de pertinence possibiliste DPP de Dj est souvent calculé comme la somme


des deux mesures Π et N :

DP P (Dj ) = Π(Dj |Q) + N (Dj |Q) (IV.15)

5 Processus de cartographie de documents arabes


Cette section propose une série d’étapes pour la cartographie socio-sémantique de
documents arabes en se basant sur nos réflexions présentées dans [5]. En effet, le processus
de cartographie permet, dans une première étape, de structurer un fonds documentaire
selon le modèle présenté dans la section 1 (page 70). Cette étape est illustrée par la
Figure IV.4. Notre point de départ est un fonds documentaire arabe. Avant de présenter
le processus de structuration, nous discutons la problématique du choix du corpus. Une
fois le corpus choisi, nous commençons par une étude sociale qui permet d’étudier les
besoins et les contraintes à respecter dans les étapes suivantes. Ensuite, les documents
sont analysés pour les segmenter en fragments, extraire les connaissances et construire
les ontologies. A ce stade, nous proposons un ensemble d’outils d’analyse qui permettent,
dans l’axe social, d’extraire les noms des personnes arabes et de reconnaı̂tre leurs identités.
Dans l’axe sémantique, nous proposons d’extraire les termes pertinents à chaque domaine.
Pour organiser les connaissances dans les deux axes, nous proposons d’étendre la méthode
d’analyse distributionnelle [134] en utilisant les RPMH. Enfin, les différents fragments sont
évalués en terme de fiabilité. Après ce processus de structuration, l’espace est visualisé
d’une manière à mettre en valeur chaque élément. Des mécanismes de recherche et de
navigation sont mis en place pour permettre un accès facile et précis à l’information.

5.1 Choix du corpus


Le corpus a une importance primordiale dans la mise au point et l’évaluation des
systèmes d’extraction de connaissances et de RI. Dans plusieurs cas, la réussite de tels
systèmes est conditionnée par la qualité du corpus choisi. En effet, les caractéristiques du
corpus influencent plusieurs étapes dans notre processus de cartographie et l’implémenta-
tion des outils correspondants. Par exemple, l’extraction de la structure est conditionnée
par l’existence d’éléments qui permettent de distinguer les fragments. Ainsi, la fragmen-
tation d’un document texte est plus difficile que la segmentation d’un document HTML
où les titres sont explicitement distingués par des attributs stylistiques (la taille de la
police, l’alignement, etc.). Aussi, la richesse sociale (existence des noms des acteurs et des
informations biographiques ou relatives au cycle de vie des documents) facilite l’extrac-
tion des entités nommées, la reconnaissance des identités et l’évaluation de la fiabilité.
Par exemple, la segmentation d’un article scientifique dont la structure est clairement
représentée et où les noms des auteurs et leurs affiliations sont précisément indiqués est
plus simple que l’analyse d’une page facebook dont le créateur n’est pas obligé de resp-
tecter les mêmes règles de rigueur. En outre, la taille du corpus influence les algorithmes
de fouille qui sont souvent basés sur l’apprentissage. Plus la taille est grande, plus le cor-
pus est sémantiquement riche et facilite les tâches d’extraction de connaissances. D’autre
part, le corpus peut être déterminant au niveau du choix de la structuration. Nous rap-
pelons que la complexité du corpus, son évolutivité ainsi que le degré de son ouverture

79
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

Figure IV.4 – Le processus de cartographie.

(ou fermeture) sémiotique déterminent le cadre théorique dans lequel nous nous plaçons
par rapport aux différentes visions du Web (voir section 2.4, page 11).

80
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

5.2 Etude sociale


Cette étude revêt une grande importance du fait que la cartographie a pour objectif
de servir des utilisateurs dont les attentes et l’organisation sociale influencent le processus
d’analyse. En outre, il s’agit de tenir compte de la codétermination des besoins sociaux
et sémantiques des utilisateurs. Enfin, il s’agit d’une étape importante dans le cycle de
vie des ontologies (voir section 3.1.1, page 54)
L’objectif de cette étape est de dégager les pratiques des acteurs internes et des utilisa-
teurs et leurs liens avec les fragments des documents. Dans [54], nous avons proposé les
sous-étapes suivantes :

1. Etudier le processus de production et de transmission des documents afin d’identifier


les rôles des acteurs internes.
2. Etudier l’organisation des acteurs internes en identifiant les relations sociales entre
eux. Ceci aidera plus tard à modéliser les connaissances sociales.
3. Identifier les types d’acteurs externes (les utilisateurs) et les pratiques de chaque
communauté. Il faut ensuite identifier les types d’usage de chaque communauté.
4. Identifier les catégories des fragments et les types des liens entre eux en analysant
à la fois les besoins des utilisateurs et les documents.
5. Etablir le lien entre chaque type d’usage et chaque type de fragment.

Dans ces sous-étapes, qui permettent d’obtenir une première modélisation des connais-
sances sociales, nous pouvons combiner plusieurs techniques. Par exemple, dans les deux
premières sous-étapes, il est possible d’interroger des experts (comme proposé par Blom-
qvist et Ohgren [44]) ou de consulter leurs publications. Dans la troisième sous-étape, il
est envisageable d’analyser le comportement des utilisateurs dans des cas réels. Les deux
dernières étapes peuvent être effectuées en analysant, d’une manière manuelle ou semi-
automatique, un échantillon de documents. Le processus qui peut être manuel au départ
devient de plus en plus automatisé en utilisant des outils d’analyse.

Afin de concrétiser ces sous-étapes, nous les appliquons sur l’exemple des articles scienti-
fiques. En effet, la production scientifique est un phénomène social, puisqu’il fait intervenir
plusieurs acteurs ayant des profils, des responsabilités et des rôles différents (le rédacteur,
le traducteur, l’encadreur, le responsable de recherche, etc.). Ensuite, l’article doit être pu-
blié, ce qui fait intervenir d’autres acteurs comme les relecteurs, les éditeurs et les comités
des conférences. Une fois publié, l’article est accessible à une communauté plus étendue,
ce qui élargit son usage. En analysant les activités de ces acteurs, nous pouvons distinguer
deux types de pratiques. La première est reliée à la recherche et l’évaluation de la perti-
nence des articles du point de vue thème. La deuxième pratique concerne l’évaluation de
l’impact des articles scientifiques et la veille scientifique. L’impact d’un article dépend,
entre autres, du nombre de papiers qui l’ont cité. La veille scientifique consiste à découvrir
les nouveautés dans un domaine donné. En étudiant ces deux pratiques et en analysant les
éléments constitutifs d’un article scientifique, nous pouvons dire que le titre de l’article,
son résumé puis son corps, constitué de sections, sont les éléments les plus importants pour
la première pratique. La deuxième pratique nécessite une analyse approfondie des infor-
mations biographiques, des références bibliographiques et de la conclusion (pour étudier
les perspectives).

81
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

5.3 Analyse de la structure des documents


Dans [49] et [54], nous avons présenté un processus d’analyse de documents qui
considère trois niveaux, à savoir le niveau physique, le niveau macro-logique et le niveau
micro-logique. Dans une première étape, il s’agit de reconnaı̂tre les blocs physiques (texte,
images, liens, etc.) et leurs attributs stylistiques (taille de la police, alignement, etc.) selon
le format de document (Word, PDF, etc.). La deuxième étape permet de reconnaı̂tre le
titre principal du document et les titres des sections et sous-sections en combinant trois
types d’analyse. D’abord, nous pouvons analyser le contenu de chaque bloc textuel. Par
exemple, nous pouvons vérifier si un bloc textuel correspond au titre de l’une des sections
d’un article scientifique tel que ”Résumé”, ”Introduction”, etc. Ensuite, le contexte per-
met aussi d’identifier ces titres, qui doivent être par exemple suivis d’un retour à la ligne.
Enfin, le moyen le plus générique consiste à utiliser les styles. Nos expérimentations ont
montré que la taille de la police puis l’alignement sont les attributs les plus discriminants.
Viennent ensuite d’autres attributs spécifiant le format des caractères (gras, italique et
souligné). Comme résultat, nous pouvons identifier le niveau de chaque bloc dans la struc-
ture d’un document. Si un document contient M niveaux, le ou les nœuds racines (comme
le titre principal) seront classés au niveau M. Nous continuons à attribuer des niveaux
décroissants aux titres des sections (ou chapitres) jusqu’à arriver aux paragraphes qui
auront le niveau 1.

Nous nous focalisons avec plus de détails sur l’analyse micro-logique qui consiste à
identifier et à organiser les entités logiques élémentaires des documents. La typologie
de ces entités dépend des besoins sociaux précédemment étudiés. Cette tâche nécessite le
développement de plusieurs analyseurs dont chacun est spécialisé dans l’analyse d’un type
de fragments. Par exemple, l’analyse d’une référence bibliographique diffère de l’analyse
des informations biographiques qui figurent dans l’entête d’un article scientifique.

Un fragment de document n’est autre qu’un texte semi-structuré. A ce stade, nous


utilisons la même démarche que d’autres chercheurs qui ont adopté les grammaires hors
contexte pour analyser ce type de textes (voir section 4.2, page 64). Cependant, notre
approche se distingue par deux caractéristiques. Dans la phase d’apprentissage, les gram-
maires sont apprises d’une manière semi-automatique, ce qui permet de tenir compte des
besoins sociaux. En outre, c’est une solution adéquate en l’absence de corpus étiquetés
qui peuvent être utilisés dans l’apprentissage automatique. Dans la phase de test, chaque
analyseur utilise, d’une manière séquentielle, plusieurs grammaires, ce qui réduit la com-
plexité des grammaires et garantit leur réutilisation. Les grammaires sont stockées dans
un serveur et peuvent être utilisées à la demande. En effet, nous distinguons deux types
d’usage des grammaires :

– Analyse complète : la grammaire est utilisée pour analyser tout le fragment pour
reconnaı̂tre sa structure.
– Analyse partielle : la grammaire est utilisée pour identifier, dans un fragment donné,
une entité particulière.

Un analyseur micro-logique génère un flux XML qui représente la structure du fragment


analysé. Les flux XML générés par les différents analyseurs macro-logiques sont regroupés
pour constituer un fichier XML, qui représente la structure et le contenu de la totalité du
document.

82
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

5.4 Reconnaissance des identités


L’analyse micro-logique est censée extraire les entités nommées selon le domaine d’ap-
plication. Les noms de personnes constituent les entités les plus importantes. L’une des
grammaires à développer est celle qui permet d’extraire les noms propres arabes. Une fois
ces noms extraits, il faut reconnaı̂tre les identités correspondantes, car plusieurs personnes
peuvent partager le même nom. Nous modélisons la reconnaissance des identités comme
une tâche de recherche d’information.

Etant donné un nom extrait d’un document, nous voulons connaı̂tre l’identité de la
personne correspondante. Notre modèle suppose l’existence d’une base de biographies où
les noms complets sur les personnes sont stockés. La reconnaissance de l’identité peut être
vue comme un calcul de distance entre un nom extrait du texte (qui constitue la requête)
et tous les noms de la base (qui constituent les documents). La personne ayant le score le
plus élevé sera sélectionnée. Il suffit donc d’instancier le modèle d’appariement possibiliste
présenté dans la section 4.5 (page 77).

Les noms propres arabes étant ambigus, la phase d’appariement peut générer plu-
sieurs personnes candidates pour le même nom. Il faut donc procéder à une étape de
désambiguı̈sation dont le principe général consiste à exploiter le contexte basé sur les
relations sociales. Par exemple, si deux frères sont cités dans un texte, l’identification de
l’un facilite l’identification de l’autre. Etant donné que la typologie des relations diffère
d’un domaine d’application à un autre, nous préférons reporter les détails de l’étape de
désambiguı̈sation au chapitre V (voir section 4.4, page 101).

5.5 Analyse morphosyntaxique et extraction de termes


L’objectif de cette analyse est d’extraire les termes pertinents à un domaine à partir
d’un corpus représentatif [52]. Les expressions extraites sont évaluées en terme de term-
hood et de unithood [181] qui sont les deux propriétés fondamentales des termes (voir
section 3.2.1, page 56). En plus des expressions qui possèdent ces propriétés, nous ex-
trayons d’autres expressions utiles pour la structuration des ontologies. Considérons les
á
exemples des deux expressions suivantes : ” ákA‚Ë@ .ÊË@” (le lait chaud) et ” ákA‚Ë@ ZAÜÏ @”

(l’eau chaude). Les deux têtes (” á . Ë ” (lait) et ” ZA Ó ” (eau)) représentent des concepts du
domaine alors que les deux expressions ne le sont pas. Cependant, il est intéressant de
les extraire, car nous pouvons inférer un lien entre les deux têtes en se basant sur le fait
qu’elles partagent la même expansion.

Notre approche essaie d’éviter les limites des approches existantes que nous avons
détaillées dans la section 3.2.2 (page 57). Ces approches manquent soit d’outils d’ana-
lyse linguistique sophistiqués, soit d’une évaluation des deux propriétés fondamentales

83
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

des termes. En effet, nous distinguons deux types de traitements qui sont considérés
dans la littérature comme différents, à savoir la désambiguı̈sation morphosyntaxique et
l’évaluation des expressions en terme de termhood et de unithood . Dans les deux cas, il
s’agit d’évaluer des expressions linguistiques.

Nous proposons donc une approche hybride qui fusionne ces deux traitements [52].
Cette approche possède les caractéristiques suivantes :
– Nous effectuons une analyse morphosyntaxique complète des expressions suscep-
tibles d’être des syntagmes nominaux.
– Nous utilisons plusieurs corpus représentant des domaines différents afin d’évaluer
le termhood des expressions.
– Nous utilisons les mesures possibilistes pour évaluer les deux dimensions.
– La pertinence des termes n’est pas liée uniquement à leur distribution dans les
corpus, comme avec TF-IDF, mais à des relations contextuelles complexes.
Dans notre cas, la résolution des ambiguı̈tés et le calcul de la pertinence au domaine sont
vus comme une tâche de RI, où nous évaluons les solutions (les documents) en fonction
des informations contextuelles (la requête). Comme résultat de cette évaluation, nous
générons, pour chaque domaine, un réseau de termes reliés par des relations syntaxiques
selon la typologie des syntagmes nominaux arabes (voir section 2.1, page 51).

5.6 Analyse distributionnelle


Cette analyse, telle que nous l’avons étudiée dans la section 3.2.3 du chapitre III (page
61), constitue un outil générique, car elle peut être appliquée sur un graphe quel que soit
le type des nœuds et des liens. L’objectif consiste à fournir un outil d’analyse qui permet
de restructurer un graphe en inférant de nouvelles connaissances. Nous parlons ici du
réseau social extrait à partir de la base des biographies dont l’analyse permet d’extraire
une carte sociale. Les traitements distributionnels peuvent être appliqués, d’une manière
analogue, sur le réseau de dépendances syntaxiques qui représente les termes pertinents
à un domaine.

La méthode d’analyse distributionnelle, comme présentée par Bourigault [57], permet de


constituer un réseau distributionnel en partant d’un réseau syntaxique. Cependant, nous
étendons cette méthode comme suit. D’abord, les nœuds du graphe sont des éléments
déjà évalués. Par exemple, Bourigault [57] n’a pas évalué les expressions utilisées dans son
réseau par rapport au domaine. Ensuite, il a présenté plusieurs coefficients de similarité
sans les aggréger. Dans ce cadre, nous traitons les réseaux distributionnels comme des
RPMH dans lesquels il est possible d’exploiter les circuits pour calculer la similarité entre
les termes (voir section 3, page 73). Enfin, il est possible d’appliquer des algorithmes de
clustering qui permettent de grouper les nœuds d’une manière cohérente.

5.7 Evaluation de la fiabilité de l’information


Cette étape peut être vue comme la dernière dans un processus qui commence par
une requête ou une navigation et se termine par des fragments où des documents évalués
en terme de fiabilité. Néanmoins, il faut aussi permettre à l’utilisateur d’imposer des
contraintes sur la fiabilité dans sa requête initiale. Par exemple, il pourra demander de
ne recevoir que des textes ayant un degré donné de fiabilité. L’évaluation de la fiabilité
selon notre point de vue se décompose en deux éléments :

84
CHAPITRE IV. MODÈLE DE CARTOGRAPHIE MULTIDIMENSIONNELLE DES DOCUMENTS ARABES

1. Le système doit donner une évaluation globale de la fiabilité de chaque texte en


se basant sur des attributs extraits de méta-données ou du texte lui-même. Dans
notre cas, il s’agit d’un classifieur possibiliste qui définit trois classes : Fiable (F),
Non Fiable (NF) et Suspect (S). Cette dernière classe permet de modéliser le cas
d’incertitude et de manque dans les données [50].
2. Les mécanismes de visualisation permettent de mettre l’accent sur les causes de
rejet d’une information ou sur son degré de suspicion. Il s’agit de munir les cartes
de signes qui indiquent et expliquent les décisions prises par le système.

5.8 Navigation et recherche d’information


Les étapes précédentes du processus de cartographie permettent de passer d’un es-
pace brut à un espace structuré. Dans cette étape, il s’agit de continuer le processus de
cartographie en implémentant des mécanismes d’interaction. D’abord, les ontologies et
les fragments doivent être affichés conjointement pour fournir une vue multidimension-
nelle des connaissances. Ensuite, l’interface graphique doit fournir des mécanismes de
navigation qui implémentent des stratégies d’adaptation. Sans spécifier en détails toutes
les opérations possibles, nous allons présenter quelques exemples de scénarios. Il serait
par exemple intéressant de permettre à un utilisateur d’extraire, à partir d’une carte, un
sous-ensemble de connaissances pour créer une nouvelle carte (ou un document virtuel)
en spécifiant certaines contraintes de filtrage. Un autre scénario consisterait à permettre
une navigation sous contraintes d’une composante à une autre. Par exemple, l’utilisateur
pourrait sélectionner un terme dans une carte sémantique, puis tous les fragments qui lui
correspondent et enfin afficher les personnes qui ont produit ces fragments et leur liens
sociaux.

Dans ce processus, il y a une évaluation de la pertinence des fragments qui est as-
surée par le modèle d’appariement possibiliste. Ce modèle peut tenir compte de plusieurs
requêtes en utilisant l’agrégation à base de minimum ou à base de produit. De ce fait, il
constitue l’un des outils d’interaction les plus importants dans la carte. Quoique la visuali-
sation doit faciliter la composition de requêtes, nos cartes offrent une aide supplémentaire
à l’utilisateur en permettant une expansion automatique des requêtes basée sur les RPMH.
Les nœuds du graphe sont reliés à travers des cricuits qui définissent une similarité graduée,
ce qui permet d’ajouter, à une requête, les éléments les plus proches à ceux qui existaient
initialement.

6 Conclusion
Dans ce chapitre, nous avons modélisé les connaissances d’un fonds documentaire
arabe sous forme de cartes multi-dimensions. Le modèle que nous avons proposé est rela-
tivement neutre par rapport aux différentes visions du Web reportant certaines décisions
sur la nature des SOC à une étude des paramètres du cas d’application. Du point de vue
processus, nous avons donné un aperçu général sur toutes les étapes de la cartographie.
La mise en œuvre et l’expérimentation dépendent du corpus à choisir et des besoins des
utilisateurs. Les deux chapitres suivants instancient notre modèle et notre processus de
cartographie en présentant de plus amples détails sur leur conception et leur évaluation.

85
Chapitre V
Extraction de connaissances
socio-sémantiques

C e chapitre détaille les étapes d’extraction de connaissances socio-sémantiques à


partir de documents arabes. Nous commençons par motiver le choix du corpus
du hadith (voir section 1). Les besoins des utilisateurs, intéressés par les documents de ce
corpus, sont recensés dans la section 2. Dans la section 3, nous analysons la structure des
livres du hadith. En outre, nous détaillons notre approche d’analyse micro-logique et nous
présentons les résultats de reconnaissance des différents types de fragments des livres du
hadith. Notre algorithme de reconnaissance des identités est détaillé, testé et évalué dans
la section 4. L’axe sémantique fait l’objet de la section 5, dans laquelle nous présentons
et évaluons notre approche d’extraction de candidats termes.

1 Choix du corpus
Malgré l’importance des corpus dans plusieurs types d’applications, aucun des corpus
arabes existants ne semble constituer une référence consensuelle. Plusieurs corpus arabes
ont été construits dans le but de pallier à ce manque [21]. Par rapport à ces corpus,
nous trouvons que le corpus du hadith est plus adapté à notre cas, vu sa structure et sa
richesse socio-sémantique. S’ajoute à cela l’existence d’une méthodologie pour l’évaluation
de la fiabilité. Avant d’appliquer notre processus de cartographie sur les documents de ce
corpus, nous allons commencer par étudier leur structure et leurs caractéristiques.

1.1 Structure des livres du hadith


Les hadiths ont été transmis d’une génération à une autre avant d’être réunis dans des
recueils par des experts. Étant donné que cet effort de collecte, d’organisation et d’étude
a duré des siècles, des centaines de recueils ont été constitués [4]. Au fil des siècles, une
classification consensuelle a été instaurée et six livres ont été reconnus par les savants du

86
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

hadith comme étant les plus authentiques. Ils sont cités dans l’ordre comme suit : ”

ø
PAjJ . Ë@ iJ
m•” (sahih Al-Bukhari), ” ÕÎ‚Ó iJ
m•” (sahih Muslim), ” Xð@X ú
G. @ á ƒ” (Sunan

abou daoud), ” ø YÓQË@ á ƒ” (Sunan Al-Termidhi), ” úGA‚ Ë@ á ƒ” (Sunan Al-Nasai) et ”
 AÓ áK á ƒ
ék

” (Sunan ibn Mejeh) 1 [1]. Ces six livres contiennent plus de 2.5 millions de
. .
mots.

Les livres du hadith sont organisés par thèmes, sauf pour certains recueils appelés ”
YJ
KA ‚Ö
Ï @ ” (les livres assignés) qui sont organisés par narrateurs. Cette classification est
la première étape vers la compréhension des hadiths. En plus, les savants ont ajouté des
commentaires reliés soit à l’explication et à l’interprétation des hadiths, soit à l’évaluation
de leur fiabilité. La première catégorie de commentaires englobe les définitions des termes

étranges, rarement utilisés ou difficiles à comprendre ( éJ. K
Q ªË@  A ®Ë B@ ), l’explication du

 
sens global du hadith en arrivant jusqu’à l’extraction de lois juridiques ( éJ
ê ® ®Ë@ ÐA¾k B@
). En plus, les livres du hadith contiennent des versets du Coran dans les titres des cha-
pitres et sous-chapitres, dans le contenu des hadiths ou à titre d’explication. La deuxième
catégorie permet de donner des informations sur les narrateurs du point de vue identité ou
crédibilité, en arrivant jusqu’à l’évaluation de la fiabilité du hadith dans sa globalité. Le
hadith peut être aussi suivi par des indications, qui contiennent des références à d’autres
livres où d’autres versions du même hadith existent.

Les collecteurs du hadith ont adopté des stratégies différentes lors de la constitution de
leurs livres. Certains présentent des explications détaillées des hadiths alors que d’autres
se sont limités à une classification thématique. Cette classification est elle-même objet de

divergences entre les spécialistes. Par exemple, le livre ” ø PA jJ. Ë@ iJ
m• ” [1] contient


quatre-vingts chapitres alors que ” Xð@ X ú
G. @ á ƒ ” [1] n’en contient que quarante-deux. Du
point de vue fiabilité, certains se sont engagés de ne mettre, dans leurs livres, que les
textes qu’ils jugent fiables. D’autres se sont limités à la collecte en laissant tout ou un
sous-ensemble de hadiths sans jugement.

Les livres du hadith documentent d’une manière fidèle toutes les transactions du pro-
cessus de transmission, d’interprétation et d’évaluation. Ce processus est riche en acteurs
puisque nous retrouvons les personnes citées dans le contenu du hadith et ses narrateurs,
en plus des experts qui ont collecté ou commenté les hadiths du point de vue sens ou
fiabilité. Ces livres font aussi l’objet de divergences et d’échanges de points de vue. Ils
constituent en outre une encyclopédie riche en connaissances qui n’est pas limitée aux
thèmes religieux mais les dépasse pour illustrer des aspects importants de la civilisation
et de la culture arabe et même des connaissances universelles. Ainsi, ils représentent un
fonds linguistique et scientifique important pour l’humanité. L’existence d’une interaction
entre l’axe social et l’axe sémantique nous laisse considérer ces documents, du point de
vue du Web socio-sémantique, comme des productions sémiotiques.
1. Ces livres peuvent être téléchargés à partir de https://sites.google.com/site/kirtase/
downbook/allbooks/19-moutoun

87
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

1.2 Caractéristiques du corpus du hadith


Cette section récapitule les caractéristiques du hadith en tant que méthodologie et
en tant que corpus. Notre recherche ne concerne pas le rôle reconnu du hadith dans les
sciences de la religion et dans la civilisation arabo-musulmane, étant donné que cet aspect
dépasse le cadre de notre thèse. Ainsi, nous proposons d’étudier ces textes du point de
vue des sciences de l’informatique. Dans [6], nous avons présenté une étude qui montre
que leurs caractéristiques en font un bon candidat pour plusieurs applications dans divers
domaines de recherche en informatique. Le tableau V.1 récapitule ces caractéristiques, les
opportunités de recherche correspondantes et des exemples de travaux associés.

Caractéristique Opportunités et travaux de recherche


Grande taille - Recherche d’information [133, 135]
- Fouille de textes [132]
- Construction d’ontologies
Structure - Classification et Clustering [18, 22, 131, 163]
- Recherche d’information structurée
Méthodologie pour la fiabilité de - Evaluation automatique de la fiabilité des hadiths
l’information [3, 27, 28, 117]
- Application de la même méthodologie pour
d’autres types de textes [224]
Richesse sociale et représentation - Reconnaissance des entités nommées et analyse
des points de vue de biographies [30, 138]
- Etude des réseaux et des interactions sociales
Existence de versions scannées - Reconnaissance optique des caractères [19]

Tableau V.1 – Caractéristiques du corpus du hadith.

En analysant ce tableau, nous pouvons remarquer la multitude des domaines d’applica-


tion déjà explorés, ce qui montre la généricité du corpus hadithien et de la méthodologie
de la fiabilité de l’information. Par exemple, Yusoff et al. [224] ont proposé d’appliquer la
méthodologie du hadith pour faire face aux crimes électroniques.

De plus, l’importance de la technologie pour les sciences du hadith est un fait reconnu
[3]. Plusieurs logiciels et sites Web sont dédiés aux livres du hadith et beaucoup de cher-
cheurs se sont intéressés à ces livres [15]. La majorité des encyclopédies du hadith ont été
produites manuellement, ce qui demande des efforts considérables. Il nous suffit de citer
l’encyclopédie la plus large à notre connaissance dénommée ” ÕÎ¾Ë @ ©Ó@ñk . ” 2. Elle contient
1400 livres qui ont été traités, durant trente années, par des centaines de spécialistes.
2. http://www.islamWeb.net/mainpage/hadith.php

88
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Etant conscient de la difficulté engendrée par les traitements manuels, plusieurs cher-
cheurs en informatique ont essayé d’automatiser l’analyse des livres du hadith mais les
travaux existants souffrent de certaines limites. Tout d’abord, certains travaux passent
par une étape manuelle qui consiste à analyser la structure des livres, ce qui englobe la
reconnaissance des titres et la séparation des chaı̂nes de narrateurs considérées comme
des éléments qui ne relèvent pas du contenu. Nous pensons que l’automatisation de cette
étape permettra de préparer les livres du hadith à ces types d’applications afin de maximi-
ser leur exploitation. Ensuite, comme nous l’avons détaillé dans le chapitre III (section 5,
page 66), les SRI basés sur ce corpus souffrent d’outils d’analyse linguistique sophistiqués
et/ou d’une étape d’évaluation. En outre, aucun des travaux existants ne considère l’axe
sémantique et l’axe social à la fois. Enfin, les éléments grisés dans la troisième colonne du
tableau V.1 représentent des domaines qui n’ont pas été explorés à notre connaissance.
Ainsi, il nous semble intéressant d’extraire les connaissances de ces documents et de les
modéliser selon les deux axes sémantique et social.

La structure des documents du hadith et leur richesse socio-sémantique favorise l’ex-


traction de connaissances selon divers axes et leur représentation selon plusieurs points
de vue. De même, cela permet d’expérimenter des mécanismes de recherche précise et
multi-critères. Ce fonds documentaire représente donc un candidat très intéressant pour
appliquer la cartographie socio-sémantique multi-critères.

2 Etude sociale
Dans cette section, nous suivons la démarche composée de cinq étapes présentée dans
la section 5.2 du chapitre IV (voir page 81) afin d’étudier la cartographie des livres du
hadith du point de vue social [54] :
1. Le hadith représente un phénomène socio-historique caractérisé par l’intervention de
plusieurs acteurs ayant des rôles différents. Ces acteurs peuvent être classés comme
suit :
– Les acteurs qui participent dans l’histoire véhiculée par le hadith.
– Les narrateurs.
– Les collecteurs.
– Les experts qui ont jugé les narrateurs ou les hadiths.
– Les experts qui ont interprété les hadiths.
2. Nous pouvons identifier deux types de relations entre ces acteurs, à savoir les re-
lations de parenté et les relations de transmission (cheikh-disciple). En plus, les
acteurs peuvent être liés à travers d’autres attributs sociaux tels que les lieux de
résidence et l’appartenance aux tribus arabes.
3. Nous pouvons identifier deux types de pratiques liées à l’étude des hadiths. La
première concerne l’étude de la fiabilité qui se décline en quatre types d’usage :
– L’étude des biographies des narrateurs.
– L’étude de la continuité des chaı̂nes de narrateurs.
– La comparaison de versions.
– L’étude des commentaires sur la fiabilité.
Comme deuxième pratique, d’autres utilisateurs sont intéressés par les connais-
sances véhiculées par le contenu des hadiths ou dans les titres des chapitres et
sous-chapitres. Ainsi, nous pouvons dégager deux principaux types d’usage :

89
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

– Lecture du contenu du hadith.


– Interprétation et étude des divergences.
Les utilisateurs novices se limitent généralement à la lecture du contenu du hadith
et ne donnent pas grande importance aux interprétations et aux commentaires. Par
contre, les utilisateurs expérimentés ou les experts effectuent une étude détaillée des
interprétations des savants afin de cerner leurs points de vue et leurs divergences.
4. Les principales catégories de fragments et de liens qui peuvent être trouvés dans les
livres du hadith sont représentées par la DTD de la Figure V.1.

Figure V.1 – DTD illustrant la structure d’un livre du hadith.

Dans cette DTD, nous considérons qu’un livre de hadith est composé de thèmes et
de hadiths. Un thème possède un titre qui peut être suivi de commentaires d’in-
terprétation sur ses hadiths. Chaque hadith est défini par une ou plusieurs chaı̂nes
de narrateurs, un contenu et éventuellement des commentaires, des indications de
versions et/ou des interprétations. Nous rappelons que des versets du Coran peuvent
être cités dans les interprétations ou dans le contenu des hadiths.

Pour pouvoir identifier les narrateurs des hadiths et disposer des méta-données
nécessaires à l’évaluation de la fiabilité, nous intégrons une base de données qui
contient les descriptions de 8858 personnes connues par la narration des hadiths 3 .
Cette base englobe les narrateurs des six livres du hadith les plus reconnus. A travers
les tables et les champs, elle fournit plusieurs informations sur chaque narrateur
dont :
– Le nom complet : certains noms contiennent des indications sur des liens de pa-
renté avec d’autres narrateurs.
– Les dates et les lieux de naissance et de décès.
– La génération : les narrateurs sont classés en 12 générations.
– Les jugements de crédibilité : la base contient les jugements de ” Q m.k áK .@
úGC®‚ªË@
 ” (ibn Hajar al-Askalani).

– Description textuelle de la biographie.


– Les relations sociales : la base contient une table qui indique les liens du type
(cheikh-disciple) entre les narrateurs.
3. Cette base est téléchargeable à partir de : http://www.arbdownload.com/2009/04/29/
gu-sz-zbnpnl.html

90
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

5. Le tableau V.2 établit le lien entre les différents types d’usage et les catégories de
fragments et d’informations. Les éléments mis en italique font partie du modèle de
documents de la Figure V.1 et les autres sont issus de la base des biographies.

Type d’usage Fragments et/ou informations requises


Etude de la fiabilité
Etude des biographies des narrateurs
– Commentaire Acteur
– Description textuelle de la biographie
– Les jugements de crédibilité

Etude de la continuité des chaı̂nes de


– Chaine
narrateurs
– Relations de parenté
– Relations (cheikh-disciple)
– Dates et lieux de naissance et de décès

Comparaison de versions - Indication Version


Etude des commentaires sur la fiabilité - Commentaire Fiabilite Hadith
Etude sémantique des hadiths
Lecture du contenu du hadith
– Titre
– Contenu

Interprétation et étude des divergences


– Titre
– Interpretation

Tableau V.2 – Correspondance entre les types d’usage, les catégories des fragments et les
informations de la base des narrateurs.

L’étude des acteurs et leurs interactions avec les fragments de documents nous aide
à nous situer par rapport aux différentes visions du Web, selon les critères énumérés
dans le chapitre I (section 2.4, page 11). En premier lieu, notons que le corpus hadithien
est relativement évolutif étant donné que ses documents sont sujets d’études continues,
que ce soit dans l’axe sémantique ou social. En second lieu, les besoins des utilisateurs
s’inscrivent dans une démarche d’enquête. Il ne s’agit pas de besoins purement informa-
tionnels qui peuvent être satisfaits par un système du type requête-résultat mais plutôt
de besoins de navigation, d’analyse, d’inspection et d’évaluation. Ce genre de besoins
nécessite des mécanismes plus ouverts qui favorisent la participation de l’utilisateur. En
troisième lieu, nous remarquons que la méthodologie des savants du hadith est basée sur la
documentarisation, dans le sens où toutes les transactions sont précisément documentées.
Cette documentarisation suit des règles relativement strictes mais permet un certain degré
d’ouverture étant donné que les acteurs peuvent ajouter librement des commentaires en
langage naturel. En quatrième lieu, le corpus hadithien attire et fait intervenir des com-
munautés hétérogènes avec des droits, des intérêts et des points de vue différents. En
dernier lieu et en guise de résumé des éléments précédents, la cartographie des livres
du hadith se caractérise par une certaine ouverture sémiotique. En effet, notre tâche ne

91
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

consiste pas à développer des programmes informatiques qui automatisent tous les trai-
tements, mais plutôt à soutenir l’utilisateur dans sa démarche d’enquête. Ceci implique
que l’utilisateur n’est pas supposé adopter les décisions d’un système fermé, mais exploi-
tera des mécanismes de recherche et de navigation pour arriver à une décision. Ainsi,
les caractéristiques du corpus du hadith et les besoins des utilisateurs nous conduisent à
nous placer dans la vision du Web socio-sémantique et dans la démarche semi-formelle de
modélisation des pratiques des utilisateurs, de la structure des documents et des connais-
sances.

3 Analyse de la structure des documents


Dans cette étape, nous sommes censés analyser la structure des documents à tous les
niveaux. Au niveau physique, les documents que nous utilisons sont au format Micro-
soft Word. Ce format nous a aidé à reconnaı̂tre les titres des thèmes étant donné que la
structure des livres du hadith est simple au niveau macro (une hiérarchie de thèmes de
profondeur 2 ou 3). Cependant, un effort plus important doit être fait au niveau micro-
logique vu la complexité de la structure des hadiths. Dans cette section, nous présentons
une étude détaillée de cette structure en nous focalisant sur les éléments les plus im-
portants par rapport aux types d’usage des utilisateurs. Nous commençons par étudier
la structure de l’élément le plus important, à savoir la chaı̂ne des narrateurs. Ensuite,
nous présentons les grammaires hors contexte utilisées pour l’analyse des hadiths et les
résultats de reconnaissance de leur structure.

3.1 La structure des chaı̂nes de narrateurs


Une chaı̂ne de narrateurs est typiquement composée de verbes indiquant la manière
de transmission et de noms de personnes. Cependant, le narrateur est libre d’ajouter des
expressions ou des commentaires en rapportant un hadith. La chaı̂ne n’est donc pas une
liste de noms propres et de verbes, mais possède une structure complexe qui peut contenir
différents types d’informations.

3.1.1 La manière de transmission


L’utilisation des verbes de transmission dans les chaı̂nes de narrateurs affecte leur
structure particulièrement au niveau des noms des narrateurs. Selon le verbe et/ou les
prépositions et leurs positions, ces noms changent de mode. Considérons l’exemple sui-
vant :

... èQ.g @ @QK. Ag. à @ lÌ'A“ AJ KYg YÔg @ á«

qui peut être traduit comme suit : ”Selon Ahmed, Saleh lui a dit que Jaber l’a informé
...”

92
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES


Dans cet exemple, la chaı̂ne de narrateurs est composée de trois personnes : ” YÔg @ ”

(Ahmed), ” lÌ 'A“ ” (Saleh) et ”QK. Ag.” (Jaber). Etant donné que la préposition ” á«
” (selon)
précède le premier nom, la voyelle courte ” @ ” lui est ajoutée. Le deuxième nom est en

mode nominatif ( ¨ñ ¯QÓ ) puisqu’il représente le sujet d’une phrase verbale dont le verbe

est ” AJ KYg” (X nous a dit). Dans le dernier cas, le verbe ”Q.g @” (informer) vient après le
nom du narrateur qui est en mode accusatif ( H
 . ñ ’ J Ó ) et prend, à sa fin, une lettre
supplémentaire et une voyelle courte (” @”).

3.1.2 Les noms des narrateurs


Dans une chaı̂ne, un narrateur peut être référencé par plusieurs expressions qui corres-
pondent à une ou plusieurs composantes de son nom. Ceci implique que la même personne
peut être référencée de plusieurs manières différentes, ce qui
complique son identification.
Par exemple, plusieurs personnes sont nommées ” úΫ ñK. @” (abou Ali) du fait que le nom

Ali est largement utilisé, ce qui conduit à une ambiguı̈té. Ces ambiguı̈tés peuvent être
résolues si la personne est référencée en même temps par d’autres composantes de son
nom.

Dans certains cas, les narrateurs sont référencés sans aucune composante de leurs noms.
C’est le cas quand un narrateur indique qu’il a reçu le hadith de l’un de ses proches. Par
exemple, un narrateur peut rapporter qu’il a reçu un hadith de son grand père comme
suit : ” ø Yg. úæ KYg” (Mon grand père m’a dit).

Dans d’autres cas, les relations sociales sont combinées avec


les noms. Par exemple,
quelqu’un pourra rapporter un hadith comme suit : ” YÔg @ úk @ úæ KYg” (mon frère Ahmed


m’a dit). En plus des liens de parenté, d’autres types de relations peuvent être invoquées.
Par exemple, un narrateur peut rapporter qu’il a reçu un hadith d’un ami.

Enfin, un narrateur peut citer deux ou plusieurs de ses cheikhs en utilisant les conjonc-

tions ”ð ” (et) et ” ð @ ” (ou). La première est utilisée si le narrateur a reçu le hadith de
deux ou plusieurs personnes à la fois et la deuxième est utilisée quand il a un doute sur
la source du hadith.

3.1.3 Les informations supplémentaires dans les chaı̂nes de narrateurs


Les chaı̂nes de narrateurs peuvent contenir plusieurs types d’informations en plus des
noms de narrateurs et des verbes indiquant la manière de transmission. Nous pouvons
citer les principaux types suivants :
– Les expressions spécifiant le cadre spatio-temporel ou décrivant la situation lors de
la transmission du hadith.
– La description du narrateur utilisée par exemple pour confirmer sa crédibilité.

93
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

– Le caractère ” h” qui indique que la chaı̂ne est composée de deux sous-chaı̂nes, ce qui
signifie que le narrateur a reçu le hadith de deux chemins différents. Dans l’exemple
suivant, le narrateur a reçu l’histoire de deux personnes (” Õæ
ë@QK . @ áK . H. ñ ® ª K


(Yakoub fils d’Ibrahim) et ” ÐX @ ” (Adam)) qui l’ont reçu, eux-mêmes de deux per-
 ” (fils d’Olaya) et ” éJ ªƒ” (Cho‘ba)).
sonnes différentes (” éJ
Ê« áK

h  @ á« . YJ.« á«
I.J
îD• áK . QK
QªË@ éJ
Ê« áK . .AJ KYg ÈA  Õæë@QK @ áK H ñ®ªK
¯  AJ KYg
 @ á« èXAJ ¯ á« éJ . ª
ƒ AJ KYg ÈA¯ ÐX@
AJ KYgð
. . .
Traduction : Yakoub fils d’Ibrahim nous a dit que le fils d’Olaya lui a dit selon
Abdelaziz fils de Sohayb selon Anas H et Adam nous a dit que Cho‘ba lui a dit
selon Katada Selon Anas ...

3.2 Analyse automatique des livres du hadith


Les grammaires hors contexte apprises d’une manière semi-automatique sont utilisées
pour analyser les noms des narrateurs, les hadiths et les titres des thèmes. Nous avons
commencé par analyser les noms des narrateurs de la base des biographies. La grammaire
apprise a été ensuite utilisée pour reconnaı̂tre les noms des personnes dans les titres et les
hadiths.

Dans [54], nous avons présenté une évaluation empirique effectuée sur 1600 hadiths
extraits de quatre livres. En effet, nous avons commencé par les 400 premiers hadiths des
 ”.
livres suivants : ” ø PA jJ. Ë@ iJ
m• ”, ” ÕÎ ‚Ó iJ
m• ”, ” Xð@X úG @ á ƒ ”, et ” ék. AÓ áK
. á ƒ


.
Nous avons utilisé 80% des hadiths dans la phase d’apprentissage (i.e. 1280 hadiths) et le
reste dans l’étape de test. La phase d’apprentissage nous a permis d’obtenir une suite de
grammaires qui correspondent aux éléments mis en gras dans la Figure V.1.

Dans l’annexe A, nous présentons, d’une manière détaillée, les grammaires que nous
avons obtenues. Nous tenons ici à mentionner que :
– La grammaire des acteurs tient compte des différentes composantes d’un nom propre
arabe. Elle considère aussi le nom du maı̂tre quand il est cité dans le nom de la
personne.
– La grammaire des chaı̂nes de narrateurs tient compte des différentes configura-
tions des références des narrateurs et des verbes de transmission. Elle modélise
les différents types de références, y compris le cas où le narrateur est référencé par
une relation à une autre personne.
– Chacune des grammaires utilisées génère un résultat au format XML, qui est utilisé
par d’autres grammaires selon l’ordre de priorité. Le résultat final d’un analyseur
micro-logique est structuré au format XML en utilisant la dernière grammaire dans
la table de priorité.

94
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Ces grammaires sont utilisées par deux analyseurs micro-logiques. Le premier permet
de reconnaı̂tre la structure d’un titre et le deuxième analyse un hadith avec toutes ses
composantes. Les tables de priorité de ces deux analyseurs sont illustrées par les tableaux
V.3 et V.4, respectivement 4 .

Nom de la grammaire Priorité Type d’analyse


Verset 1 Partielle
Acteur 2 Partielle
Titre 3 Complète

Tableau V.3 – Table de priorité de l’analyseur des titres des thèmes.

Nom de la grammaire Priorité Type d’analyse


Verset 1 Partielle
Acteur 2 Partielle
Chaine 3 Partielle
Indication Version 4 Partielle
Commentaire Acteur 5 Partielle
Commentaire Fiabilite Hadith 7 Partielle
Hadith 8 Complète

Tableau V.4 – Table de priorité de l’analyseur des hadiths.

Nous commençons donc par identifier les versets coraniques puis les acteurs, qui sont les
éléments les plus fins en terme de granularité. Nous remarquons aussi que les grammaires
correspondantes sont communes aux deux analyseurs, ce qui illustre les possibilités de
réutilisation.

Nous avons évalué les résultats d’analyse en terme de rappel, de précision et de F-


mesure [54]. Dans cette évaluation, nous ne considérons valides que les éléments qui ont
été identifiés et analysés correctement. Le tableau V.5 récapitule les résultats obtenus par
type de fragment.

Type de fragments Rappel Précision F-mesure


Versets 100.00% 100.00% 100.00%
Acteurs 98.95% 97.24% 98.09%
Chaı̂nes 97.96% 95.66% 96.79%
Indications de versions 94.54% 93.01% 93.77%
Commentaires 84.29% 85.51% 84.89%
Tous les fragments 98.43% 96.63% 97.52%

Tableau V.5 – Résultats d’expérimentation de l’analyseur des hadiths.

4. Nous rappelons que nous définissons la priorité et le type d’usage pour chaque grammaire (voir
section 5.3, chapitre IV, page 82).

95
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Nous remarquons que les taux de reconnaissance des acteurs et des chaı̂nes sont supé-
rieurs à ceux obtenus pour les autres éléments. En effet, les chaı̂nes et les noms suivent
une structure relativement régulière. Par contre, les experts s’expriment librement en
commentant les hadiths, ce qui rend l’identification des indications de versions et des
commentaires plus difficile.

Nous pouvons comparer ces résultats par rapport à ceux obtenus par d’autres cher-
cheurs. Le tableau V.6 récapitule les résultats de certains travaux existants par rapport
à nos résultats dans la reconnaissance des noms de personnes. Nos résultats montrent
une amélioration significative des performances. En effet, les corpus utilisés pour tes-
ter les approches existantes sont constitués essentiellement d’articles de magazines et
de journaux. Les chaı̂nes de narrateurs ont une structure plus régulière, ce qui explique
l’amélioration obtenue. Cependant, les travaux existants se limitent à l’identification des
entités nommées. Notre contribution réside au niveau de l’analyse de la structure de
chaque entité, ce qui permet d’inférer des relations sociales entre les personnes et facilite
la reconnaissance des identités. A notre connaissance, aucune des approches existantes
n’a considéré la reconnaissance des entités nommées de cette manière.

Année Approche Précision Rappel F-mesure


2005 [236] 75.30 % 70.20 % 72.70 %
2007 [203] 85.50 % 89.00 % 87.50 %
2009 [204] 86.30 % 89.20 % 87.70 %
2010 Notre approche [50] 98.95% 97.24% 98.09%

Tableau V.6 – Etude comparative des approches de reconnaissance des entités nommées.

4 Reconnaissance des identités


Nous modélisons la reconnaissance des identités comme un SRI où une requête est un
nom extrait d’une chaı̂ne et les documents sont les biographies des personnes stockées
dans une base [50]. Comme tout SRI, il faut proposer un modèle d’indexation pour la
requête et pour les documents. Notre SRI utilise le modèle d’appariement possibiliste
[60, 98], qui permet d’évaluer chaque personne de la base étant donné un nom de la chaı̂ne.
L’appariement peut générer plusieurs personnes qui ont le même score vu l’ambiguı̈té des
noms arabes, d’où la nécessité d’une fonction de filtrage.

4.1 Le modèle d’indexation des noms propres arabes


Le code XML généré par l’analyseur micro-logique est parcouru pour extraire chaque
nom propre et l’indexer selon le modèle de la Figure V.2.

Figure V.2 – Modèle d’indexation des noms propres arabes [50].

96
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Nous considérons qu’un nom propre arabe est constitué d’un ensemble d’items iti . Un
item est composé d’un ou plusieurs couples clé-valeur, notés (ci ,vi ). Les valeurs corres-
pondent aux composantes d’un nom arabe comme détaillé dans la section 4.1 du chapitre
III (page 64). Les clés sont des symboles qui indiquent le type de chaque composante.
Le tableau V.7 donne toutes les valeurs et les désignations des clés. Dans ce modèle, les
clés P1 ,..., Pn correspondent aux noms des antécédents d’une personne. P1 correspond au
père, P2 au grand père et ainsi de suite.

Composante Clé
Le prénom ( Õæ…B@) N
 )
La konia ( éJ
JºË@ K
Le laqab ( I

. ®ÊË@ ) L
La nisba ( éJ.‚Ë@) B
Le nasab ( I

. ‚Ë@) P1 ...Pn
Le prénom du maı̂tre MN
La konia du maı̂tre MK
Le laqab du maı̂tre ML
Le nisba du maı̂tre MB
La nasab du maı̂tre M P1 ...M Pn

Tableau V.7 – Composantes du modèle d’indexation des noms propres arabes.

Prenons le nom propre suivant :



áK . úΫ úÍñÓ ñëð Q
m Ì '@ I.ëð éË ÈA®K
ú
G@ ñ‚Ë@ é®J
mk. ñK. @ I.ëð áK . @ ÈA®K
ð é<Ë@ YJ.« áK . I.ëð

lÌ 'A“
Qui peut être traduit comme suit :
Wehb fils d’Abd Allah ou fils de Wehb Abou Jahifa Al-sawai appelé Wehb Al-kheyr allié
d’Ali fils de Salah

Selon le modèle d’indexation que nous avons défini ci-dessus, son index est représenté
par la Figure V.3.

Figure V.3 – Exemple d’index d’un nom propre arabe.

Nous remarquons que le second item de cet index contient deux paires, car il y a un
doute concernant le père de la personne.

97
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

4.2 Le modèle d’indexation des chaı̂nes de narrateurs


L’analyse de la structure d’une chaı̂ne permet de la structurer selon le modèle de la
Figure V.4.

Figure V.4 – Modèle d’indexation des chaı̂nes de narrateurs [50].

En effet, nous considérons qu’une chaı̂ne est composée de deux types d’items, à sa-
voir ”riwaya” et ”separateur ”. Pour chaque item du premier type, nous calculons trois
attributs :
– tahamoul : la manière de transmission.
– Rawi : une référence à un narrateur qui contient un ou deux noms propres (indexés
selon le modèle de la Figure V.2) et éventuellement une relation sociale comme
décrit dans la section 3.1.2 (page 93).

La Figure V.5 illustre l’index de la chaı̂ne suivante :

YJ
ƒQË@ éJ
K. @ á«
 úG @ I K . Õç'
QÓ á«  AJ KYg
ÐA‚ë

.
Qui peut être traduite comme suit : ”Hichem nous a dit, selon son père, selon Myriam
fille d’Abou Al-Rachid”.
Cette chaı̂ne est composée de trois éléments de type ”riwaya”. Le premier possède
deux attributs : ”tahamoul : (sama3 : A J KY g )” qui signifie que le premier narrateur a
rapporté une histoire oralement et ”(N, ÐA ‚ ë )” qui indique le nom du narrateur. La
manière de transmission du deuxième et du troisième composant est ”tahamoul : (An :
)” qui signifie ”Selon”. Le deuxième narrateur est référencé par une relation relative-
á«

ment au précédent narrateur ”( éJ
K. @ , Abouh)” (son père). Le dernier narrateur est une
femme référencée par son prénom ”(N ,  úG @)”.
Õç'
QÓ)” et son père ”(P1, YJ
ƒQË@
.

Figure V.5 – Exemple d’index d’une chaı̂ne de narrateurs.

98
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

4.3 Le modèle d’appariement


Ce modèle permet de calculer le degré de similarité entre deux noms arabes dont le
premier apparaı̂t dans une chaı̂ne et le deuxième est stocké dans la base des biographies.
Notre solution permet de retrouver la bonne biographie même si le nom est ambigu ou si
des erreurs d’analyse ont eu lieu dans les étapes précédentes. Par exemple, le nom ”
I. ëð ” (Wehb) peut être utilisé comme laqab ou comme prénom. Cependant, l’outil de
reconnaissance des entités nommées attribue un seul label à chaque lexème. Ceci implique
que la clé ”L” peut être remplacée par ”N” et vice versa. Une autre ambiguı̈té concerne
le nom du père. En effet, un narrateur peut être référencé par son prénom et le nom de

son grand père. Dans ce cas, la clé ”P2 ” remplace la clé ”P1 ”. Par exemple, le nom ” ÐX @
I.ëð áK . ” (Adam fils de Wehb) peut être interprété comme ”Adam dont le père est Wehb”
ou ”Adam dont le grand-père est Wehb”. Enfin, une personne peut hériter le nisba de son
maı̂tre. La clé ”B” peut donc remplacer la clé ”MB”.

Nous modélisons ce problème par les tables de correspondance définies par les tableaux
V.8, V.9 et V.10 [50].

N K L B MN MK ML MB
N
K
L
B
MN
MK
ML
MB

Tableau V.8 – Matrice de correspondance (noms des personnes et des maı̂tres).

P1 P2 ... Pi Pi+1 ... Pn−1 Pn


P1
P2
...
Pi
Pi+1
...
Pn−1
Pn

Tableau V.9 – Matrice de correspondance (clés des pères).

Les matrices doivent être lues de la gauche vers la droite. Ainsi, une cellule dont le fond
est gris signifie que la clé en ligne peut être remplacée par la clé en colonne. Par exemple,
dans la deuxième matrice, la clé P1 peut être remplacée par P2 . Par contre P2 ne peut
pas être remplacée par P1 . Notons par Qname un nom qui apparaı̂t dans une chaı̂ne et
par personj , une personne de la base. Qname et personj sont indexés par un ensemble

99
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

M P1 M P2 ... M Pi M Pi+1 ... M Pn−1 M Pn


M P1
M P2
...
M Pi
M Pi+1
...
M Pn−1
M Pn

Tableau V.10 – Matrice de correspondance (clés des pères du maı̂tre).

d’items conformément au modèle d’indexation de la Figure V.2. Nous avons alors :


Qname = (itQ1 , ..., itQm )
personj = (itP1 , ..., itPp )

Comme tout SRI possibiliste, notre outil encode des liens de dépendance entre les items
de la requête et les personnes à travers un réseau possibiliste et quantifie ces liens par les
deux mesures de possibilité et de nécessité [50]. Les personnes retrouvées sont celles qui
sont possiblement ou nécessairement pertinentes étant donné le nom de la chaı̂ne.

La pertinence d’une personne personj de la base, étant donné un nom Qname, est
calculée comme suit, sachant que les items de la requête ne sont pas pondérés :

Selon les formules IV.8 et IV.9 (voir page 78), l’expression Π(personj |Qname) est pro-
portionnelle à :

Π0 (personj |Qname) = Π(itQ1 |personj )∗...∗Π(itQm |personj ) = F req1j ∗...∗F reqmj (V.1)

Dans cette formule, F reqij est la fréquence de l’item numéro i de Qname (itQi ) dans
le nom de la personne numéro j de la base. Elle est calculée comme suit :

1 S 0 il existe un item itPk dans personj ayant la même clé





et la même valeur que itQi




0.5 S 0 il existe un item itPk dans personj ayant la même valeur que

F reqij =

 itQi , et la clé de itQi est dif f érente de (mais peut être remplacée
par) celle de itPk




0 Dans les autres cas

(V.2)

En effet, la fréquence est fixée à 0.5 s’il y a une ambiguı̈té, car les deux items ne sont
pas exactement équivalents. Selon la formule IV.10 (page 78), la nécessité de retourner
une personne (personj ) pour un nom Qname est donnée par :

N (personj |Qname) = 1 − Π(¬personj |Qname) (V.3)

Selon la formule IV.13 (voir page 78), Π(¬personj |Qname) est estimée par :

Π0 (¬personj |Qname) = (1 − φperson1j ) ∗ ... ∗ (1 − φpersonmj ) (V.4)

100
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

En utilisant la formule IV.14 (voir page 78), nous avons :

φpersonij = log10 (|DP |/nPi ) ∗ F reqij (V.5)

où :
– |DP | est le nombre de personnes dans la base.
– nP i représente le nombre de personnes dans la base pour lesquelles F reqij n’est pas
nulle.

En appliquant la formule IV.15 (voir page 79), le degré de pertinence possibiliste (DP P )
n’est autre que la somme des deux mesures Π et N :

DP P (personj ) = Π(personj |Qname) + N (personj |Qname) (V.6)

Nous considérons aussi le cas où le narrateur est référencé par une relation sociale
avec une autre personne. Pour illustrer ce cas, nous prenons comme exemple, le cas de la
relation ”père”. Quand un père transmet un hadith à son fils, l’identification du premier
requiert la reconnaissance du deuxième. Si le fils est identifié, nous procédons comme suit :
1. Générer l’index du fils à partir de la base.
2. Générer l’index du père qui constitue une requête.
3. Appliquer le calcul possibiliste pour la nouvelle requête.

Le traitement de la relation ”oncle” se fait d’une manière similaire. Quand un narrateur


A transmet un hadith au fils de son frère B, nous considérons que A doit avoir le même
grand père que B. Ce processus est appelé reformulation sociale de requêtes [50].

4.4 La fonction de filtrage


En résultat de l’étape d’appariement, nous retrouvons, pour chaque narrateur dans
la chaı̂ne, plusieurs candidats pondérés par leurs DPP. Le traitement ne s’arrête pas à
ce stade. En effet, nous produisons les chemins possibles entre les candidats de tous les
narrateurs de la chaı̂ne. Considérons une chaı̂ne composée de deux narrateurs A et B.
Supposons aussi que l’appariement retourne deux candidats A1 et A2 pour A et deux
autres pour B (B1 et B2 ). Nous avons donc quatre chemins possibles. Etant donné que le
nombre de chemins est combinatoire, nous procédons à une étape de désambiguı̈sation qui
permet d’identifier le chemin et les candidats valides. Pour ce faire, nous calculons, pour
chaque chemin, le nombre de liens valides. Un lien entre deux narrateurs est dit valide
s’il correspond à une relation (cheikh-disciple) de la base. Le chemin ayant le nombre
maximum de liens valides est alors choisi.

4.5 Résultats d’évaluation


Dans [50], nous avons évalué des résultats qui concernent 200 hadiths du livre ”
ø
PA jJ . Ë@ iJ
m• ”. Nous avons évalué les résultats de la reconnaissance des identités des
narrateurs en utilisant les métriques rappel, précision et F-mesure comme illustré par le
tableau V.11.
Nous avons réussi à identifier exactement les narrateurs dans 89.54% des cas. Dans
9.44% des cas, notre outil a retourné une liste qui contient la bonne personne. Il a échoué
à retrouver la personne dans 1.02% des cas.

101
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Précision 80.88%
Rappel 98.97%
F-mesure 89.01%

Tableau V.11 – Résultats de la reconnaissance des identités [50].

5 Analyse morphosyntaxique et extraction de


termes
Cette section reprend notre approche d’extraction de termes basée sur la structure des
documents décrite dans [52]. La structure des livres du hadith nous aide lors de l’extraction
de connaissances, étant donné qu’ils sont organisés en thèmes que nous pouvons considérer
comme des domaines de connaissances. Malgré les différences qui existent entre les livres
du hadith, nous arrivons à établir une classification consensuelle à partir des titres des
chapitres qui constituent les termes principaux de chaque domaine. Cependant, nous
gardons la structure interne de chaque chapitre. Les hadiths qui appartiennent au même
domaine peuvent donc être classés de différentes manières selon les points de vue des
collecteurs.

Etant donné que notre fonds composé des livres du hadith est segmenté en domaines,
notre objectif consiste à extraire les termes pertinents à chaque domaine, qui seront or-
ganisés dans un réseau de dépendances syntaxiques. Contrairement aux approches qui
extraient uniquement les bi-grammes [48], nous extrayons des termes composés de deux
ou plusieurs mots. Ces termes sont liés aux fragments dans la phase d’indexation. A
ce stade, nous proposons l’indexation qualitative par rapport à l’indexation quantitative
classiquement utilisée dans les SRI [60]. En effet, nous extrayons deux types d’entités :
– Les termes simples : ce sont les noms simples (composés d’un seul mot) valides en
terme de termhood .
– Les termes composés : ce sont les syntagmes composés de plus d’un mot et valides
en terme de unithood et de termhood . Il s’agit d’expressions non-compositionnelles
mais aussi d’expressions compositionnelles utiles pour l’indexation et la recherche
(Voir section 3.2.1 du chapitre III, page 56 où nous avons introduit ces notions).
Les termes simples et les termes composés constituent les termes pertinents au domaine
(TPD). En outre, nous extrayons les syntagmes dont la tête est un TPD, qui nous servirons
pour inférer des liens entre les TPD.

Nous rappelons que notre approche consiste à désambiguı̈ser les solutions morphosyn-
taxiques et à les évaluer en une seule étape. Cette évaluation est basée sur le modèle
d’appariement possibiliste qui permet de calculer la distance entre chaque solution et
son contexte. En effet, nous utilisons différents types d’informations contextuelles. Nous
commençons donc par apprendre les distributions de possibilité initiales. Ensuite, nous
évaluons les deux dimensions en proposant une mesure de termhood et une mesure de
unithood . Enfin, les deux mesures sont agrégées dans une seule mesure de pertinence. Des
exemples illustratifs de notre approche seront présentés dans la section 5.7.

5.1 L’indexation qualitative


L’indexation classiquement utilisée dans les SRI, telle que nous l’avons présentée dans
la section 4.1.2 du chapitre I (page 19), est quantitative dans le sens où toutes les occur-
rences des termes sont évaluées sans prise en compte de leurs positions dans la structure

102
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

des documents. Ces derniers sont traités comme des documents texte et l’information
structurelle n’est pas exploitée. Le nombre d’occurrences d’un terme ti , dans un docu-
ment dj composé de N nœuds, est calculé comme suit :
N
X
occ(ti , dj ) = occ(ti , ndk ) (V.7)
k=1

La valeur occ(ti , ndk ) est le nombre d’occurrences du terme ti dans le nœud ndk .

Nous proposons une indexation qualitative qui consiste à tenir compte des positions
des termes dans le calcul des fréquences. Ainsi, le nombre d’occurrences se calcule comme
suit [52] :
N
X
occ(ti , dj ) = occ(ti , ndk ) ∗ niveau(ndk ) (V.8)
k=1

Dans cette formule, niveau(ndk ) est le niveau du nœud ndk dans la structure du do-
cument. Nous attribuons donc un poids plus élevé aux termes qui apparaı̂ssent dans les
nœuds de plus haut niveau par rapport aux termes qui apparaı̂ssent dans les paragraphes.

5.2 L’information contextuelle


Nous exploitons deux types de contextes, à savoir le contexte structurel et le contexte
syntaxique.

5.2.1 Le contexte structurel


La structure arborescente d’un document encode des relations contextuelles impor-
tantes à travers les chemins qui lient ses nœuds. Nous supposons que les titres des nœuds
composites constituent des contextes pour leurs sous-éléments jusqu’aux paragraphes. Les
termes du nœud (ndk ) sont reliés aux termes des ses fils (ndl ) comme suit [52] :

occR(tj , [Sup, ti ]) = F req(tj , ndl )/(niveau(ndk ) − niveau(ndl )) |

(V.9)
chemin(ndk , ndl ), niveau(ndk ) > niveau(ndl ),
ti ∈ ndk , tj ∈ ndl , ti 6= tj

Ceci signifie que deux termes ti et tj sont liés par une relation ”Sup” si les conditions
suivantes sont satisfaites [52] :
– ti ∈ ndk : ti apparaı̂t dans le titre du nœud ndk .
– tj ∈ ndl : tj apparaı̂t dans le nœud ndl .
– ti 6= tj : ti et tj sont différents.
– chemin(ndk , ndl ) : il existe un chemin entre le nœud ndk et le nœud ndl dans l’arbre
de la structure du document.
– niveau(ndk ) > niveau(ndl ) : ndk est dans un niveau supérieur par rapport à celui
de ndl .

103
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Une occurrence de la relation a un poids égal à la fréquence de tj dans le nœud fils


F req(tj , ndj ) divisée par la différence de niveau entre les deux nœuds. Ceci implique que
les termes qui apparaı̂ssent dans les fils directs d’un nœud auront un poids plus important
que les termes qui appartiennent à leurs descendants. Dans le cas où la relation entre deux
termes donnés se répète plusieurs fois, nous faisons la moyenne des poids de toutes les
occurrences, en utilisant la formule suivante [52] :

R(tj , [Sup, ti ]) = occR(tj , [Sup, ti ]) (V.10)

5.2.2 Le contexte syntaxique


Etant donné un terme composé, nous considérons que chacune des ses composantes
constitue un contexte pour l’autre. Nous distinguons deux types de relations contex-
tuelles, à savoir les relations symétriques et les relations non symétriques. Les syntagmes
conjonctifs et certains syntagmes contenant des relations composites sont composés par
deux termes (t1 et t2 ) liés d’une manière symétrique. Dans ce cas, nous calculons les
relations contextuelles comme suit [52] :
T = (t1 , t2 , sy) ⇒ R(t1 , [sy, t2 ]) = R(t2 , [sy, t1 ]) = F req(T ), ∀T (V.11)

L’existence d’un terme T composé des deux termes t1 et t2 liés par une relation sy, nous
permet de déduire deux relations contextuelles. En effet, [sy , t2 ] (respectivement [sy , t1 ])
constitue un contexte pour t1 (respectivement pour t2 ). Le poids de la relation est alors
égal à la fréquence du terme T dans le corpus.

Les syntagmes non symétriques sont composés d’une relation syntaxique (ns), d’une
tête (h) et d’une expansion (e) :
T = (e, h, ns) ⇒ R(h, [ns expansion, e]) = R(e, [ns head, h]) = F req(T ), ∀T (V.12)

Dans le cas non symétrique, nous considérons que l’expansion (e) apparaı̂t dans un
contexte composé de la relation syntaxique en tête (ns head ) et de la tête (h). De manière
analogue, la tête apparaı̂t dans un contexte composé de la relation syntaxique en expansion
(ns expansion) et de l’expansion (e). Les deux relations ont un poids égal à la fréquence
du terme composé (T ) dans le corpus.

5.3 Les distributions de possibilité


Initialement, les relations contextuelles sont calculées à partir des éléments non ambi-
gus de toutes les phrases du corpus. En outre, les titres et les sous-titres des documents
sont désambiguı̈sés manuellement. En effet, ils constituent un faible pourcentage par rap-
port à la taille du corpus, mais en même temps ce sont les entités les plus importantes
qui reflètent la sémantique des documents

Chaque relation contextuelle est composée d’un terme (ti ) et d’un contexte (cj ). Ce
dernier est composé d’une relation (du type sy, ns head , ns expansion ou Sup) et d’un
autre terme. Les relations contextuelles sont vues comme un réseau possibiliste qui lie les
termes et les contextes. Nous définissions les distributions initiales de possibilité comme
suit [52] :
π(ti |cj ) = R(ti , cj ) (V.13)

104
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Prenons l’exemple du document désambigüisé et intitulé ” h. @ð Q Ë@ ” (mariage) de la


Figure V.6. Supposons aussi que le document contient 100 termes et que le nœud N 1
intitulé ” €QªË@ €AJ. Ë ” (vêtements du mariage) contient 20 termes. Le terme ” €AJ. Ë ”
(vêtements) apparaı̂t deux fois dans N 1 alors que le terme ” Ég. QË@” (l’homme) et ” €AJ. Ë
Ég. QË@” (les vêtements de l’homme) apparaı̂ssent chacun une seule fois dans le document.

Figure V.6 – Exemple de document arabe désambigüisé ainsi que sa traduction.

Nous calculons les fréquences des termes et les distributions de possibilité avec les
approches quantitative et qualitative comme cela est détaillé dans les deux tableaux V.12
et V.13.

Fréquence Approche quantitative Approche qualitative


Freq (” €AJ.Ë”, N1 ) (1+1)/20 = 0.10 (2*1+1)/20 = 0.15
Freq (” €Q«”, N1 ) (1+1)/20 = 0.10 (2*1+1)/20 = 0.15
Freq (” €QªË@ €AJ.Ë”, N1 ) 1/20 = 0.05 (1*2)/20 = 0.10
Freq (” Ég. P”, N1 ) 1/20 = 0.05 1/20 = 0.05
Freq (” Ég. QË@ €AJ.Ë”, N1 ) 1/20 = 0.05 1/20 = 0.15
Freq (” €AJ.Ë”, D) (1+1)/100 = 0.02 (2*1+1)/100 = 0.03
Freq (” €Q«”, D) 1/100 = 0.01 (1*2)/100 = 0.02
Freq (” €QªË@ €AJ.Ë”, D) 1/100 = 0.01 (1*2)/100 = 0.02
Freq (” Ég. P”, D) 1/100 = 0.01 1/100 = 0.01
Freq (” Ég. QË@ €AJ.Ë”, D) 1/100 = 0.01 1/100 = 0.01

Tableau V.12 – Fréquences des termes du document de la Figure V.6

Nous remarquons que la relation ”Sup” entre ” €AJ.Ë” et ” h. @ð P ” se répète deux fois. C’est
pourquoi nous calculons la moyenne entre les poids de deux occurrences. Nous rappelons
que ”SA” (dans le tableau V.13) signifie Syntagme Annexé.

5.4 Le termhood possibiliste


Le termhood évalue un candidat terme en utilisant le contexte structurel. Etant donné
le lemme d’un nom simple ou un syntagme composé qui apparaı̂t dans un nœud n, une

105
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Distribution de possibilité Formule Quanti- Quali-


tative tative
π([Sup, ” €Q«”] |” €AJ.Ë”) Freq (” €AJ.Ë”, N1 )/1 0.100 0.150
π([Sup, ” €QªË@ €AJ.Ë”] |” €AJ.Ë”) Freq (” €QªË@ €AJ.Ë”, N1 )/1 0.100 0.150
π([Sup, ” €Q«”] |” Ég. P”) Freq (” Ég. P”, N1 )/1 0.050 0.050
π([Sup, ” €QªË@ €AJ.Ë”] |” Ég. P”) Freq (” €QªË@ €AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” €AJ.Ë”] |” Ég. P”) Freq (” Ég. P”, N1 )/1 0.050 0.050
π([Sup, ” €Q«”] |” Ég. QË@ €AJ.Ë”) Freq (” Ég. QË@ €AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” €QªË@ €AJ.Ë”] |” Ég. QË@ €AJ.Ë”) Freq (” Ég. QË@ €AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” €AJ.Ë”] |” Ég. QË@ €AJ.Ë”) Freq (” Ég. QË@ €AJ.Ë”, N1 )/1 0.050 0.050
π([Sup, ” h. @ð P ”] |” €AJ.Ë”) Moyenne [Freq (” €AJ.Ë”, D)/2, 0.030 0.045
Freq (” €AJ.Ë”, D)/1]
π([Sup, ” h. @ð P ”] |” Ég. P”) Freq (” Ég. P”, D)/2 0.005 0.005
π([Sup, ” h. @ð P ”] |” Ég. QË@
€AJ.Ë”) Freq (” Ég. QË@ €AJ.Ë”, D)/2 0.005 0.005

π([Sup, ” h. @ð P”] |” €Q«”) Freq (” €Q«”, D)/1 0.010 0.020
π([Sup, ” h. @ð P ”] |” €QªË@ €AJ.Ë”) Freq (” €QªË@ €AJ.Ë”, D)/1 0.010 0.020
π([SA expansion, ” €Q«”]|” €AJ.Ë”) Freq (” €QªË@ €AJ.Ë”, D) 0.010 0.020
π([SA head, ” €AJ.Ë”]|” €Q«”) Freq (” €QªË@ €AJ.Ë”, D) 0.010 0.020
π([SA expansion, ” Ég. P”]|” €AJ.Ë”) Freq (” Ég. QË@ €AJ.Ë”, D) 0.010 0.010
π([SA head, ” €AJ.Ë”]|” Ég. P”) Freq (” Ég. QË@ €AJ.Ë”, D) 0.010 0.010

Tableau V.13 – Distributions de possibilité relatives au document de la Figure V.6.

requête Q est constituée de tous les termes qui apparaı̂ssent dans le chemin qui lie n à la
racine. Ces termes sont pondérés selon la différence de niveau entre les nœuds correspon-
dants (voir l’exemple de la section 5.7, page 107). Le termhood d’un terme T est égal au
degré de pertinence possibiliste de T étant donné la requête Q, calculé selon la formule
IV.15 (page 79) :

termhood(T ) = DP P (T |Q) (V.14)

5.5 Le unithood possibiliste


Nous évaluons le unithood des syntagmes en calculant le degré de dépendance entre
leurs composantes, exprimé par les degrés de pertinence possibiliste (voir formule IV.15,
page 79). Etant donné un terme candidat T composé de deux termes t1 et t2 et d’une
relation syntaxique s, nous calculons son unithood comme suit [52] :


DP P (t1 |[s, t2 ]) ∗ DP P (t2 |[s, t1 ]) si s est symétrique
unithood(T ) =
DP P (t1 |[s expansion, t2 ]) ∗ DP P (t2 |[s head, t1 ]) sinon
(V.15)

Nous considérons donc que les deux constituants sont liés si chacun d’eux est pertinent
pour l’autre. C’est pourquoi nous calculons le produit des deux DPP.

106
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

5.6 La pertinence au domaine possibiliste


La pertinence au domaine possibiliste (PDP) d’un terme simple est égale à son term-
hood possibiliste [52] :

P DP (T ) = termhood(T ) (V.16)

La PDP d’un terme composé est calculée comme suit [52] :

P DP (t) = termhood(T ) ∗ unithood(T ) (V.17)

5.7 Exemple de désambigüisation


Considérons l’exemple du document de la Figure V.7. C’est le document de la Figure

V.6 auquel nous avons ajouté le mot ” ¬Qk QÖ Ï @”. Pour simplifier le calcul, nous supposons

que ce mot possède un seul lemme possible qui est l’adjectif ” ¬Q k Q Ó” (décoré).

Figure V.7 – Exemple de document ambigu et sa traduction.

Ce document nécessite une désambiguı̈sation morphologique et une désambigüisation


syntaxique.

5.7.1 Désambigüisation morphologique

Nous désambigüisons le mot ” Ég. QË@” qui a deux lemmes possibles : ” Ég. P ” (homme)

et ” Ég. P” (pied). Pour cela, nous utilisons l’information structurelle à travers la requête

suivante :

Q = ([Sup, ” €AJ . Ë”], 1)([Sup, ” €Q«”], 1)([Sup, ” €QªË@ €AJ . Ë”], 1)([Sup, ” h. @ð P ”], 0.5) (V.18)

Le poids du terme ” h. @ð P ” dans cette requête est égal à 0.5, car la différence de niveau
entre les deux nœuds (le titre principal et le paragraphe) est de 2. Nous calculons le DPP
de chaque solution en utilisant les distributions de possibilité du tableau V.13. Selon la
formule IV.9 (voir page 78), nous avons :

Π(” Ég. P ”|Q) =

π([Sup, ” €AJ . Ë”]|” Ég. P ”)∗1∗π([Sup, ” €Q«”]|” Ég. P ”)∗1.0∗π([Sup, ” €QªË@ €AJ . Ë”]|” Ég. P ”)∗

1.0 ∗ π([Sup, ” h. @ð P ”]|” Ég. P ”) ∗ 0.5 =
0.05 ∗ 1 ∗ 0.05 ∗ 1 ∗ 0.05 ∗ 1 ∗ 0.05 ∗ 0.5 = 0.175

107
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Selon la formule IV.13 (voir page 78), nous obtenons :



N (” Ég. P ”|Q) =
1 − [(1 − φ1j /1) ∗ (1 − φ2j /1.0) ∗ (1 − φ3j /1.0) ∗ (1 − φ4j /0.5)] =
1 − [(1 − 0.015/1) ∗ (1 − 0.015/1) ∗ (1 − 0.015/1) ∗ (1 − 0.015/0.500)] = 0.073

En utilisant la formule V.14 (voir page 106), nous obtenons le résultat suivant :

termhood(” Ég. P ”) = DP P (” Ég. P ”|Q) = 0.175 + 0.073 = 0.248

De la même manière, nous avons :


Π(” Ég. P”|Q) = 0.0

N (” Ég. P”|Q) = 0.0

termhood(” Ég. P”) = DP P (” Ég. P”|Q) = 0.0

Dans ce cas, le calcul possibiliste a permis de sélectionner le bon lemme pour le mot ”
Ég. QË@”, à savoir ” Ég . P ”— (homme).
5.7.2 Désambigüisation syntaxique

Pour l’expression ” ¬Qk QÖ Ï @ Ég. QË@ €AJ . Ë”, nous devons décider si nous allons lier le mot
” Ég. QË@” au mot ” €AJ . Ë” (et dans ce cas, nous obtenons un syntagme annexé) ou au mot ”
¬Q k Q ÖÏ @ ” (nous obtenons donc un syntagme adjectival). Ces deux relations sont non-
symétriques.

En ce qui concerne le termhood , nous obtenons les mêmes résultats précédents, à savoir :
€AJ Ë”) = 0.248
termhood(” Ég. QË@
. ”) = 0.0
termhood(” ¬Q k Q Ü Ï @ Ég. QË@

En applicant la formule V.15 de la page 106, nous avons :


€AJ Ë”) = DP P (” Ég P ”|[SA head, €AJ Ë])∗DP P ( €AJ Ë|[SA expansion, ” Ég P ”])
unithood(” Ég. QË@ . . . . .

DP P (” Ég. P ”|[SA head, €AJ . Ë]) = Π(” Ég. P ”|[SA head, €AJ . Ë])+N (” Ég. P ”|[SA head, €AJ . Ë]) =
0.01 + 0 = 0.01

DP P ( €AJ . Ë|[SA expansion, ” Ég. P ”]) = Π( €AJ . Ë|[SA expansion, ” Ég. P ”])

+N ( €AJ . Ë|[SA expansion, ” Ég. P ”]) = 0.01 + 0 = 0.01

Comme résultat, nous obtenons :


€AJ Ë”) = 0.01 ∗ 0.01 = 0.0001
unithood(” Ég. QË@ .

De la même manière, nous obtenons : unithood(” ¬Q k Q Ü Ï @ Ég . QË@
”) = 0.0

108
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES


Enfin, nous sélectionnons la première solution ( Ég. QË@ €AJ . Ë), étant donné qu’elle possède
le DPP le plus élevé.

5.8 Expérimentation et évaluation


Dans [53], nous avons présenté un système d’extraction de termes composés basé sur
le score LLR [97]. Pour cela, nous avons utilisé AraMorph [128] comme analyseur morpho-
logique et l’étiqueteur grammatical de Diab et al. [86] comme outil de désambiguı̈sation.
Notre choix d’AraMorph est justifié par le fait que ses entrées relèvent de la langue arabe
classique, étant donné que nous traitons un corpus classique. AraMorph se caractérise aussi
par son faible taux d’ambiguité et par sa facilité d’intégration. Notre système commence
par désambiguı̈ser les éléments les moins ambigus et réitère les calculs jusqu’à traiter
toutes les ambigüités. Ce système a permis d’obtenir des taux de réussite encourageants
par rapport à l’existant. En effet, nous avons comparé nos résultats par rapport à ceux de
Boulaknadel et al. [48], en effectuant les expérimentations sur le même corpus qu’ils ont
utilisé. Nous avons obtenu une amélioration de 8% en terme de précision d’extraction des
termes composés de deux mots par rapport à leur taux qui est égal à 85%. Malgré cette
amélioration, notre système souffre de certaines limites. L’intégration de deux outils et les
itérations de calcul rendent l’approche complexe, alors qu’elle ne permet d’évaluer que le
unithood des termes. En plus, nous avons évalué uniquement la précision des résultats, ce
qui n’est pas suffisant. Ainsi, nous voulons reprendre l’évaluation en expérimentant notre
approche sur le corpus hadithien.

Comme nous l’avons détaillé dans [52], nous intégrons l’outil MADA qui permet à la
fois de faire l’analyse morphologique et de trier les solutions morphologiques d’un mot par
ordre de pertinence selon son contexte dans la phrase en cours d’analyse. Cependant, nous
n’adoptons pas la première solution choisie par MADA, car ce dernier commet certaines
erreurs à ce niveau. Au niveau syntaxique, nous intégrons les règles déjà développées dans
[53] qui permettent de reconnaı̂tre les différents types de syntagmes nominaux arabes.

5.8.1 Le corpus de test


Nous présentons les résultats des expérimentations effectuées dans trois domaines, à
  
savoir : ”le mariage” (” h. @ð QË@”), ”les boissons” (” éK. Qå… B@”) et ”la purification” (” èPAê¢Ë@”).
Ces domaines ont été choisis car ils sont génériques et existent dans les différents livres
du hadith. Le tableau V.14 donne des statistiques sur ces trois domaines.

La taille de cet échantillon est comparable à certains corpus utilisés dans d’autres
travaux dans le domaine. Par exemple, MADA a été testé avec un corpus composé de 51
K-mots. Diab et al. [86] ont testé leur étiqueteur grammatical sur 400 phrases. L’évaluation
manuelle du résultat d’un analyseur morphologique ou d’un étiqueteur grammatical est
une tâche fastidieuse et coûteuse en terme de temps. Les approches qui n’effectuent pas une
analyse complète peuvent être évaluées en utilisant des corpus plus larges. Par exemple,
Boulaknadel et al. [48] ont évalué leur approche d’extraction de termes composés dans un
corpus contenant 475148 mots.

109
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Boissons Mariage Purification Total


Titres de niveau 1 1 1 10 12
Titres de niveau 2 200 444 745 1389
Paragraphes 1897 3038 6130 11065
Mots de niveau 1 1 (00.003%) 1 (00.002%) 131 (00.122%) 133 (00.069%)
Mots de niveau 2 1165 (03.605%) 2669 (04.965%) 3618 (03.379%) 7452 (03.859%)
Mots dans les pa- 31154 (96.392%) 51082 (95.033%) 103309 (96.498%) 185545 (96.073%)
ragraphes
Nombre total de 32320 53752 107058 193130
mots

Tableau V.14 – Statistiques sur les fragments et les termes de trois domaines.

5.8.2 Méthodologie d’évaluation


Malheureusement, il n’existe aucune liste de référence utilisable pour évaluer et com-
parer des approches différentes d’extraction de termes dans les trois domaines considérés.
C’est pourquoi nous avons été amenés à construire manuellement des listes de référence.
Pour cela, nous analysons les corpus en commençant par les titres de niveau 1 et 2. Comme
outil d’aide, nous utilisons les résultats d’analyse de différentes approches d’extraction
de termes [52]. Pour réduire la subjectivité, nous exploitons un dictionnaire spécialisé
[144] qui nous aide à comprendre les sens des termes. Nous pouvons considérer que les
termes qui apparaı̂ssent dans la définition du terme principal du domaine comme des
termes pertinents à ce domaine. Nous pouvons aussi explorer les définitions d’une manière
récursive. Etant donné que plusieurs étapes dans ce processus sont manuelles, la qualité
des résultats est influencée par une certaine subjectivité. Cependant, nous considérons
que ces listes peuvent être utilisées pour comparer des approches différentes d’extraction
de termes. Néanmoins, elles ne suffisent pas pour évaluer objectivement notre approche.
Pour améliorer notre évaluation, nous injectons les termes extraits dans un SRI. Dans ce
cas, la terminologie extraite est considérée comme une requête qui est supposée retour-
ner les documents du domaine qu’elle est censée représenter. Afin d’examiner l’impact de
chaque terme, nous exécutons une série de requêtes d’une manière itérative. A chaque
itération, les N termes les plus pertinents au domaine sont utilisés comme une requête
qui est lancée sur tout le corpus. Enfin, nous évaluons les résultats en terme de rappel, de
précision et de F-mesure.

Nous proposons donc deux méthodes d’évaluation que nous appelons respectivement
”validation par l’expert” et ”validation par le système”. La première utilise les listes de
référence et la deuxième évalue l’impact d’intégration de la terminologie dans un SRI. En
utilisant ces deux méthodes d’évaluation, nous comparons les trois approches suivantes : (i)
une approche probabiliste dans laquelle nous adoptons la solution morphologique choisie
par MAD ; dans nous évaluons le termhood en utilisant TF-IDF [200] et le unithood
avec le score LLR [97] ; (ii) une approche possibiliste quantitative ; et, (iii) une approche
possibiliste qualitative.

5.8.3 Validation par l’expert


Dans cette méthode d’évaluation, nous comparons la liste des termes retournée par
le système à la liste de référence construite manuellement. Les figures V.8, V.9 et V.10

110
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

présentent les courbes du rappel versus précision, respectivement, dans les trois domaines.
Nous remarquons que les approches possibilistes (quantitative et qualitative) donnent de
meilleurs résultats que l’approche probabiliste (MADA + TF-IDF + LLR). Ceci implique
que la pertinence au domaine n’est pas reliée uniquement à la distribution des termes dans
les corpus mais à des relations contextuelles complexes. En outre, le fait que la courbe
de l’approche qualitative soit au dessus de celle de l’approche quantitive montre que les
termes sont mieux évalués quand leurs fréquences sont calculées selon leurs positions dans
la structure des documents [52].

Figure V.8 – Courbes rappel vs. précision relatives au domaine des boissons.

Figure V.9 – Courbes rappel vs. précision relatives au domaine du mariage.

Nous pouvons étudier plus précisément l’impact de la structure en analysant la dis-


tribution des termes pertinents au domaine sur les différents niveaux. Le tableau V.15
présente les pourcentages des termes pertinents qui existent uniquement dans les titres,
uniquement dans les paragraphes et dans les deux.

Ces statistiques montrent que les titres sont les fragments les plus représentatifs du
sens des documents. Malgré le fait qu’ils constituent seulement 3.92% du nombre de mots
(voir tableau V.14), la moyenne sur les trois domaines montre que 15.52% des termes
pertinents n’existent que dans ces fragments. Ceci explique l’amélioration réalisée par
l’approche qualitative par rapport à l’approche quantitative.

111
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Figure V.10 – Courbes rappel vs. précision relatives au domaine de la purification.

Domaine Uniquement Uniquement dans Dans les titres


dans les titres les paragraphes et dans les para-
graphes
Boissons 19.83% 54.51% 25.65%
Mariage 16.13% 57.45% 26.42%
Purification 12.73% 52.08% 35.19%

Tableau V.15 – Distribution des termes pertinents.

Nos résultats montrent aussi que MADA commet certaines erreurs lors de la désambigüi-
sation morphologique. La solution correcte n’existe pas forcément dans la première posi-
tion selon le tri proposé. Ces erreurs influencent à la fois l’extraction des termes simples
et composés. Dans le but d’illustrer ce constat, nous évaluons séparément le taux de re-
connaissance des termes simples et composés pour les trois domaines. Les figures V.11,
V.12 et V.13 illustrent les valeurs de rappel, de précision et de F-mesure pour ces trois
domaines. Dans ces figures, l’axe des abscisses est libellé par les types des termes et les
approches d’évaluation de la pertinence. En ce qui concerne les types des termes, les ex-
pressions ”simple”, ”composé” et ”Tout” signifient, respectivement, que nous évaluons
les résultats d’extraction des termes simples, des termes composés ou les deux à la fois.
Pour chacun de ces types, nous évaluons l’approche probabiliste (MADA + TF-IDF +
LLR) et l’approche possibiliste. Nous remarquons que, pour les trois domaines, l’approche
possibiliste améliore les résultats d’extraction aussi bien pour les termes simples que pour
les termes composés.

5.8.4 Validation par le système


Cette méthode est appliquée en deux phases pour chaque domaine afin d’étudier l’im-
pact des différents types de termes (simples et composés). Dans la première phase, nous
utilisons les deux types de termes comme des requêtes, alors que la deuxième phase utilise
uniquement les termes composés. Les figures de V.14 à V.19 représentent les courbes de
rappel, de précision et de F-mesure versus le nombre de termes de la requête pour les
trois domaines dans les deux phases. Dans chaque figure, nous évaluons trois approches :
l’approche probabiliste (MADA + TF-IDF + LLR), l’approche possibiliste quantitative et
l’approche possibiliste qualitative. Les courbes montrent l’amélioration que nous obtenons

112
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

Figure V.11 – Evaluation de la reconnaissance des termes simples et composés dans le


domaine des boissons.

Figure V.12 – Evaluation de la reconnaissance des termes simples et composés dans le


domaine du mariage.

Figure V.13 – Evaluation de la reconnaissance des termes simples et composés dans le


domaine de la purification.

113
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

en adoptant l’approche possibiliste par rapport à celle probabiliste. Nous remarquons aussi
la contribution de l’approche qualitative par rapport à l’approche quantitative. En effet,
en passant de ”MADA + TF-IDF + LLR” à l’approche quantitative possibiliste, nous
enregistrons une amélioration moyenne de la F-mesure de 8.98% et 6.87% respectivement
pour les deux phases. L’approche qualitative réalise une amélioration supplémentaire de
7.26% et 4.62%.

Figure V.14 – Courbes de la F-mesure Figure V.15 – Courbes de la F-mesure


pour le domaine des boissons (tous les pour le domaine des boissons (termes com-
termes). posés).

Figure V.16 – Courbes de la F-mesure Figure V.17 – Courbes de la F-mesure


pour le domaine du mariage (tous les pour le domaine du mariage (termes com-
termes). posés).

Figure V.18 – Courbes de la F-mesure Figure V.19 – Courbes de la F-mesure


pour le domaine de la purification (tous les pour le domaine de la purification (termes
termes). composés).

Ces améliorations sont remarquées dans les trois domaines, ce qui montre la contri-
bution de nos approches possibilistes par rapport à l’approche probabiliste. En plus, ces

114
CHAPITRE V. EXTRACTION DE CONNAISSANCES SOCIO-SÉMANTIQUES

résultats révèlent que les termes composés constituent des entités importantes pour l’in-
dexation et la recherche de documents [52].

5.8.5 Discussion et interprétation des résultats


Les résultats expérimentaux montrent la contribution des approches basées sur des
relations contextuelles complexes par rapport aux mesures classiquement utilisées telles
que TF-IDF et LLR [48]. Nous avons démontré empiriquement que notre modèle d’orga-
nisation des connaissances contextuelles, qui est basé sur la structure des documents, a
un impact significatif sur le processus d’extraction de terminologie. En effet, les titres des
sections représentent des traits sémantiques qui contribuent à la désambiguı̈sation mor-
phologique et syntaxique. Ceci explique l’amélioration obtenue par rapport aux approches
classiques qui utilisent le contexte local uniquement.

La validation par le système montre une première contribution dans le domaine de


la RI. Elle a été utilisée par Larkey et al. [153] pour évaluer différentes heuristiques de
lemmatisation sur le corpus TREC-2001. La valeur maximale de F-mesure du meilleur
lemmatiseur (light8 ) est de l’ordre de 43%. Harrag et al. [133], qui ont testé leur SRI sur
le corpus hadithien, ont atteint une valeur moyenne de la F-mesure égale à 47%. Comme
le montrent les figures V.14, V.15 et V.16, nos valeurs de F-mesure ont atteint 88%, 83%
et 73% respectivement dans les trois domaines.
Cependant, il est difficile de comparer nos résultats par rapport à ceux de Larkey et
al. [153] et Harrag et al. [133], car ils ont des objectifs différents des notres et ils utilisent
des corpus et/ou des requêtes différentes. En outre, les travaux existants traitent le corpus
hadithien comme une seule unité alors que nous l’avons décomposé en plusieurs domaines.
La grande amélioration de la F-mesure est donc expliquée par le fait que les termes que
nous utilisons dans nos requêtes ont été attestés au préalable, selon une mesure donnée,
comme des TPD.

6 Conclusion
Dans ce chapitre, nous avons appliqué les premières étapes de notre processus de car-
tographie. Nous avons présenté des approches d’analyse qui permettent de reconnaı̂tre la
structure des documents et d’extraire les entités nécessaires à l’indexation socio-sémantique.
En effet, nous avons analysé la structure des livres du hadith afin d’identifier les différents
fragments que ce soit au niveau macro-logique ou micro-logique. La reconnaissance des
identités permet de lier chaque hadith aux biographies de ses narrateurs. En outre, chaque
fragment est lié aux termes pertinents du domaine auquel il appartient. Cependant, les
connaissances extraites doivent être organisées et munies de mécanismes de recherche et
de navigation afin de les rendre accessibles aux utilisateurs. Ceci nous mène à réaliser
les étapes restantes du processus de cartographie, étapes que nous allons décrire dans le
chapitre suivant.

115
Chapitre VI
Organisation de connaissances et
recherche d’information
multi-critères

A près avoir expliqué les étapes d’extraction de connaissances, ce chapitre détaille


les étapes de structuration et les mécanismes d’accès aux cartes socio-sémantiques.
Ayant remarqué qu’il existe un certain nombre d’opérations qui peuvent être appliquées
indépendamment de l’axe de structuration (sémantique ou social), du domaine et même
de la langue, nous proposons une plate-forme de cartographie multi-critères générique
(voir section 1). Dans la section 2, nous expliquons les composantes des cartes relatives
au corpus hadithien en instanciant le modèle générique présenté dans le chapitre IV (sec-
tion 1). Afin de structurer les livres du hadith selon ce modèle, nous avons effectué des
expérimentations de l’analyse distributionnelle dans l’axe sémantique (voir section 3) et
dans l’axe social (voir section 4). La dernière étape de notre processus de cartographie,
qui concerne l’évaluation de la fiabilité des hadiths, fait l’objet de la section 5.

1 Plate-forme générique de cartographie multi-critères


Cette plate-forme modélise les connaissances sous forme de graphes. Le processus
de cartographie est implémenté comme un ensemble d’opérations sur les graphes. Nous
avons adopté une approche semi-formelle qui permet de tenir compte à la fois des besoins
des utilisateurs et des exigences de traitement automatique des machines. Les graphes
constituent des outils puissants pour plusieurs raisons [165]. D’abord, ils sont génériques
du point de vue contenu, car nous pouvons représenter n’importe quel type de connais-
sances à travers les nœuds et les arcs ou les arêtes d’un graphe. Nous pouvons aussi
représenter, dans le même graphe, des données de natures différentes ce qui répond à nos
besoins, car nous souhaitons définir des cartes multi-critères. Ainsi, les réseaux possibi-
listes [96] et les RPMH [219] peuvent être facilement représentés à l’aide de graphes. Ceci
s’applique aussi aux réseaux syntaxiques et aux réseaux sociaux. En outre, les graphes
sont génériques du point de vue structure étant donné que nous pouvons représenter des
relations symétriques, non symétriques, des listes chainées ou même des structures arbo-
rescentes. Représenter à la fois ces types de réseaux et toutes les composantes d’une carte
multi-critères nécessite un modèle générique (voir section 1.1).

116
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Ensuite, la théorie des graphes offre une panoplie d’algorithmes qui permettent de
fouiller les connaissances pour en découvrir d’autres [165]. Par exemple, le calcul de circuits
dans un graphe permet de découvrir des liens implicites entre les nœuds. Enfin, les outils
de gestion des graphes proposent divers paradigmes de visualisation aussi variés que les
attentes des utilisateurs. Par exemple, il est possible de contrôler les distances entre les
nœuds, leurs couleurs, leur aménagement ou regroupement dans des clusters, etc. Nous
choisissons donc les graphes vu leur généricité et parce qu’ils permettent de représenter
tous les paradigmes de cartographie, en commençant par les opérations de structuration
jusqu’aux opérations de navigation et de recherche. En effet, nous ne faisons pas une
séparation explicite entre les opérations de structuration et les mécanismes d’accès, étant
donné qu’ils peuvent se chevaucher. Nous modélisons donc le processus de cartographie
comme un ensemble d’opérations (voir section 1.2).

1.1 Modèle à base de graphes d’une carte multi-dimensions


Nous rappelons que les graphes permettent d’appliquer divers types de mécanismes
de représentation étudiés au chapitre I (voir section 4.3.3, page 26). Ils sont parfaitement
adaptés aux représentations orientées relation et peuvent être utilisés pour représenter
des arbres. Il est aussi possible de représenter des structures temporelles ou de procéder
à des opérations de clustering pour obtenir des structures agglomératives.

Dans la théorie des graphes [165], un graphe G est défini par un couple (V, E), où V
est l’ensemble des sommets ou nœuds de G et E est un ensemble de paires d’éléments
de V . Les liens entre les paires s’appellent des ”arêtes” dans les graphes non-orientés et
des ”arcs” dans les graphes orientés. Les graphes que nous utilisons contiennent ces deux
types de liens.

Nous instancions cette définition pour modéliser une carte multi-critères comme suit.
Une carte multi-critères C peut être définie par :
C = (GF , Go1 , Go2 , ..., Gon , Vp1 , Vp2 , ..., Vpn )

où GF est le graphe des fragments de documents, Goi est un graphe qui représente
l’ontologie numéro i dans la carte et V pi est un graphe orienté qui représente un réseau
possibiliste qui lie les sommets de Goi aux sommets de GF .

Etant donné que les graphes qui constituent une carte sont hétérogènes, nous définissions
pour chaque nœud, arête ou arc un ensemble d’attributs dont deux sont obligatoires. Ainsi,
nous définissions pour chaque élément, un label et un type qui permet de distinguer les
éléments des différentes ontologies. En outre, les arcs des réseaux possibilistes (Vpi ) doivent
forcément avoir un attribut poids qui contient une valeur numérique, comprise entre 0 et
1, représentant la distribution de possibilité.

Pour représenter tous les éléments des graphes et être en cohérence avec nos choix
ultérieurs, nous avons opté pour le langage GraphML [8]. En effet, plusieurs outils de
manipulation de graphes utilisent ce langage. Citons à titre d’exemples GUESS (The
Graph Exploration System) 1 et InfoVis Toolkit 2 qui sont deux APIs d’exploration de
1. http ://graphexploration.cond.org/
2. http ://ivtk.sourceforge.net/

117
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

graphes. Cependant, nous avons opté, pour des raisons techniques, pour l’outil Prefuse 3
qui est un package Java en code source libre qui se distingue par ses performances. Par
exemple, les calculs sur les graphes se déroulent sans bloquer l’interface d’affichage. Ce
package intègre aussi un ensemble plus large d’algorithmes bien documentés, illustrés par
des exemples et exploités par plusieurs utilisateurs. Enfin, son affichage se caractérise par
une meilleure organisation spatiale en deux et en trois dimensions.

1.2 Description des opérations de cartographie


Notre plate-forme offre des mécanismes génériques de manipulation qui permettent de
construire, de manipuler et d’interroger une carte multi-critères. En plus des opérations
de mises à jour simples (ajout, édition et suppression de nœuds, d’arêtes et d’arcs), elle
implémente trois familles d’opérations, à savoir : les opérations de filtrage, les opérations
d’analyse distributionnelle et les opérations de recherche et de navigation.

1.2.1 Les opérations de filtrage


Ces opérations représentent une première étape pour adapter les cartes aux besoins
des utilisateurs. Elles permettent d’extraire un sous-ensemble d’une carte pour le traiter
séparément. Il est aussi possible d’enregistrer ce sous-ensemble comme une nouvelle carte.
En effet, un utilisateur peut filtrer par :
– Type de nœud donné en paramètre : cette opération permet d’extraire le graphe des
fragments (GF ) ou l’un des graphes des ontologies (Goi ).
– Nœud (ou un ensemble de nœuds) donné en paramètre : ceci permet d’afficher
uniquement les nœuds qui sont liés au nœud donné en paramètre. Par exemple,
nous pouvons mettre l’accent sur une personne dans un réseau social pour étudier
ses relations.
– Type d’arc ou d’arête : cette opération permet d’extraire les nœuds d’un graphe
avec les liens d’un type donné. Elle permet de simplifier les graphes qui contiennent
plusieurs types de liens pour donner la possibilité à un utilisateur de les appréhender.
– Score : cette opération de filtrage permet de laisser uniquement les arcs ou arêtes
dont le score appartient à un intervalle donné.

1.2.2 Les opérations d’analyse distributionnelle


Nous rappelons que l’analyse distributionnelle consiste à lier les entités qui appa-
raissent dans des contextes similaires [134]. Nous pouvons distinguer trois étapes dans
cette analyse, à savoir la transformation distributionnelle, le calcul de distance et le clus-
tering.

i) La transformation distributionnelle
Cette opération permet d’inférer des liens distributionnels à partir des connaissances en-
codées dans les arcs et les arêtes ou dans les attributs des nœuds d’un graphe. Les nou-
veaux liens sont représentés par des arêtes ajoutées dans le même graphe ou exportés dans
un nouveau graphe. Nous distinguons donc la transformation basée sur les attributs et la
transformation basée sur les arcs. La première permet de lier deux nœuds s’ils possèdent
la même valeur d’un attribut donné en paramètre. Le nouveau lien aura comme label le
nom de l’attribut. Par exemple, dans un réseau social il est possible de lier deux personnes
si elles habitent au même endroit.
3. http ://www.prefuse.org/

118
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

La transformation basée sur les arcs et les arêtes procède comme suit. Les arêtes qui
représentent des relations symétriques sont gardées. Les arcs qui encodent des relations
non-symétriques sont transformés en relations symétriques. Nous considérons qu’un arc
relie une tête (sa source) et une expansion (sa destination). Inférer un lien distribution-
nel consiste à lier deux têtes qui partagent la même expansion ou deux expansions qui
partagent la même tête. Dans le cas où les arcs sont pondérés, la nouvelle arête prend
comme poids le minimum des poids des deux arcs qui relient les deux têtes (respective-
ment les deux expansions) à la même expansion (respectivement tête). Les labels sont
aussi modifiés en ajoutant une indication qui permet de distinguer les relations en tête et
les relations en expansion. Par exemple, si deux têtes (respectivement expansions) sont
reliées par des arcs dont le label est ”R” à une même tête (respectivement expansion), le
nouveau lien distributionnel est étiqueté ”R expansion” (respectivement ”R head ”).

ii) Le calcul de distance distributionnel


Ce calcul vise à pousser l’interprétation sémantique des liens en évaluant la proximité de
deux nœuds d’un graphe distributionnel (donc non orienté). Notre plate-forme implémente
les mesures à base de table de contingence (voir section 3.2.2 du chapitre III, page 57). En
effet, nous généralisons ces mesures qui peuvent maintenant être utilisées pour n’importe
quel type de connaissances représentées comme un graphe. La table de contingence de
deux nœuds n1 et n2 est générée à partir des poids des arêtes du graphe. La valeur O11
de cette table de contingence est égale au poids de l’arête reliant n1 et n2 . Pour obtenir
la valeur O12 , nous calculons la somme des arêtes qui relient n1 avec un nœud autre que
n2 , etc.

En plus, les graphes distributionnels sont considérés comme des RPMH [219] sur les-
quels nous pouvons appliquer l’approche à base de circuit pour le calcul de distance [98].
Nous supposons que les nœuds maintiennent des relations qui, dans certains cas, se tra-
duisent par des circuits dans le graphe. Ceci suppose aussi que des nœuds non reliés par
aucune arête peuvent être similaires. L’approche à base de circuit permet donc d’éliciter
des connaissances implicites que les autres types de mesures ne peuvent pas dégager.
Etant donné que l’objectif final est de grouper les nœuds d’une manière cohérente, nous
supposons que les nœuds d’un même groupe constituent une unité fortement reliée par
des circuits, même si ces nœuds ne sont pas reliés deux à deux par des arêtes.

Un paramètre important dans ce type de distance est la longueur maximum du circuit.


Prendre en compte uniquement des circuits courts peut avoir comme conséquence d’éclater
un groupe en plusieurs. Par contre, plus les circuits sont longs, plus nous risquons de
fusionner des groupes différents. Elayeb [98] a montré que la longueur optimale de circuits
est égale à 4 en faisant ses expérimentations sur un graphe de dictionnaire. Notre travail
trouve son originalité dans le sens qu’il essaie de tester ce type de distance dans le cadre
d’un contexte générique.

iii) Le clustering distributionnel


L’objectif de cette opération est de grouper les nœuds d’une manière cohérente dont la
signification dépend de la nature des connaissances encodées dans le graphe. Par rapport
aux mécanismes de représentation (voir chapitre I, section 4.3.3), cela permet d’avoir des
structures agglomératives représentant une vue synthétique des connaissances.

119
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Nous commençons par construire une matrice de similarité à partir du graphe distribu-
tionnel. Le contenu d’une cellule (ni , nj ) représente le score de similarité entre ni et nj .
Selon le type de distance, il est égal au score LLR, M I, DF , T S ou la distance à base de
circuit.

Quel que soit le type de distance, nous normalisons les scores de similarité en divisant
chaque cellule par le maximum de la matrice. Ensuite, nous extrayons les couples de nœuds
ayant un score de similarité supérieur au seuil d’acceptation qui correspond selon Elayeb
[98] à la moyenne de la matrice. Enfin, nous appliquons les algorithmes de regroupement
et de fusion proposés par Elayeb [98] comme suit :

L’algorithme de regroupement par contrainte minimale part de l’ensemble des couples


ayant un score de similarité supérieur ou égal au seuil. Il ajoute, d’une manière récursive,
les nœuds à ces groupes en utilisant la même condition. Un nœud peut donc apparaı̂tre
dans plusieurs groupes. Ainsi, nous pouvons retrouver deux ou plusieurs groupes qui
correspondent en réalité au même ensemble. Un algorithme de fusion permet de fusionner
deux groupes Gi et Gj , de tailles respectives Ci et Cj , avec Cj ≤ Ci , si les conditions
suivantes sont satisfaites :
– Gi contient (Cj -1) nœuds de Gj ;
– Il existe une arête entre n1 et n2 , tel que n1 ∈ {Gj \Gi } et n2 ∈ {Gi \Gj }.

Le choix de cette démarche en deux étapes est justifié par le fait que, dans un même
graphe, nous pouvons avoir plusieurs types de relations. Nous pouvons donc effectuer
l’étape de regroupement plusieurs fois en considérant que chaque type de relation constitue
un graphe. Les groupes issus de plusieurs graphes peuvent être fusionnés en utilisant
l’algorithme de fusion.

1.2.3 Les opérations de recherche et de navigation


Plusieurs opérations simples et complexes permettent à un utilisateur de naviguer
et d’interroger les cartes. D’ailleurs, l’outil Prefuse propose des opérations de base qui
permettent de naviguer au sein d’un même graphe, telles que le changement de focale
(zoom) et le déplacement vers les quatre directions. Il permet aussi de personnaliser
l’affichage en proposant plusieurs mécanismes d’affichage que nous découvrirons avec des
exemples dans ce chapitre et dans l’annexe D. S’ajoutent à cela, les opérations de filtrage
que nous avons présentées dans la section 1.2.1 (page 118) et qui constituent des moyens
simples pour retrouver l’information. En outre, nous avons conçu notre interface graphique
sous forme de plusieurs fenêtres, dont chacune affiche l’un des graphes de la carte, le graphe
GF étant mis au centre de cette interface. Par exemple, la Figure VI.1 affiche la carte
du domaine des hadiths avec trois composantes qui sont dans l’ordre : (1) le graphe des
hadiths (Metn) ; (2) le graphe sémantique qui contient des termes (Terme) ; et, (3) le
graphe social qui contient des narrateurs (Rawi ).

La navigation entre les différentes fenêtres est possible grâce aux réseaux possibilistes
qui les lient. Ces fenêtres permettent de (re)formuler des requêtes simples ou multi-critères.
Dans chaque fenêtre, qui représente une ontologie Goi , un utilisateur peut choisir un
ensemble de nœuds qui constituent une requête. Ensuite, il peut ajouter automatiquement
les nœuds les plus proches aux nœuds de la requête initiale (selon un type de distance)

120
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

afin de la reformuler. Enfin, il peut lancer le processus de recherche qui retourne les
nœuds du graphe GF triés par ordre de pertinence possibiliste décroissant. Dans le cas
où l’utilisateur a sélectionné des nœuds d’ontologies différentes, les mesures de pertinence
relatives aux différentes requêtes sont agrégées en utilisant l’opérateur produit. Ceci dit,
des exemples plus détaillés sur les interactions possibles sur l’interface graphique sont
présentés dans l’annexe D.

2 Structuration socio-sémantique des livres du


hadith
Dans cette section, nous instancions notre modèle générique de cartes socio-sémantique
multi-critères (voir chapitre IV, section 1, page 70) pour structurer les connaissances
extraites des livres du hadith. Dans ce cas, une carte socio-sémantique est composée
de quatre éléments, à savoir une carte de thèmes multi-points de vue, deux ontologies
représentant respectivement une carte sémantique et une carte sociale et enfin les hadiths.

La carte de thèmes multi-points de vue est extraite à partir des titres des thèmes des
différents livres. Elle représente un axe vertical qui permet à l’utilisateur d’explorer les
hadiths d’une manière hiérarchique. Cette cartographie est inspirée des modèles proposés
dans le courant du Web socio-sémantique [230]. Par rapport à Hypertopic [39, 230] inspiré
du modèle des topic maps [9], les items dans notre cas représentent les hadiths. Comme
dans Hypertopic, les thèmes des livres du hadith constituent plusieurs thématisations
potentiellement concurrentes d’un item [228]. Cependant, dans notre cas, les thèmes sont
extraits directement du corpus, alors que dans les projets du Web socio-sémantique ils
sont construits d’une manière coopérative par un ensemble d’experts. Néanmoins, si dans
nos expérimentations nous adoptons les classifications des collecteurs, qui sont des acteurs
internes, rien n’empêche à l’avenir de construire de nouvelles thématisations. Par rapport
aux réseaux de description [39], nos cartes de thèmes sont des graphes acycliques et leurs
thèmes constituent des descripteurs qui indexent les hadiths.

Rappelons que cette thématisation a plusieurs avantages. Etant donné la richesse et la


diversité des classifications proposées dans les différents livres du hadith, l’utilisateur peut
choisir la classification qui lui convient, analyser les différents points de vue et comparer,
pour chaque hadith, les différentes interprétations.

121
122
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Figure VI.1 – Interface de recherche et de navigation dans la carte socio-sémantique des hadiths.
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Notre processus d’analyse distributionnelle permet de générer des cartes sémantiques


ou sociales. Par rapport aux formalismes existants, ces cartes ressemblent aux réseaux
sémantiques semi-formels [221], où nous pouvons représenter des relations de divers types.
En effet, une carte sémantique organise les termes d’un domaine selon une sémantique
différentielle. Elle permet à l’utilisateur de comprendre la structure d’un domaine à tra-
vers les regroupements proposés. En outre, le système peut inférer des liens de proxi-
mité utiles pour les tâches de recherche d’information, telles que l’expansion de requêtes.
Ces remarques s’appliquent aussi aux cartes sociales qui se distinguent en plus par la
représentation des relations sociales. Dans le cas des hadiths, l’une des relations les plus
importantes est la relation (cheikh-disciple) qui permet de structurer les narrateurs selon
un arbre qui ressemble aux taxonomies du Web sémantique formel.

Notons que cette structuration tient compte des différents axes d’organisation des
connaissances. L’axe sémiotique est représenté à l’aide des cartes de thèmes multi-points
de vue et à travers le modèle d’indexation des hadiths et des chaı̂nes qui représente tous
les détails sur l’acheminement de l’information. L’axe différentiel est représenté à l’aide
des liens distributionnels de la carte sémantique et de la carte sociale. L’axe référentiel
est représenté au niveau social étant donné que chaque nom arabe réfère à une per-
sonne. Notre algorithme de reconnaissance de l’identité permet d’identifier ces liens (voir
la section 4 du chapitre V, page 96). Cependant, nous considérons que les éléments de la
carte sémantique sont des termes et non pas des concepts. Structurer ces connaissances
dans l’axe référentiel nécessite le développement d’outils d’analyse et de désambiguı̈sation
sémantique. De tels outils se basent souvent sur des ressources électroniques (comme les
dictionnaires) qui donnent les sens de chaque mot. Malheureusement, de telles ressources
ne sont pas disponibles pour la langue arabe. Enfin, notre processus de cartographie offre
certains mécanismes de raisonnement tels que l’analyse distributionnelle basée sur les
RPMH et un algorithme de calcul de la fiabilité. De tels mécanismes permettent d’inférer
de nouvelles connaissances sans pour autant adopter des choix hautement formels tels que
les formalismes logiques et les langages formels du Web sémantiques [109]. Cependant,
la structuration différentielle est une première étape qui pourra être complétée par une
analyse formelle des concepts si les ressources sémantiques nécessaires sont développées.

Pour organiser les connaissances hadithiennes selon ce modèle, nous utilisons les opéra-
tions génériques précédemment détaillées. Les sections suivantes présentent les résultats
obtenus dans l’analyse distributionnelle sémantique et sociale et l’évaluation de la fiabilité.

3 Analyse distributionnelle sémantique


Notre approche hybride d’extraction de termes (voir chapitre V, section 5, page 102)
génère des réseaux syntaxiques dont les nœuds sont des termes et les liens sont des relations
symétriques et non-symétriques. En outre, nous pouvons générer à partir des indexes
des hadiths des graphes de co-occurrence. L’analyse distributionnelle nous permettra de
regrouper les termes co-hyponymes ou les termes qui partagent le même hyperonyme pour
restructurer les connaissances selon un axe différentiel. Comme dans [59], nous considérons
que ce type d’analyse permet de construire une ”ontologie documentaire” qui facilite
l’accès aux documents.

123
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Nos expérimentations, résumées dans [51], permettent de comparer l’analyse distri-


butionnelle basée sur les relations syntaxiques par rapport à l’approche basée sur la co-
occurrence. En outre, nous supposons que regrouper tous les types de relations syntaxiques
dans un seul graphe conduit à mélanger des connaissances hétérogènes, ce qui risque de
fausser les résultats. Ainsi, nous comparons cette solution par rapport à celle qui consiste
à traiter chaque relation syntaxique dans un graphe à part. Enfin, nous comparons les
mesures à base de table de contingence par rapport à la distance à base de circuit. Avant
de détailler les résultats relatifs à nos expérimentations, nous présentons un exemple in-
troductif qui explique le principe de l’analyse distributionnelle et éclaircit nos hypothèses.

3.1 Exemple
Le tableau VI.1 présente les textes arabes (qui sont des fragments de livres du hadith)
utilisés dans cet exemple. Le tableau VI.2 présente les syntagmes nominaux extraits de
ces textes. Nous rappelons que ”SA” et ”SC” signifient respectivement, Syntagme Annexé
et Syntagme Conjonctif. La Figure VI.2 illustre le réseau syntaxique constitué à partir de
ces syntagmes.

Texte arabe Traduction


I.
K. QË@ áÓ  g áÓ
é‚Ô ©J’
QÒm Ì '@ La boisson enivrante est faite à partir de cinq éléments :
ɂªË@ð Q
ª‚Ë@  ð é¢  Jm Ì '@ð QÒJË@ð le raisin sec, les dattes, le blé, l’orge et le miel.
Qm.Ì '@ YJ
.K Vin des jarres

. Qå„
áÒJ
éKñK
Ë@ Éë @ àA ¿ , ɂªË@ YJ
.K . Le vin du miel était bu par les gens du Yemen.

Tableau VI.1 – Exemples de textes arabes.

Syntagme Traduction Type


ɂªË@ð Q
ª‚Ë@  Jm Ì '@ð QÒJË@ð IK QË@
 ð é¢ Le raisin, les dattes, le blé, l’orge et le miel SC
.
.
Qm.Ì '@ YJ
.K Vin des jarres SA
ɂªË@ YJ
.K Vin de miel SA

Tableau VI.2 – Les syntagmes nominaux extraits des textes du tableau VI.1.

Ce réseau est transformé pour construire un ou plusieurs réseaux distributionnels.


Nous gardons les relations de type ”SC”, car elles sont symétriques. Les relations non-

symétriques comme ”SA” sont transformées. Le terme ” èQk. ” (jarre) et ” ɂ« ” (miel)

seront liés car ils partagent la même tête (” YJ
. K ” : vin). Étant donné que le terme ”
ɂ«” (miel) est lié à un groupe de termes qui représentent des substances utilisées pour
fabriquer des boissons enivrantes, garder toutes les relations dans le même graphe signifie

124
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Figure VI.2 – Exemple de réseau syntaxique.


ajouter le terme ” èQk.” (jarre) à ce groupe (voir Figure VI.3). Nous évitons ce problème
en construisant un réseau distributionnel par type de relation syntaxique comme illustré
par la Figure VI.4. Enfin le graphe de co-occurrence (voir Figure VI.5) connecte tous les
nœuds.

Figure VI.3 – Exemple de réseau distributionnel contenant toutes les relations syn-
taxiques.

3.2 Expérimentation et évaluation


Dans ces expérimentations, nous continuons à utiliser le corpus de test composé de
trois domaines (voir section 5.8.1 du chapitre V, page 109) et nous exploitons les réseaux
syntaxiques correspondants. Il convient d’abord de comparer la taille de notre corpus
par rapport à ceux utilisés dans d’autres travaux dans le domaine de l’extraction des
relations sémantiques arabes. Mokbel et al. [169] ont évalué leur algorithme de clustering
dans un corpus de 423440 mots différents. Al-Qabbany et al. [20] ont testé leur mesure de
similarité pour un corpus composé de 208596 documents à partir desquels ils ont extrait
248311 termes pour constituer un thésaurus. Les auteurs ont évalué uniquement les dix
premiers termes de vingt groupes.

125
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

(b) Réseau distributionnel des


relations d’annexation en tête.
(a) Réseau distributionnel des relations
conjonctives.
Figure VI.4 – Exemples de réseaux distributionnels relatifs à des relations syntaxiques
différentes.

Figure VI.5 – Exemple de graphe de co-occurrence.

Nous tenons aussi à noter que nous utilisons une méthodologie d’évaluation similaire
à celle que nous avons utilisée pour évaluer les termes pertinents au domaine (voir 5.8.2,
page 110). Nous rappelons qu’il n’existe pas une ontologie de référence avec laquelle nous
pouvons nous comparer. Nous avons donc eu recours aux mêmes méthodes, à savoir la
validation par l’expert et la validation par le système.

3.2.1 Validation par l’expert


Dans le cas de l’évaluation des liens de co-hyponymie, il est difficile de construire
manuellement une liste de couples. Pour résoudre ce problème et réduire la subjectivité
lors de la validation, nous avons procédé comme suit. Nous avons exécuté différentes
approches de regroupement de termes en variant le type de liens et de distance utilisés.
Les résultats ont été stockés dans une base de données. Ensuite, les groupes sont visualisés
dans une interface graphique où l’utilisateur peut valider les termes qui sont réellement
des co-hyponymes. La Figure VI.6 illustre cette interface qui affiche les termes d’un groupe
donné au moyen de cases à cocher.
En effet, l’interface contient les boutons suivants :

126
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Figure VI.6 – Interface de validation des groupes de co-hyponymes.

– Sélectionner tout ( ɾË@ PA


J Jk@ ) : cocher tous les éléments du groupe.
– Désélectionner tout ( ɾË@ PAJ
Jk@ ÐY«) : décocher tous les éléments du groupe.


Enregistrement définitif ( úG Aî E ÉJ
j.‚) : enregistrer tous les couples valides et passer
au groupe suivant.




Enregistrement partiel ( úG Q k. É J
j.‚  ) : enregistrer tous les couples valides et
décocher tous


 les termes.
– Suivant ( úÍAJË@) : passer au groupe suivant.

L’enregistrement partiel est utile dans le cas où le groupe affiché correspond à deux
ou plusieurs groupes valides. Dans ce cas, l’utilisateur aura à cocher les éléments des
sous-groupes pour les valider chacun à part avant de passer au groupe suivant.

A partir de cette interaction, nous inférons, pour chaque domaine, une liste de référence
composée des couples valides. Cependant, nous ne pouvons pas calculer avec ces listes
une valeur objective du rappel. Néanmoins, ces listes permettent de comparer relative-
ment différentes approches. C’est pourquoi nous parlons de rappel relatif. En suivant
cette méthode, nous présentons les résultats de deux phases d’évaluation qui consistent
respectivement, à comparer la distance à base de circuit aux autres types de distance et
l’approche basée sur le contexte syntaxique à celle basée sur la co-occurrence [51].

i) Evaluation de l’approche à base de circuit


Nous évaluons différentes distances en terme de leur capacité à grouper correctement les
co-hyponymes des listes de références. Dans nos expérimentations, la distance à base de
circuit (RMPH ) a donné de meilleurs résultats que les scores LLR, TS , DF et MI . Cette
distance permet de grouper les termes qui ne sont pas reliés par un arc mais par un
circuit, ce qui augmente le rappel. En outre, la précision augmente aussi car certaines
arêtes insignifiantes perdent leur poids au profit des circuits qui renforcent notre croyance
concernant les couples réellement valides. Ceci signifie que les circuits contiennent moins

127
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

de bruit que les arêtes. Nous avons donc tendance à croire plus la validité d’un couple
de termes quand ils sont liés par un circuit, que quand ils sont liés par une simple arête.
La Figure VI.7 illustre les valeurs moyennes du rappel, de la précision et de la F-mesure
pour les cinq types de distance dans les trois domaines pour les relations syntaxiques
symétriques. Nous avons obtenu des résultats similaires pour d’autres types de relations
[51].

Figure VI.7 – Valeurs moyennes du rappel, de la précision et de la F-mesure pour cinq


types de distance pour la liaison des termes.

ii) Evaluation de l’approche basée sur le contexte syntaxique pour la liai-


son des termes
Dans cette section, nous évaluons trois approches de liaison de termes. Dans la première, le
réseau distributionnel est constitué du graphe de co-occurrence. Dans la deuxième (notée
”Tout”), nous construisons un réseau distributionnel à partir de toutes les relations syn-
taxiques groupées dans un même graphe. Dans la troisième (notée ”unique-fusion”), nous
construisons un réseau distributionnel pour chaque type de relation syntaxique. Ensuite,
les groupes obtenus à partir de ces réseaux sont fusionnés. Dans les trois approches, nous
utilisons l’approche à base de circuit. La Figure VI.8 récapitule les résultats à travers les
valeurs moyennes de rappel, précision et F-mesure.

Figure VI.8 – Comparaison de différentes approches de liaison de termes.

Ces résultats valident nos hypothèses de départ. D’une part, l’approche à base de
contexte syntaxique donne de meilleurs résultats par rapport à celle basée sur la co-
occurrence. Ceci révèle que les termes sont plus liés au contexte syntaxique qu’au contexte

128
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

de co-occurrence. Nous avons aussi remarqué que certains hadiths parlent à la fois de plu-
sieurs thèmes, ce qui implique que les réseaux de co-occurrence contiennent beaucoup de
bruit. D’autre part, nous obtenons des résultats relativement faibles en combinant tous les
types de relations syntaxiques dans un seul graphe (comme cela a été proposé par Bouri-
gault [57]). Nous concluons que les liens distributionnels obtenus par différentes relations
syntaxiques ont des sémantiques différentes et doivent donc être interprétés séparément.

Dans le but de comprendre plus précisément l’impact de chaque relation syntaxique,


nous présentons l’évaluation suivante. La Figure VI.9 récapitule les valeurs moyennes des
trois métriques pour les trois familles de relations : les relations en tête, les relations en
expansion et les relations symétriques.

Figure VI.9 – Résultats obtenus pour différents types de relations syntaxiques.

En comparant les résultats des différents types de relations syntaxiques, nous remar-
quons que les relations symétriques ont donné les meilleures performances. Ceci s’explique
par le fait que ces relations relient les termes directement. Cependant, le fait de lier les
termes partageant la même tête ou la même expansion peut engendrer du bruit. En outre,
nous n’avons pas enregistré de bons résultats pour les relations adjectivales et les valeurs
des trois métriques étaient négligeables pour ces relations. Ceci signifie que les adjectifs
dans nos corpus relient des termes sémantiquement différents. Enfin, nous enregistrons
de petites valeurs de rappel pour la majorité des types de relations. Ceci implique que
chaque relation couvre une partie du domaine et qu’aucune d’elles ne permet de lier tout
les co-hyponymes.

En appliquant l’approche ”unique-fusion”, nous obtenons les groupes les plus cohérents.
Le tableau VI.3 donne des exemples de groupes pour les trois domaines. La Figure VI.10
illustre la carte sémantique du domaine des boissons où les groupes sont numérotés
conformément au tableau VI.3. La Figure VI.11 est un raffinement de la partie cadrée
de la Figure VI.10 en mettant l’accent sur le groupe 5 de cette carte.

129
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Figure VI.10 – Aperçu sur la carte sémantique du domaine des boissons.

130
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Boissons Mariage Purification


1- Types de boissons et de substances 1- Caractéristiques des
utilisées pour fabriquer des boissons. femmes.
1- Organes et parties du
2- Types de conteneurs utilisés pour 2- Types de femmes.
corps.
conserver ou consommer des bois- 3- Outils utilisés dans la
2- Manières de purifica-
sons. maison.
tion.
3- Opérations qui peuvent être ap- 4- Relations familiales.
3- Actes de purification.
pliquées aux boissons. 5- Types de mariage.
4- Conteneurs utilisés pour
4- Opérations qui peuvent être ap- 6- Comportement de
la purification.
pliquées aux conteneurs. femmes.
5- Types de vêtements.
5- Ethiques à respecter lors de la 7- Droits des femmes.
6- Sources d’impureté.
consommation des boissons. 8- Nombre de femmes
7- Types de matériel utilisé
6- Lois qui concernent la consomma- qu’un homme peut
lors de la purification.
tion des boissons. épouser.
8- Unités de mesure des
7- Unités de mesure des boissons et 9- Manières de s’asseoir
surfaces et des fluides.
des substances utilisées pour les fa- et de dormir.
briquer
Tableau VI.3 – Titres des groupes obtenus pour les trois domaines.

Figure VI.11 – Zoom sur le groupe numéro 5 de la carte sémantique de la Figure VI.10.

3.2.2 Validation par le système


Les listes de référence constituées d’une manière semi-automatique ne sont pas un
moyen optimal pour évaluer nos ontologies. Intégrer les ontologies dans des SRI a été pro-
posé comme un moyen pour les évaluer [162]. En effet, nous étudions l’effet de l’intégration
de ces ontologies dans un SRI où leur rôle consiste à aider à l’expansion de requêtes. En
effet, nous considérons, pour chaque domaine, une première requête constituée par son
terme principal. La requête est ensuite étendue en ajoutant, d’une manière itérative, des
termes similaires à ce dernier dans l’ordre décroissant de proximité selon une mesure
donnée. En effet, nous évaluons la distance à base de circuit (RPMH ) en plus des scores

131
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

LLR, MI , TS et DF dans le réseau des relations syntaxiques symétriques. En outre, nous


évaluons l’approche de co-occurrence en ajoutant, à chaque itération, les termes qui co-
occurrent le plus avec le terme principal. Les Figures VI.12, VI.13 et VI.14 représentent
les courbes de la F-mesure par rapport au nombre de termes ajoutés à la requête initiale.

Figure VI.12 – Résultats d’expansion des requêtes dans le domaine des boissons.

Figure VI.13 – Résultats d’expansion des requêtes dans le domaine du mariage.

Figure VI.14 – Résultats d’expansion des requêtes dans le domaine de la purification.

Ces courbes montrent que l’approche à base de circuit a donné des résultats meilleurs

132
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

que les autres approches, ce qui valide nos hypothèses et confirme les résultats obtenus
avec la validation par l’expert. Ces résultats montrent aussi l’importance de nos ontologies
étant donné que les valeurs de la F-mesure se sont améliorées de manière significative.
Ainsi, nous confirmons les résultats obtenus pour d’autres langues concernant l’intégration
des ontologies dans les SRI [206].

A titre de comparaison, Harrag et al. [133], qui ont appliqué leur SRI dans le corpus du
hadith, ont rapporté une valeur de F-mesure égale à 0.47, alors que nos courbes atteignent
des valeurs supérieures dès l’ajout du premier terme. Ceci ne donne qu’une évaluation
relative de notre contribution, car nous n’utilisons pas les mêmes requêtes et les mêmes
hadiths que Harrag et al. [133].

4 Analyse distributionnelle sociale


Les mêmes opérations appliquées au niveau sémantique peuvent être utilisées pour
analyser le réseau social des narrateurs. La Figure VI.15 illustre le réseau des narrateurs
des hadiths dans le domaine des boissons sous forme d’arbre radial. Dans cet arbre, les

Figure VI.15 – Graphe social des narrateurs du hadith sous forme d’arbre radial.

133
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES


arcs représentent les relations (cheikh-disciple). Ainsi, le prophète (PBSL) ( é<ÊË@ ÈñƒP

ÕÎ ƒð é J
Ê « é <Ë@ úÎ “ ) figure au centre. Les nœuds sont colorés en fonction des degrés
de fiabilité des narrateurs. La couleur verte est utilisée pour les narrateurs fiables. Les
personnes non crédibles et suspectes sont respectivement représentées en rouge et en
orangé. En effet, les narrateurs proches du prophète (PBSL) sont ses compagnons. Plus
nous nous éloignons du centre, plus la couleur converge vers l’orangé.

En appliquant la transformation basée sur les arcs, les disciples partageant le même
cheikh sont liés et nous obtenons le graphe de la Figure VI.16.
Dans ce graphe, les nœuds sont étiquetés par les générations des narrateurs. Par rap-
port aux paradigmes de représentation étudiés dans le chapitre I (section 4.3.3, page 26),
il s’agit d’inférer des structures temporelles. Nous remarquons que les narrateurs appar-
tenant à la même génération ont tendance à partager les mêmes cheikhs. En effet, dans
cette figure, les narrateurs en haut sont les compagnons du prophète (PBSL). Ceux situés
en bas de la figure correspondent aux cheikhs des rédacteurs des six livres. Cependant,
nous remarquons qu’il n’y a pas une séparation complète entre les générations. Etant
donné que les générations sont temporellement proches les unes des autres, il arrive dans
certains cas, que des narrateurs de générations différentes reçoivent des hadiths du même
cheikh. Ce graphe prouve que les hadiths ont été transmis d’une manière continue et qu’il
n’y pas eu une rupture temporelle entre les différentes générations.

De la même manière, la Figure VI.17 illustre le même graphe mais avec les nœuds
étiquetés par l’attribut nisba. Nous remarquons une correspondance entre les résultats
d’analyse distributionnelle et la dispersion géographique. En effet, le hadith était au début

limité aux compagnons du prophète (PBSL) qui habitait à Médine ( éJK
YÖÏ @) ou à la Mecque

( éºÓ). C’est pourquoi nous trouvons des nisba qui se rapportent aux tribus de ces deux

villes (par exemple, ” úk P Q mÌ '@ ” : Al-khazraji). Les narrateurs commencent ensuite à

.
s’éloigner de ces endroits notamment en allant vers les villes de l’Iraq qui abritait la
capitale de l’état à l’époque.

5 Evaluation de la fiabilité des hadiths


L’objectif de cette étape est d’évaluer la fiabilité d’un hadith préalablement analysé et
dont la chaı̂ne est indexée. Si nous rappelons la méthodologie des sciences du hadith, nous
pouvons identifier trois principaux critères, à savoir [50] : la crédibilité des narrateurs,
la continuité de la chaı̂ne et la fiabilité de transmission. Nous utilisons la théorie des
possibilités pour classer un hadith dans l’une des trois classes : fiable (F), non fiable (NF)
et suspect (S). En effet, nous nous basons sur la théorie des experts du hadith pour définir
les distributions de possibilité de ces trois classes par rapport aux trois critères. Ensuite,
l’évaluation d’un hadith donné consiste à donner un score à chaque classe de fiabilité
en utilisant une agrégation à base de minimum ou à base de produit [50]. Enfin, nous
comparons les résultats respectifs par rapport aux décisions des savants dans la section
5.6. Notons aussi que le processus d’évaluation des hadiths est illustré par un affichage
graphique qui met l’accent sur les sources de suspicion ou de (non) fiabilité.

134
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Figure VI.16 – Résultat de la transformation basée sur les arcs du réseau social des
narrateurs dans le domaine des boissons (l’attribut ”génération” affiché aux nœuds).

135
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Figure VI.17 – Résultat de la transformation basée sur les arcs du réseau social des
narrateurs dans le domaine des boissons (l’attribut ”nisba” affiché aux nœuds).

136
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

c π(c|F ) π(c|S) π(c|N F )


[1..4] 0 0 1
[5..9] 1/6 4/6 1/6
[10..12] 3/6 2/6 1/6

Tableau VI.4 – Distribution de possibilité selon la crédibilité des narrateurs.

5.1 La crédibilité des narrateurs


Le tableau VI.4 illustre la distribution de possibilité des trois classes selon le critère
de crédibilité des narrateurs (c).
Remarquons que l’existence d’une seule personne non crédible (degré entre 1 et 4)
implique que la chaı̂ne est non fiable. En effet, le fait qu’un narrateur non crédible A reçoit
une histoire d’un narrateur crédible B signifie que sa narration est inacceptable, mais ceci
n’affecte pas notre confiance en B. Néanmoins, le fait qu’un ou plusieurs narrateurs soient
crédibles, n’implique pas que la chaı̂ne soit fiable car nous devons tenir compte des autres
critères. Dans le cas de suspicion (degré compris entre 5 et 9), nous attribuons une forte
possibilité que la chaı̂ne soit suspecte, mais nous estimons qu’il est possible qu’elle soit
fiable ou non à un certain degré (1/6).

5.2 La continuité de la chaı̂ne


La continuité d’une chaı̂ne de narrateurs est calculée en utilisant les trois critères
suivants :
– La relation sociale (RS) : existence d’une relation de parenté ou de type (cheikh-
disciple) entre deux narrateurs successifs.
– Le gap temporel (GT).
– Le gap géographique (GG).

Les relations sociales sont chargées à partir de la base des biographies. Pour calculer
le gap temporel, nous utilisons les dates de naissance et de décès des narrateurs. Si la
date de naissance (respectivement la date de décès) est inconnue, nous la remplaçons par
la date de naissance la plus ancienne (respectivement la date de décès la plus récente)
de la génération du narrateur. Cet attribut peut donc prendre l’une des quatre valeurs
suivantes :
– Oui : aucune donnée n’est manquante et il existe un gap temporel.
– Oui-manquant : certaines données sont manquantes et il existe un gap temporel.
– Non : aucune donnée n’est manquante et il n’existe pas un gap temporel.
– Non-manquant : certaines données sont manquantes et il n’existe pas un gap tem-
porel.

Nous calculons le gap géographique entre deux narrateurs comme suit. Soit v1 (respec-
tivement v2 ) un vecteur composé des informations suivantes sur le premier narrateur (res-
pectivement le deuxième) : le lieu de naissance, le lieu de décès et la valeur du composant
nisba de son nom. Le gap géographique peut prendre l’une des trois valeurs suivantes :
– Oui : v1 et v2 ne sont pas nuls et n’ont aucun élément en commun.
– Non : v1 et v2 ne sont pas nuls et ont au moins un élément en commun.
– Inconnu : v1 ou v2 est nul.

137
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Pour les trois paramètres (RS, GT et GG), nous utilisons la valeur minimale de tous
les liens de la chaı̂ne. S’il y a une relation sociale entre deux narrateurs, la distribution de
possibilité est indépendante des deux autres paramètres (GT et GG). Sinon, nous donnons
une plus grande importance au gap temporel. Ainsi, si deux narrateurs ont vécu dans la
même période, nous estimons qu’ils pouvaient se rencontrer même s’ils n’ont pas vécu au
même endroit. Nous calculons la continuité de la chaı̂ne (cc) comme cela est illustré par
le tableau VI.5 et la distribution de possibilité est donnée par le tableau VI.6.

Tableau VI.5 – Valeurs du critère de continuité selon la relation sociale, le gap temporel
et le gap géographique.

cc π(cc|F ) π(cc|S) π(cc|N F )


[1..6] 0 0 1
[7..12] 1/6 4/6 1/6
13 3/6 2/6 1/6

Tableau VI.6 – Distribution de possibilité selon le critère de continuité.

Pour le critère de continuité, nous avons une seule valeur du critère qui permet d’assu-
rer la fiabilité (cc = 13 qui signifie qu’il y a une relation sociale entre les deux narrateurs).
Les cas où il y a un gap temporel sont considérés comme non fiables. Si les narrateurs ont
vécu dans la même période mais n’ont pas une relation sociale, nous considérons que la
chaı̂ne est plutôt suspecte.

5.3 La fiabilité de transmission


Nous rappelons que les différentes manières de transmission ont été identifiées et
évaluées par les experts [4]. Ces manières sont numérotées de 1 à 8 selon le même ordre
du tableau II.1 (page 32). Le tableau VI.7 donne la distribution de possibilité selon le
critère de Fiabilité de Transmission (F T ). Dans ce tableau, nous utilisons la manière de
transmission la moins fiable de toute la chaı̂ne.

FT π(F T |F ) π(F T |S) π(F T |N F )


[1..3] 3/6 2/6 1/6
[4..5] 1/6 4/6 1/6
[6..8] 0 0 1

Tableau VI.7 – Distribution de possibilité selon le critère de fiabilité de transmission.

138
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

5.4 Identification de la classe de fiabilité


Pour avoir un score global, pour chaque classe de fiabilité (ci ), il faut agréger les trois
critères précédemment calculés. A ce stade, nous voulons comparer deux alternatives, à
savoir le score à base de minimum (Scoremin ) et le score à base de produit (Scoreprod )
qui sont donnés respectivement par les formules suivantes [50] :

Scoremin (ci ) = min{π(c|ci ), π(cc|ci ), π(F T |ci )} (VI.1)

Scoreprod (ci ) = π(c|ci ) ∗ π(cc|ci ) ∗ π(F T |ci ) (VI.2)

Dans les deux cas, la classe à choisir (c*) est celle qui a le score le plus grand, soit
[50, 130] :

c∗ = arg max(Score(ci )) (VI.3)


ci

5.5 Visualisation des chaı̂nes de narrateurs


L’interface de visualisation des arbres des chaı̂nes de narrateurs permet à l’utilisateur
de comprendre à la fois le cheminement de l’information entre les personnes, mais aussi les
décisions du système concernant la fiabilité. Les structures visuelles utilisées accélèrent
le processus cognitif de l’utilisateur qui est ainsi capable de distinguer rapidement les
sources de suspicion ou de non fiabilité à travers les couleurs.

En effet, une chaı̂ne est un graphe orienté où les nœuds représentent les narrateurs et
les arcs indiquent le cheminement de l’information. Les labels des arcs représentent les
manières de transmission. Chacun de ces trois éléments (les nœuds, les arcs et leurs labels)
peut prendre l’une des trois couleurs comme indication de fiabilité (vert, orangé et rouge).
Ainsi, la couleur d’un nœud indique la crédibilité du narrateur (c). Le critère continuité
(cc) est illustré par la couleur de l’arc. Le label de l’arc est coloré selon la fiabilité de
transmission. La Figure VI.18 illustre la cartographie de la chaı̂ne suivante :
èQªÖ Ï @ á«
, ½K Qå…
á« , é <Ë@ YJ« AK Qg @ ÈA¯ , Qå” áK YK ñƒ AK Qg @


. . .
.
Qui peut être traduite comme suit : ”Soayd ibn Nasr nous a informé que Adb Allah
l’a informé que, selon Charik, selon Al-moughira.”

Cette chaı̂ne est extraite du livre de ” úG A‚ Ë@” qui est le dernier narrateur (en bas de


la figure). Le prophète (PBSL) se trouve en haut de la figue comme la première source
de l’information. L’utilisateur peut remarquer facilement le suspect dans cette chaı̂ne au
niveau du narrateur coloré en orangé, ainsi que celle de l’arc qui le relie avec son cheikh.
Il est clair que la chaı̂ne est suspecte du point de vue crédibilité et continuité.

139
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Figure VI.18 – Exemple de cartographie d’une chaı̂ne.

5.6 Expérimentation et évaluation


Dans cette section, nous présentons les résultats des expérimentations de notre classi-
fieur possibiliste de calcul de la fiabilité. L’objectif consiste à comparer les jugements de ce
classifieur par rapport aux décisions des savants. Pour avoir des cartes socio-sémantiques
complètes, nous continuons à utiliser les hadiths des trois domaines utilisés dans l’axe
sémantique.

Les tableaux VI.8 et VI.9 donnent les moyennes des scores de trois classes dans les six
livres du hadith respectivement, pour les algorithmes à base de minimum et à base de
produit. Nous remarquons que les deux livres les plus authentiques ont eu les scores les

plus élevés de la classe fiable. En outre le livre ” ø PAjJ.Ë@ iJ
m•” s’avère le plus authentique.

Nous concluons donc que le résultat que nous avons obtenu correspond à la réalité.
Pour comprendre plus précisément ce résultat, nous les analysons attribut par attribut.
Notons d’abord que le critère de fiabilité de transmission n’a aucun effet dans les hadiths
que nous avons examinés, étant donné que les six savants ont toujours utilisé des manières
fiables de transmission. A travers le tableau VI.10, nous analysons les deux autres critères,
à savoir la crédibilité (c) et la continuité (cc), en donnant les valeurs moyennes et minimales
pour chaque livre.
Nous remarquons, encore une fois, que nos résultats correspondent à la réalité. Ainsi,
les deux livres authentiques possèdent les meilleures valeurs pour ces deux critères. En

140
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

Fiable Suspect Non fiable



ø
PAjJ . Ë@ iJ
m• 95.31% 69.79% 34.90%
ÕÎ‚Ó iJ
m• 91.84% 72.11% 36.05%

Xð@ X ú
G. @ á ƒ 79.37% 80.42% 40.21%
 AÓ áK á ƒ
ék . . 77.78% 81.48% 40.74%
ú
G A‚ Ë@ á ƒ
91.33% 72.00% 36.00%
QË@ á ƒ
ø
YÓ 82.43% 71.17% 40.99%

Tableau VI.8 – Moyennes des scores attribués pour les trois classes de fiabilité selon
l’algorithme à base de minimum [6].

Fiable Suspect Non fiable



ø
PAjJ . Ë@ iJ
m• 95.90% 36.23% 03.94%
ÕÎ‚Ó iJ
m• 90.18% 45.43% 04.28%

Xð@ X ú
G. @ á ƒ 80.46% 58.67% 04.66%
 AÓ áK á ƒ
ék . . 79.07% 60.91% 04.74%
ú
G A‚ Ë@ á ƒ
91.75% 40.89% 04.03%
QË@ á ƒ
ø
YÓ 82.69% 45.15% 09.44%

Tableau VI.9 – Moyennes des scores attribués pour les trois classes de fiabilité selon
l’algorithme à base de produit.

Livre Moyenne (c) Minimum (c) Moyenne (cc) Minimum (cc)


ø
PAjJ.Ë@ iJ
m• 9.70 8.00 13.00 13.00
ÕÎ‚Ó iJ
m• 9.41 8.00 12.94 08.00

Xð@ X ú
G. @ á ƒ 8.78 5.00 12.73 07.00
 AÓ áK á ƒ
ék . . 8.22 5.00 12.67 07.00
ú
G A‚ Ë@ á ƒ
9.40 6.00 12.73 07.00

QË@ á ƒ
ø
YÓ 8.97 5.00 12.70 07.00

Tableau VI.10 – Valeurs moyennes et minimales des critères de fiabilité dans les six livres.

effet, le degré minimal de leurs narrateurs est de 8. Dans les autres livres, nous trouvons

des narrateurs
des classes 5, 6 et 7. Ceci confirme que Al-Bukhari( ø PA jJ. Ë@) et Muslim (
ÕÎ ‚ Ó ) sont plus exigeants en terme de crédibilité. Cette remarque
est valable pour le

141
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES


critère de continuité. Notons que ø PAjJ.Ë@ a une valeur idéale de ce critère à savoir 13. Ceci

nous rappelle que ce savant vérifie que le disciple a rencontré son cheikh pour accepter
ses narrations.
Afin d’avoir une évaluation globale, nous comparons les résultats de notre système
par rapport aux décisions des savants. Le tableau VI.11 présente, pour chaque classe
de fiabilité, le pourcentage de hadiths de la base de test (dans la deuxième colonne), le
pourcentage des hadiths qui ont été jugés fiables (F), suspects (S) et non fiables (NF)
(respectivement dans les trois dernières colonnes). Les dernières lignes, avec un fond gris,
contiennent les classes rares dont nous ne pouvons pas interpréter les résultats.

Classe % %F %S %NF
iJ
m•(authentique) 84.33% 78.76% 21.24% 00.00%
iJ
m• á‚k (entre bon et authentique) 01.74% 71.43% 28.57% 00.00%
iJ
m• (chaı̂ne authentique)
XAJƒB@ 03.48% 64.29% 35.71% 00.00%
á‚k
XAJƒB@ (chaı̂ne bonne) 01.00% 50.00% 50.00% 00.00%
éJ« Hñº‚Ó
 (inconnu) 01.49% 33.33% 66.67% 00.00%
­J
ª“ (faible) 04.98% 20.00% 70.00% 10.00%
(bon)
á‚k 00.75% 66.67% 33.33% 00.00%
èQ
ªË iJ
m•(Authentique en vertu d’autres hadiths) 00.75% 33.33% 66.67% 00.00%
 XAJƒB •
¨ñ¢®Ó @ iJ
m (la chaı̂ne est authentique 00.50% 100.00% 00.00% 00.00%
mais le contenu est assigné à un disciple)
 XAJƒB
¨ñ¢®Ó @ á‚k(la chaı̂ne est bonne 00.25% 100.00% 00.00% 00.00%
mais le contenu est assigné à un disciple)

XAJƒB @ iJ
m á‚k(bon avec chaı̂ne authentique) 00.25% 100.00% 00.00% 00.00%

h. PYÓ XAJƒB @ iJ
m•(la chaı̂ne est authentique mais 00.25% 100.00% 00.00% 00.00%
certaines expressions ont été ajoutées au contenu)

Tableau VI.11 – Comparaison des résultats du système par rapport aux décisions des
savants [6].

Nous remarquons aussi que la majorité des hadiths (95.02%) sont réellement fiables
avec des degrés différents. Ceci prouve la valeur théologique des six livres en tant que
sources de hadith. Notons aussi que notre système attribue la classe ”Suspect” à un
pourcentage important de hadiths fiables. Ceci est dû au fait que certains narrateurs ont un
degré de crédibilité compris entre 5 et 9. En effet, les savants traitent ces narrateurs d’une
manière sélective. Autrement dit, ils acceptent certains de leurs hadiths et en rejettent
d’autres. Ce fait est confirmé si nous examinons les hadiths non fiables dont 70% ont
été classés comme suspects vu l’existence de ce genre de narrateurs. Nous concluons que
les narrateurs suspects existent aussi bien dans les hadiths fiables que non fiables ; ceci
démontre à la fois l’expertise des savants du hadith et la difficulté d’automatisation de
leur méthodologie.
Le tableau VI.11 trie les classes de fiabilité (colonne numéro 1) selon la moyenne des
scores attribués à la classe ”fiable”. Nous déduisons que l’ordre établi correspond à la

142
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

réalité. Conformément à la méthodologie des sciences du hadith, la classe ” iJ


m• á‚k

regroupe les hadiths dont le degré de fiabilité est entre ” iJ
m•” et ” á‚k
”. Remarquons

aussi que les classes ” XA JƒB@
iJ
m•” et ” XAJƒB@ ” sont attribuées aux hadiths dont
á‚k
les savant ont étudié uniquement les chaı̂nes de narrateurs. Ils sont moins fiables que les
hadiths des classes ” iJ
m• ” et ” á‚k
” dont le contenu a été inspecté. Ce résultat est
confirmé par notre calcul.
Ajoutons que, dans tous les hadiths que nous avons examinés, les deux algorithmes (à
base de minimum et à base de produit) conduisent au choix de la même classe. Cependant,
l’algorithme à base de produit s’avère plus exigeant si nous comparons les scores attribués
à la même classe pour le même hadith. En passant du tableau VI.8 au tableau VI.9, le score
de la classe ”fiable” augmente et ceux des classes ”non fiable” et ”suspect” diminuent.
Etant donné que la majorité des hadiths examinés sont fiables, l’algorithme à base de
produit semble le plus réaliste. Cependant, généraliser ces résultats nécessite d’évaluer
un échantillon plus grand de hadiths éventuellement en considérant d’autres livres moins
authentiques.
Enfin, nous arrivons à identifier correctement la bonne classe dans 73.75% des cas. Ce
taux peut s’avérer faible par rapport à celui enregistré par Ghazizadeh et al. [117] et qui
est égal à 94%. D’abord, il faut reconnaı̂tre que dans 25.25% des cas, notre algorithme a
attribué la classe ”suspect” au lieu de la classe ”fiable” ou ”non fiable”. Cette classe a été
définie afin de mettre l’accent sur les cas douteux. Avec l’affichage graphique, l’utilisateur
peut analyser le problème et prendre la bonne décision. Ensuite, notre algorithme a at-
tribué une classe fausse uniquement dans 1% des cas. En outre, pour pouvoir se comparer
précisément, il faut utiliser la même collection de test que Ghazizadeh et al. [117] qui
n’ont pas bien expliqué l’étape d’évaluation.
Comme travail futur et conjointement à l’élargissement du champ des expérimentations,
il serait intéressant d’identifier, d’une manière plus précise, la classe de fiabilité en adop-
tant les classes reconnues dans la méthodologie du hadith. Dans ce cas, il serait difficile de
fixer manuellement les distributions de possibilité. Ainsi, il faudra procéder à une étape
d’apprentissage à partir de hadiths déjà évalués.
En outre, nous pouvons améliorer notre analyse des critères de fiabilité. Pour mieux
évaluer l’objectivité de narration, il est nécessaire de développer des outils de comparaison
de versions pour découvrir les anomalies. Ceci permettra de découvrir si un narrateur a
ajouté ou supprimé certaines parties de l’histoire et si ces modifications sont justifiées.
En effet, un narrateur peut simplement rapporter la même histoire différemment en choi-
sissant des termes différents par rapport à son prédécesseur, malgré que les deux soient
d’accord sur l’évènement et son interprétation. Dans certains autres cas, ces modifications
affectent le contenu, si le narrateur est influencé par son interprétation ou par son point de
vue. C’est une dimension historique où nous devons tenir compte du fait qu’en fonction de
la période et de l’évolution de la société, le narrateur ne va pas rapporter un évènement
de la même manière ni lui donner la même importance. Cependant, la découverte de

143
CHAPITRE VI. ORGANISATION DE CONNAISSANCES ET RECHERCHE D’INFORMATION MULTI-CRITÈRES

telles anomalies requiert des mécanismes plus poussés d’analyse permettant d’évaluer la
cohérence logique d’un ensemble de versions du même hadith.

6 Conclusion
Dans ce chapitre, nous avons présenté et discuté des résultats de différentes expérimentations
afin de structurer les connaissances extraites des livres du hadith selon les axes socio-
sémantiques. Nous avons aussi décrit les mécanismes nécessaires à la recherche et à la
navigation dans les cartes socio-sémantiques. Ces mécanismes permettent d’évaluer la
pertinence de l’information selon des contraintes multi-critères spécifiées par l’utilisateur.
En effet, le système évalue chaque hadith et fournit des informations analytiques sur les in-
dicateurs de fiabilité. Etant donné que plusieurs opérations sont communes aux différentes
étapes et axes de structuration, nous avons défini et implémenté une plate-forme de car-
tographie multi-critères réutilisable, qui pourra éventuellement être utilisée pour d’autres
types de connaissances. Cette plate-forme n’est que l’un des modules développés tout au
long du processus de cartographie. Ces modules constituent une boite à outils réutilisable,
dont les détails d’implémentation et de test seront présentés dans les annexes de cette
thèse.

144
Conclusion Générale et Perspectives

L es travaux existants dans le domaine de la RI arabe souffrent de plusieurs limites.


Certains proposent des heuristiques (comme par exemple la pseudo-racinisation
[153]) ou des approches statistiques pour indexer les documents et extraire les connais-
sances [47, 48]. D’autres exploitent des ressources existantes dans d’autres langues pour
produire des systèmes d’organisation de connaissances arabes [195]. Ces travaux évitent
l’analyse morphosyntaxique complète des textes arabes afin de réduire les ambigüités.
L’analyse superficielle s’est avérée comme solution appropriée, car elle nécessite moins de
ressources que l’analyse complète. En particulier, l’analyse de textes arabes requiert des
corpus d’apprentissage et des outils sophistiqués, qui puissent traiter ces textes quel que
soit leur période afin de fournir les informations pertinentes indispensables aux systèmes
d’extraction de connaissances et de RI. Actuellement, ces systèmes utilisent des infor-
mations incomplètes sur les mots et les expressions qui sont par conséquent fortement
ambigus.

Malheureusement, les recherches portant sur les systèmes d’extraction de connaissances


et les SRI arabes ont permis certaines contributions qui sont dispersées sur plusieurs ni-
veaux d’analyse. Par exemple, plusieurs chercheurs se sont investis dans l’analyse et la
désambiguı̈sation morphologique de textes arabes sans que leurs outils soient massivement
utilisés dans les systèmes d’extraction de connaissances et de RI. En outre, la notion de
pertinence dans les SRI arabes est actuellement traitée comme une notion monodimen-
sionnelle. Ainsi, la majorité des travaux de recherche sont concentré sur l’axe sémantique
alors que l’émergence du Web socio-sémantique impose une codétermination des besoins
sociaux et sémantiques. Par exemple, plusieurs SRI sémantiques ont été évalués en utili-
sant le corpus du hadith sans tenir compte de la dimension de fiabilité, malgré l’existence
de travaux sur l’évaluation automatique de la fiabilité des hadiths.

Les travaux récents en RI [92, 103, 145, 161, 212] s’orientent vers des mécanismes plus
développés qui dépassent le scénario (requête - liste de résultats). En effet, la RI est vue
comme une démarche d’enquête qui tient compte de plusieurs critères. En outre, un espace
informationnel devrait être structuré et présenté d’une manière appréhensible qui permet
une vue globalisante et détaillée de cet espace. Une variété de mécanismes de visualisation
et d’interaction permettraient un accès personnalisé aux ressources documentaires. Ainsi,
les tâches d’extraction, de représentation et d’accès à la connaissance s’inscrivent dans un
processus de cartographie qui implique l’utilisateur dans ses différentes étapes.

Le présent travail s’inscrit dans la problématique de la cartographie socio-sémantique


des documents arabes. Il est à base de fondements théoriques et d’applications dans les

145
CONCLUSION GENERALE ET PERSPECTIVES

domaines de RI [98], de la cartographie des connaissances [212], du Web socio-sémantique


[226] et de la qualité de l’information [210]. Dans ce cadre, la cartographie est un proces-
sus qui dépend des besoins des utilisateurs et de leur organisation sociale. Il est composé
d’une série d’étapes d’analyse et d’évaluation qui permettent de structurer l’espace infor-
mationnel et de fournir un accès multidimensionnel à cet espace.

Pour répondre aux nouvelles exigences de la RI moderne, nous avons proposé un pro-
cessus de cartographie qui puisse tenir compte de la richesse et des spécificités de la
langue et de la civilisation arabes. Dans ce cadre, nous avons défini des approches d’ana-
lyse et de désambigüisation de textes arabes, afin de faciliter l’intégration de cette langue
dans les systèmes d’ingénierie des connaissances. Nous avons remarqué qu’il est nécessaire
d’intégrer différents axes d’analyse en considérant les aspects sémantiques et sociaux à
la fois. A ce stade, nous soulignons l’importance de l’évaluation de la fiabilité comme
critère important de la pertinence de l’information. Pour tenir compte de ce critère, nous
avons adopté les sciences du hadith comme méthodologie d’évaluation de la fiabilité. Cette
méthodologie est parfaitement cohérente avec les visions récentes du Web qui insistent
sur le concept de confiance. En outre, elle tient compte des critères reconnus dans la
littérature relative à la qualité de l’information [173].

Choix principaux
Le choix des livres du hadith comme cas d’application de la cartographie socio-
sémantique est justifié par leurs caractéristiques. En effet, ces livres possèdent une struc-
ture qui facilite plusieurs étapes dans le processus de cartographie. Cette structure repré-
sente l’empreinte du processus de production des documents qui est fondamentale dans
les livres du hadith qui documentent toutes les transactions sémiotiques de transfert et
d’interprétation des informations. En outre, la structure est exploitée afin de modéliser
les connaissances et de permettre une recherche précise et personnalisée de l’informa-
tion. L’organisation thématique des hadiths permet un accès multi-points de vue adap-
table selon les pratiques des utilisateurs. De plus, la taille de ces livres et leur richesse
permet le développement et le test d’approches d’extraction de connaissances et de RI
multi-critères. En fait, il ne s’agit pas uniquement d’un fonds riche en thèmes et en
connaissances socio-sémantiques, mais sa constitution a été accompagnée par l’élaboration
d’une méthodologie rigoureuse pour l’évaluation de la fiabilité de l’information. Vu ces
caractéristiques, le corpus hadithien a été sujet de plusieurs études et applications infor-
matiques [19, 22, 133, 224].

Etant donné que nos contributions sont basées sur les fondements du Web socio-
sémantiques, nous avons fait le choix d’utiliser une approche semi-formelle de représenta-
tion des connaissances en adoptant le langage XML et ses dérivés. Ce choix est compa-
tible avec la démarche d’enquête dans laquelle s’inscrit la recherche d’information dans le
Web socio-sémantique en général [226] et dans les livres du hadith en particulier. Cette
démarche offre un certain équilibre entre les besoins humains et les traitements automa-
tiques et permet d’affronter la complexité des documents et la divergence des points de
vue.

146
CONCLUSION GENERALE ET PERSPECTIVES

En ce qui concerne l’organisation des livres du hadith, nous avons choisi de garder les
thématisations proposées par les collecteurs du hadith dans leurs livres, chacune étant
considérée comme une carte de thèmes [64]. Afin de diversifier les mécanismes d’accès aux
hadiths, nous avons développé des outils d’organisation et d’évaluation automatique des
connaissances qui sont utilisés conjointement à une recherche arborescente dans les cartes
de thèmes. Pour cela, nous avons exploité deux types de réseaux récemment combinés
dans le domaine de la RI [98], à savoir les Réseaux Petits Mondes Hiérarchiques (RPMH)
et les réseaux possibilistes. Les RPMH représentent un outil d’organisation des connais-
sances qui permet à la fois d’éliciter les liens implicites et d’avoir une vue globalisante
des connaissances. Leur généricité permet de représenter n’importe quelle dimension d’un
espace informationnel. Pour lier les différentes dimensions d’un tel espace, nous avons
utilisé les réseaux possibilistes. La théorie des possibilités a été proposée comme modèle
efficace de classification et de RI dans des études comparatives récentes [60]. En effet, cette
théorie permet de traiter les données d’une manière quantitative ou qualitative. En outre,
elle tient compte des phénomènes d’imperfection dans les données tels que l’imprécision,
l’incertitude et l’incomplétude [130].

Contributions
Nous avons proposé un modèle générique d’une carte socio-sémantique multi-critères
où les fragments de documents sont indexés par plusieurs ontologies, dont chacune repré-
sente une dimension de la carte. Le processus de cartographie lié à ce modèle est guidé
par la codétermination des besoins sociaux et sémantiques des utilisateurs. Nous pensons
que les pratiques des utilisateurs et les mécanismes que le système doit fournir dépendent
de l’organisation sociale des utilisateurs et de leurs besoins. Ceci nous a conduit à mener
une étude sociale en amont du processus d’analyse. Cette étude retrace le processus de
production/transmission des documents vus comme des productions sémiotiques. Elle
détermine entre autres les outils d’analyse nécessaires et le niveau de granularité lors
de la segmentation des documents. La structure des documents a donc une importance
fondamentale dans notre approche. Afin de favoriser la réutilisation des outils d’analyse,
nous avons proposé une analyse micro-logique basée sur les grammaires hors contexte
[54]. Cette solution permet de pallier à la complexité des textes en traitant chaque type
de fragment à part et en simplifiant l’apprentissage semi-automatique des règles de ces
grammaires.

Etant donné les limites des travaux existants [20, 47, 188, 234], nous avons donné une
importance particulière aux aspects linguistiques, notamment aux ambiguı̈tés morphosyn-
taxiques [52]. En effet, nous essayons, à travers cette thèse, d’introduire la langue arabe
aux environnements de l’ingénierie ontologique [40]. Dans ce cadre, nous avons adopté la
même démarche que d’autres chercheurs [143] en effectuant une analyse linguistique appro-
fondie pour la construction d’ontologies [51]. Ainsi, à l’inverse de certains autres systèmes
(ex. OntoLearn [166], Text2Onto [73] et le système de Rajaraman et Tan [190]), nous
exploitons les informations morphosyntaxiques dans les différentes étapes de construc-
tion d’ontologies. Les informations morphologiques permettent de reconnaı̂tre les termes
simples et sont exploitées dans les règles d’analyse syntaxique pour extraire les termes
composés. L’analyseur syntaxique que nous avons développé [53] reconnaı̂t la structure de
chaque syntagme sous forme d’arbre d’analyse qui spécifie le rôle de chaque constituant. A
ce stade, nous ne sommes pas limités aux termes composés de deux mots, mais nous avons

147
CONCLUSION GENERALE ET PERSPECTIVES

considéré des N-grammes dont la taille peut atteindre 10 mots. Notons que la structure
des documents du hadith a joué un rôle important dans la désambiguı̈sation morpho-
syntaxique [52]. En effet, les titres des thèmes constituent un contexte sémantique utile
pour la désambiguı̈sation. En outre, la pondération des termes en fonction de leurs posi-
tions dans la structure a permis une évaluation qualitative de leur pertinence au domaine.
Ainsi, la désambiguı̈sation et l’évaluation de la pertinence au domaine sont effectuées en
une seule étape. Cette solution constitue une contribution dans le sens où nous avons
accéléré le processus d’analyse, prouvé l’apport de la structure dans la désambiguı̈sation
morphosyntaxique et démontré l’interdépendance des différents niveaux d’analyse. En
fait, le réseau de dépendances syntaxiques a été exploité afin de tester plusieurs alterna-
tives lors de l’analyse distributionnelle qui a permis de grouper les termes d’une manière
cohérente. Lors de cette analyse, il a été montré que les relations syntaxiques arabes ont
des sémantiques différentes, ce qui nous a amené à les interpréter séparément [51].

Par opposition aux SRI monocritères, nous avons aussi considéré l’axe social à tra-
vers la reconnaissance des entités nommées et des identités des personnes comme étapes
préliminaires à l’étape d’évaluation de la fiabilité [50]. Il est à signaler qu’à l’heure actuelle,
aucune des approches existantes n’a considéré toutes ces étapes à la fois [3, 28, 30, 117].
Ajoutons que l’utilisation des grammaires hors contexte nous a permis d’extraire la struc-
ture de chaque entité nommée au format XML et de représenter explicitement les relations
sociales. En outre, notre outil de reconnaissance de l’identité représente un véritable SRI
social qui exploite le réseau social afin de lever les ambiguı̈tés dans les noms arabes. Enfin,
nous avons renforcé l’analyse de la fiabilité en utilisant des indices graphiques en plus du
calcul automatique de la classe de fiabilité [50].

Du point de vue environnement, nous avons développé une boite à outils générique qui
traite la structure, la morphologie, la syntaxe et les entités nommées dans les documents
arabes. Ces outils, étant développés en Java, pourront être intégrés dans les plate-formes
d’ingénierie ontologique, telles que KAON [176] et TERMINAE [85]. Nous avons exploité
les réseaux générés par ces outils pour construire les ontologies qui composent nos cartes.
Ayant remarqué que ces réseaux ne sont autres que des graphes, nous avons proposé un
processus d’analyse distributionnelle générique qui permet de structurer les connaissances
en ontologies. Ainsi, nous avons pu, à travers des opérations basiques sur les graphes tels
que le filtrage, la transformation et le clustering, produire des modèles qui servent à un
utilisateur pour appréhender son espace informationnel et au système d’automatiser cer-
taines tâches de RI, telles que la reformulation de requêtes [51]. Le processus d’organisation
des connaissances a été enrichi par l’implémentation d’un modèle d’appariement possibi-
liste multi-critères, afin d’évaluer les informations en fonction de contraintes spécifiées de
manière interactive par l’utilisateur. L’ensemble de ces éléments constitue une plate-forme
qui fournit les mécanismes de base pour la cartographie multi-critères.

A l’inverse de certains travaux existants [30], nous avons évalué les étapes intermédiaires
en plus des résultats finaux, afin de mettre l’accent sur les sources d’erreurs et de fournir
une interprétation plus détaillée des résultats. Cependant, notre travail était limité par le
manque de standards d’évaluation surtout au niveau sémantique où nous étions obligés
de construire manuellement des listes de référence. Vu les limites de ces listes, nous avons
renforcé notre évaluation par une validation automatique dans le cadre de la RI [51, 52].

148
CONCLUSION GENERALE ET PERSPECTIVES

Perspectives
L’implémentation des outils d’analyse de textes arabes a nécessité des traitements
manuels, que ce soit dans les phases d’apprentissage ou d’évaluation. Malgré notre souci
de réduire les taux d’intervention de l’utilisateur, ces phases demeurent coûteuses du point
de vue temps et effort. L’ambigüité morphologique a constitué pour nous le principal
challenge que nous avons rencontré dans nos expérimentations. La source principale de
ce type d’ambigüité est l’absence des voyelles courtes dans les textes. Pour relever ce
challenge, l’utilisation de textes partiellement ou complètement voyellés serait une solution
envisageable. Le corpus hadithien offre cette opportunité, vu que certains de ses livres
sont voyellés. Nous estimons qu’il serait possible d’améliorer l’analyse linguistique si les
principales entités logiques (principalement les titres et les sous-titres) étaient voyellées.

Cependant, la performance de notre approche de désambiguı̈sation dépend aussi de


la nature du corpus et de sa structure. Le Web actuel contient de plus en plus des do-
cuments semi-structurés. Pour généraliser nos résultats, il nous semble utile d’appliquer
notre approche dans le contexte du Web. Ceci permettrait de mieux comprendre l’im-
pact de la structure sur les performances d’extraction de termes. Contrairement aux
livres du hadith qui ont une structure arborescente, la structure des pages Web n’est
pas forcément hiérarchique. Ainsi, nous serons amenés à utiliser des relations autres que
la relation ”Sup”. Ceci signifie que nous considérons une description plus détaillée de la
structure. Pondérer des fragments particuliers a constitué une première solution pour leur
donner des poids proportionnels à leur importance dans le texte. Comme exentension à
cette pondération, nous pensons que les techniques d’annotation automatique seraient
utiles pour représenter d’une manière plus détaillée la structure des documents. Il se-
rait intéressant d’exploiter les marqueurs rhétoriques en plus de l’organisation spatiale,
la taille et les styles afin de caractériser les fragments. Ceci conduira à une intégration
de notre analyseur micro-logique avec notre outil d’analyse morphosyntaxique. En effet,
nous avons traité les entités nommées au niveau lexical sans une analyse morphologique
pour éviter les ambigüités. Comme travail futur, il serait envisageable de combiner les
deux types d’analyse en un seul outil pour extraire à la fois les entités nommées et les
syntagmes nominaux arabes.

La résolution des ambiguı̈tés au niveau morphosyntaxique permettra de pousser les ana-


lyses dans les autres niveaux (social et sémantique). Ainsi, il serait intéressant de réfléchir
à la désambiguı̈sation sémantique. En général, la même forme linguistique d’un terme liée
à des concepts différents peut apparaı̂tre dans plusieurs domaines . En outre, il serait pos-
sible d’élargir les expérimentations à tous les thèmes des livres du hadith, voire à d’autres
types de textes. Les réseaux syntaxiques pourront être exploités pour reconnaı̂tre d’autres
types de relations sémantiques (dépendante ou non du domaine) entre les termes ou les
groupes de termes. Cette analyse sémantique permettra une meilleure représentation des
hadiths, ce qui aidera à mettre en place des mécanismes de raisonnement plus sophistiqués
notamment pour considérer d’autres critères dans l’évaluation de la fiabilité. Par exemple,
il serait possible de comparer des versions différentes du même hadith afin de découvrir
les anomalies et l’excentricité.

Du point de vue environnement d’expérimentation, le prototype de la plate-forme de


cartographie nécessite une amélioration au niveau des mécanismes de visualisation et

149
d’interaction. Par exemple, le prototype dans son état actuel ne permet de chercher que
des hadiths. Il serait intéressant de fournir à l’utilisateur des fragments plus ou moins
complexes tels que les sous-chapitres ou les commentaires associés aux hadiths. En outre, il
est possible d’implémenter différentes stratégies d’adaptation, qui guident l’utilisateur lors
de la navigation [140] ou qui lui permettent de constituer de nouveaux documents [103].
Cependant, la personnalisation des cartes nécessite aussi la prise en compte des profils des
utilisateurs. A priori, il serait envisageable d’inclure deux aspects fondamentaux dans le
profil. Le premier permet d’adapter le contenu affiché selon l’expertise de l’utilisateur. Par
exemple, les utilisateurs novices ont tendance à négliger les longues chaı̂nes de narrateurs
et certains commentaires. Le deuxième considère l’organisation sociale des utilisateurs en
adoptant par exemple les approches qui distinguent le profil d’une communauté de ceux
de ses membres [91].

Nos expériences avec les livres du hadith nous a amené à proposer une démarche qui
vise à les transformer en un corpus de référence [6]. Un tel corpus permettra entre autres
d’étudier l’évolution historique et géographique de la langue arabe étant donné que les
hadiths ont été sujet d’études et d’interprétation au fil des siècles et dans plusieurs régions.
Pour atteindre cet objectif, nous pensons qu’il est nécessaire de rassembler les différentes
versions de ces livres disponibles sous divers formats. Ces versions sont hétérogènes du
point de vue taille, couverture, richesse en commentaires et même en terme crédibilité de
leurs sources. A l’heure actuelle, aucune des ces versions ne semble surpasser les autres ni
quantitativement ni qualitativement. Ainsi, il serait intéressant de rassembler toutes les
versions fiables et les combiner afin de bénéficier des avantages de chacune. En outre, pour
constituer un corpus standard de test de SRI, il serait indispensable de définir un ensemble
de requêtes types et d’identifier les fragments de documents qui leurs sont pertinents. Cette
tâche peut être effectuée d’une manière semi-automatique et collaborative.

En tant que méthodologie pour la fiabilité de l’information, les règles des sciences du
hadith pourraient être appliquées dans d’autres domaines où l’aspect fiabilité est critique.
Ainsi, certains chercheurs ont appliqué cette méthodologie pour faire face aux crimes
électroniques [224]. Il est donc envisageable de réutiliser cette méthodologie pour assurer
la confiance dans le cadre du Web socio-sémantique. En outre, certains types de textes,
comme les articles de journaux, contiennent des expressions qui ressemblent aux chaı̂nes
de narrateurs qui pourront être analysés avec les outils que nous avons proposés afin
d’évaluer leur fiablité.

150
Bibliographie

  
JË@ ð Qå„J ÊË ÐC‚Ë@ P@X . éJ‚Ë@ I.JºË@ : qJ
‚Ë@
 È @ . 
[1] 1999 , úÍð B@ éªJ.¢Ë@ , ©K

S. Al-chikh. Les six livres du hadith, édition Dar Al-salam, Première édition, 1999.
[2] éJ‚Ë@
Hñm éÊm .× . éJ
K. QªË@
 '. Q»QÓ AJ
k. ñËðXñJJ
ÖÏ AK. AKPA
®Ó á KYjÖÏ @ YJ« Y® JË@ iîDÓ : ø QÒªË@ . @

.
. 1988 , 134 - 107 . , 3
, èQ
‚Ë@ð
A. Al-Omri. Méthodologie de critique dans les sciences du hadith comparée à la
méthodologie occidentale. Journal du centre de recherche en sunna et sira, 3 :107-
134, 1988.
 ÊË IƒñjÖÏ @ h XñÖ
[3]

Í B@ I.ƒAjÊË Qå„« ©K. A‚Ë@ ú
æ£ñË@ QÖ ßñÖ Ï @ . éK
ñJ.JË@ éJ‚ . .
“ éÓY
ß B@
 g ú¯:
.h
ð PQË@
2004 ÉK
Q¯ @ , èPñJÖ Ï @ éJK
YÖÏ @ , éK
Xñª‚Ë@ , áÔ gQË@ ¬ñJ

éJ
KAÓñʪÖÏ @

H. Al-Rizzo. Un modèle informatisé de la sunna. 17ème conférence nationale de


l’ordinateur, Arabie Saoudite, la Médine, Avril, 2004.
[4] JË@ð Qå„J ÊË ¬PAªÖ
,©K
Pñ Ï @ éJ JºÓ : AK
.
QË@ , éK
Xñª‚Ë@ . IK

YmÌ '@ iÊ¢’Ó Q
‚
K : àAj¢Ë@

1985
M. Tahan. Introduction aux sciences du hadith. édition Al-maarif, Riyad, Arabie
Saoudite, 1985.
[5] I.K
ñË@ ú
¯ éJ
K. QªË@ ‡ KA KñË@ ÉJ
JÖßð ÉJ
ÊjJË éÊÓA  ñm' : úGAÒJ
 ƒ éK PA®Ó ʃ .ø ð €Am' ñK .@
 .  


Jk.. B@
, 210 - 197 .  , H. ñƒAm  Ì '@ éƒY Jëð ÐñʪË éƒXA‚Ë@ éJ
ËðYË@ èðYJË@ .ú
ÍBYË@ ú «AÒ
éƒYJëð ÐñÊªË éJ
ËðYË@ éÊj.ÖÏ @ ú
¯ A’
@ Qå„J
ƒ , 2010 ø
AÓ 21-20 ,ñ K ,
HAÓAÒm  Ì '@

. ( Qå„JË@ XY’. ) H. ñƒAmÌ '@
I. Bounhas and Y. Slimani. Towards a generic approach for modeling and analy-
zing Arabic documents in the socio-semantic Web. The sixth International Com-
puting Conference in Arabic, pages 197-210, Hammamet, Tunisia, May 20-21, 2010.
International Journal of Computing in Arabic (to appear).
[6] H. @ñË@ ú
¯ éJ
K. QªË@ éJ
KAÓñʪÖÏ @ éÓY
 g ú¯ éKðYÓð
 jîDÓ ñm' : úGAÒJ
éJ ʃ .ø ð €Am' ñK .@


. 


.
.2011 , 80 - 67 : ( 3 ) 3 , H . ñƒAmÌ '@ éƒYJëð ÐñÊªË éJ
ËðYË@ éÊj.ÖÏ @ .ú
ÍBYË@ ú
«AÒJk. B@
I. Bounhas and Y. Slimani. Toward a methodology and a corpus for arabic infor-
mation sciences in the socio-semantic web. International Journal of Computing in
Arabic, 3(3) :67-80.
[7] La norme ISO 2788. http://www.iso.org/iso/fr/catalogue_detail.htm?
csnumber=7776, 1986.
[8] The GraphML File Format. http://graphml.graphdrawing.org/, 2001.
[9] XML Topic Maps (XTM) 1.0, TopicMaps.Org Specification.
http ://www.topicmaps.org/xtm/1.0, 2001.

151
BIBLIOGRAPHIE

[10] RDF, Resource Description Framework Specification. http://www.w3.org/TR/


REC-rdf-syntax, 2002.
[11] RDFS, Resource Description Framework Schema Specification. http://www.w3.
org/TR/rdf-schema, 2002.
[12] XML, eXtended Markup Language Specification. http://www.w3.org/TR/
REC-xml, 2002.
[13] SVM - Support Vector Machines. http://www.support-vector-machines.org,
2005.
[14] Alkhalil morpho sys. http://sourceforge.net/projects/alkhalil/, 2010.
[15] N. S. Abdul Karim and N. R. Hazmi. Assessing islamic information quality on
the internet : A case of information about hadith. Malaysian Journal of Library &
Information Science, 10(2) :51–61, 2005.
[16] S. Abuleil. Extracting names from arabic text for question-answering systems. In
Proceedings of the 7th International Conference on Coupling Approaches, Coupling
Media, and Coupling Languages for Information Retrieval. (RIAO’04), pages 638–
647, University of Avignon (Vaucluse), France, 26-28 Avril, 2004.
[17] C. Al-Charfi and H. Ammar (Eds.). Proceedings of the Sixth International Com-
puting Conference in Arabic. Hamamet, Tunisia, 20-21 May 2010.
[18] M. N. Al-kabi and S. I. Al-sinjilawi. A comparative study of the efficiency of different
measures to classify arabic texts. Journal of Pure & Applied Sciences, 4(2) :13–26,
2007.
[19] H. A. Al-Muhtaseb, S. A. Mahmoud, and R. S. Qahwahi. A novel minimal script
for arabic text recognition databases and benchmarks. International Journal of
Circuits, Systems and Signal Processing, 3(3) :145–153, 2009.
[20] A. Al-Qabbany, A. Al-Salman, and A. Almuhareb. An automatic construction of
arabic similarity thesaurus. In Proceedings of the 3rd IEEE International Conference
on Arabic Language Processing (CITALA’2009), pages 31–36, Rabat, Morocco, May
4-5, 2009.
[21] S. Alansary, N. Magdy, and A. Noha. Building an international corpus of arabic
(ICA) : Progress of compilation stage. In 7th International Conference on Language
Engineering, Cairo, Egypt, 2008.
[22] M. Alkhatib. Classification of al-hadith al-shareef using data mining algorithm.
In European Mediterranean & Middle Eastern Conference on Information Systems
(EMCIS 2010), Abu-Dhabi, UAE, April 12-13, 2010.
[23] C. Aloulou. Un modèle multiagent pour l’analyse syntaxique de la langue arabe
non voyellée. Thèse de doctorat, École Nationale des Sciences de l’Informatique,
Université de la Manouba, Tunisie, 2005.
[24] M. Attia. Handling Arabic Morphological and Syntactic Ambiguity within the LFG
Framework with a View to Machine Translation. PhD thesis, University of Man-
chester, Faculty of Humanities, UK, 2008.
[25] A. Auger and C. Barriere. Pattern-based approaches to semantic relation extrac-
tion : A state-of-the-art. Terminology journal, Special issue on ”Pattern-based ap-
proaches to semantic relation extraction”, 14(1) :1–19, 2008.

152
BIBLIOGRAPHIE

[26] N. Aussenac-Gilles and A. Condamines. Documents électroniques et constitution


de ressources terminologiques ou ontologiques. Information-Interaction-Intelligence,
4(1) :75–94, 2004.
[27] H. Aydemir. The reliability coefficient of ’umar b. ’abdullah b. ’urwa : An application
of the theory of system of transmission of hadith based on probability calculations.
Journal of Hadith Studies, 3(2) :7–36, 2005.
[28] H. Aydemir. A theoretical approach to the system of transmission of hadith based
on probability calculations. Journal of Hadith Studies, 3(1) :39–72, 2005.
[29] M. Azami. Studies in hadith methodology and literature. American Trust Publica-
tions, 1978.
[30] M. Azmi Aqil and N. Bin Badia. e-narrator - an application for creating an ontology
of hadiths narration tree semantically and graphically. The Arabian Journal for
Science and Engineering (AJSE), 31(2C) :51–68, 2006.
[31] D. Bagni, M. Cappella, M. T. Pazienza, M. Pennacchiotti, and A. Stellato. Harves-
ting relational and structured knowledge for ontology building in the WPro archi-
tecture. In Proceedings of the 10th Congress of the Italian Association For Artificial
Intelligence on AI*IA 2007 : Artificial Intelligence and Human-Oriented Compu-
ting, pages 157–169, Rome, Italy, September 10-13, 2007.
[32] A. Barabási, R. Albert, and H. Jeong. Scale-free characteristics of random networks :
The topology of the world wide web. Physica, A281 :69–77, 2000.
[33] J. Bateman. Modeling the importance of end-user relevance criteria. In Proceedings
of the 62nd ASIS Annual Meeting, Knowledge Creation, Organization and Use,
volume 36, pages 396–406, Washington, DC, USA, October 31-November 4, 1999.
[34] M. Baziz, M. Boughanem, and N. Aussenac-Gilles. Une approche pour la
représentation sémantique de documents. In Colloque Veille Stratégique, Scien-
tifique et Technologique (VSST’2004), pages 43–54, Université Paul Sabatier, Tou-
louse, France, 25-29 Octobre, 2004.
[35] K. R. Beesley. Finite-state morphological analysis and generation of arabic at Xerox
research : Status and plans in 2001. In Proceedings of the 39th Annual Meeting of
the Association for Computational Linguistics : Arabic Language Processing : Status
and Prospect, pages 1–8, Toulouse, France, July 9-11, 2001.
[36] K. R. Beesley and L. Karttunen. Finite State Morphology. The Center for the Study
of Language and Information, CSLI Publications, Stanford, USA, 2003.
[37] F. Z. Belkredim and A. El-Sebai. An ontology based formalism for the arabic lan-
guage using verbs and their derivatives. Communications of the IBIMA, 11(5) :44–
52, 2009.
[38] F. Ben Fraj. Un analyseur syntaxique pour les textes en langue arabe à base d’un
apprentissage à partir des patrons d’arbres syntaxiques. Thèse de doctorat, École
Nationale des Sciences de l’Informatique, Université de la Manouba, Tunisie, 2010.
[39] A. Bénel. Consultation assistée par ordinateur de la documentation en sciences
humaines : considérations épistémologiques, solutions opératoires et applications à
l’archéologie. Thèse de doctorat, Institut National des Sciences Appliquées (INSA),
Lyon, France, 2003.
[40] M. Bergman. Comprehensive listing of 250 semantic web tools. http://mkbergman.
com/?p=291, 2006.

153
BIBLIOGRAPHIE

[41] T. Berners-Lee, J. Hendler, and O. Lassila. The Semantic Web. Scientific American,
2001.
[42] D. Bikel. Multilingual statistical parsing engine. http://www.cis.upenn.edu/
~dbikel/software.html#stat-parser, 2008.
[43] C. M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press,
New York, 1996.
[44] E. Blomqvist and A. Ohgren. Constructing an enterprise ontology for an automotive
supplier. Engineering Applications of Artificial Intelligence, 21(3) :386–397, 2008.
[45] G. Bordogna and G. Pasi. A flexible multi criteria information filtering model. Soft
computing - A fusion of foundations, methodologies and applications, 14(8) :799–809,
2009.
[46] I. Boujelbene, S. Mesfar, and A. Ben Hamadou. Arabic Compound Nouns Proces-
sing : Inflexion and Tokenization. In Proceedings of NooJ Conference, Komotini,
Greece, May 27-29, 2010.
[47] S. Boulaknadel. Utilisation des syntagmes nominaux dans un système de recherche
d’information en langue arabe. In Conférence Francophone en Recherche d’Infor-
mation et Applications (CORIA), pages 341–346, Lyon, France, 15-17 Mars, 2006.
[48] S. Boulaknadel, B. Daille, and D. Aboutajdine. A multi-word term extraction pro-
gram for arabic language. In Proceedings of the 6th International Conference on
Language Resources and Evaluation (LREC), pages 1485–1488, Marrakech, Mo-
rocco, May 17-23, 2008.
[49] I. Bounhas. Un analyseur de contenu des documents scientifiques du web. Mémoire
de Mastère, Ecole Nationale des Sciences de l’Informatique, Universté de la Ma-
nouba, 2006.
[50] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Toward a computer study of
the reliability of arabic stories. Journal of the American Society for Information
Science and Technology, 61(8) :1686–1705, 2010.
[51] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Arabonto : Experimenting a
new distributional approach for building arabic ontological resources. International
Journal of Metadata, Semantics and Ontologies (IJMSO), 6(2) :81-95 , 2011.
[52] I. Bounhas, B. Elayeb, F. Evrard, and Y. Slimani. Organizing contextual know-
ledge for arabic text disambiguation and terminology extraction. Knowledge Orga-
nization, 38(6) :473–490, 2011.
[53] I. Bounhas and Y. Slimani. A hybrid approach for arabic multi-word term ex-
traction. In Proceedings of the IEEE International Conference on Natural Language
Processing and Knowledge Engineering (IEEE NLP-KE), pages 429–436, Dalian,
China, August 21-23, 2009.
[54] I. Bounhas and Y. Slimani. A social approach for semi-structured document mo-
deling and analysis. In Proceedings of the International Conference on Knowledge
Management and Information Sharing (KMIS), pages 95–102, Madeira, Portugal,
October 6-8, 2009.
[55] I. Bounhas and Y. Slimani. A hierarchical approach for semi-structured document
indexing and terminology extraction. In Proceedings of the International Conference
on Information Retrieval and Knowledge Management (CAMP), pages 314–319,
Shah-Alam, Malaysia., March 16-18, 2010.

154
BIBLIOGRAPHIE

[56] D. Bourigault. LEXTER, ”un logiciel d’EXtraction de TERminologie, Application


à l’acquisition des connaissances à partir de textes”. Thèse de doctorat, Ecole des
Hautes Études en Sciences Sociales, Paris, France, 1994.
[57] D. Bourigault. Upery : un outil d’analyse distributionnelle étendue pour la construc-
tion d’ontologies à partir de corpus. In 9ème Conférence annuelle sur le Traitement
Automatique des Langues Naturelles (TALN), pages 75–84, Nancy, France, Juin
2002.
[58] D. Bourigault, C. Fabre, C. Frérot, M. P. Jacques, and S. Ozdowska. Syntex, ana-
lyseur syntaxique de corpus. In Actes des 12èmes journées sur le Traitement Auto-
matique des Langues Naturelles, Dourdan, France, 2005.
[59] D. Bourigault and G. Lame. Analyse distributionnelle et structuration de terminolo-
gie, application à la construction d’une ontologie documentaire du droit. Traitement
automatique des langues (TAL), 43(1) :129–150, 2002.
[60] A. Brini. Un modèle de recherche d’information basé sur les réseaux possibilistes.
Thèse de doctorat, Université Paul Sabatier, France, Toulouse, 2005.
[61] J. Brown. Hadith : Muhammad’s Legacy in the Medieval and Modern World. One-
world Publications, London, England, 2009.
[62] M. Brunzel and M. Spiliopoulou. Discovering multi terms and co-hyponymy from
XTHML documents with XTREEM. In Workshop on Knowledge Discovery from
XML Documents (KDXD 2006), pages 22–32, Singapur, April 9, 2006. Springer
LNCS 3915.
[63] J.-P. Cahier and M. Zacklad. Expérimentation d’une approche coopérative et mul-
tipoint de vue de la construction et de l’exploitation de catalogues commerciaux
”actifs”. In Actes de la Conférence Extraction et Gestion des Connaissances, pages
221–226, Montpellier, France, 21-23 Janvier 2002.
[64] J.-P. Cahier, M. Zacklad, and A. Monceaux. Une application du web socio-
sémantique à la définition d’un annuaire métier en ingénierie. In 15èmes Journées
Francophones d’Ingénierie des Connaissances, pages 29–40, Lyon, France, Mai 2004.
[65] J. Caussanel, J. P. Cahier, M. Zacklad, and J. Charlet. Les topic maps sont-ils un
bon candidat pour l’ingénierie du web sémantique ? In Actes des 13èmes Journées
Francophones sur l’Ingénierie des Connaissances, pages 233–252, Rouen, France,
Mai 2002.
[66] N. Chaâben Kammoun, L. Hadrich Belguith, and A. Ben Hamadou. The morph2
new version : A robust morphological analyzer for arabic texts. In Actes des 10èmes
Journées internationales d’analyse statistique des données, pages 1033–1044, Rome,
Italy, June, 9-11 2010.
[67] J. Charlet, B. Bachimont, and M. C. Jaulent. Building medical ontologies by termi-
nology extraction from texts : An experiment for the intensive care units. Computer
in Biology and Medicine, 36(7) :857–870, 2006.
[68] J. Charlet, P. Laublet and C. Reynaud. Web sémantique, action spécifique 32, v3.
Rap. tech., Département Sciences et Technologies de l’Information et de la Com-
munication (STIC), Centre National de la Recherche Scientifique (CNRS), France,
2003.
[69] J. Chen, Y. Hao, and S. Wang. Improving information reliability in mass custo-
mization of services : a case study from china’s catering services. In the 6th Wu-

155
BIBLIOGRAPHIE

han International Conference on E-Business, pages 87–92, Wuhan, Hubei province,


China, May 2007.
[70] F. Chevalier, S. Huot, and J. D. Fekete. Visualisation de mesures agrégées pour
l’estimation de la qualité des articles wikipedia. In Conférence Internationale Fran-
cophone sur l’Extraction et la Gestion des Conaissances (EGC’10), pages 351–362,
Hammamet, Tunisia, 26-29 Janvier, 2010.
[71] N. Chinchor. Overview of muc-7. In E. Voorhees, editor, Proceedings of the Seventh
Message Understanding Conference (MUC-7), San Francisco, CA, April 7-9, 1998.
[72] K. Church, W. Gale, P. Hanks, and D. Hindle. Using statistics in lexical analysis.
In U. Zernik, editor, Lexical Acquisition, Exploiting On-Line Resources to Build a
Lexicon, pages 115–164. Hillsdale, Michigan, USA, 1991.
[73] P. Cimiano and J. Volker. Text2onto - a framework for ontology learning and
data-driven change discovery. In Proceedings of the Tenth International Conference
on Applications of Natural Language to Information Systems, volume 3513, pages
227–238, Berlin, Germany, June 15-17, 2005.
[74] T. Cohen and D. Widdows. Empirical distributional semantics : Methods and bio-
medical applications. Journal of Biomedical Informatics, 42(2) :390–405, 2009.
[75] S. Connolly. 7 key attributes of social web applications. http://connollyshaun.
blogspot.com/2008/05/7-key-attributes-of-social-web.html, 2008.
[76] T. M. Cover and P. E. Hart. Nearest neighbour pattern classification. IEEE Tran-
sactions on Information Theory, 13(1) :21–27, 1967.
[77] J. Cowie and A. Abdelali. Multi-language text pre-processor user guide. Technical
report, Computing Research Laboratory, New Mexico State University, USA, 2004.
[78] M. Crampes and S. Ranwez. Ontology-supported and ontology-driven conceptual
navigation on the world wide web. In The 11th ACM Conference on Hypertext
(HT’00), pages 191–199, San Antonio, Texas, USA, May 30 - June 03, 2000.
[79] E. Crestan and C. de Loupy. Browsing help for a faster retrieval. In Proceedings
of the 20th International Conference on Computational Linguistics (COLING ’04),
pages 576–582, Geneva, Switzerland, August 23-27, 2004.
[80] C. Da Costa Pereira and G. Pasi. Fuzzy indices of document reliability. Applications
of Fuzzy Sets Theory, Lecture Notes in Computer Science, 4578 :110–117, 2007.
[81] B. Daille. Approche mixte pour l’extraction de terminologie : statistique lexicale et
filtres linguistiques. Thèse de doctorat, Université Paris 7, France, 1994.
[82] K. Darwish. Al-stem : A light arabic stemmer for cp1256 and utf8 encoding. http:
//www.glue.umd.edu/~kareem/research/download/stem.tar.gz, 2008.
[83] J. De Bruin, T. K. Cocx, W. A. Kosters, J. F. J. Laros, and J. N. Kok. Data mining
approaches to criminal career analysis. In Proceedings of the 6th IEEE Internatio-
nal Conference on Data Mining (ICDM’2006), pages 171–177, Washington, USA,
December 18-22 , 2006.
[84] S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, and R. Harshman. In-
dexing by latent semantic analysis. Journal of the American Society for Information
Science, 41(6) :391–407, 1990.
[85] S. Desprès and S. Szulman. Merging of legal micro-ontologies from European direc-
tives. Journal of Artificial Intelligence and Law, 15(2) :187–200, 2007.

156
BIBLIOGRAPHIE

[86] M. T. Diab, H. Kadri, and D. Jurafsky. Automatic tagging of arabic text : From raw
text to base phrase chunks. In Proceedings of The 5th Meeting of the North Ame-
rican Chapter of the Association for Computational Linguistics/Human Language
Technologies Conference (HLT-NAACL04), pages 149–152, Boston, Massachusetts,
USA, May 2-7, 2004.
[87] J. Dichy. Spécificateurs engendrés par les traits [±ANIME], [±HUMAIN],
[±CONCRET] et structures d’arguments en arabe et en français. In Actes du col-
loque ”De la mesure dans les termes”, pages 151–181, Université Lumière Lyon 2,
France, 23-25 Septembre, 2005.
[88] J. Dichy, A. Braham, S. Ghazali, and M. Hassoun. La base de connaissances lin-
guistique DIINAR 1 (dictionnaire informatisé de l’arabe - version 1). In Colloque
international sur le traitement automatique de l’arabe, pages 45–56, Tunis, Tunisia,
18-20 Avril, 2002.
[89] J. Dichy and A. Fargaly. Roots & patterns vs. stems plus grammar-lexis specifi-
cations : on what basis should a multilingual lexical database centred on arabic be
built ? In Proceedings of the Workshop on Machine Translation for Semitic Lan-
guages : Issues and Approaches, pages 1–8, New-Orleans, USA, September 23-27,
2003.
[90] R. Dieng, O. Corby, F. Gandon, A. Giboin, J. Golebiowska, N. Matta and M. Ri-
biere. Méthodes et outils pour la gestion des connaissances : une approche pluridis-
ciplinaire du knowledge management. Dunod Edition, 2ème édition, 2001.
[91] L. Ding, X. Li, and Y. Xing. Pushing scientific documents by discovering interest in
information flow within e-science knowledge grid. In 4th International Conference on
Grid and Cooperative Computing (GCC), pages 498–510, Beijing, China, November
30 - December 3, 2005.
[92] O. Dridi. Plate-forme de Recherche Intelligente dans un Référentiel de Ressources
Contextualisées et Annotées sémantiquement à base d’Ontologies : Application au
domaine médical. Thèse de doctorat, École Nationale des Sciences de l’Informatique,
Université de la Manouba, Tunisie, 2010.
[93] D. Dubois and H. Prade. Théorie des possibilités : application à la représentation
des connaissances en informatique. Masson, Paris, 1987.
[94] D. Dubois and H. Prade. Possibility Theory. Plenum Press, New York, 1988.
[95] D. Dubois and H. Prade. Possibility Theory : An Approach to Computerized Pro-
cessing of Uncertainty. Plenum Press, New York, 1994.
[96] D. Dubois and H. Prade. Possibility theory. qualitative and quantitative aspects.
In D. Gabbay and P. Smets, editors, Handbook on Defeasible Reasoning and Uncer-
tainty Management Systems, pages 169–226. Kluwer Academic, Dordrecht, 1998.
[97] T. Dunning. Accurate methods for the statistics of surprise and coincidence. Com-
putational Linguistics, 19(1) :61–74, 1994.
[98] B. Elayeb. SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste
des Documents Web. Thèse de doctorat, Institut National Polytechnique de Tou-
louse, France & Ecole Nationale des Sciences de l’Informatique, Université de la
Manouba, Tunisie, 2009.
[99] B. Elayeb, F. Evrard, M. Zaghdoud, and M. Ben Ahmed. Towards an intelligent
possibilistic web information retrieval using multiagent system. The International

157
BIBLIOGRAPHIE

Journal of Interactive Technology and Smart Education (ITSE), Special issue : New
learning support systems, 6(1) :40–59, 2009.
[100] S. Elkateb, W. J. Black, P. Vossen, H. Rodriguez, A. Pease, M. Alkhalifa, and
F. Christiane. Building a WordNet for arabic. In The 5th Conference on Language
Resources and Evaluation (LREC), pages 29–34, Genoa, Italy, May 24-26, 2006.
[101] O. Ertzscheid and G. Gallezot. Etude exploratoire des pratiques d’indexation sociale
comme une renégociation des espaces documentaires. vers un nouveau big bang
documentaire ? In Document numérique et société, pages 1–11, Fribourg, Suisse,
20-21 septembre, 2006.
[102] G. Falquet and J. P. Hurni. Content and interface models for multi point of view
scientific hyperbooks. Technical report, University of Genova, 2001.
[103] G. Falquet, C. L. M. Jiang, and J. C. Ziswiler. Intégration d’ontologies pour l’accès
à une bibliothèque d’hyperlivres virtuels. In 14ème Congrès Francophone AFRIF-
AFIA de Reconnaissance des Formes et Intelligence Artificielle (RFIA 2004), Tou-
louse, France, 28 - 30 Janvier, 2004.
[104] H. Fehri, K. Haddar, and A. Ben Hamadou. Proposal of a framework for the re-
presentation of Arabic named entities to use the transfer approach with NooJ. In
Proceedings of NooJ Conference, Komotini, Greece, May 27-29, 2010.
[105] H. Fehri, O. Piton, and A. Ben Hamadou. Extraction of relations between Arabic
Named Entities using NooJ platform : Case of sport domain. In Proceedings of NooJ
Conference, Komotini, Greece, May 27-29, 2010.
[106] M. Fellah. Modélisation et implantation d’une bibliothèque virtuelle pour un Intra-
Web Communautaire. Thèse de doctorat, École Nationale des Sciences de l’Infor-
matique, Université de la Manouba, Tunisie, 2010.
[107] M. Fernandez, A. Gomez-perez, and N. Juristo. Methontology : from ontological
art towards ontological engineering. In Spring Symposium Series on Ontological
Engineering (AAAI’97), pages 33–40, Stanford, USA, March 24-26, 1997.
[108] A. Freeman. Brill’s POS tagger and a morphology parser for arabic. In ACL
Workshop on Arabic Language Processing, Toulouse, France, July 6, 2001.
[109] F. Fürst. L’ingénierie ontologique. Rap. tech., Institut de Recherche en Informatique
de Nantes, France, 2002.
[110] G. Salton The SMART retrieval system. Prentice-Hall, Englewood Cliffs, N J, 1971.
[111] G. Salton, E. A. Fox, and H. Wu. Extended boolean information retrieval. Com-
munications of the ACM, 26(12) :1022–1036, 1983.
[112] L. Gaëlle. Etat de l’art ontologies et intégration/fusion d’ontologies. Rap. tech.,
Centre de Recherche et Développement de France Télécom (FTR&D), Paris, France,
2002.
[113] B. Gaume. Balades aléatoires dans les petits mondes lexicaux. Information Inter-
action Intelligence (I3), 4(2) :39–96, 2004.
[114] B. Gaume, K. Duvignau, and J. M. Mas. Petits mondes hiérarchiques et dynamiques
d’acquisition pour l’enseignement du lexique. In Technologies langagières et appren-
tissage des langues : Actes du colloque les nouvelles technologies et le traitement
automatique des langues au coeur des dispositifs d’apprentissage, 72ème Congrès de
l’ACFAS, pages 105–123, Montréal, Canada, 11-12 Mai, 2006.

158
BIBLIOGRAPHIE

[115] B. Gaume, N. Hathout, and P. Muller. Désambiguisation par proximité structu-


relle. In Traitement Automatique du Language Naturel (TALN), pages 205–214,
Fes, Maroc, 19-21 avril, 2004.
[116] S. Geva, J. Kamps, and A. Trotman (Eds.). INEX 2010 pre-proceedings, initia-
tive for the evaluation of XML documents. Huize Bergen, Vught, the Netherlands,
December 2010.
[117] M. Ghazizadeh, M. H. Zahedi, M. Kahani, and B. Minaei Bidgoli. Fuzzy expert
system in determining hadith validity. In Advances in Computer and Information
Sciences and Engineering : Proceedings of the International Conference on Systems,
Computing Sciences and Software Engineering (SCSS 2007), pages 354–359, Brid-
geport, USA, December 3-12, 2008.
[118] M. Gilens and C. Hertzman. Corporate ownership and news bias : Newspaper
coverage of the 1996 Telecommunications Act. The Journal of Politics, 62(2) :369–
386, 2000.
[119] C. Ginzburg. Traces : Racines d’un paradigme indiciaire. In Mythes, Emblèmes,
Traces, Morphologie et histoire, pages 139–180. Flammarion, Paris, 1989.
[120] A. Gomez-perez. Développements récents en matière de conception, de maintenance
et d’utilisation des ontologies. Terminologies Nouvelles, 19 :9–20, 1999.
[121] T. Gruber. A translation approach to portable ontology specifications. Knowledge
Acquisition, 5(2) :199–220, 1993.
[122] T. Gruber, S. Vemuri, and J. Rice. Model-based virtual document generation.
International Journal of Human-Computer Studies, Special issue : innovative appli-
cations of the World Wide Web, 46(6), 1997.
[123] N. Guarino and P. Giaretta. Ontologies and knowledge bases, towards a termino-
logical clarification. In N. J. I. Mars, editor, Towards very large knowledge bases :
knowledge building and knowledge sharing, pages 25–32. IOS Press, 1995.
[124] J. Guyot, S. Radhouani, and G. Falquet. Conceptual indexing for multilingual
information retrieval. Lecture Notes in Computer Science, 4022 :102–112, 2005.
[125] N. Habash and O. Rambow. Arabic tokenization, morphological analysis, and part-
of-speech tagging in one fell swoop. In The Proceedings of the Conference of Ame-
rican Association for Computational Linguistics (ACL), pages 573– 580, University
of Michigan, Ann Arbor, USA, June 25-30, 2005.
[126] N. Habash and O. Rambow. Arabic diacritization through full morphological tag-
ging. In The Proceedings of the North American chapter of the Association for Com-
putational Linguistics (NAACL), pages 53–56, Rochester, New York, USA, 2007.
[127] N. Habash, O. Rambow, and R. Roth. MADA + TOKAN : A toolkit for arabic toke-
nization, diacritization, morphological disambiguation, POS tagging, stemming and
lemmatization. In The Proceedings of the 2nd International Conference on Arabic
Language Resources and Tools (MEDAR), pages 102–109, Cairo, Egypt, 2009.
[128] J. Hajic, O. Smrz, T. Buckwalter, and H. Jin. Feature-based tagger of approxima-
tions of functional arabic morphology. In The Fourth Workshop on Treebanks and
Linguistic Theories, pages 53–64, University of Barcelona, Spain, December 9-10,
2005.
[129] M. T. Hannan, L. Pólos, and G. R. Carroll. Logics of Organization Theory : Au-
diences, Codes, and Ecologies. Princeton University Press, Princeton, 2007.

159
BIBLIOGRAPHIE

[130] B. Haouari, N. Ben Amor, Z. Elouedi, and K. Mellouli. Naı̈ve possibilistic network
classifiers. Fuzzy Sets and Systems, 160(22) :3224–3238, 2009.
[131] F. Harrag, E. El-Qawasmeh, and P. Pichappan. Improving arabic text categoriza-
tion using decision trees. In First International Conference on Networked Digital
Technologies (NDT’09), Ostrava, Czech Republic, July 29 - 31, 2009.
[132] F. Harrag and A. Hamdi-Cherif. UML modeling of text mining in arabic language
and application to prophetic traditions ”hadith”. In Proc. of 1st Int. Symp. on
Computers and Arabic Language, pages 11–20, Riyadh, Arabie Saudite, November
10-12, 2008.
[133] F. Harrag, A. Hamdi-Cherif, A. M. S. Al-Salman, and E. El-Qawasmeh. Experiments
in improvement of arabic information retrieval. In 3rd International Conference on
Arabic Language Processing (CITALA), Rabat, Morocco, May 4-5, 2009.
[134] Z. Harris. Mathematical Structures of Language. John Wiley & Sons, New-York,
1968.
[135] T. Z. Hasanain. Automatic question answering system for arabic language textual
data. Master’s thesis, Faculty of Computing and Information Technology, Arabie
Saoudite 2009.
[136] M. Hattab, B. Haddad, M. Yaseen, A. Duraidi, and A. Abu Shmais. Addaall arabic
search engine : Improving search based on combination of morphological analysis
and generation considering semantic patterns. In Proceedings of the 2nd Interna-
tional Conference on Arabic Language Resources & Tools, pages 159–162, Cairo,
Egypt, April 22-23, 2009.
[137] M. Hazman, S. R. El-Beltagy, and A. Rafea. Ontology learning from domain speci-
fic web documents. International Journal of Metadata, Semantics and Ontologies,
4(1/2) :24 – 33, 2009.
[138] T. Helmy and A. Daud. Intelligent agent for information extraction from arabic text
without machine translation. In Proceedings of the 1st International Workshop on
Cross-Cultural and Cross-Lingual Aspects of the Semantic Web, volume 1, Shanghai,
China, November 7-8, 2010.
[139] T. Herrmann, M. Hoffmann, G. Kunau, and K.-U. Loser. A modeling method for
the development of groupware applications as socio-technical systems. Behaviour &
Information Technology, 23(2) :23, 2004.
[140] S. Iksal and S. Garlatti. Spécification déclarative pour des documents virtuels per-
sonnalisables. In Actes du congrès Documents Virtuels Personnalisables (DVP),
pages 127–140, Brest, France, 2002.
[141] J. Quinlan. C4.5 : Programs for machine learning. San Francisco : Morgan Kauf-
mann, 1993.
[142] C. Jacquemin. Variation terminologique : Reconnaissance et acquisition automa-
tiques de termes et de leurs variantes en corpus. Thèse d’habilitation, Université
de Nantes, France, 1997.
[143] X. Jiang and A.-H. Tan. CRCTOL : A semantic-based domain ontology learning
system. Journal of the American Society for Information Science and Technology
(JASIST), 61(1) :150–168, 2010.
[144] M. R. Kala Jih and H. S. Knibi. Dictionary of Jurists- language. Dar Ennafeis,
Beirut, Libanon, 2nd edition, 1988.

160
BIBLIOGRAPHIE

[145] F. Kboubi. Médiation et Navigation Sémantiques dans un Corpus Textuel an-


noté conceptuellement et thématiquement. Thèse de doctorat, École Nationale des
Sciences de l’Informatique, Université de la Manouba, Tunisie, 2010.
[146] S. Khoja. Khoja arabic stemmer. http://zeus.cs.pacificu.edu/shereen/
research.htm, 2001.
[147] D. Klein and C. D. Manning. Accurate unlexicalized parsing. In The 41st Meeting
of the Association for Computational Linguistics, pages 423–430, Sapporo, Japan,
July 7-12, 2003.
[148] D. Klein and C. D. Manning. Fast exact inference with a factored model for natural
language parsing. In Proceedings of the 16th Annual Conference on Advances in
Neural Information Processing Systems (NIPS), volume 15, pages 3–10, Cambridge,
MA, December 9-11, 2003.
[149] S. Knight and J. Burn. Developing a framework for assessing information quality
on the world wide web. Informing Science Journal, 8 :59–73, 2005.
[150] H. W. Kuhn. Variants of the hungarian method for assignment problems. Naval
Research Logistics Quarterly, 3(4) :253–258, 1956.
[151] C.-V. Langlois and C. Seignobos. Introduction aux études historiques. Paris : Kimé,
1992.
[152] L. Larkey, N. Abdul Jaleel, and M. Connell. What’s in a name ? proper names in
arabic cross language information retrieval. Technical report, Center for Intelligent
Information Retrieval (CIIR), Massachusetts, USA, IR-278, 2003.
[153] L. S. Larkey, L. Ballesteros, and M. E. Connell. Improving stemming for arabic infor-
mation retrieval : Light stemming and cooccurrence analysis. In The 25th Annual
International Conference on Research and Development in Information Retrieval
(SIGIR), pages 275–282, Tampere, Finland, August 11-15, 2002.
[154] O. Le Deuff. Folksonomies : Les usagers indexent le web. Bulletin des Bibliothèques
de France (BBF), 4 :66–70, 2006.
[155] X. Lelubre. A scientific arabic terms data base : Linguistic approach for a represen-
tation of lexical and terminological features. In ACL 39th Annual Meeting, pages
66–72, Toulouse, France,July 9-11, 2001.
[156] C. A. Lynch. When documents deceive : Trust and provenance as new factors
for information retrieval in a tangled web. Journal of the American Society for
Information Science and Technology, 52(1) :12–17, 2001.
[157] M. Frisse. Searching for information in a hypertext medical handbook. Communi-
cation of the ACM, 31(7) :880–886, 1988.
[158] M. Maamouri, A. Bies, J. Hubert, and T. Buckwalter. Arabic treebank : Part
1 v 2.0. http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=
LDC2003T06, 2003.
[159] M. Maamouri, A. Bies, S. Kulick, F. Gaddeche, W. Mekki, S. Krouna, and B. Bou-
ziri. Arabic treebank : Part 3 v 3.0. http://www.ldc.upenn.edu/Catalog/docs/
LDC2009T24/treebank/arabic-treebank-readme-1.htm, 2008.
[160] G. Madey, V. Freeh, and R. Tynan. Modeling the f/oss community : A quantitative
investigation. In S. Koch, editor, Free/Open Source Software Development. New
York, USA : Idea Publishing, 2004.

161
BIBLIOGRAPHIE

[161] V. Malaisé. Méthodologie linguistique et terminologique pour la structuration d’on-


tologies différentielles à partir de corpus textuels. Thèse de doctorat, Université
Paris 7 - Denis Diderot, France, 2005.
[162] M. T. Maliappis. Applying an agricultural ontology to web-based applications.
International Journal of Metadata, Semantics and Ontologies, 4(1-2) :133–140, 2009.
[163] Z. Marx, I. Dagan, and E. Eli Shamir. A generalized framework for revealing ana-
logous themes across related topics. In Proceedings of the Conference on Human
Language Technology and Empirical Methods in Natural Language Processing, pages
979 – 986, Vancouver, British Columbia, Canada, October 6-8, 2005.
[164] S. Mesfar. Analyse morpho-syntaxique automatique et reconnaissance des entités
nommées en arabe standard. Thèse de doctorat, Université Franche-Comté, France,
2008.
[165] R. Mihalcea and R. Radev. Graph-based algorithms for information retrieval and
natural language processing. In Recent Advances in Natural Language Processing
(RANLP), Borovetz, Bulgaria, September, 2005.
[166] M. Missikoff, P. Velardi, and P. Fabriani. Text mining techniques to automatically
enrich a domain ontology. Applied Intelligence, 18(3) :323–340, 2003.
[167] R. Mizoguchi and J. Bourdeau. Le rôle de l’ingénierie ontologique dans le domaine
des EIAH. Revue des Sciences et Technologies de l’Information et de la Communi-
cation pour l’Education et la Formation (STICEF), 11, 2004.
[168] S. Mizzaro. Relevance : the hole history. Journal of the American Society for
Information Science, 48(9) :810–832, 1997.
[169] C. Mokbel, H. Greige, C. Sarraf, and M. Kurimo. Arabic documents indexing and
classification based on latent semantic analysis and self-organizing map. In The
IEEE Workshop on Natural Langage Processing in Arabic, Beirut, Lebanon, June,
2001.
[170] F. Moreau. Revisiter le couplage traitement automatique des langues et recherche
d’information. Thèse de doctorat, Université de Rennes 1, France, 2004.
[171] J. Munkres. Algorithms for the assignment and transportation problems. SIAM
Review, 5(1) :32–38, 1957.
[172] N. Fuhr. Probabilistic models in information retrieval. The Computer Journal,
35(3) :243–255, 1992.
[173] F. Naumann and C. Rolker. Assessment methods for information quality criteria.
In Proceedings of the International Conference on Information Quality (IQ), pages
396–403, Cambridge, MA, USA, October 20-22, 2000.
[174] M. E. J. Newman. The structure and function of complex networks. SIAM Review,
45(2) :167–256, 2003.
[175] Z. Noorian and M. Ulieru. The state of the art in trust and reputation systems : A
framework for comparison. Journal of Theoretical and Applied Electronic Commerce
Research (JTAER), 5(2) :97–117, 2010.
[176] D. Oberle, R. Volz, B. Motik, and S. Staab. An extensible ontology software envi-
ronment. In S. Staab and R. Studer, editors, Handbook on Ontologies, chapter 3,
pages 311–333, 2004, Springer-Berlin.

162
BIBLIOGRAPHIE

[177] P. Pantel, E. Crestan, A. Borkovsky, A.-M. Popescu, and V. Vyas. Web-scale distri-
butional similarity and entity set expansion. In Proceedings of the 2009 Conference
on Empirical Methods in Natural Language Processing, pages 938–947, Singapore,
August 6-7, 2009.
[178] P. Pantel and D. Ravichandran. Automatically labeling semantic classes. In Procee-
dings of North American Chapter of the Association for Computational Linguistics -
Human Language Technologies (HLT/NAACL), pages 321–328, Boston, MA, USA,
May 2-7, 2004.
[179] G. Paquette, I. de la Teja, K. Lundgren-Cayrol, M. Léonard, and D. Ruelland. La
modélisation cognitive, un outil de conception des processus et des méthodes d’un
campus virtuel. Journal of distance education, 17(3) :4–28, 2002.
[180] M. Parker, C. Stofberg, and R. De la Harpe. Data quality : how the flow of data
influences data quality in a small to medium medical practice. In Community Infor-
matics for Developing Countries : Understanding and organizing for a participatory
future information society, Cape Town, South Africa, August, August 31 - Septem-
ber 02, 2006.
[181] M. T. Pazienza, M. Pennacchiotti, and F. M. Zanzotto. Terminology extraction : An
analysis of linguistic and statistical approaches. In S. Sirmakessis, editor, Knowledge
Mining Series : Studies in Fuzziness and Soft Computing, pages 255–279. Berlin,
Heidelberg : Springer, 2005.
[182] J. Pearl. Probabilistic reasoning in intelligent systems : networks of plausible infe-
rence. Morgan Kaufmann, San Francisco, California, 1988.
[183] F. Peguiron and O. Thiery. Modélisation des acteurs, des ressources documentaires :
application à un entrepôt universitaire. In Colloque Veille Stratégique, Scientifique
et Technologique (VSST), Lille, France, 16-17 Janvier, 2006.
[184] V. Piek, W. Peters, and J. Gonzalo. Towards a universal index of meaning. In
Proceedings of the ACL-99 Siglex workshop, pages 81–90, University of Maryland,
USA, June, 1999.
[185] D. Pinto, P. Rosso, Y. Benajiba, A. Ahachad, and H. Jiménez-salazar. Word sense
induction in the arabic language : A self-term expansion based approach. In Pro-
ceedings of the 7th Conference. on Language Engineering, The Egyptian Society Of
Language Engineering (ESOLE), pages 235–245, Cairo, Egypt, December 5-6, 2007.
[186] Y. Portrait. Modélisation de la structure du langage. Rap. tech., Institut de Re-
cherche en Informatique de Toulouse (IRIT), France, 2003.
[187] H. Prade and C. Testemale. Application of possibility and necessity measures to
documentary information retrieval. In R. Bouchon, B. Yager, editors, Uncertainty
in Knowledge-Based Systems, pages 265–274. Berlin, Springer-Verlag, 1987.
[188] Z. Qawaqneh, E. El-Qawasmeh, and A. Kayed. New method for ranking arabic
web sites using ontology concepts. In Proceedings of Sixth International Conference
on Digital Information Management, pages 649–656, The University of Melbourne,
Australia, September 26-28, 2007.
[189] J. R. Quinlan. Introduction to decision trees. Machine Learning, 1(1) :81–106, 1986.
[190] K. Rajaraman and A.-H. Tan. Mining semantic networks for knowledge discovery.
In Proceedings of the 3rd IEEE International Conference on Data Mining, pages
633–636, Washington, DC, USA, November 19-22, 2003.

163
BIBLIOGRAPHIE

[191] S. Ranwez and M. Crampes. Conceptual document and hypertext documents are
two different forms of virtual document. In Workshop on Virtual Document, Hy-
pertext Functionality and the Web, pages 35–44, Toronto, May 11, 1999.
[192] E. Ravasz and A. L. Barabasi. Hierarchical organisation in complex networks.
Physical Review E, 67 :026112-026118, 2003.
[193] M. Richardson, R. Agrawal, and P. Domingos. Trust management for the semantic
web. Lecture Notes in Computer Science, 2870 :351–368, 2003.
[194] S. Y. Rieh. Judgment of information quality and cognitive authority in the
web. Journal of the American Society for Information Science and Technology,
53(2) :145–161, 2002.
[195] H. Rodriguez, D. Farwell, J. Farreres, M. Bertran, M. Alkhalifa, and M. A. Marti.
Arabic WordNet : Semi-automatic extensions using bayesian inference. In Procee-
dings of the the 6th Conference on Language Resources and Evaluation (LREC),
pages 1702–1706, Marrakech, Morocco, May 17-23, 2008.
[196] M. Romney and G. W. Romney. Security & reliability are provided by a web-
based classroom electronic document management process. In Proceedings of the
6th International Conference on Information Technology Based Higher Education
and Training (ITHET), pages T3A/1 – T3A/4, Piscataway, USA : IEEE, July 7-9,
2005.
[197] R. Roth, O. Rambow, N. Habash, M. T. Diab, and C. Rudin. Arabic morphological
tagging, diacritization, and lemmatization using lexeme models and feature ranking.
In Proceedings of Association for Computational Linguistics (ACL), pages 117–120,
Columbus, Ohio, June 15-20, 2008.
[198] L. Saadani and S. Bertrand-Gastaldy. Cartes conceptuelles et thésaurus : essai de
comparaison entre deux modèles de représentation issus de différentes traditions
disciplinaires. In congrès des sciences sociales et humaines du Canada, Université
d’Alberta Edmonton, Alberta, Canada, 28-30 Mai, 2000.
[199] M. Sahami. Learning limited dependence bayesian classifiers. In Proceedings of the
2nd International Conference on Knowledge Discovery and Data Mining (KDD),
pages 335–338, Portland, August 2-4, 1996.
[200] G. Salton and M. J. McGill. Introduction to modern information retrieval. McGraw-
Hill, Inc., New York, USA, 1986.
[201] L. Schamber, M. Eisenberg, and S. M. Nilan. A re-examination of relevance to-
ward a dynamic, situational definition. Information Processing and Management,
26(6) :755–776, 1990.
[202] F. Scharffe. Croisements sémantiques dans les graphes petits mondes. Thèse de
doctorat, Université Paul Sabatier Toulouse III, Toulouse, France, 2004.
[203] K. Shaalan and H. Raza. Person name entity recognition for arabic. In Proceedings
of the Workshop on Computational Approaches to Semitic Languages, pages 17–24,
Prague, Czech Republic, June 28-29, 2007.
[204] K. Shaalan and H. Raza. NERA : Named entity recognition for arabic. Journal
of the American Society for Information Science and Technology, 60(8) :1652–1663,
2009.
[205] G. Shafer. A mathematical theory of evidence. Princeton University Press, 1976.

164
BIBLIOGRAPHIE

[206] T. Slimani, B. Ben Yaghlane, and K. Mellouli. SSERank : semantic search engine
for page ranking based on the relations weight. International Journal of Metadata,
Semantics and Ontologies, 5(1) :72 – 84, 2010.
[207] F. Smadja, K. R. McKeown, and V. Hatzivassiloglou. Translating collocations for
bilingual lexicons : a statistical approach. Computational Linguistics, 22(1) :1–38,
1996.
[208] J. P. Spradley. The Ethnographic Interview. New York : Holt, Rinehart and Winston,
1979.
[209] B. Stvilia. A workbench for information quality evaluation. In Proceedings of the 8th
ACM/IEEE-CS Joint Conference on Digital libraries, page 469, Pittsburgh, USA,
June 16-20, 2008.
[210] B. Stvilia, L. Gasser, M. B. Twidale, and L. C. Smith. A framework for information
quality assessment. Journal of the American Society for Information Science and
Technology, 58(12) :1720–1733, 2007.
[211] S. Tazi and Y. Altawki. Création de documents virtuels : Cas des support de cours.
In Atelier Documents Virtuels Personnalisables : De la Définition à l’Utilisation,
11ème Conférence Francophone sur l’Interaction Homme-Machine (IHM), Mont-
pellier, France, 22-26 Novembre, 1999.
[212] C. Tricot. Cartographie des connaissances, des connaissances à la carte. Thèse de
doctorat, Université de Savoie, France, 2006.
[213] M. Uschold and M. King. Towards a methodology for building ontologies. In
Workshop on Basic Ontological Issues in Knowledge Sharing, International Joint
Conferences on Artificial Intelligence (IJCAI), Montréal, Canada, August 20-25,
1995.
[214] C. V. van Rijsbergen. Information Retrieval. 2nd Edition. London, Boston : But-
terworth, 1979.
[215] P. Velardi, M. Missikof, and P. Fabriani. Using text processing techniques to au-
tomatically enrich a domain ontology. In 2nd International Conference on Formal
Ontology in Information Systems (ACM FOIS), pages 270–284, Ogunquit, Maine,
USA, October 17-19, 2001.
[216] G. Vignaux. La recherche d’information : Panorama des questions et des recherches.
Rap. tech., Paris : CNRS-MSH, 2005.
[217] P. Viola and M. Narasimhand. Learning to extract information from semi-structured
text using a discriminative context free grammar. In Proceedings of the 28th Annual
International ACM SIGIR Conference on Research and Development in Information
Retrieval, pages 330–337, Salvador, Brazil, August 15-19, 2005.
[218] C. Watters and M. Shepherd. Research issues for virtual documents. In Workshop
on Virtual Document, Hypertext Functionality and the Web, pages 1–10, Toronto,
Canada, May 11, 1999.
[219] D. J. Watts and S. H. Strogatz. Collective dynamics of ”small-world” networks.
Nature, 393(3) :440–442, 1998.
[220] E. Wenger. Communities of Practice : Learning, Meaning and Identity. Cambridge
University Press, 1998.
[221] W. Woods. What’s in a Link : Foundations for Semantic Networks. Bolt, Beranek
and Newman, 1975.

165
BIBLIOGRAPHIE

[222] Y. Xu and Z. Chen. Relevance judgment : What do information users consider


beyond topicality ? Journal of the American Society for Information Science and
Technology, 57(7) :961–973, 2006.
[223] A. Yousfi, H. Aouragh, and J. Allal. Modèle p-contexte de classe pour la génération
automatique des phrases arabes. In Proceedings of the International Conference
on Web and Information Technologies (ICWIT), pages 170–174, Sidi Bel Abbes,
Algeria, June 29-30, 2008.
[224] Y. Yusoff, R. Ismail, and Z. Hassan. Adopting hadith verification techniques in to
digital evidence authentication. Journal of Computer Science, 6(5) :484–489, 2010.
[225] M. Zacklad. Introduction aux ontologies sémiotiques dans le web socio sémantique.
In 16èmes Journées Francophones d’Ingénierie des Connaissances, Grenoble : PUG,
1-3 Juin, 2005.
[226] M. Zacklad. Classification, thésaurus, ontologies, folksonomies : comparaisons du
point de vue de la recherche ouverte d’information (ROI). In 35ème Congrès annuel
de l’Association Canadienne des Sciences de l’Information. Partage de l’information
dans un monde fragmenté : Franchir les frontières (CAIS/ACSI 2007), Montréal,
Canada, 10-12 Mai, 2007.
[227] M. Zacklad. Processus de documentarisation dans les documents pour l’action
(DopA). In Actes du colloque ”Le numérique : impact sur le cycle de vie du docu-
ment”, pages 1–28, Montréal, Québec, 13-15 Octobre, 2004.
[228] M. Zacklad, A. Bénel, L. Zaher, C. Lejeune, J.-P. Cahier, and C. Zhou. Hypertopic :
une métasémiotique et un protocole pour le web socio-sémantique,. In Actes des
18ème Journées Francophones d’Ingénierie des Connaissances (IC), pages 217–228,
Grenoble, 4-6 Juillet, France, 2007.
[229] M. Zacklad, J.-P. Cahier, and X. Pétard. Du web cognitivement
sémantique au web socio sémantique - exigences représentationnelles de la
coopération. http://www.zacklad.org/articles_web_socio_semantique/
diapowebsemantiqueetSHS.pdf, 2008.
[230] M. Zacklad, J. Caussanel, and J.-P. Cahier. Proposition d’un méta-modèle basé
sur les topic maps pour la structuration et la recherche d’information. In Journées
Scientifiques Web sémantique, Ivry, France, 10-11 Octobre, 2002.
[231] L. A. Zadeh. Fuzzy sets. Information and control, 8(3) :338–353, 1965.
[232] L. A. Zadeh. Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems,
1(1) :3–28, 1978.
[233] L. Zaher, J.-P. Cahier, C. Lejeune, and M. Zacklad. Construction coopérative de
carte de thèmes : vers une modélisation de l’activité socio-sémantique. In Extraction
et Gestion des Connaissances (EGC 2007), pages 57–68, Namur, Belgique, 23-26
Janvier, 2007.
[234] S. Zaidi and M. T. Laskri. A cross-language information retrieval based on an
arabic ontology in the legal domain. In Proceedings of the International Confe-
rence on Signal-Image Technology and Internet-Based Systems (SITIS), pages 86–
91, Yaoundé, Cameroun, November 27 - December 1, 2005.
[235] X. Zhu and S. Gauch. Incorporating quality metrics in centralized/distributed in-
formation retrieval on the world wide web. In Proceedings of the 23rd Annual In-
ternational ACM SIGIR Conference on Research and development in information
retrieval, pages 288–295, New York, USA, July 24-28, 2000.

166
BIBLIOGRAPHIE

[236] I. Zitouni, J. Sorensen, X. Luo, and R. Florian. The impact of morphological stem-
ming on arabic mention detection and coreference resolution. In Proceedings of the
ACL Workshop on Computational Approaches to Semitic Languages (ACL), pages
63–70, Michigan, USA, June 25-30, 2005.
[237] N. Zniber and C. Cauvet. Des composants aux services pédagogiques. In Tech-
nologies de l’Information et de la Communication pour l’Enseignement (TICE
Méditerranée), pages 1–10, Marseille, France, 31 Mai - 2 Juin, 2007.
[238] A. Zouaghi and M. Zrigui. Considération du contexte pertinent pour améliorer les
performances d’un étiqueteur sémantique de la parole arabe spontanée. In Ren-
contres Jeunes Chercheurs (RJC), Toulouse , France, 27-28 Septembre, 2005.
[239] P. Zweigenbaum and N. Grabar. Liens morphologiques et structuration de termi-
nologie. In Actes des Journées Francophones d’Ingénierie des Connaissances (IC),
pages 325–334, Toulouse, France, 10-12 Mai, 2000.

167
Annexes

168
Annexe A
Implémentation de l’analyseur de
textes semi-structurés et exemple
d’application

Cette annexe présente un exemple de document réel (voir section 1) avec les étapes de
son analyse. Après avoir présenté notre analyseur générique de textes semi-structurés dans
la section 2, nous présentons les grammaires hors contexte obtenues avec cet outil lors de
l’analyse des hadiths. Nous illustrons l’utilisation de ces grammaires par des résultats sur
notre exemple de référence (voir section 3).

1 Exemple de document de référence


La Figure A.1 présente le document que nous allons utiliser pour illustrer les différentes
étapes de notre processus de cartographie. Le document contient le titre du chapitre de

purification ( èPAê¢Ë@ H 
 . A J»), un verset mis entre accolades, le titre d’un sous-chapitre (
¼AJ‚
­J
» H. AK.), un hadith représenté par son numéro (3), sa chaı̂ne de narrateurs et son

Ë B@  ÈA¯ ).
contenu et un commentaire indiquant que le hadith est fiable ( iJ
m• . qJ
‚Ë@
ú
GAJ

Pour simplifier l’analyse, le document est modifié en remplaçant l’expression ” é <Ë@ ÈñƒP
Õ΃ð éJ
Ê« é<Ë@ úΓ” par ” ÈñƒQË@”.

2 Un analyseur générique de textes semi-structurés


Cet outil permet d’apprendre des grammaires hors contexte et de les utiliser pour
analyser des textes semi-structurés [54]. Il est basé sur le package Chaperon 1 qui se dis-
tingue par l’utilisation du langage XML pour représenter la grammaire, le lexique et le
résultat d’analyse. Notre outil est composé de trois modules comme illustré par la Fi-
gure A.2. Après avoir intégré Chaperon, nous avons développé une interface graphique
permettant à l’utilisateur de segmenter le texte, d’étiqueter ses blocks et de les regrouper
d’une manière hiérarchique. Le composant d’apprentissage assure la communication entre
cette interface et Chaperon. Dans les sous-sections suivantes, nous détaillerons les deux
composants que nous avons développés.
1. http://sourceforge.net/projects/chaperon

169
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

Figure A.1 – Exemple de document et sa traduction en français.

Figure A.2 – Architecture de l’analyseur de textes semi-structurés.

2.1 L’interface graphique


Cette interface (illustrée par la Figure A.3) implémente des mécanismes qui permettent
d’accélérer le travail de l’utilisateur lors de l’apprentissage semi-automatique. Ses princi-
pales fonctionnalités sont :
– Segmentation du texte à analyser par simple clic.

170
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

– Etiquetage et groupement manuels de blocs.


– Etiquetage et groupement automatique de blocs.
– Modification et enregistrement des lexiques et des grammaires.
– Test des grammaires apprises.

Figure A.3 – L’interface graphique de l’analyseur de textes semi-structurés.

Nous illustrons ces opérations par les exemples suivants. Soit le texte suivant à analy-
ser : ” YK
P áK
. XAÔg” (Ahmed ibn Zeyd). En cliquant dans la zone de texte juste après le
mot ” XAÔg” (Ahmed), ce dernier est chargé dans la zone ”Mot courant ”. L’utilisateur peut
cliquer sur la liste des terminaux pour choisir ou définir le nouveau terminal (voir Figure
A.4 (a)). S’il clique sur ”Nouveau”, une nouvelle interface s’affiche pour lui permettre de
saisir le nouveau terminal (voir Figure A.4 (b)). Les éléments analysés sont ajoutés dans
la liste des résultats (voir Figure A.4 (c)). En effet, nous obtenons deux blocs étiquetés

171
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

(c)
(a) (b)

Figure A.4 – Exemple d’analyse lexicale.

”ism” ( XAÔg et YK
P ) et un bloc étiqueté ”ibn” ( áK
. ).
La Figure A.5 illustre le lexique au format XML appris suite à ces interactions.

Figure A.5 – Exemple de lexique.

L’utilisateur peut ensuite regrouper deux ou plusieurs éléments pour inférer les règles
de la grammaire. Il commence par sélectionner les éléments dans la liste, puis il utilise la
liste déroulante pour définir un nouveau non-terminal (voir Figure A.6(a)). Les éléments
sont regroupés comme illustré par la Figure A.6(b).
Après avoir regroupé tous les éléments, nous obtenons la grammaire au format XML
illustrée par la Figure A.7. Cette grammaire est composée de deux règles représentées
par la balise ”production” et un symbole de départ (start symbol=”Acteur”. Elle permet
donc de reconnaı̂tre la structure du nom d’un acteur.

(b)

(a)
Figure A.6 – Exemple de regroupement.

172
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

Figure A.7 – Exemple de grammaire.

(a) (b)

Figure A.8 – Exemple d’analyse semi-automatique.

Après l’étape d’apprentissage, l’utilisateur peut tester la grammaire sur d’autres exem-
ples. Prenons le nom suivant : ” XAÔg áK . YK
P ” (Zeyd ibn Ahmed). L’utilisateur peut lancer
l’analyse semi-automatique en spécifiant le nombre maximum d’éléments à regrouper dans
la liste ”Itérer” comme affiché par la Figure A.8(a). L’interface peut proposer des labels à
des blocs simples ou des groupements possibles applicables à un ensemble de blocs (voir
Figure A.8(b)).
L’utilisateur peut aussi lancer une analyse automatique complète en appuyant sur le
bouton ”Tester”. L’outil affiche le résultat de l’analyse au format XML (voir Figure A.9).

2.2 Le composant d’apprentissage


Ce composant permet d’extraire les informations à partir des fichiers des lexiques et
des grammaires. Il permet aussi de mettre à jour ces fichiers en ajoutant des lexèmes ou
des règles. Pour ce faire, il accède aux structures de données de Chaperon afin d’effectuer
les tâches suivantes :
– Extraire les entrées du lexique et les règles de la grammaire.
– Formater le lexique et la grammaire au format texte lisible par l’utilisateur.

173
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

Figure A.9 – Exemple de résultat d’analyse.

– Extraire la liste des terminaux et des non-terminaux à partir du lexique et des règles.
– Ajouter un lexème suite à un étiquetage manuel.
– Ajouter une règle suite à un regroupement manuel.
– Identifier le label d’un bloc pour le proposer à l’utilisateur.
– Etant donnée une liste de terminaux et de non-terminaux, identifier la règle qui doit
être appliquée et retourner le non-terminal approprié.

3 Analyse automatique des hadiths et reconnaissance


des entités nommées
Afin d’illustrer le processus d’analyse, nous présentons les grammaires apprises pour
reconnaı̂tre la structure des livres du hadith avec leur application sur notre document
de référence. L’usage de ces grammaires (voir les sections 3.1 à 3.8), fait l’objet d’une
évaluation qui consiste à calculer le taux d’intervention lors de l’apprentissage semi-
automatique (voir section B.3.9).

3.1 La grammaire des versets


L’identification des versets coraniques est relativement simple. En effet, dans les do-
cuments que nous avons utilisés, les versets sont encadrés par des accolades. La règle
suivante permet de modéliser cette structure :

Aya → expr aya ?, acc, words, accFer

Cette règle considère un verset comme une suite de mots (words) délimités par une
accolade ouvrante ”{” et une accolade fermante ”}”. Un verset peut être précédé par une
 
expression (expr aya) du genre ” é<Ë@ ÈA¯” (Dieu a dit). Dans certains livres, les versets sont
suivis par leurs références exactes dans le Coran. Nous pouvons citer la règle suivante :

RefAya → crochet, numero, nomSurat, numero, crochetFer

Cette règle représente la référence à un verset qui est délimitée par deux crochets (cro-
chet et crochetFer ). Elle est constituée du nom de la surate (nomSurat), de son numéro

174
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

et du numéro du verset dans cette surate.

En appliquant la grammaire des versets à notre document de référence, nous obtenons


le résultat illustré par la Figure A.10. En effet, le verset est remplacé par un code qui
pointe vers sa structure au format XML stockée dans un autre fichier.

Figure A.10 – Exemple de document après identification des versets.

3.2 La grammaire des noms propres arabes


La Figure A.11 présente les principales règles de cette grammaire :

Figure A.11 – Les principales règles de la grammaire des noms propres arabes [50].

En effet, nous considérons qu’un nom arabe est composé de sous-éléments notés ”sub-
Name” qui représentent ses composantes. Remarquons que nous distinguons le terminal
”ism” (avec la première lettre en minuscule) qui correspond à un prénom composé d’un
seul mot du non-terminal ”Ism” (avec la première lettre en majuscule) qui est composé
d’une série de prénoms précédée par le terminal ”ismouh”. La même remarque est valable
pour les terminaux ”laqab” et ”nisba” pour lesquels nous retrouvons les non-terminaux
”Laqab” et ”nisba”, respectivement. Le tableau A.1 explique les autres terminaux de cette
grammaire.
La Figure A.12 illustre le résultat d’analyse du document de référence. Les noms des
acteurs sont remplacés par des codes pointant vers leurs structures au format XML.

175
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

Terminal Signification (exemples)


separator

Expressions comme ” éË ÈA®K
” (il est appelé) et la ponctuation qui sépare
les composantes du nom.
kownAs
Expressions comme ” H
 ” (Son surom
. ¬ðQªÖÏ @” (connu par) et ” éJ. ®Ëð
est) qui précèdent le laqab ou la konia.
aw
La conjonction ” ð @” (ou) utilisée quand il y a un doute sur la nisba d’un

narrateur. Par exemple l’expression ” ú¯ñºË@ ð @ ø Qå”J.Ë@” (Al-basri ou Al-

koufi) signifie que l’origine du narrateur est Al-basra ou Al-koufa (deux


villes en Iraq)
wa
La conjonction ”ð” (et) qui indique que le narrateur a plus qu’une origine

(nisba). Par exemple, ” ú¯ñºË@ð ø Qå”J. Ë@ ” (Al-basri et Al-koufi) signifie

que le narrateur a vécu dans les deux villes (Al-basra et Al-koufa).


thoumma
La particule ” Õç' ” (puis) indique que le narrateur a vécu dans deux en-

droits. Par exemple, l’expression ” ú¯ñ º Ë@ Õç' ø Qå” J. Ë@ ” (Al-basri puis

Al-koufi) signifie que le narrateur a vécu dans Al-basra puis s’est déplacé
à Al-koufa
Abou and
Om Les mots ”ñK. @” et ” Ð @” qui apparaı̂ssent dans la konia.
ibn

. @” et ” I K.” qui précèdent le nom du père.
Les mots ” áK
ismouh
Expressions comme ” éÖޅ @ð” (et son prénom est) utilisées pour spécifier
le prénom.
Mawla
Les expressions qui indiquent le nom du maı̂tre comme ” úÍñÓ”.

Tableau A.1 – Terminaux de la grammaire des noms propres arabes.

3.3 La grammaire des chaı̂nes de narrateurs


Cette grammaire tient compte des problèmes reliés aux manières de transmission des
noms de narrateurs que nous avons discutés dans la section 3 (page 92). Nous avons aussi
traité le cas des chaı̂nes composées de sous-chaı̂nes comme indiqué dans la Figure A.13.
Dans ce cas, les deux sous-chaı̂nes sont séparées par le caractère ” h ” représenté dans
notre grammaire par ”HaCharacter”.
La deuxième règle de cette figure définit une chaı̂ne comme composée de plusieurs
éléments désignés par ”riwaya”. Une ”riwaya” est composée d’un verbe indiquant la
manière de transmission et d’une référence à un narrateur. En effet, l’étape d’appren-
tissage nous a permis de définir des règles pour les différentes formes de narration. Ces
règles combinent des prépositions, des verbes de transmission et des noms de personnes
pour constituer des blocs étiquetés ”riwaya”. Nous rapportons dans le tableau A.2 des
exemples de règles avec les exemples correspondants.

176
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

Figure A.12 – Exemple de document après identification des acteurs.

Figure A.13 – Exemples de règles de la grammaire des chaı̂nes de narrateurs.

Règle Exemple
Riwaya → tahamoul , rawi , kala ÈA¯ Q
K. QË@ áK . é<Ë@ YJ.« ø
YJ
ÒmÌ '@ AJ KYg
áK . áÔ gQË@ YJ.« à @
Riwaya → anna ,rawi , tahamoulEnd éKYg h. Q« B@ QÓQë

Riwaya → An, rawi , anna , kala ÈA¯ éK @ ø
QëQË@ á«

Tableau A.2 – Exemples de règles combinant les noms de personnes et les manières de
transmission.

Les non-terminaux tahamoul et tahamoulEnd représentent les différentes manières


de transmission. Tahamoul (respectivement tahamoulEnd ) est assignée aux verbes qui
précèdent (respectivement viennent après) le nom du narrateur.
Le non-terminal ”rawi” fait référence à un narrateur tout en intégrant les cas qui contiennent
des relations sociales. Nous considérons la règle suivante :

rawi → Person ?, Relation ?, Person ?

Selon cette règle, la référence d’un narrateur peut contenir :


– Le nom d’une personne.
– Un terme indiquant une relation sociale avec le narrateur précédent de la chaı̂ne ou
une autre personne.

177
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION


– Une référence à deux personnes ; par exemple ” lÌ 'A“ ð ÐX @” (Adam et Saleh).
L’application de ces règles à notre document de référence produit le document de la Figure
A.14.

Figure A.14 – Exemple de document après identification des chaı̂nes.

3.4 La grammaire des commentaires sur les acteurs


Les commentaires sur les acteurs contiennent généralement une référence à un narra-
teur et un jugement sur sa crédibilité. Dans certains cas, ce jugement est précédé par le
nom du savant. La règle suivante modélise de tels jugements :

CommentaireActeur → (Kala, Acteur) ? Acteur, JugementActeur

Cette règle s’applique à l’exemple suivant :


­J
ª“ úΫ Xð@X ñK. @ ÈA¯
Qui peut être traduit : ”Abou Daoud a dit qu’Ali est faible.”

Dans d’autres cas, les commentaires concernent les relations entre les narrateurs. Par
exemple, la règle suivante modélise le cas où un narrateur n’a pas atteint son prédécesseur :

CommentaireActeur → (Kala, Acteur) ? Acteur, NaPasAtteint, Acteur

Elle s’applique à l’exemple suivant :


AmÌ 'A“ ¼PYK
ÕË úΫ Xð@X ñK. @ ÈA¯
Dont la traduction est : ”Abou Daoud a dit qu’Ali n’a pas atteint
Saleh.”

3.5 La grammaire des commentaires sur les hadiths


Ces commentaires contiennent les jugements des hadiths que nous avons énumérés
dans les sections 2.1.3 et 2.1.4 du chapitre II (voir page 33) précédés optionnellement par
le nom du savant ayant évalué le hadith. Nous citons, dans ce qui suit un exemple de
règle :

CommentaireHadith → (Kala, Savant) ? (ceHadith) ? JugementActeur

178
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

Dans cette règle, le terminal ”ceHadith” désigne des expressions du genre ” @ Y ë



IK
YmÌ '@”.
La Figure A.15 illustre le résultat d’analyse du document de référence après avoir appliqué
la grammaire des commentaires sur les hadiths.

Figure A.15 – Exemple de document après l’analyse des commentaires sur les hadiths.

3.6 La grammaire des indications de versions


Ces indications sont composées généralement du verbe ” øðP ” (citer) et d’un acteur
ou d’une référence à un livre. Comme exemples de règles, nous pouvons citer :
IndicationVersion → Rawah, Acteur

Cette règle s’applique sur des expressions du genre : ÕÎ‚Ó è@ð P (Muslim l’a cité).
IndicationVersion → ceHadith, Fi, Livre

Cette règle permet d’analyser des indications du type : ÕÎ‚Ó iJ


m• ú
¯ IK (ce

YmÌ '@ @ Yë
hadith est dans sahih Mouslim).

3.7 La grammaire des titres


Cette grammaire permet d’analyser le texte du titre d’un chapitre ou d’un sous-
chapitre. Entre autres, elle recense les expressions qui précèdent le contenu réel du titre
telles que ” H 
. AJ»” (chapitre) et ” H. AK.” (sous-chapitre) et les numéros s’ils existent. Comme
résultat, elle regroupe tous les éléments du titre en une structure au format XML. La
Figure A.16 présente le résultat obtenu pour le document de référence.

3.8 La grammaire des hadiths


La dernière étape consiste à utiliser la grammaire des hadiths en mode analyse complète
afin de reconnaı̂tre la structure de chaque hadith. Nous identifions les éléments restants
dont essentiellement le contenu (le metn) et le numéro s’il existe. Enfin, nous regroupons
tous les éléments dans une seule balise ”hadith” comme illustré par la Figure A.17.
Notons que nous pouvons générer la structure complète du document en remplaçant
les identifiants ”chaine1” et ”commentaireHadith1” par leurs codes XML respectifs.

179
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

Figure A.16 – Exemple de document après l’analyse des titres des chapitres et sous-
chapitres.

Figure A.17 – Exemple de document après l’analyse des hadiths.

3.9 Calcul des taux d’intervention


Etant donné que nous avons opté pour l’analyse semi-automatique, il convient de cal-
culer le taux d’intervention de chaque grammaire. Ce taux est défini comme le rapport
entre le nombre d’actions effectuées manuellement et le nombre d’actions effectuées auto-
matiquement. Une action permet soit d’étiqueter un bloc soit de regrouper un ensemble
de blocs. Le tableau A.3 donne les taux d’intervention des grammaires que nous avons
utilisées pour analyser les livres du hadith. Pratiquement, le nombre d’interventions est
égal au nombre de lexèmes (NBLex ) auquel nous ajoutons le nombre de règles (NBRegles),

180
ANNEXE A. IMPLÉMENTATION DE L’ANALYSEUR DE TEXTES SEMI-STRUCTURÉS ET EXEMPLE D’APPLICATION

puisque chaque règle ou lexème est appris une seule fois. Nous avons donc :
N BLex + N BRegles
TI = ( ) (A.1)
N BExemples

Grammaire NBLex NBRegles NBExemples TI


Verset 42 118 795 20.13%
Acteur 9744 48 36869 26.56%
Chaine 248 197 8743 05.09%
Commentaire Fiabilite Hadith 114 10 1756 07.06%
Commentaire Acteur 76 14 237 37.97%
Indication Version 188 6 483 40.17%
Hadith 20 3 670 03.43%
Titre 49 51 2241 04.46%
Total 10113 815 51794 21.10%

Tableau A.3 – Taux d’intervention des grammaires hors contexte.


Nous remarquons que le taux d’intervention dépend de deux facteurs. D’une part,
plus les valeurs possibles des entités (NBLex ) ou de règles (NBRegles) augmente plus
ce taux augmente. Ce phénomène est remarqué pour la grammaire des acteurs et celle
des indications de versions. En effet, il nous était difficile d’énumérer toutes les valeurs
possibles des composantes d’un nom arabe. Les indications de versions sont des expressions
en langage naturel qui ne suivent pas un format régulier. Il était donc difficile de définir
toutes les règles d’analyse possibles. D’autre part, le taux d’intervention est inversement
proportionnel au nombre d’exemples. C’est pourquoi il est élevé dans les cas où le nombre
d’exemples ne suffit pas pour apprendre tous les lexèmes et les règles nécessaires. Nous
remarquons ce fait pour la grammaire ”CommentaireActeur”. Malgré ces problèmes, le
taux d’intervention est acceptable. Alors que les approches d’apprentissage automatique
utilisent 80% des données pour la phase d’apprentissage, nous avons traité uniquement
21.10% des cas manuellement.

181
Annexe B
Exemple de calcul des identités des
acteurs et de la fiabilité

Cette annexe présente les calculs liés à la reconnaissance des identités des narrateurs
de notre hadith de référence présenté dans l’annexe A. L’identification des narrateurs nous
permet de calculer, dans une deuxième étape, les critères et la classe de fiabilité.

1 Reconnaissance des identités


Nous reprenons la chaı̂ne de notre document de référence afin d’identifier ses narra-
teurs :
èXQK. úG @ á«
á«
« AK Q.g @ ÈA¯ YK
P áK . XAÔg AJ KYg ÈA¯ ø Qå”J.Ë@ èYJ.« áK . AK Q.g @
QK
Qk. áK . àCJ

.

úæ…ñÓ ú
G. @
Nous rappelons que nous procédons en trois étapes, à savoir l’indexation, l’appariement
et le filtrage.

1.1 L’étape d’indexation


Nous commençons par générer la structure de la chaı̂ne ci-dessus au format XML
(voir Figure B.1(a)). En effet, nous stockons, pour chaque acteur, son nom brut (la balise
”nom”) et sa structure au format XML (la balise ”Detail ”). Ensuite, nous indexons chacun
des noms des acteurs qu’elle contient. A cet effet, nous avons développé un parseur SAX 1
qui analyse les balises XML pour générer une liste de couples (clé-valeur). Dans la Figure
B.1 (b), nous indexons le premier nom de notre chaı̂ne en ajoutant la balise ”index”. Dans
ce cas, l’acteur est indexé par deux items qui sont : (P1, èYJ.«) et (B, ø Qå”J.Ë@).

1.2 L’étape d’appariement


L’identification d’un narrateur commence par l’envoi d’une requête à la base des nar-
rateurs contenant les items de son index. Pour le premier narrateur de notre chaı̂ne, nous
définissions la requête Qname comme suit :
1. http://sax.sourceforge.net/

182
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ

(a) Avant indexation


(b) Après indexation
Figure B.1 – Exemple de chaı̂ne avant et après indexation des noms de narrateurs.


Qname = (itQ1 , itQ2 ) où itQ1 = (P1 , èYJ.«) et itQ2 = (B, ø Qå”J.Ë@)

En interrogeant la base des narrateurs, nous retrouvons les données suivantes :


– 63 personnes ont l’item (P1 , èYJ.«)
– 15 personnes ont l’item (P2 , èYJ.«)
– 1426 personnes possèdent l’item (B, ø Qå”J.Ë@)

– Aucune personne n’a l’item ” ø Qå”J.Ë@” avec une balise autre que ”B ”.

Nous identifions six ensembles de personnes en fonction de l’existence/absence des


items de la requête (voir tableau B.1). La troisième colonne de ce tableau indique le
nombre de narrateurs de l’ensemble. Les fréquences des deux items de la requête (F req1j
et F req2j ) sont données par la quatrième et la cinquième colonne. Nous remarquons que
la fréquence du premier item, dans les ensembles S3 et S4 , est égale à 0.5, car ” èYJ.«” est
le nom du grand père de ces narrateurs (la clé est P2 et non pas P1 ) d’où la réduction
du score. Dans les trois dernières colonnes, nous calculons la possibilité (Π), la nécessité
(N ) et le degré de pertinence possibiliste (DP P ). Nous présentons le détail du calcul de
N comme suit :

183
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ

Items Cardinal F req1j F req2j Π = F req1j × N DP P


F req2j
S1 Personnes ayant les items 2.0 1.0 1.0 1.0×1.0 = 1.0 1.2 2.2

(B, ø Qå”J.Ë@) et (P1 , èYJ.«)

S2 Personnes ayant l’item 61.0 1.0 0.0 0.0×1.0 = 0.0 2.0 2.0

(P1 , èYJ.«) mais pas l’item
(B, ø Qå”J.Ë@)

S3 Personnes ayant les items 3.0 0.5 1.0 1.0×0.5 = 0.5 1.0 1.5

(B, ø Qå”J.Ë@) et (P2 , èYJ.«)

S4 Personnes ayant l’item 12.0 0.5 0.0 0.0×0.5 = 0.0 1.0 1.0

(P2 , èYJ.«) mais pas l’item
(B, ø Qå”J.Ë@)

S5 Personnes ayant l’item 1421.0 0.0 1.0 1.0×0.0 = 0.0 0.8 0.8
(B, ø Qå”J.Ë@) mais pas les


items (P1 , èYJ. « ) et (P2 ,
èYJ«)
.
S6 Personnes n’ayant aucun 7359.0 0.0 0.0 0.0×0.0 = 0.0 0.0 0.0
item valide

Tableau B.1 – Résultats de la reconnaissance par calcul possibiliste pour le premier nar-
rateur.

N (S1 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 1) × (1 − Log10 (8858/1426) × 1] = 1.2


N (S2 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 1) × (1 − Log10 (8858/1426) × 0] = 2.0
N (S3 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0.5) × (1 − Log10 (8858/1426) × 1] = 1.0
N (S4 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0.5) × (1 − Log10 (8858/1426) × 0] = 1.0
N (S5 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0) × (1 − Log10 (8858/1426) × 1] = 0.8
N (S6 |Qname) = 1 − [(1 − Log10 [8858/(63 + 15)] × 0) × (1 − Log10 (8858/1426) × 0] = 0.0
Nous remarquons que les personnes qui appartiennent à S1 ont eu le score le plus
élevé, ce qui correspond à une décision correcte. Nous notons aussi que les personnes de
S2 qui répondent uniquement au premier critère ont eu un score meilleur que celles de S3
qui contiennent le premier item avec remplacement de clé (P 1 ⇒ P 2) et le deuxième item
exactement. Ceci s’explique par le fait que peu de personnes (78) contiennent le premier
item alors que le deuxième item est très fréquent (il existe dans 1426 noms d’acteurs).
Ainsi, le premier critère a un impact discriminant plus important que le deuxième. En
conséquence, les personnes de S2 sont préférées à celles de S3 puisque F req12 = 1 et
F req13 = 0, 5.

En appliquant les mêmes calculs sur tous les narrateurs de la chaı̂ne, nous obtenons les
résultats présentés dans le tableau B.2.

1.3 L’étape de filtrage


En combinant tous les cas possibles du tableau B.2, nous obtenons 2880 (2 x 3 x
3 x 4 x 40) chemins différents. La fonction de filtrage permet de désambiguı̈ser chaque

184
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ

Numéro Index Nombre de candidats Identifiants des candidats


1

(P1 , èYJ.«) (B, ø
Qå”J.Ë@) 2 74, 75
2 (N , XAÔg)(P1 , YK
P ) 3 1487, 1492, 1498
3
« )
(N , àCJ 3 5368, 5369, 5370

4 (K, èXQK. úG @) 4 5140, 658, 7952, 7953

.
5 (K, úæ…ñÓ úG @) 40 1098, 2957, 3542, ..., 8777

.
Tableau B.2 – Liste des narrateurs candidats pour un exemple de chaı̂ne

Identifiant du disciple Identifiant du cheikh


74 1498
1487 1498
1487 658
1498 5369
5369 7952
7952 3542
7952 3704

Tableau B.3 – Exemples de relations sociales.

nom en éliminant les candidats qui n’ont pas des relations (cheikh-disciple) avec leurs
prédécesseurs. Le tableau B.3 énumère les relations sociales entres les candidats identifiés.
Nous remarquons qu’il existe deux chemins valides :

74 ⇒ 1498 ⇒ 5369 ⇒ 7952 ⇒ 3542


74 ⇒ 1498 ⇒ 5369 ⇒ 7952 ⇒ 3704

La seule ambigüité restante réside au niveau du dernier narrateur. En effet, les deux

personnes codées respectivement 3542 et 3704 ont l’item (K, úæ…ñÓ úG @) dans leur index

.

et ont une relation (cheikh-disciple) avec l’avant dernier narrateur ( èXQK. úG @ ). Il n’y a

.
donc aucun moyen pour lever cette ambigüité. Cependant, ceci n’influence pas le calcul
de fiabilité car ces deux personnes sont des compagnons crédibles. Ces cas étant rares, il
est possible de les éliminer manuellement. Dans cet exemple, nous choisissons le chemin
correct à savoir le premier.

2 Evaluation de la fiabilité
Le tableau B.4 présente les noms complets, les jugements et les degrés de crédibilité
des narrateurs des chemins valides. Les éléments de la requête sont mis en gras dans le

185
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ

nom complet.

Code Nom complet Jugement Degré


  
74 ø
Qå”J.Ë@ é<Ë@ YJ.« ñK. @ ú
æ.’Ë@ èYJ.« èYJ.« áK . YÔg @ é® K 10
.

.Ì '@ ø XP B@  . K é® K
1498 ÉJ
«AÖޅ @ ñK. @ ù
Ғêm
ÑëPX áK . YK
P áK . XAÔg I 11
áK . QK
Qk. È @ úÍñÓ †P P B@ ø Qå”J.Ë@
Ð PAg
éJ
® ¯
.
ÉJ
¯ ð ø Qå”J.Ë@ ø XP B@
«
5369 ú
æ.’Ë@

ú
ÍñªÖÏ @ QK
Qk. áK . àCJ é® K 10
.

7952 é<Ë@ YJ.« áK . QÓA« éÖޅ @ ÉJ
¯ ø
Qªƒ B@ úæ…ñÓ ú
G. @ áK . èXQK. ñK. @ é® K 10
 Ì '@ ð @ 
¯ áK .
HPAm
.
3704  Ì '@ áK . ðQÔ« áK . á 
’k áK . YK
P áK
HPAm . YK
QK
áK . é<Ë@ YJ.« ú
G. Am• 12

ù
Ò¢mÌ '@ úæ…ñÓ ñK. @ ø
PA’ B@ éÒ¢k áK . 

3542 áK . QÓA« áK . H. Qk áK . PA’k áK . Õæʃ áK . 


¯ áK . é<Ë@ YJ.« ú
G. Am• 12

 
ø
Qªƒ B@ úæ…ñÓ ñK. @ Qªƒ B@
.

Tableau B.4 – Méta-données sur les narrateurs d’un exemple de chaı̂ne.

Nous calculons les critères de fiabilité comme suit.

2.1 Evaluation de la crédibilité


Nous remarquons que le degré minimum de crédibilité est 10 :
c = min{c(74), c(1498), c(5369), c(7952), c(3542)} = 10
Selon le tableau VI.4 (page 137), la distribution de possibilité de l’intervalle [10..12]
est :
π(c|F ) = 3/6; π(c|N F ) = 2/6; π(c|S) = 1/6

2.2 Evaluation de la continuité


Tous les couples de narrateurs possèdent une relation (cheikh-disciple). Nous avons
donc, cc=13

La distribution de possibilité de cette valeur est :


π(cc|F ) = 3/6; π(cc|N F ) = 2/6; π(cc|S) = 1/6.

2.3 Evaluation de la fiabilité de transmission


Toutes les manières de transmission de la chaı̂ne sont fiables. Nous avons donc la
distribution suivante :
π(F T |F ) = 3/6; π(F T |N F ) = 2/6; π(F T |S) = 1/6.

186
ANNEXE B. EXEMPLE DE CALCUL DES IDENTITÉS DES ACTEURS ET DE LA FIABILITÉ

2.4 Identification de la classe de fiabilité


Nous calculons les scores des trois classes F (fiable), N F (non fiable) et S(suspect) selon
les algorithmes à base de minimum (Scoremin ) et à base de produit (Scoreprod ) comme
suit :

Scoremin (F ) = min{π(c|F ), π(cc|F ), π(F T |F )} = min{3/6, 3/6, 3/6} = 0.5


Scoremin (N F ) = min{π(c|N F ), π(cc|N F ), π(F T |N F )} = min{1/6, 1/6, 1/6} = 0.16
Scoremin (S) = min{π(c|S), π(cc|S), π(F T |S)} = min{0, 4/6, 0} = min{2/6, 2/6, 2/6} =
0.33

Scoreprod (F ) = π(c|F ) × π(cc|F ) × π(F T |F ) = 3/6 × 3/6 × 3/6 = 0, 125


Scoreprod (N F ) = π(c|N F ) × π(cc|N F ) × π(F T |N F ) = 1/6 × 1/6 × 1/6 = 0.0046
Scoreprod (S) = π(c|S) × π(cc|S) × π(F T |S) = 2/6 × 2/6 × 2/6 = 0.037

Ce résultat montre que l’algorithme à base de minimum est plus exigeant que l’al-
gorithme basé sur le produit en terme de fiabilité, étant donné qu’il accorde des poids
relativement élevés aux classes NF et S malgré que la chaı̂ne soit fiable.

187
Annexe C
Exemples d’analyse et de
désambiguı̈sation morphosyntaxique

Dans cette annexe, nous analysons le contenu du hadith du document de référence au


nouveau morphologique et syntaxique, afin d’extraire les termes pertinents au domaine
en question, à savoir le domaine de la purification.

1 Analyse morphologique
La première étape d’analyse linguistique consiste à faire appel à l’outil MADA qui
analyse chaque phrase au niveau morphologique, identifie et trie les solutions morpho-
logiques de chaque mot par ordre de pertinence décroissant selon le contexte gauche et
droit. La Figure C.1 illustre le code généré pour le premier mot du contenu du hadith de
notre document de référence.

Figure C.1 – Exemple de résultat généré par l’outil MADA.

MADA commence par rappeler la phrase translitérée par une ligne qui commence
par ” ; ; ;SENTENCE”. Ensuite, il énumère les mots avec les solutions respectives. Nous
remarquons par exemple que le premier mot (” IÊ  gX ”) possède quatre solutions qui sont
 gX  ” et ” I ÊgX
” (elle a entré), ” I ÊgX ” (tu as entré, avec le féminin et
dans l’ordre : ” IÊ

188
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE


 ÊgX” (je suis entré). Chaque solution est représentée par un score
le masculin) et enfin ” I
et un ensemble d’attributs. Afin de simplifier l’analyse, nous avons développé un outil qui
transforme ce code dans un format exploitable pour l’analyse syntaxique. La Figure C.2
présente un exemple de résultat généré par cet outil.

Figure C.2 – Exemple de calcul des attributs morphologiques.

Dans cette figure, les solutions correspondant à deux mots différents sont séparées par
”###”. Chaque solution contient un ensemble d’items dont chacun est décrit par cinq
attributs qui sont dans l’ordre :
– Le lemme : par exemple ” ¼@ñƒ”.
– Un attribut indiquant si l’item est défini : par exemple ”DET ” signifie que le mot
est défini par le déterminant ” È@”.
– La catégorie grammaticale : par exemple ”NN ” pour les noms.
– Deux caractères spécifiant le genre et le nombre : par exemple ”MS ” signifie masculin
singulier.
– Le texte original : par exemple ” ¼@ñ‚Ë@  ”.

189
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE

Notons que nous procédons à une première étape de désambiguı̈sation morphologique


qui consiste à éliminer les solutions dont le score normalisé (divisé par le maximum) est
supérieur à 0.7. Nous avons fixé ce seuil après plusieurs expérimentations qui ont montré
que la solution correcte n’existe généralement pas au delà de cette valeur. Nous obtenons
donc le résultat de la Figure C.3.

Figure C.3 – Exemple de résultat de l’analyse morphologique après désambiguisation


par seuil de pertinence.

2 Analyse syntaxique
L’analyseur syntaxique utilise des règles implémentées sous forme de programmes Java.
La Figure C.4 illustre le pseudo-code de la méthode Java qui permet de tester si deux
mots successifs peuvent constituer un syntagme annexé.

Figure C.4 – Pseudo-code de la méthode Java qui permet de reconnaı̂tre les syntagmes
annexés.

190
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE

La méthode accepte comme paramètres les attributs ”POS” (catégorie grammaticale),


”genderMumber” (genre et nombre) et defType (indique si le mot est défini) de la tête et
de l’expansion. Elle impose les conditions suivantes :
1. La tête doit être un nom singulier (”NN”) ou pluriel (”NNS”).
2. La tête ne doit pas être définie (”ND”).
3. L’expansion doit être un nom singulier (”NN”), pluriel (”NNS”) ou propre (”NNP”).
4. L’expansion doit être définie (defTypeexp = ”NNP” ou ...).
5. Les attributs genre et nombre des deux mots doivent se correspondre (genderMum-
berTete = genderMumberexp).
Si les conditions sont satisfaites, la fonction retourne les attributs du nouveau terme. Dans
ce cas, il hérite la catégorie grammaticale, le genre et le nombre de la tête. Le résultat
indique aussi qu’il s’agit d’un nom défini par annexation. Si l’une des conditions n’est pas
satisfaite, la fonction retourne une chaı̂ne vide.

De telles fonctions sont exécutées d’une manière itérative en enregistrant toutes les
solutions possibles. En effet, nous ne traitons que les séquences susceptibles de contenir
des syntagmes nominaux. Dans l’exemple de référence, il s’agit de l’expression ” ¬Q£ð

úΫ ¼@ñ‚Ë@”. Son analyse conduit à deux itérations d’analyse chacune conduisant à
éKA‚Ë
deux alternatives comme illustré par le tableau C.1.

Itération Alternative 1 Alternative 2


1
@ ¼@ñƒ@Annexation@
¬Q£ @ úΫ/PREP@
¼@ñƒ@ àA‚Ë
¼@ñ‚Ë@
 ¬Q£ úΫ ¼@ñ‚Ë@
éKA‚Ë 
2
@ àA‚Ë
 ¬Q£
¼@ñ‚Ë@ @ úΫ/PREP@ @ éKA‚Ë
¬Q£ úΫ ¼@ñ‚Ë@
 @Annexation@
úΫ ¼@ñ‚Ë@
éKA‚Ë  ¬Q£
@ éKA‚Ë

 ¬Q£
úΫ ¼@ñ‚Ë@
Tableau C.1 – Exemple d’analyse et d’ambigüité syntaxique.

Dans la première itération, il s’agit de regrouper les mots ” ¬Q£ ” et ” ¼@ñ ƒ ” en un
syntagme annexé (alternative 1) ou de regrouper ” ¼@ñ ƒ ” et ” àA ‚ Ë ” en un syntagme
prépositionnel (alternative 2). La deuxième itération permet d’ajouter le troisième mot
de l’expression pour former un syntagme prépositionnel ou annexé respectivement pour
les deux alternatives.

191
ANNEXE C. EXEMPLES D’ANALYSE ET DE DÉSAMBIGUÏSATION MORPHOSYNTAXIQUE

3 Désambiguı̈sation morphosyntaxique et évaluation


de la pertinence au domaine
L’évaluation de chaque solution morphologique ou syntaxique permet de désambiguı̈ser
les textes et d’évaluer la pertinence au domaine. Pour notre texte de référence, nous ob-
tenons les termes du tableau C.2. Ce tableau donne pour chaque terme, le nombre de ses
composantes, ses parties, la relation syntaxique s’il s’agit d’un terme composé et ses poids
dans les trois domaines selon les approches quantitatives (Quant) et qualitatives (Qual)
possibilistes.

Boissons Purification Mariage


Terme Taille Tête Expansion Relation Qual Quant Qual Quant Qual Quant
ÈñƒP 1 0 0 0 0 0 0

¬Q£ 1 0 0 0.0005 0.0006 0 0

¼@ñƒ 1 0 0 0.0284 0.0211 0 0


àA‚Ë 1 0 0 0.0001 0.0002 0 0

¬Q£ 2

¬Q£ ¼@ñƒ Annexation 0 0 0.0006 0.0009 0 0

¼@ñ‚Ë@
¬Q£ 3

¬Q£
àA‚Ë 0 0 0.0019 0.0025 0 0

¼@ñ‚Ë@ 
¼@ñ‚Ë@ úÎ «
úÎ «  /PREP
àA‚Ë@

Tableau C.2 – Exemple de termes simples et composés extraits du corpus hadithien.

Nous remarquons que le terme ” Èñ ƒP ” (prophète) a un poids nul dans les trois
domaines car il est distribué sur les trois corpus. Les cinq autres termes ont des poids nuls
dans les corpus des boissons et du mariage, car ils n’y apparaı̂ssent pas. Le terme ” ¼@ñƒ”
(cure-dent) a le poids le plus important dans le domaine de la purification car il est plus
fréquent que les autres termes.

192
Annexe D
Implémentation des mécanismes de
cartographie et exemple
d’application

Cette annexe présente les détails d’implémentation des mécanismes de cartographie


dans un premier temps. Dans un deuxième temps, nous illustrons la cartographie en
GraphML de notre hadith de référence présenté dans l’annexe A.

1 Réalisation de la plate-forme de cartographie


L’interface principale de notre plate-forme d’organisation des connaissances et de re-
cherche d’information multi-critères est présentée dans la Figure D.1.

Figure D.1 – Interface principale de la plate-forme d’organisation des connaissances et


de recherche d’information multi-critères.

Cette interface est composée de trois zones principales :

193
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION

1. La barre de menu qui contient éléments :


– Le menu ”Fichier” : nous permet d’ouvrir un fichier GraphML, de sauvegarder
une carte ou de quitter l’application.
– Le Menu ”Opération” : permet de faire appel aux opérations de cartographie.
2. Zone de dessin : réservée à l’affichage des cartes et des résultats de recherche.
3. Zone de paramétrage : Contient cinq onglets dont chacun permet de paramétrer un
type d’opérations :
– Affichage : permet à l’utilisateur de choisir les attributs des nœuds et des arcs
à afficher. La liste des labels des arcs permet de filtrer les arcs selon leurs labels.
Après avoir fixé ces paramètres, l’utilisateur peut adapter l’affichage en cliquant
sur le bouton ”réaffichage”.
– Transformation : cet onglet (voir Figure D.2) présente un ensemble de possibi-
lités de transformations sur les graphes. La transformation basée sur les attributs
utilise l’attribut en cours d’affichage comme moyen pour lier les nœuds. L’utilisa-
teur peut aussi spécifier le type des nœuds et/ou des arcs (labels) concernés par
la transformation.

Figure D.2 – L’onglet transformation.

– Mise à jour : c’est l’onglet responsable des opérations de mise à jour qui consiste
en l’ajout et la suppression des nœuds et des arcs.
– Regroupement (voir Figure D.3) : regroupe les opérations d’analyse distribu-
tionnelle en commençant par le calcul de distance. L’utilisateur peut donc choisir
le type de distance. Si la distance à base de circuits est choisie, l’utilisateur peut
spécifier la longueur maximale du circuit. Dans tous les cas, il peut paramétrer
l’algorithme de clustering en spécifiant le seuil d’acceptation (distance minimale).
L’utilisateur peut enregistrer les résultats des opérations intermédiaires à travers
les boutons ”Enregistrer”. Un tel bouton permet donc d’effectuer l’étape en ques-
tion et de créer un fichier XML qui contient son résultat. L’utilisateur peut se
servir plus tard de ces fichiers en utilisant le bouton ”Ouvrir” afin de continuer
les autres étapes.
– Filtre : cet onglet permet d’exécuter un ensemble d’opérations de filtrage sur les
nœuds, les arcs et les scores des arcs (voir Figure D.4).
Nous signalons que ces opérations sont aussi accessibles à travers des menus contex-
tuels qui permettent, en plus, d’effectuer un filtrage en partant d’un nœud donné. Ceci
permet de se focaliser sur un nœud afin d’afficher d’une manière récursive les nœuds qui
lui sont liés.

194
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION

Figure D.3 – L’onglet regroupement.

Figure D.4 – L’onglet filtre.

Nous allons maintenant étudier la complexité de l’opération de recherche des circuits,


qui est au cœur de l’analyse distributionnelle. Une critique qui peut être adressée à notre
approche est la complexité de cette opération. En effet, les RPMH possèdent moins d’arcs
que les autres types de graphes. La complexité de cette opération dépend du nombre de
nœuds (N ), du nombre moyen d’arcs par nœud (E) et de la longueur maximale du circuit
(CL). La complexité est donnée par :
CRP M H = N ∗ E CL (D.1)
La complexité des mesures basées sur la table de contingence comme LLR, TS, DF et
MI est donnée par :
Ccontingency = N 2 (D.2)
Dans les RPMH, nous avons en général E CL < N . Par exemple, dans nos expérimenta-
tions, le graphe le plus grand (celui qui contient toutes les relations syntaxiques du do-
maine de la purification) contient 1276 nœuds avec un nombre moyen d’arcs égal à 4.6.
La longueur maximale d’un circuit est de 4. Nous obtenons ainsi : Ccontingency = 12762 =
1628176 opérations de parcours et CRP M H = 1276 ∗ 4.64 ' 571323 opérations. De plus,
cette complexité est réduite quand nous utilisons un graphe pour chaque relation syn-
taxique.

195
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION

2 Représentation GraphML des cartes du hadith


Afin de pouvoir traiter les hadiths et les rechercher dans notre plate-forme, il est
nécessaire de coder leurs connaissances au format GraphML. Ce format impose de définir
explicitement les attributs des nœuds et des arcs à l’entête du fichier. Ensuite, il est
possible de définir des instances en fonction des besoins. Dans notre cas, il s’agit de
représenter les hadiths, les ontologies qui les indexent et les réseaux possibilistes qui
représentent les liens d’indexation. Les sous-sections suivantes illustrent des exemples sur
les parties du fichier GraphML correspondant à notre document de référence.

2.1 Définition des attributs


Comme illustré par la Figure D.5, le fichier GraphML commence par se référer à
l’espace des noms ”namespace” (xmlns) et au schéma XML (graphml.xsd). Notons d’abord
que GraphML impose que chaque nœud ait un identifiant unique représenté par l’attribut
”id ”. En outre, nous définissons un ensemble d’attributs pour les nœuds et les arcs. Les
deux attributs ”name” et ”type” sont communs. Le premier indique l’attribut principal à
afficher par défaut comme texte du nœud ou de l’arc. Le deuxième permet de spécifier la
nature des connaissances notamment pour distinguer des éléments d’ontologies différentes
ou la nature de la relation codée dans l’arc. Enfin, nous définissons des attributs spécifiques
aux nœuds et aux arcs respectivement. Par exemple, la Figure D.5 affiche les attributs
”idDomain”, ”Sanad ” et ”Chaine” relatifs aux hadiths et l’attribut ”degré” relatif aux
narrateurs. Pour les arcs, nous définissions l’attribut ”score” qui pondère la relation entre
la source et la destination. Ces attributs seront expliqués avec plus de détails à travers les
exemples.

Figure D.5 – Entête du fichier GraphML.

196
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION

2.2 Représentation des hadiths


Chaque hadith est représenté avec un nœud (la balise ”node”) comme illustré par la
Figure D.6. Il possède les attributs suivants :

– ”id ” : identifiant unique du hadith sachant que cet attribut est utilisé pour localiser
le fichier XML qui contient la structure de la chaı̂ne des narrateurs, Dans notre
exemple, le fichier ”9001.XML” contient le code XML illustré par la Figure B.1.
– ”name” : le texte du ”metn”.
– ”Sanad ” : le texte de la chaı̂ne des narrateurs.
– ”Chaine” : la liste des identifiants des narrateurs séparés par le caractère ”#”.
– ”idDomain” : l’identifiant du domaine ; dans ce cas, il est égal à 3 car le hadith
appartient au domaine de la purification.

Figure D.6 – Exemple de hadith au format GraphML.

2.3 Représentation des ontologies


Une ontologie est un ensemble de nœuds de même type avec des liens typés. Nous
illustrons dans la Figure D.7, un élément du RPMH des termes à savoir le premier terme

de notre hadith (” ¬Q£”) :

Figure D.7 – Exemple de terme au format GraphML.

Le réseau social contient des nœuds de type ”narrateur ” avec des relations sociales.
La Figure D.8 donne le code GraphML des deux premiers narrateurs de notre hadith
de référence. Nous illustrons, à titre d’exemple, l’attribut ”name” qui contient le nom
complet et l’attribut ”degré” qui indique le degré de crédibilité.
La Figure D.9 donne le code XML qui permet de représenter les relations cheikh-
disciple. Chaque relation induit un arc (la balise ”edge”) orienté (directed=”true”) entre

197
ANNEXE D. IMPLÉMENTATION DES MÉCANISMES DE CARTOGRAPHIE ET EXEMPLE D’APPLICATION

Figure D.8 – Exemples de narrateurs au format GraphML.

une source (ici le nœud ayant l’identifiant 1498) et une destination (dans ce cas, le nar-
rateur numéroté 74) ayant le label ”cheikh-disciple”. La valeur affichée par défaut est
l’expression ” qJ
ƒ” (cheikh).

Figure D.9 – Exemple de relation sociale au format GraphML.

2.4 Représentation des réseaux possibilistes


La Figure D.10 présente un exemple d’indexation sémantique.

Figure D.10 – Exemple de lien d’indexation au format GraphML.

Un réseau possibiliste est un ensemble d’arcs orientés qui permettent d’indexer les
hadiths (dont les identifiants constituent les sources des arcs) avec des entités provenant
des ontologies (qui représentent les destinations des arcs). Ces arcs sont pondérés par un
score qui, dans ce cas, indique la fréquence du terme dans le hadith. Dans cet exemple,
nous indexons le hadith numéro 9001 avec le terme dont l’identifiant est 9002 avec un
score égal à la fréquence, à savoir 1.

198
Annexe E
Phonétique des lettres arabes

Le tableau E.1 donne pour chaque lettre arabe son nom, sa graphie lorsqu’elle est
placée au début, au milieu ou à la fin d’un mot (respectivement) et sa prononciation selon
l’alphabet phonétique international.

Tableau E.1 – Phonétique et graphie des lettres arabes.

199
Index

Π : mesure de possibilité, 74–79, 99, 100, 107 MI : Mutual Information (Information mu-
π : distribution de possibilité, 75, 76, 105, tuelle), 57, 58, 120, 127, 131
117, 137, 138 MIN : opérateur possibiliste minimum, 76,
85, 134, 139–141, 143
Autorité (de contrôle, d’un document), 13,
35, 38, 40, 41, 43 N : mesure de nécessité, 74, 75, 77–79, 99,
100, 107
c : crédibilité, 7, 30, 35–38, 40–43, 87, 90, Nasab (composante d’un nom propre arabe),
91, 93, 134, 137, 139–142, 178 64, 96
cc : continuité d’une chaı̂ne de narrateurs, NF : classe de fiabilité (Non Fiable), 32, 36,
42, 43, 89, 91, 134, 137–141 39, 85, 134, 137, 138, 141–143
Nisba (composante d’un nom propre arabe),
DF (Dice Factor) : Facteur de Dice, 57, 58,
64, 96, 98, 134, 137, 175, 176
120, 127, 132
ns : relation non symétrique, 104
DPP : Dégré de Pertinence Possibiliste, 78,
79, 100, 101, 106–108 Objectivité (d’une personne, d’une informa-
DV : Document Virtuel, 22, 23 tion), 33, 35, 37–41, 43, 143
DVP : Document Virtuel Personnalisable, occ : Nombre d’occurrences, 20, 57, 102
22
PBSL : Paix et Bénédiction Sur Lui (le prophète
e : expansion, 60, 62, 83, 104, 119, 129 Mohamed), 31, 33, 134, 139
PDP : Pertinence au Domaine Possibiliste,
F-mesure (métrique d’évaluation de SRI),
106
21, 56, 95, 101, 110, 112–115, 128,
Précision (métrique d’évaluation de SRI),
132, 133
21, 47, 56, 95, 101, 108, 110, 112,
F : classe de fiabilité (Fiable), 85, 134, 140–
113, 127, 128
143
PROD : opérateur possibiliste produit, 76,
Freq : Fréquence (d’un terme, d’une entité),
85, 121, 134, 139–141, 143
19, 20, 57, 59, 63, 67, 78, 79, 99, 100,
102–104, 110 R expansion : relation en expansion, 104–
106, 108, 119
H : Head (Tête), 60–62, 102, 104, 119, 124, R head : relation en tête, 104–106, 108, 119
129 Rappel (métrique d’évaluation de SRI), 21,
Konia (composante d’un nom propre arabe), 47, 55, 95, 101, 110, 112, 113, 127–
64, 96, 176 129
RI : Recherche d’Information, 6, 8, 18, 19,
Laqab (composante d’un nom propre arabe), 29, 46, 47, 50, 51, 62, 75, 78, 79, 84,
64, 96, 98, 175, 176 114, 116, 123
LLR : Log-Likelihood Ratio, 57, 58, 108, ROI : Recherche Ouverte d’Information, 17,
110, 112–114, 120, 127, 131 18

200
INDEX

RPMH : Réseaux Petits Mondes Hiérarchiques,


73, 74, 79, 84, 85, 116, 119, 123, 131

S : classe de fiabilité (Suspect), 85, 134, 137–


139, 141–143
SA : Syntagme Annexé, 52, 105, 108, 124
SC : Syntagme Conjonctif, 52, 124
SJ : Syntagme Adjectival, 51
SNC : Syntagme Nominal Complexe, 52
SOC : Système d’Organisation de Connais-
sances, 12, 13, 17, 18, 56, 60, 63, 71,
85
SP : Syntagme Prépositionnel, 52
SRI : Système de Recherche d’Information,
19–21, 27–29, 36, 38, 47, 55, 56, 66,
70, 72–74, 77, 89, 95, 102, 110, 114,
131, 133
Sup : relation contextuelle structurelle, 103–
105, 107
sy : relation symétrique, 103, 104

Tahamoul : manière de transmisson, 32, 92,


97, 98, 138, 176, 177
Termhood (propriété d’un terme), 56, 57,
59, 84, 102, 105–108, 110
TF-IDF : Term Frequency-Inverse Document
Frequency, 19, 20, 57, 62, 84, 110,
112–114
TF :Term Frequency (Fréquence d’un terme),
19, 20
TPD : Terme Pertinent au Domaine, 102,
115
TS : T-score, 57, 58, 120, 127, 132
Type d’usage (d’un fragment de document),
73, 81, 91

Unithood (propriété d’un terme), 56, 57, 60,


83, 84, 102, 106, 108, 110

Vérifiabilité (d’une information), 38, 40, 41

201
Construction et intégration d'ontologies pour la cartographie socio-sémantique de fonds documentaires arabes
guidée par la fiabilité de l'information
Résumé. La présente thèse propose un processus de cartographie des connaissances de fonds documentaires arabes.
L'objectif principal de ce processus est de permettre à des utilisateurs différents de retrouver l'information pertinente
qu'ils recherchent. Etant conscient que la pertinence est une notion multidimensionnelle, nous avons conçu un modèle
générique pour représenter des cartes de connaissances multi-critères. En effet, une carte est composée d'un ensemble
d'ontologies (dont chacune représente une dimension) qui sont liées aux fragments de documents. Les cartes sont
munies de mécanismes d'évaluation de l'information selon les besoins des utilisateurs. A ce stade, nous avons donné une
importance primordiale à la fiabilité de l'information en tant qu'exigence critique dans la situation actuelle du Web.
Nous avons adopté le point de vue du Web socio-sémantique qui considère les documents comme des productions
sémiotiques. Un autre choix primordial, effectué dans le cadre de cette thèse, consiste à utiliser le corpus hadithien qui
est un fonds documentaire volumineux, structuré et riche en connaissances et en divergences. En outre, le hadith
constitue une méthodologie solide pour assurer la fiabilité de l'information. De part ces caractéristiques, les livres du
hadith constituent des productions sémiotiques adaptées aux traitements socio-sémantiques.
La représentation multidimensionnelle nécessite l'extraction et l'organisation des connaissances selon plusieurs axes.
Dans l'axe sémantique, nous proposons d'extraire les termes pertinents à chaque thème, considéré comme un domaine
de connaissances. Dans l'axe social, nous proposons un moteur de recherche social qui permet d'extraire les entités
nommées et de reconnaître les identités des acteurs. Les connaissances extraites sont organisées en utilisant la méthode
d'analyse distributionnelle basée sur les réseaux petits mondes hiérarchiques, ce qui permet de construire des ontologies
différentielles. Enfin, nous intégrons les réseaux possibilistes en tant qu'outil d'évaluation de l'information. Ainsi,
l'utilisateur dispose du jugement du système sur la pertinence thématique et sur la fiabilité, mais aussi des outils
nécessaires pour conduire une démarche d'enquête dans une perspective de recherche ouverte de l'information.
Mots clés. Web socio-sémantique, Cartographie des connaissances, TALN Arabe, Ontologie, Fiabilité de l'information.
________________________________________________________________________________________________________________________________________________________________________________________________

‫بناء وإدماج أنطولوجيات من أجل الخورطة االجتماعية الداللية لألرصدة الوثائقية العربية المبنية على اعتمادية المعلومة‬
‫ تقترح ھذه األطروحة نموذجا "لخورطة" األرصدة الوثائقية العربية بھدف تمكين مختلف المستخدمين من الحصول على المعلومة‬.‫الملخـص‬
‫ إن‬.‫ وعيا منا بأن تقييم المستخدم للمعلومة يعتمد على عدة أبعاد فقد قمنا بتصميم نموذج شامل لتمثيل خرائط المعارف متعددة المقاييس‬.‫المطلوبة‬
‫ تحتوي الخريطة أيضا على آليات‬.‫الخريطة ھي عبارة عن عدة أنطولوجيات تُمثل كل واحدة منھا أحد األبعاد وتُستعمل لفھرسة أجزاء الوثائق‬
.‫لتقييم المعلومات حسب حاجيات المستخدمين ولقد أولينا أھمية خاصة لمقياس "اعتمادية المعلومة" الذي يُمثل تحديا نظرا النفتاح الواب الحالي‬
‫ ولقد اخترنا كمثال تطبيقي كتب الحديث الشريف‬."‫إننا نتبنى وجھة نظر الواب االجتماعي الداللي الذي يعتبر الوثائق "كمنتجات سيميائية‬
‫ نظرا لھذه‬.‫ إن الحديث يُمثل كذلك منھجية صلبة لتقييم اعتمادية المعلومة‬.‫باعتبارھا تُمثل رصيدا ضخما ومنظما وثريا بالمعارف واالختالفات‬
.‫الخصائص الفريدة تُعتبر كتب الحديث منتجات سيميائية يُمكن إخضاعھا للمعالجة االجتماعية الداللية‬
‫ في المحور الداللي نعتبر أن كل موضوع من‬.‫إن التمثيل المتعدد األبعاد للوثائق يفرض علينا استخراج المعارف وتنظيمھا حسب عدة محاور‬
‫ في المحور االجتماعي قمنا بتطوير محرك بحث اجتماعي يُعنى‬.‫كتب الحديث يُمثل ميدانا معرفيا نقوم باستخراج المصطلحات التي تُمثله‬
‫ كل ھذه المعارف يتم تنظيمھا باستخدام التحليل التوزيعي المبني على "شبكات العوالم‬.‫باستخراج أسماء الجھات الفاعلة والتعرف على ھوياتھا‬
‫ نستعمل محرك بحث متعدد المقاييس مبني على نظرية اإلمكانيات‬،ً‫ أخيرا‬."‫الصغيرة الھرمية" وھو ما يُ َم ّكن من إنتاج "أنطولوجيات تفاضلية‬
‫ إستعمال ھذه األدوات يُم ّكن من القيام بأبحاث مفتوحة تُشرك المستخدم في‬.‫وھو ما يُم ّكن من تقييم الوثائق من حيث الموضوع واالعتمادية‬
.‫التحري عن المعلومات المطلوبة‬
‫ إعتمادية المعلومة‬،‫ األنطولوجيا‬،‫ التحليل اآللي للنصوص العربية‬،‫ خورطة المعارف‬،‫ الواب االجتماعي الداللي‬.‫الكلمات المفاتيح‬
________________________________________________________________________________________________________________________________________________________________________________________________

Building and integrating ontologies for a reliability-guided mapping of arabic corpora


Abstract. In this thesis, we suggest a process for mapping knowledge of collections of arabic documents. The main
goal of this process is to allow different users to acquire relevant information according to their needs. Being convinced
that relevance is a multidimensional notion, we conceived a generic model to represent multicriteria maps. In fact, a
map is composed of several ontologies (one for each dimension) linked to fragments of documents by means of
possibilistic networks. These maps implement mechanisms allowing to evaluate information according to the users'
needs. As far as criteria are concerned, we give a particular importance to reliability as a critical requirement within the
actual situation of the Web. We adopted the point of view of the socio-semantic Web which considers documents as
semiotic productions whose structure describe the process of information production and transmission. We have choose
to use books of hadith because they represent a big and structured corpus rich of knowledge and points of view. In
addition, the hadith represents a solid methodology for assessing information reliability. Consequently these books
constitute semiotic productions adapted to socio-semantic treatments.
Building multidimensional maps requires to extract and organize knowledge according to many axes. In the semantic
axis, we propose to extract terms relevant to each theme considered as a knowledge domain. In the social axis, we
propose a social information retrieval system which allows to recognize the named entities and the identities of actors.
The extracted socio-semantic knowledge is organized through a method of distributional analysis based on hierarchical
small worlds networks what allows to build differential ontologies. Finally, we integrate possibilistic networks as a
mean for information evaluation. Thus, the user has the system judgment but also the required tools to conduct inquiries
in a perspective of open information retrieval.
Keywords. Socio-semantic Web, Knowledge mapping, Arabic NLP, Ontology, Information reliability.