Académique Documents
Professionnel Documents
Culture Documents
Thème
Implémentation d’un système de classification des
documents approfondis à base d’ontologies
Présenté par :
Mlle Sarah FAFA
Mlle Souad HENANE
Soutenu le : 17/09/2019 Devant le jury composé de :
- Mr Mimoun MALKI Président
- Mlle Kheira BENCHERIF Examinatrice
- Mr Ishak MEDDAH Examinateur
- Mr Nabil KESKES Encadreur
- Mr Abdelkarim MOKRANE Co-encadreur
Aucune des expressions ne sauraient exprimer l’immense amour qu’on vous porte,
on va donc nous contenter de vous dédier ce modeste travail en guise de nos
reconnaissance éternelle, qu’il soit l’accomplissement de vos vœux.
Á nos proches,
pour leurs présence et leurs appui infaillible.
iii
iv
Remerciements
Nous remercions avant tout, notre Dieu Allah le tout puissant et miséricordieux
pour nous avoir donné la foi, la force, le courage et suffisamment de patience afin
d’accomplir ce modeste travail.
Les membres du jury pour l’honneur qu’ils ont accepté de siéger à notre soutenance
et évaluer notre travail.
Nous adressons aussi nos plus grands remerciements à nos familles, nos parents,
nos frères et sœurs et tous nos proches et amis.
Et enfin, que tous ceux qui de près ou de loin ont contribué à notre réussite,
trouvent ici l’expression de nos plus sincères remerciements.
v
vi
Résumé
vii
viii RÉSUMÉ
Abstract
With the advent of computing and the increase in the quantity of digital and
text documents stored on various electronic media and on the Web, document clas-
sification systems have become a necessity at the corporate level. Thus automatic
text categorization, which consists of assigning a document to one or more catego-
ries predefined automatically according to its content, is becoming more and more a
key technology in the management of artificial intelligence and the basis of ontology
that takes into account the semantic relationships between words.
The group of companies HASSNAOUI is a company that is active at the level of
construction sector and agriculture. With the increase of the documents which prove
to be intense with more than 10M of documents at the level of the archiving center.
In this context, DSI is interested in the development of an automatic classification
system to reassure a relevant classification and facilitate the task for users.
The purpose of this project is to set up an in-depth classification system based on
ontology that meets the needs of users at the repository center level.
ix
x ABSTRACT
Abréviation
FS Feature Selection
TF-IDF Frequency of the Inverse Document Term
MI Mutuel Information
IG Information Gain
SVM Support Verctor Machine
KNN K-Voisin le plus proche
OWL Web Ontology Language
RDF Resource Description Framework
RDFS Resource Description Framework Shema
DAML Darpa Agent Markup Language
W3C World Wide Web Consortium
GSH Groupe de Sociétés Hasnaoui
DRH Direction Ressource Humaine
DAG Direction Administration Générale
DMC Direction Marketing Commerce
DFC Direction Finance Commerce
DCE Direction Commerce Extérieur
DCG Direction
DGR Direction Générale
VSM Vector Space Model
xi
Table des matières
Résumé vii
Abstract ix
Abréviation xi
I Introduction générale 1
1 Introduction générale 3
1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Plan de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
II Background 7
2 Classification des documents 9
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 La catégorisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Processus de classification . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Collection de documents . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Prétraitrement des documents . . . . . . . . . . . . . . . . . . 10
2.3.3 Feature selection (FS) . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Les approches de classification . . . . . . . . . . . . . . . . . . . . . . 13
2.4.1 Classification supervisée . . . . . . . . . . . . . . . . . . . . . 13
2.4.2 Vector space model . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.3 Classification non supervisé (Clustering) . . . . . . . . . . . . 17
2.5 Mesure d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5.1 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5.2 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5.3 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.4 F Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
xii
TABLE DES MATIÈRES xiii
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Ontologies 21
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Définition d’une ontologie . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Définition philosophique . . . . . . . . . . . . . . . . . . . . . 21
3.2.2 Définition informatique . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Les types d’ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.1 Ontologie de haut niveau(Top ontology) . . . . . . . . . . . . 22
3.3.2 Ontologie du domaine . . . . . . . . . . . . . . . . . . . . . . 22
3.3.3 Ontologie de taches (Task Ontology) . . . . . . . . . . . . . . 23
3.3.4 Ontologie d’application . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Les composants d’une ontologie . . . . . . . . . . . . . . . . . . . . . 23
3.5 Construction d’ontologie . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5.1 Construire une ontologie manuellement . . . . . . . . . . . . . 24
3.6 Les langages d’ontologies . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6.1 RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6.2 RDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.6.3 DAML + OIL . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.6.4 OWL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.7 Les approches de l’ontologie . . . . . . . . . . . . . . . . . . . . . . . 28
3.7.1 Alignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.7.2 Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.7.3 Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.7.4 Intégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
IV Étude de l’existant 53
5 Étude de l’existant 55
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 Présentation de l’organisme . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.1 Activités et Missions . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.2 Les logiciels existant . . . . . . . . . . . . . . . . . . . . . . . 58
5.2.3 Étude des documents . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.4 Procédure actuel suivi dans la classification des documents . . 59
5.2.5 Anomalies et suggestions . . . . . . . . . . . . . . . . . . . . . 59
5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
VI Étude Conceptuelle 71
7 Étude conceptuelle 73
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2 Architecture globale du système . . . . . . . . . . . . . . . . . . . . . 73
7.2.1 Collection des documents : . . . . . . . . . . . . . . . . . . . . 74
7.2.2 Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.2.3 Pré-traitement . . . . . . . . . . . . . . . . . . . . . . . . . . 75
TABLE DES MATIÈRES xv
8.1 Authentification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.2 Contact . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
xvii
xviii TABLE DES FIGURES
xix
xx LISTE DES TABLEAUX
Première partie
Introduction générale
1
Chapitre 1
Introduction générale
1.1 Contexte
le Groupe des Sociétés HASNAOUI (GSH) est une organisation algérienne Créée
en 1974, elle est présentée dans les secteurs de la construction et de l’agriculture.
GSH rassemble plus de 17 entreprises opérant dans trois principaux pôles : Construc-
tion, agriculture et services. II emploie aujourd’hui plus de 3000 collaborateurs
3
4 CHAPITRE 1. INTRODUCTION GÉNÉRALE
répartis à travers le pays, depuis sa création elle dispose d’un entrepôt de docu-
ment d’archive de plus de 40 ans , Un entrepôt contenant plus de 10M documents
représentant un capital de savoir-faire inestimable
Au cours de ces dernières années l’utilisation d’un système de classification de docu-
ment au niveau de l’entreprise est devenu une nécessité indispensable. Cependant,
la gestion de nombreux documents manuellement est devenue une tâche ardue. De
ce fait, les dirigeants des systèmes d’information de l’entreprise sont mené a adopté
une solution informatique, permettant de faciliter la tâche de la classification afin
de garantir une bonne classification de documents.
1.2 Problématique
Actuellement ,le manque d’un système de classification au niveau du centre d’ar-
chivage pose un grand problème , la gestion des documents est purement manuelle
et les documents à archiver s’entasse de plus en plus d’où les utilisateurs feront fasse
d’une grande quantité des documents textuelle qui s’avèrent très couteux en temps
et en personnel et qui rend la tâche plus ardue et difficile .
D’ou l’utilisation d’un système informatique intelligent s’avère nécessaire afin de
faciliter la tache aux utilisateurs en terme de temps et de travail .
1.3 Objectif
Notre contribution au niveau du GSH consiste à mettre en place une solution
dédiée au classement de ces documents de nature hétérogènes par apprentissage
et permettre leurs publications selon les directives de classement : Filiale, année ,
directions.
Pour ce faire, les responsables des systèmes d’information du GSH ont exprimé les
objectifs suivants :
— Étudier la nature et le type des documents d’archives ;
— Identifier les solutions algorithmique d’apprentissage pour déterminer les règles
sémantiques à appliquer au classement et indexation des documents d’ar-
chives .
— Développement du schéma conceptuel du logiciel dédié à l’alimentation des
directives de classement par mot clé et de la base sémantique.
— Développement d’un moteur de traitement et classement des documents à
base d’ontologie .
Background
7
Chapitre 2
2.1 Introduction
Avec la croissance explosive des informations textuelles issues des documents
électroniques et du World Wide Web, l’accessibilité des documents texte et de l’infor-
mation électronique a augmenté. Récemment, de nombreuses activités de recherche
ont été menées dans le domaine de la classification des documents, notamment dans
les domaines du filtrage anti-spam, de la catégorisation des e-mails, de la classifi-
cation des sites Web et de la cartographie ontologique. Cependant, il est fastidieux
pour un humain de relire et de catégoriser correctement un article manuellement.
Afin d’arriver à répertorier un sujet approprié pour chaque document, un processus
a été inventé celui de la catégorisation des textes qui correspond à la procédure
d’affectation d’une ou de plusieurs catégories ou classes prédéfinies à un texte, elle
correspond à la classification supervisée pour apprentissage automatique. Toutefois
quand l’ensemble de catégories n’est pas donné au départ et qu’il s’agit de le créer
en regroupant les textes en classes qui possèdent un certain degré de cohérence in-
terne, on est dans un contexte de classification non supervisée pour l’apprentissage
automatique, c’est ce qu’on désigne par le clustering qui consiste à diviser les objets
en groupes sans connaitre à priori leurs classes d’apprentissage.
2.2 La catégorisation
La classification des documents vise à classer les documents textuels automati-
quement. Cette tache consiste à assigner un document à une ou plusieurs classes
ou catégories. Cela peut être fait manuellement ce qui consomme du temps et re-
quiert une grande précision ou en utilisant un des algorithme d’appretissage automa-
tique(Machine Learning) qui rend le processus de classification plus rapide et plus
efficace. Les documents à être classifié peut être du texte, des images ; etc (D.Kalita,
2015)
9
10 CHAPITRE 2. CLASSIFICATION DES DOCUMENTS
1. Tokenization
Stop-words sont les mots les plus courants rencontrés dans toutes les langues
naturelles et ne comportent que peu ou pas de contexte sémantique signifi-
catif dans une phrase. Cela a juste une importance syntaxique qui aide à la
construction de la phrase. En tant que pré-traitement, ils doivent être suppri-
mer pour accélérer la tâche principale du traitement de texte.(K.Jaideepsinh
and S.Jatinderkumar, 2016).
3. Stemming
C’est une technique couramment utilisée pour pondérer les termes dans le
domaine de la classification du texte. Il détermine la fréquence relative des
termes dans un document spécifique via une proportion inverse du terme sur
l’ensemble du corpus de documents. (Antoniou et al., 2012)
f reqi ,j
T f (fi , dj ) =
(maxi )(f reqk ,j )
12 CHAPITRE 2. CLASSIFICATION DES DOCUMENTS
N
Idf (t) = log( )
n
n
X (N pbj − N pj )2
T =
i=1 N pj
N
(
1 X 1 si yi = j
pbj = [yi = j] avec [yi = j] =
N i=1 0 sinon
K
X K
X
IG(W ) = P(Cj ) log P(Cj ) + P(W ) P(Cj |W ) log P(Cj |W )
j=1 j=1
K
X
+ P(W ) P(Cj |W ) log P(Cj |W )
j=1
= H(samples) − H(samples |W )
2.4. LES APPROCHES DE CLASSIFICATION 13
1. Classificateur Naive-Bayes
C’est l’une des plus précises méthodes discriminatoires utilisées dans la clas-
sification.(Bilski and Adrian, 2011)
Le fonctionnement de l’algorithme SVM a besoin d’un ensemble d’entraı̂nement
positif et négatif, ce qui est rare dans d’autres méthodes de classification. Ces
ensembles d’entraı̂nement positifs et négatifs sont nécessaires à la SVM pour
rechercher la surface de décision qui sépare le mieux les données positives des
données négatives dans le n espace dimensionnel, appelé hyper-plan.(V.Korde
and C.M.Namrata, 2012)
On trouves deux façons pour représenter le jeux de données c’est :
Soit par une ligne comme illustre la figure 2.5, sinon par un hyper-plan comme
dans la figure 2.4 . Mais il est généralement plus facile de travailler avec
un hyper-plan pour bien séparé les données comme représente la figure 2.6.
(M.Sanjeevi, 2017)
3. Arbre de décision
m
fi2
X
IG (f ) = 1 −
i=1
m
X
IE (f ) = − fi log2 fi
i=1
(
fi = f ractions des elements de l0 ensemble
ou .
i = l0 etiquette dans l0 ensemble
.
Elle est utilisée en recherche d’information, notamment pour la recherche
documentaire, la classification ou le filtrage de données. Ce modèle concer-
nait originellement les documents textuels et a été étendu depuis à d’autres
types de contenus. Le premier exemple d’emploi de ce modèle est le système
SMART. (G.Salton, 1975)
2. https ://openclassrooms.com/fr/courses/4379436-explorez-vos-donnees-avec-des-
algorithmes-non-supervises/4379561-partitionnez-vos-donnees-avec-un-algorithme-de-clustering-
hierarchique
18 CHAPITRE 2. CLASSIFICATION DES DOCUMENTS
— Clustering K-Means
Selon l’algorithme de classification K-Means , les clusters dépendent entièrement
de la sélection des centroı̈des des clusters initiales. K éléments de données
sont sélectionnés comme centres initiaux puis les distances de tous les
éléments de données sont calculées par la formule de distance euclidienne.
Les éléments de données ayant une distance inférieure aux centroı̈des sont
déplacés vers le groupe de couleurs approprié. Le processus se poursuit
jusqu’à ce qu’il n’y ait plus de changements dans les clusters [k-1].(Raval
and Jani, 2016)
la réponse sur cette question dans cette étape qui consiste à déterminer l’ef-
ficacité des classificateurs.
En règle générale, les mesures d’évaluation dans les problèmes de classification
sont définies à partir d’une matrice nommé la matrice de confusion avec le
nombre d’exemples correctement et incorrectement classé pour chaque classe
comme illustre le tableau 2.1 . (Oprea, 2014)
Classe prédite
True Class False class
True
Classe True positive False positive
Class
actuelle
False
True négative False négative
Class
— Faux positifs (FP) : exemples prédits positifs, qui sont de la classe négative.
— Faux négatifs (FN) : exemples prédits comme négatifs, dont la vraie classe
est positive.
— Vrais positifs (TP) : exemples correctement prédits comme se rapportant
à la classe positive.
— Vrai négatifs (TN) : exemples correctement prédits comme appartenant à
la classe négative.
2.5.1 Accuracy
Il évalue l’efficacité du classificateur par son pourcentage de prédictions cor-
rectes.
|T N | + |T P |
Acc =
|F N | + |F P | + |T N | + |T P |
2.5.2 Recall
Évalue l’efficacité d’un classificateur pour chaque classe du problème binaire.
|T P |
R=
|F N | + |T P |
20 CHAPITRE 2. CLASSIFICATION DES DOCUMENTS
2.5.3 Precision
C’est une mesure qui estime la probabilité qu’une prédiction positive est
correcte.
|T P |
P =
|F P | + |T P |
2.5.4 F Measure
La précision et le rappel peuvent être combinés pour produire une seule
métrique appelée mesure-F, qui est la moyenne harmonique pondérée de
précision et de rappel.
2 ∗ T P Rate ∗ P recision
F M easure =
T P Rate + P recision
2.6 Conclusion
Dans ce chapitre nous avons présenté une vue détaillée des principaux ap-
proches de catégorisation des textes qui existent, ainsi leurs avantages et leurs
inconvénients.
On remarque pour les raisons des avantages qu’on a mentionné qu’on peut
dire que les approches supervisées sont très utilisées, néanmoins , il reste
certain cas qui nécessite les approches non supervisées pour les exemples
d’auto-apprentissage ( cela veut dire appliquer l’apprentissage sans aucune
connaissance préalable).
Chapitre 3
Ontologies
3.1 Introduction
Pour supporter l’interopérabilité, le partage et la réutilisation des connaissances
formellement représentées parmi les différents systèmes, il est utile de définir un
vocabulaire commun dans lequel les connaissances partagées seront représentées.
La spécification de ce vocabulaire de représentation est appelée Ontologie.
Le concept ” ontologie ” est un terme empreinte de la philosophie. Il est utilisé dans
des domaines variés tels que le web sémantique, le traitement de la langue naturelle,
la recherche d’information, l’intégration des données, les services web.
Une ontologie permet de représenter explicitement la sémantique des données en
réduisant les hétérogénéités qui peuvent apparaitre lors de l’intégration. Ainsi, elles
offrent un moyen pour décrire de manière formelle les connaissances d’un domaine
particulier, en définissant des concepts et des relations entre ces derniers .
21
22 CHAPITRE 3. ONTOLOGIES
— Le terme formelle précise que l’ontologie construite doit être lisible par un
ordinateur.
— le terme partagée montre qu’une ontologie fournit un vocabulaire conceptuel
commun et une compréhension partagée par la communauté visée. (Karima,
2015)
connaissances ontologique c’est-à-dire décider quels sont les concepts, les relations,
et quelle est leur notion.
— Déterminer la portée.
— Envisager la réutilisation.
— Énumérer les termes.
— Définir la taxonomie.
— Définir les propriétés
— Définir les facettes.
— Définir les instances.
Comme tout processus de développement .Ces étapes devront être itéré, et il peut
être nécessaire de revenir aux étapes précédentes à tout moment du processus.
1. Déterminer la portée
Définir quelle ontologie sera utilisée et dans quel domaine et qui utilisera et
maintiendra l’ontologie.
2. Envisager la réutilisation
Rédiger une liste de tous les termes utilisés dans l’ontologie, et décrire leurs
significations et leurs propriétés.
4. Définir la taxonomie
Créer des instances de classes dans la hiérarchie, ce qui signifie choisir une
classe, créer une instance de cette classe.
3.6.1 RDF
RDF est un modèle de données simple pour décrire de manière sémantique les
ressources sur le Web. Les propriétés binaires relient des termes formant un graphe
dirigé. Ces termes ainsi que les propriétés sont décrits à l’aide d’URI. Puisqu’une
propriété peut être un URI, elle peut à nouveau être utilisée comme terme lié à une
autre propriété.
Les graphes RDF sont construits à partir de triples RDF (Figure 3.2 ). Les triples
RDF décrivent et connectent des objets via la combinaison de ressources, propriétés
et valeurs de propriétés. (Domingue et al., 2011)
26 CHAPITRE 3. ONTOLOGIES
3.6.2 RDFS
2. https ://www.w3.org/People/EM/talks/www7/tutorial/part2/sld063.htm
3.6. LES LANGAGES D’ONTOLOGIES 27
3.6.4 OWL
L’expressivité des RDFschémas et RDF est délibérément très limitée : RDF est
(grossièrement) limité aux prédicats de sol binaires, et RDF Schema est (encore
grossièrement) limité à une hiérarchie de sous-classes et à une hiérarchie de pro-
priétés, avec le domaine et les définitions de gamme de ces propriétés.
Cependant, le groupe de travail sur les ontologies Web du W3C a identifié un
certain nombre de cas d’utilisation caractéristiques des ontologies sur le Web qui
3. https ://www.w3.org/TR/daml+oil-reference
28 CHAPITRE 3. ONTOLOGIES
3.7.2 Mapping
1. Methodes du mapping
3.7.3 Fusion
La fusion d’ontologies représente la création d’une nouvelle ontologie à partir de
deux ontologies ou plus.(J.Davies et al., 2006)
L’ontologie résultante unifie et remplace les ontologies d’origine (voir la figure 3.6 )
(N.MELLAL, 2007).
3.7. LES APPROCHES DE L’ONTOLOGIE 31
3.7.4 Intégration
L’intégration d’ontologies peut être définie comme le processus d’intégration de
deux ou plusieurs ontologies sources pour créer une nouvelle ontologie (intégrée)
.(J.E.L.Vergara et al., 2003)
Au cours du processus d’intégration, il peut être nécessaire d’affiner les ontologies
sources avant de les intégrer.
1. Méthodes d’intégration
3.8 Conclusion
Au long de ce chapitre, nous avons essayé d’éclaircir la notion d’ontologie en
présentant certaines définitions.Nous avons montré aussi leurs avantages, les notions
de base liées aux ontologies, les types des ontologies, les langages de description des
ontologies.
Par conséquent , l’utilisation des ontologies en tant que clés permettant d’améliorer
la classification dans cet environnement mais reste un problème ouvert. Les défis
et les limitations, tels que la taille et l’hétérogénéité des documents, la rareté des
connaissances sémantiques, les contraintes d’utilisation, ou l’absence de critères
d’évaluation formels, peuvent être soulignés comme l’une des principales raisons
de la lenteur de l’application de l’extraction sémantique.
Troisième partie
État de l’art
33
Chapitre 4
État de l’art
4.1 Introduction
Les systèmes de classification de documents sont basés sur des méthodes qui
permettent aux utilisateurs de récupérer l’information souhaitée en vue de classifier
leurs documents.
Les premières techniques de classification de documents ne sont pas généralement
basées sur la sémantique.
Dans ce chapitre, nous allons faire un tour d’horizon de différents travaux qui ont
été menés dans le contexte de classification de documents à base d’ontologie dont
les travaux du domaine ont approuvé une efficacité remarquable par l’utilisation de
cette dernière .
Hnin Pwint Myu Wai et al (Pwint Myu Wai et al., 2018) ont proposé un
système de classification de pages Web basé sur l’ontologie en utilisant un arbre
de décision C4.5 amélioré et des classificateurs Naı̈ve Bayésien. Leurs objectif est
de classer le contenu web d’une manière organisée en classant les pages web en
catégories pertinentes afin d’aider les moteurs de recherche à fournir des résultats
plus rapides et meilleurs. Ce système est testé en utilisant des documents HTML
dans le domaine informatique.
35
36 CHAPITRE 4. ÉTAT DE L’ART
Architecture
Principe
Ce système comporte trois parties principales qui se résument dans :
1. Un processus de pré-traitement qui consiste à la tokenization,la suppression
des mots vides (Stop words) et extraire les descripteurs de ces pages web.
4.2. LES APPROCHES PROPOSÉES 37
.Leurs objectif étaient de fournir une de fournir un méthode pour améliorer la clas-
sification de documents médicaux en exploitant cette dernière, ce qui leur a permis
de générer une nouvelle représentation basée sur des concepts.
Architecture
Principe
Le problème principal dans la classification est la représentation de documents
textes .La représentation la plus largement utilisée dans ce domaine est le sac de
mots (Bag of words).Dans cette approche ils ont proposés une méthode afin de
réduire les limites de cette représentation, cette méthode est basée sur les concepts,
ce qui permettra, tout en enrichissant le vecteur de représentation, de réduire sa
dimension.
— Tout d’abord, mapper les termes en concepts, en choisissant une stratégie
d’appariement et d’homonymie pour enrichir le vecteur de représentation.
— Ensuite, un deuxième enrichissement en ajoutant des hyperonymes au vecteur
de représentation.
Cette approche est répartie en 6 étapes principales : :
4.2. LES APPROCHES PROPOSÉES 39
n o
cf (d.c) = tf d, t ∈ T | premier(ref, (t)) = c
4. Utilisation d’hyperonymes : l’utilisation de la relation d’hyperonymes
entre concepts en ajoutant à la notion de fréquence de chaque concept dans
un texte la fréquence d’affichage de leurs hyponymes. Puis les fréquences de
la partie vecteur sont mises à jour de la manière suivante :
cf 0 (d.c) =
X
cf (d.b)
b∈H( c)
Concepts +
Descriptors Concepts Stems
Hypernonym
Algorithms KNN C4.5 KNN C4.5 KNN C4.5
C1 0.962 0.959 0.961 0.936 0.450 0.511
C2 0.953 0.919 0.957 0.928 0.667 0.623
C3 0.927 0.705 0.938 0.936 0.581 0.629
C4 0.926 0.936 0.95 0.887 0.629 0.5
C5 0.933 0.954 0.82 0.951 0.69 0.421
C6 0.942 0.935 0.958 0.939 0.545 0.427
C7 0.954 0.943 0.959 0.949 0.5 0.468
C8 0.598 0.672 0.627 0.497 0.606 0.487
AvG 0.919 0.89 0.923 0.908 0.601 0.531
générer des règles d’association et Wordnet pour trouver des concepts sémantiques
sur.
Le but de cette approche est de mapper les balises et les termes dans un espace de
concepts ontologique qui permet d’avoir plus de fonctionnalités expressives pour la
classification automatique.
Architecture
Principe
Le système proposé est composé de deux phases principales, la phase d’appren-
tissage suivie par la phase de prédiction.
— Phase d’apprentissage construit un classificateur C à partir d’une base de
données d’arbres XML étiquetée.
— La phase de test exploite le classificateur C pour prédire la classe des arbres
XML non étiquetés.
La première phase est constituée des étapes suivantes :
42 CHAPITRE 4. ÉTAT DE L’ART
Dans la méthode proposée à la place des termes, les phrases nominales sont
ajoutées au chemin des balises, en créant NP-chunker, commençant par définir
une grammaire, composée de règles . À l’aide de cette grammaire, en créant
un analyseur de contenu XML. Basé sur cette méthode, les données XML
seront [‘article/bodyv̂ideo game’].
Principe
Ils ont converti Wikipédia en une Ontologie RDF en utilisant un outil DBpedia
modifié. Leur algorithme de catégorisation se base sur trois étapes principales :
— La première est la construction du graphe sémantique qui est construit à
partir des entités identifiées dans le document. Ils ont supposé que chaque
entité dans l’ontologie a une ou plusieurs propriétés littérales associées avec
lui.
— Ensuite une sélection et une analyse du graphe thématique, cette étape basé
sur l’hypothèse que les entités liées à une même catégorie sont étroitement
associées dans l’ontologie, tandis que les entités de différents catégories sont
très éloignées, ou même pas du tout connectées.
— Pour finir une classification dans des contextes ontologiques définis qui est
basé sur le calcul d’une similarité de la graphique du document dans chacun
des contextes définis.
— Et dernièrement ils ont calculés le Score d’associativité sémantique de la
catégorie informatique. Pour calculer l’associativité sémantique d’un docu-
ment à un contexte de catégorisation, ils ont calculé d’abord le score d’adhésion
et le score de couverture.
Compte tenu de Wikipédia en tant que graphe orienté G = W, V, E et un
concept Wikipédia wi et catégorie vj, le score d’adhésion mScore (wi, vj) du
concept wi à la catégorie vj est définie comme suit :
Où m (ek) est le poids des liens d’appartenance (liens de catégorie), ek, du
nœud vi (ou wi) à la catégorie v V, n est le nombre de liens d’appartenance,
et El = e1, e2,. . . , em représente un ensemble de tous liens d’appartenance
formant le chemin le plus court p du concept wi à la catégorie vj.
Le score de couverture cScore (c, e) d’une entité e par un Wikipedia la
catégorie c est calculée à l’aide de la formule suivante :
4.2. LES APPROCHES PROPOSÉES 45
— Afin de tester la performance de leurs système , ils ont mené trois expériences
sur le corpus de Reuters .
1. Lors de la première expérience, ils ont évaluer la catégorisation de base
de leurs système en créant des contextes de catégorisation constitués de
catégories Wikipedia de haut niveau les contextes définis incluaient des
catégories Wikipedia avec des noms correspondant directement aux noms
de catégories de Reuters.
La précision micro en moyenne (MAP) donne une moyenne de 93.8%.
2. Dans la seconde expérience, ils ont évaluer l’efficacité de la catégorisation
en sujets composés d’unions de contextes ils ont non seulement identifié les
sujets de haut niveau des documents, mais également leurs sous-thèmes
spécifiques.
La précision micro en moyenne (MAP) donne une moyenne de 87.6%.
3. Lors de la troisième expérience, ils ont évaluer la capacité de leurs système
à catégoriser les documents en sujets traités comme des compositions de
contexte plus complexes.
La précision micro en moyenne (MAP) donne une moyenne de 89.3%.
Les résultats expérimentaux ont montré que leurs méthode de catégorisation
basée sur des ontologies a donné de très bons résultats .Ces résultats sont
46 CHAPITRE 4. ÉTAT DE L’ART
Architecture
Principe
La première méthode utilisé est appelée classificateur d’ontologies qui est com-
posée par un ensemble de modules :
— Une lemmatisation, un stem et un stop-word enlevant le prétraitement pour
ce travail ils ont appliqués les fonctionnalités fournies par le cadre Apache
Lucene et un module de recherche infinitif de verbe portugais spécialement
développé pour ce dernier.
— Ils ont intégré aussi un thésaurus pour surmonter le domaine de classification
étroit possible imposé par l’ensemble limité de termes présents dans l’onto-
logie pour ce dernier ils ont utilisé une version personnalisée du thésaurus
OpenOffice brésilien portugais.
La deuxième méthode est appelé le classificateur d’ontologie de la pertinence à terme
qui consiste à l’amélioration de la première méthode .
Elle ajoute l’utilisation d’une liste de synonymes techniques attachée à des éléments
48 CHAPITRE 4. ÉTAT DE L’ART
Table 4.3 – Mesures de performance de classification générées par les trois algo-
rithmes comparé
Architecture
4.2. LES APPROCHES PROPOSÉES 49
Principe
Pour la représentation du document texte ils ont utilisé dans leur approche une
méthode dans laquelle ils ont appliqué deux phases principales :
— La première phase est la phase d’extraction de descripteurs qui vise à pré-
traiter les documents d’entrée pour cette dernière ils ont utilisé Analyseur
de langage naturel (NLP) afin de détecter les phrases les tokens en séparant
les mots pour l’analyse, stop words pour la suppression des mots inutiles,
nettoyage de données, stemming en remplaçant chaque mots extraits par sa
racine morphologique.
— La deuxième phase est la phase de la sélection des descripteurs basée sur
l’ontologie qui vise à réduire la dimensionnalité du fichier sac de mot extrait
en se basant sur la hiérarchie de l’ontologie WordNet afin d’éliminer les
mots qui n’ont aucune relation avec aucune catégorie lexicale WordNet, sans
perdre d’informations sur le texte pour cela ils ont appliqué la mesure de
similarité WuPalmer comme l’une des mesures basées sur la longueur du
chemin.
Pour la classification ils se sont basés sur deux phases principales :
— La première génère un vecteur de caractéristiques pondéré pour chacun des
documents, en utilisant la technique de Tf-IDf .
— La deuxième phase concerne la construction d’un modèle de classification par
50 CHAPITRE 4. ÉTAT DE L’ART
- 93.8% pour
les sujets
de haut niveau
des documents
wikepdia
- 87.6 % pour
Flux RSS
les sujets
de Reuters Ontologie basée
/ de haut niveau MAP
(Allahyari et al., 2014) (2013-10-24 sur wikipedia
des documents
- 2014-01-30).
wikepdia
et leurs
sous-thèmes
spécifiques
- 89.3% Pour les
contextes
composés
Méthode 1 : Classificateur d’ontologie
Jeux de
données de 500
(Sanchez-Pi et al., 2016) / Thesaurus 0.8643 Specificity
anomalies
openOffice
Méthode 2 : Classificateur d’ontologie de la pertinence à terme
4.3.1 Synthèse
D’après l’analyse du tableau, on constate que les méthodes basées sur les on-
tologies ont amélioré considérablement les performances des systèmes en comparai-
son avec les travaux qui leurs précèdent qui s’appuient sur les méthodes purement
machine-Learning et donnent de meilleures performances par rapport aux méthodes
d’apprentissage automatique avec une évaluation remarquable.
D’un autre coté ces approches unifient sur un même objectif qui est la classifica-
tion des documents en se basant sur la sémantique.
On constate également que :
— Certaines approches qui se focalisent sur un domaine ou une langue spécifique
rendent impossible une évaluation directe des algorithmes comme l’approche
d’amélioration de classification de texte à base d’ontologie qui se focalise
seulement sur le domaine de sécurité et santé et sur le thésaurus OpenOffice
portugais et l’approche de classification de documents médicaux qui se base
sur l’ontologie du domaine MESH.
— Dans le cas de mesure d’évaluation on remarque que la précision à prouvé
son efficacité en comparaison avec les autres mesure d’évaluation.
— On remarque aussi que la combinaison de plusieurs algorithmes d’apprentis-
sage améliore la performances .
52 CHAPITRE 4. ÉTAT DE L’ART
4.4 Conclusion
Dans ce chapitre, nous avons présenté les différentes études et approches dans la
classification de documents à base d’ontologie. Les problématiques et les solutions
présentées par les chercheurs, diffèrent l’une de l’autre en fonction du domaine d’ap-
plication, techniques utilisées , que nous avons illustré dans le tableau comparatif.
Nous avons remarqués que la voie prometteuse dans ce domaine est l’approche qui
utilise la réduction de dimensionnalité basée sur l’ontologie pour la classification
de documents texte web car d’après l’analyse du tableau comparatif, elle permet
d’améliorer le processus de classification des documents en fonction des mesures
d’évaluation de base : précision, rappel et F-mesure.
Quatrième partie
Étude de l’existant
53
Chapitre 5
Étude de l’existant
5.1 Introduction
Afin de pouvoir proposer des solutions et identifier les problèmes et les faiblesse
auquel les utilisateurs sont affrontés une étude de l’existant est nécessaire pour avoir
une vue détaillé de la situation actuelle.
le Groupe des Sociétés HASNA0UI (GSH) est une organisation algérienne Créée
en 1974, elle est présente dans les secteurs de la construction et de l’agriculture. GSH
rassemble plus de 17 entreprises opérant dans trois principaux pôles : Construction,
agriculture et services. II emploie aujourd’hui plus de 3000 collaborateurs répartis à
travers le pays.
55
56 CHAPITRE 5. ÉTUDE DE L’EXISTANT
Anomalie :
— Causes :
— Absence d’un système de classification.
— Le traitement est purement manuelle .
— Conséquences
— Classification non pertinente.
— Redondance des informations.
— Perte de temps.
— Suggestion
— Mettre en place un système automatisé de classification.
60 CHAPITRE 5. ÉTUDE DE L’EXISTANT
5.3 Conclusion
Dans ce chapitre nous avons cité l’organisation du travail adoptée ainsi que l’en-
vironnement de travail et la procédure employé pour la classification des documents
pour faire une analyse globale sur ce qui existe actuellement au niveau du centre
d’archivage afin de pouvoir comprendre par la suite les besoins du client qui nous
aidera à mettre en place une solution dédié aux problèmes existant .
Cinquième partie
Identification de Besoins
d’Analyse
61
Chapitre 6
Étude analytique
6.1 Introduction
Dans le cadre de la réalisation du projet qui consiste a la mise en oeuvre d’un
système de classification de documents à base d’ontologie au niveau du groupe
HASSNAOUI, nous commençons par identifier les besoins du client que nous tente-
rons de satisfaire afin d’identifier les points essentiels et les grandes fonctionnalités
de notre système.
Le processus du modèle V
Le modèle V spécifie une série d’étapes linéaires qui devraient se produire tout
au long du cycle de vie, une à la fois, jusqu’à ce que le projet soit terminé.
1. https ://www.supinfo.com/articles/single/5322-v-model-qu-est-ce-que-c-est-comment-
utiliser
63
64 CHAPITRE 6. ÉTUDE ANALYTIQUE
Dans cette partie nous présentons les principaux cas d’utilisation du système.
L’objectif de l’élaboration des cas d’utilisation est de donner une vision fonc-
tionnelle du système à concevoir.
Nous présentons dans le diagramme suivant les CU que nous jugeons impor-
tants :
6.3. ANALYSE DES BESOINS 65
Cas d’utilisation
Objectif Collecter les documents
- Lancer le système
Pré-condition
Description - S’authentifier
- Parcourir la collection de documents à classifier
Scénario
- Chargement des documents
Post-condition /
Cas d’utilisation
Objectif nettoyage des documents
- Lancer le système
Pré-condition
Description - Collecter et charger les documents
- Extraction des documents en texte
- Segmentation du texte en phrase
- Segmentation des phrases en mots
- Nomalisation de la casse
Cas d’utilisation
Objectif Mise à jour des filiales
- Lancer le système
Pré-condition
Description - Charger les documents
- Ajouter une filiale
Scénario
- Supprimer une filiale
Post-condition /
Cas d’utilisation
Objectif Mise à jour des filiales
- Lancer le système
Pré-condition
Description - Charger les documents
Scénario - Ajouter une direction
Post-condition /
Cas d’utilisation
Classification et organisation des documents
Objectif
dans des répertoire
Pré-condition - Prétraitement des documents
Description - Classifier les documents
Scénario
- Evaluer la pertinence de la classification
- Les documents sont classifiés et organisés dans des
Post-condition
répertoires selon les 3 critères : filiale , année , direction
2. Diagramme de séquence
6.6 Conclusion
Dans ce chapitre, nous avons identifié et précisé les différents besoins du client
que nous tenterons de satisfaire dans la phase de développement qui est une partie
trés important dans la réalisation du projet , en fait c’est à partir de la fin de cette
étape qu’on a prévenu à la solution préconisée au contexte du projet et la plus
adéquate pour la résolution des différents problèmes détectées auparavant .
Pour cela nous avons utilisé les diagrammes de cas d’utilisation et de séquence pour
exprimer les fonctionnalités souhaitées par le client.
Sixième partie
Étude Conceptuelle
71
Chapitre 7
Étude conceptuelle
7.1 Introduction
73
74 CHAPITRE 7. ÉTUDE CONCEPTUELLE
Nous décrirons dans la partie suivante les principales tâches de chaque étape :
7.2.2 Extraction
Le document sont extrait avec une très grande précision afin de pouvoir lire des
informations utiles du document.
7.2. ARCHITECTURE GLOBALE DU SYSTÈME 75
7.2.3 Pré-traitement
Une fois les documents sont extraits , ils doivent passer par la phase de nettoyage.
Les étapes de la phase de pré-traitement sont illustrées comme suit :
1. Tokenization
Dans cette phase le document est traité comme une chaı̂ne, puis partitionné
en un vecteur de jetons (mots).
Supprimer tous les nombres qui n’ont aucune importance dans le document.
Sont les mots les plus courants rencontrés et ne comportent que peu ou pas
de contexte sémantique significatif dans une phrase tel que a ou la
le sont . . . . . . .
6. Normalisation de la casse
Il est nécessaire de réduire les mots à la forme minuscule de toutes ses lettres
latines, quelle que soit leur position. En conséquence, les mots ”Compte” et
”compte” sont réduits à la même instance, ce qui réduit considérablement la
taille du vecteur .
7. Stemming
N
Idf (t) = log( )
n
n = docs contenant terme(t)
Comme nous l’avons déjà illustré dans la construction de l’ontologie dans le cha-
pitre 3 ,le développement manuel de l’ontologie comprend les étapes suivantes :
Cette étape consiste à vérifier s’il existe une ontologie déjà développée dans
le même domaine. Si une telle ontologie existe, il est plus facile de modifier
l’ontologie existante pour répondre à ses besoins que pour en créer une nou-
velle. Et parce que nous n’avons pas trouvé d’ontologie créée sur ce secteur,
nous avons omis cette étape.
Dans cette étape nous avons annoté les termes important que nous souhaitons
utiliser dans l’ontologie . nous avons profité des documents obtenus du centre
d’archivage pour lister les termes.
Cette étape définit les classes (concepts) utilisées dans notre domaine d’on-
tologie. Nous définissons des classes et des sous-classes liées à notre domaine.
DFC ,DMC,GRH,DAG,DCE,DCG,DGR sont des concepts généraux du ni-
veau supérieur (Top level ).
Les autres sont les classes les plus spécifiques (ou les classes de niveau inférieur).
Définissez les propriétés des objets (relations) entre les classes, rôle qui relie
les concepts de l’ontologie.
En raison de la nature de l’ontologie, qui a été utilisée à des fins de classifi-
cation, il existe rarement des relations entre les concepts ontologiques.
Les slots (parfois appelés rôles ou propriétés) ont différentes facettes (par-
fois appelées restrictions de rôle) qui décrivent le type de valeur, les valeurs
autorisées, le nombre de valeurs (cardinalité) et d’autres caractéristiques des
valeurs que peut prendre le logement.
Dans notre cas, la plupart des valeurs de slot sont des chaı̂nes
Vu la nature des documents qui sont la majorité sous forme de tableau les
mots clés extraient n’ont absolument pas d’instances.
7.3. DIAGRAMME DE CLASSE 79
7.2.7 Classification
La dernière phase consiste à classer des documents pour cela on a utilisé Modèle
d’espace vectoriel pour la méthode de classification de texte
7.5 Conclusion
Dans ce chapitre, nous avons Nous avons modélisé les données du système à tra-
vers un diagramme de classe et l’aspect métier à travers un diagramme d’activité.
A ce stade , après avoir analysé les besoins , avoir établi la conception du système ,
on bascule maintenant vers l’implémentation technique et la réalisation de l’appli-
82 CHAPITRE 7. ÉTUDE CONCEPTUELLE
cation souhaité .
Septième partie
83
Chapitre 8
Introduction
Le développement du projet a été réalisé sur une machine : DELL Inspiron avec
8 GO de RAM et un Processeur Intel Core(TM) i5-7200U CPU @ 2.50 GHZ 2.70
GHZ .
85
86 CHAPITRE 8. INTRODUCTION
Comme outil de modélisation nous avons utilisé Star Uml , c’est un logiciel de
modélisation UML (Unified Modeling Language) open source compatible avec UML
2.x standard et supporte totalement 11 types de diagrammes UML : classe, objet, cas
d’utilisation, composant, déploiement, structure composée, séquences, communica-
tion, états de transition, Activité et diagramme de profil. Étant simple d’utilisation,
nécessitant peu de ressources système, supportant UML 2, ce logiciel constitue une
excellente option pour une familiarisation à la modélisation. 1
MySQL est un Système de Gestion de Base de Données (SGBD) parmi les plus
populaires au monde. Il est distribué sous double licence, un licence publique générale
GNU et une propriétaire selon l’utilisation qui en est faites .Il permet ainsi de répartir
la charge sur plusieurs machines, d’optimiser les performances ou d’effectuer facile-
ment des sauvegardes des données. 2
1. http ://staruml.io
2. https ://sql.sh/sgbd/mysql
8.3. ENVIRONNEMENT DE DÉVELOPPEMENT 87
3. https ://www.dataone.org/software-tools/protege
4. https ://www.jetbrains.com/idea/
88 CHAPITRE 8. INTRODUCTION
L’application a été développer sur la base du framework Spring Boot qui est un
framework d’application et une inversion du conteneur de contrôle pour la plate-
forme JavaEE. Les principales fonctionnalités du framework peuvent être utilisées
par n’importe quelle application Java. Il permet de :
— Faciliter le développement d’application complexes.
— Faciliter à l’extrême l’injection des dépendances .
— Réduire à l’extreme les fichier de configuration.
— Faciliter la gestion des dépendances Maven.
— Auto Configuration : la plupart des beans sont créés si le ou les jar(s) adéquats
sont dans le classpath.
— Fournir un conteneur de servlet embarqué (Tomcat, Jetty) .
— Créer une application autonome (jar ou war). 6
5. https ://www.oracle.com/java/technologies/java-ee-glance.html
6. https ://spring.io/projects/spring-boot
8.4. ICU 89
Apache Jena (ou Jena en abrégé) est un framework Java gratuit et à code source
ouvert pour la construction d’applications Web sémantique et d’applications liées de
données. La structure est composée de différentes API qui interagissent pour traiter
les données RDF. 7
Apache Tika est une boı̂te à outils permettant d’extraire du contenu et des
métadonnées à partir de divers types de documents, tels que Word, Excel et PDF,
voire de fichiers multimédias tels que JPEG et MP4. Tous les fichiers texte et mul-
timédia peuvent être analysés à l’aide d’une interface commune, faisant de Tika une
bibliothèque puissante et polyvalente pour l’analyse de contenu. 8
8.4 ICU
ICU est un ensemble mature et largement utilisé de bibliothèques C / C ++
et Java fournissant un support Unicode et Globalization pour les applications logi-
cielles. ICU est largement portable et donne aux applications les mêmes résultats
sur toutes les plateformes et entre les logiciels C / C ++ et Java.
Voici quelques points saillants des services fournis par ICU : 9
— Conversion de page de code : convertissez des données texte en Unicode ou
à partir de tout autre jeu de caractères ou codage.
— Collation : comparez les chaı̂nes en fonction des conventions et des normes
d’une langue, d’une région ou d’un pays particulier.
— Formatage : Formatez les nombres, les dates, les heures et les montants en
devise selon les conventions du lieu choisi.
— Calculs de temps : Plusieurs types de calendriers sont fournis au-delà du
calendrier grégorien traditionnel.
— Prise en charge Unicode : ICU suit de près le standard Unicode, offrant un
accès facile à toutes les nombreuses propriétés de caractère Unicode.
— Expression régulière : les expressions régulières d’ICU prennent entièrement
en charge Unicode tout en offrant des performances très compétitives.
— Expression régulière : les expressions régulières d’ICU prennent entièrement
en charge Unicode tout en offrant des performances très compétitives.
7. https ://jena.apache.org/tutorials/index.html
8. https ://www.baeldung.com/apache-tika
9. http ://site.icu-project.org/
90 CHAPITRE 8. INTRODUCTION
8.4.1 Front-end
Thymleaf
Thymeleaf est un moteur de template Java moderne côté serveur pour les envi-
ronnements Web et autonomes.
Avec des modules pour Spring Framework, une multitude d’intégrations avec vos
outils favoris et la possibilité d’intégrer vos propres fonctionnalités, Thymeleaf est
idéal pour le développement Web JVM HTML5 moderne - bien qu’il puisse faire
beaucoup plus. 10
Bootstrap
Bootstrap est une collection d’outils utiles à la création du design de sites et
d’applications web. C’est un ensemble qui contient des codes HTML et CSS, des
formulaires, boutons, outils de navigation et autres éléments interactifs, ainsi que
des extensions JavaScript en option. 11
JavaScript
JavaScript (qui est souvent abrégé en JS ) est un langage de script léger,
orienté objet, principalement connu comme le langage de script des pages web. Mais
il est aussi utilisé dans de nombreux environnements extérieurs aux navigateurs web
tels que Node.js, Apache CouchDB voire Adobe Acrobat. 12
Jquery
jQuery est une bibliothèque JavaScript rapide, petite et riche en fonctionnalités.
Il simplifie considérablement la navigation et la manipulation de documents HTML,
10. https ://www.thymeleaf.org/
11. https ://getbootstrap.com/
12. https ://developer.mozilla.org/fr/docs/Web/JavaScript
8.5. DÉVELOPPEMENT DE L’APPLICATION 91
la gestion d’événements, l’animation et Ajax grâce à une API simple à utiliser qui
fonctionne sur une multitude de navigateurs. 13
Pour contrôler et gérer l’historique de notre code source on a utilisé Git qui est un
outil de contrôle de version distribué que le développeur l’installe localement sur son
ordinateur afin de gérer l’historique du code source d’un projet de développement .
Pour collaborer le travail du projet entre nous on s’est réfugié à GitHub qui
est une plate-forme basée sur le cloud qui stocke le code qui lui est transmis à
partir d’ordinateur exécutant l’outil Git et permettre de collaborer entre plusieurs
développeurs sur un projet.
8.5.1 Authentification
Afin d’utiliser les différents fonctionnalité du système , il faut d’abord d’authen-
tifier en entrant l’email et le mot de passe voir la figure 8.2
8.5.2 Contact
Afin de retrouver l’ensemble des coordonnées : adresse postale, téléphone , Email
voir la figure :
8.5.3 Services
Le service contient les étapes suivantes :
8.5. DÉVELOPPEMENT DE L’APPLICATION 93
Classification
Afin de pouvoir classifier les documents une suites d’étapes est nécessaire à faire
dans le service classification :
— Sélection et upload des documents cette phase consiste à sélectionner
les documents et les charger afin de passer à la phase suivant voir la figure
8.3 :
— Extraction Dans cette phase les documents sont extraits en format texte
afin de pouvoir les traiter voir la figure 8.4 :
Cette étape consiste à mettre à ajour les filiales voir la figure 8.12 :
Évaluation
En plus de la classification des documents , nous avons ajouté une visua-
lisation graphique pour l’utilisateur afin de pouvoir voir le pourcentage de
classification par rapport à chaque filiale en utilisant un diagramme à barre
voir la figure 8.13 :
8.6 Conclusion
Dans ce chapitre nous avons décrit la mise en œuvre technique et l’implémentation
du système, nous avons également cité les outils et technologies utilisées y compris
l’environnement du développement pour la réalisation de ce projet.
Afin de tester la performance de notre système , il était nécessaire de passer par une
étape d’expérimentation qui va être détailler dans le chapitre suivant.
98 CHAPITRE 8. INTRODUCTION
Chapitre 9
9.1 Introduction
Ce chapitre montre le corpus utilisé ainsi que l’expérimentation et l’analyse des
résultats obtenus.
9.2 Corpus
Afin de pouvoir testé la performance de notre système nous avons constitué un
Dataset contenant 210 documents issu du centre d’archivage du GSH .
Les sources sont des documents PDF représentant les filiales et les directions du
GSH daté de 1974 .
9.3 Expérimentation
Cette expérimentation a été réaliser en passant par plusieurs étapes :
1. Extraction : Nous avons opté pour le toolkit Apache Tika afin d’extraire
les documents obtenus sous forme .txt .
2. Pré-traitement : qui consiste à décomposer le texte en une séquence de
mots ou de jetons ensuite passant à la reconnaissance des type de tokens(mot
, date , chiffre....), supression des : chiffres, ponctuations,stopWords .
3. Stemming : Consiste à remplacer le mot par sa racine pour cela on a utilisé :
snwoball Franch Stemmer qui est un langage de traitement de petites chaı̂nes
conçu pour la création d’algorithmes de création de liens à utiliser dans la
récupération d’informations. Ce site décrit Snowball et présente plusieurs
stemmers utiles qui ont été implémentés pour l’utiliser.
99
100 CHAPITRE 9. EXPÉRIMENTATION ET ANALYSE DES RÉSULTATS
Le tableau 9.2 illustre les résultat obtenu de l’accuracy pour les directives filiales
et directions du dataset :
Critéres Filiale Direction
Accuracy sur (100 doc) 0.88 0.85
Accuracy sur (210 doc) 0.93 0.90
Les résultats présentés dans le tableau 9.3 montre que la taille du corpus influe
sur le temps d’exécution (plus la taille est grande plus le temps est long) , le tableau
montre aussi que les phases qui prends du temps sont la phase de chargement et du
pré-traitement.
9.4 Conclusion
On a présenter dans ce chapitre les étapes traitées lors de l’expérimentation ainsi
que les résultats obtenus .
Nous avons remarqué d’après les résultat qu’en augmentant l’ensembles de donnée les
résultats sont de plus en plus meilleur , mais qui influe aussi sur le temps d’exécution
en l’augmentant , ainsi on conclut que le classifieur VSM prend sa place dans la
classification automatique d’après les résultat obtenu de l’Accracy .
102 CHAPITRE 9. EXPÉRIMENTATION ET ANALYSE DES RÉSULTATS
Huitième partie
103
Chapitre 10
Conclusion et perspective
10.1 Conclusion
Le systèmes de classification de documents est devenu une nécessité et un instru-
ment primordial dans les entreprises . Ce dynamisme est dû à la demande importante
des utilisateurs pour cette technologie. Il devient de plus en plus indispensable dans
de nombreuses situations où la quantité de documents textuels électroniques rend
impossible tout traitement manuel.
Afin de renforcer la tache de classification au niveau du Groupe de société hasnaoui
, GSI la filiale du groupe a initié ce projet pour répondre au différents besoin des
utilisateurs pour leurs faciliter le travail qui se faisait en général manuellement .
Dans ce cadre, il nous a été demandé de concevoir et réaliser un système de classi-
fication des documents approfondis à base d’ontologie .
Cette thèse de mémoire est structuré de sorte à donner au lecteur une vision sur le
cheminement de notre travail, ayant permis d’aboutir à la phase de réalisation du
système. Pour ce faire, le travail a commencé par une collecte progressive de connais-
sances théoriques et pratiques dans le domaine de classification de textes basé sur
les ontologies.
Ensuite on s’est prolongé dans l’aspect métier afin de collecter et identifier les
différents besoins analytiques et techniques.
Une fois les besoins ont été fixés, la conception de notre processus a été aborder
ainsi que l’ontologie dédié à la classification pour mettre en place par la suite une
application web en utilisant le framework Spring Boot.
Nous avons présenté notre Solution qui reflète notre contribution au niveau du
GSHasnaoui et qui facilitera la tache aux utilisateurs sur une grande échelle où
il va permettre de faire une classification automatique avec une grande précision
tout en diminuant l’excès de travail ainsi que le temps .
Comme cela notre travail a atteint les objectifs tracés et attendus par l’organisme.
En espérant dans un temps future de l’enrichir afin d’atteindre les perceptives sou-
haitées.
105
106 CHAPITRE 10. CONCLUSION ET PERSPECTIVE
10.2 Perspectives
A notre contribution dans ce travail, plusieurs perspectives peuvent être envi-
sagées afin de rendre son utilisation plus fiable et plus professionnelle. Nous pouvons
citer à titre d’exemple les perspectives suivantes à réaliser pour notre système dans
un temps futur :
— Tester l’approche sur d’autre corpus de taille plus grande et de langues
différentes.
— Rendre l’application dynamique .
— Utiliser d’autres approches d’apprentissage automatique .
— Enrichir l’ontologie et la rendre universel pas seulement un domaine.
BIBLIOGRAPHIE 107
Bibliographie
A.Dertat (2017). Part 4 : Convolutional neural networks, Applied Deep Learning .
URL: https ://towardsdatascience.com/applied-deep-learning-part-1-artificial-
neural-networks-d7834f67a4f6 16
Allahyari, M., Pouriyeh, S. A., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B.
and Kochut, K. (2017). A brief survey of text mining : Classification, clustering
and extraction techniques, Journal of CoRR abs/1707.02919.
URL: http ://arxiv.org/abs/1707.02919 13
Elasri, H., Sekkaki, A., Hajjam, A., Benmimoune, L., Talha, S. and Andrès, E.
(2014). Ontologies et intégration des connaissances pour un suivi polypatholo-
gique., journa Medecine Therapeutique 20 : 67–78. 28
J.Davies, P.Warren and R.Studer (2006). Semantic Web Technologies : trends and
research in ontology-based systems, book. 30
Martinez-Gil, J., Navas Delgado, I. and Aldana Montes, J. (2012). Maf : An ontology
matching framework, Journal of Universal Computer Science 18 : 194–217. 29
M.Sanjeevi (2017). Support vector machine with math, Deep Math Machine lear-
ning.ai .
BIBLIOGRAPHIE 109
Staab, S. and Studer, R. (2009). Handbook on Ontologies, 2nd edn, Springer Publi-
shing Company, Incorporated. 28
Zhang, Q., Bin Wu and Juan Yang (2014). Parallelization of ontology construction
and fusion based on mapreduce, pp. 439–443. 11