Documents Texte
Pr. T.RACHAD 1
Classification de Documents
Texte
Pr. T.RACHAD 2
Classification?
• La classification (catégorisation) est le processus qui permet d’attribuer à
chaque document dans un corpus la classe (les classes) le plus adéquat,
sachant que la liste des classes possibles est prédéfinie.
Pr. T.RACHAD 3
Approches de Classification
• Deux approches de classification:
Pr. T.RACHAD 4
Applications de la Classification
• Indexation de texte
Pr. T.RACHAD 5
Applications de la Classification (Indexation)
• L’indexation de texte est l’opération qui permet d’extraire à partir d’un
document texte les termes clés qui décrivent mieux son contenu et qui
appartiennent à un vocabulaire contrôlé.
• Les termes clés peuvent être vus comme des classes à attribuer aux
différents documents d’un corpus.
Pr. T.RACHAD 6
Applications de la Classification (Tri)
• Classifier une collection de documents en fonction de plusieurs
topics. chaque document appartient à exactement un topic.
• Exemples:
• Classification des articles de presse (Sport, Economie, Politique,
Social…)
• Classification des emails (Professionnel, Publicité, Evènement… )
Pr. T.RACHAD 7
Applications de la Classification (Filtrage)
• Il s’agit d’un tri de documents de texte selon un critère pour le quel
chaque document est considéré comme pertinent ou non pertinent.
• Exemples :
• Détection des emails spam
• Système de recommandation (publicité, e-Commerce,… )
• Traitement des feedbacks des clients.
Pr. T.RACHAD 8
Processus Général de Classification
Modèle de
Features extraction Features Selection Evaluation
classification
Pr. T.RACHAD 9
Feature extraction
• Un document texte ne peut pas être traité dans son format brute.
Pr. T.RACHAD 10
Feature Selection
• Les dimensions des vecteurs obtenus à l’issues de l’opération du « features
extraction » sont énormes. Il est nécessaire de réduire la taille de ces vecteurs en
sélectionnant juste les features qui sont les plus significatifs ou en combinant les
features similaires ou appartenant à la même famille .
• Calculer la pertinence (fréquence) de chaque feature et garder les 10% les plus
pertinent(naïf).
Pr. T.RACHAD 12
Naıve Bayes
• Calcul la probabilité qu’un document d appartient à une classe c en
appliquant le Théorème de Bayes:
P(c|d)= P(d|c)*P(c)/ P(d)
Pr. T.RACHAD 13
Bayesian Logistic Regression
• Pour une classification binaire, l’application d’une régression
logistique bayésienne est souhaitable:
Pr. T.RACHAD 14
Decision Tree
• Un arbre de décision est une structure arborescente dans la quelle les nœuds
internes sont étiquetés par les éléments clés du modèle représentatif des
documents, les arcs sont étiquetés par des instruction conditionnelles sur les
éléments clés et les feuilles sont étiquetées par les classes.
Pr. T.RACHAD 15
Decision Rule
• Permet d’induire les règles qui permettent de classifier correctement les
documents à partir d’un dataset d’apprentissage et de l’ensemble de toutes
le règles possibles.
Pr. T.RACHAD 16
KNN
• L’algorithme d’apprentissage kNN (k-nearest neighbor) se base sur les similarités
entre les documents pour les classifier.
Pr. T.RACHAD 17
SVM
• Dans le cas d’une classification binaire, le classificateur svm peut être
vue comme un hyperplan dans l’espace des features qui sépare les
points appartenant à la classe de ceux qui n’y appartient pas.
Pr. T.RACHAD 18
Bagging and Boosting
• Deux techniques d’apprentissage ensembliste: le bagging et le boosting
Pr. T.RACHAD 19
Autres Algorithmes de Classification
• Regression lineaire
• Neural Networks
• The Rocchio Methods
•…
Pr. T.RACHAD 20
Performances des Algorithmes
• Les plus performants : SVM, AdaBoost, kNN, et Regression.
Pr. T.RACHAD 21
Evaluation d’un modèle de classification
• Le dataset qui comporte des documents qui sont déjà affectés à des
classes doit être subdivisé en deux parties: le dataset d’apprentissage
(le plus important en terme de taille) et le dataset de test (le plus
petit en terme de taille).
Pr. T.RACHAD 22
Evaluation d’un modèle de classification
• Pour mesurer les performances de la classification le rappel(recall) et la précision
sont les plus courantes.
• Le rappel d’une classe est défini comme étant le pourcentage des documents qui sont
classifiés correctement par rapport à tous les documents qui appartiennent à cette classe.
• La précision d’une classe est défini comme étant le pourcentage des documents qui sont
classifiés correctement parmi l’ensemble des documents attribués à cette classe.
• Pour avoir un équilibre entre le rappel et la précision on peut se baser sur le seuil
de rentabilité qui correspond au point de la courbe rappel/précision pour lequel
la précision et le rappel sont égaux. On peut utiliser egalement le F_mesure qui
représentent les deux mesures; F_Mesure=2x(rappel x précision)/((rappel +
précision) Pr. T.RACHAD 23
Clustering de Documents Texte
Pr. T.RACHAD 24
Clustering ?
• Le Clustering, partitionnement ou regroupement de données est une
méthode d’analyse de données non supervisée qui permet de
catégoriser des objets en plusieurs groupes intitulés clusters.
• Le clustering plat (flat clustering) produit une partition unique d'un ensemble
d'objets en groupes disjoints. Le nombre de clusters est prédéfini
manuellement.
• Le clustering dur (Hard clustering ) dans lequel chaque document est membre
exactement d’un seul cluster.
• clustering souple (soft clustering ) dans lequel l'affectation d'un document est
une distribution sur tous les clusters.
Algorithmes de Clustering
• Une troisième catégorisation des algorithmes de clustering
• Les algorithmes divisifs commençant par un seul cluster contenant tous les
objets et effectuent le fractionnement jusqu'à ce qu'un critère d'arrêt soit
satisfait.
Algorithmes de Clustering
• Les algorithme de clutering courants sont:
• K-means (dur, plat)
• the EM-based mixture resolving (souple, plat, probabiliste)
• HAC (hiérarchique, agglomératif).
Description du Clustering
• Une description significative et concise du cluster est sollicité pour
permettre par la suite un traitement automatique ultérieur ou pour aider
les utilisateurs à interpréter les regroupement générés.