Vous êtes sur la page 1sur 19

Plan de travail

1 ) Introduction
2)Une synthèse concernant les algorithmes de
classification
3) Les types de classification des documents
4) la présentation de la méthode de classification de
document (Baca)
5) Explication détaillé de la méthode de classification de
document (Baca)
6) Etudes comparatives entre les méthodes de classification
7) Conclusion
Introduction
Avec la croissance explosive de l'information, les exigences
en matière d'acquisition et de gestion de l'information
ont augmenté rapidement.
Les informations peuvent être présentées dans un format
structuré et non structuré.
Lors de la présentation des documents nous avons besoin
de les classer, Pour faciliter l’accé aux documents
rechercher .
La tâche de classer automatiquement un ensemble de
documents dans des catégories prédéfinies est appelé
étiquettes de classe .
Une synthèse concernant les algorithmes de
classification
des nombreux classificateur de texte ont été
proposés dans la littérature comme l utilisation
de technique d'apprentissage automatique et
probabilistes modelés par exemple arbre de
décision ,voisins les plus proches et certain
classificateurs de base de règles d'association.
Bien connus incluent CBA CMAR CPAR CMAR
CACA
Les types des algorithmes de classification

• Les algorithme traditionnel :


• les algorithmes de classification d'association
Le processus global de l'algorithme de
classification d'association 
est qu’Un ensemble de données de règles
d'association est produit, puis un petit
ensemble de règles de haute qualité est
sélectionné et finalement ces règles sont
utilisées pour la prédiction .
Le processus de classification par les règles
d’association
la présentation de la méthode de
classification de document (Baca)

• Notre algorithme est inspiré de CACA, par son


filtrage de l'espace de recherche des motifs
fréquents, mais obtient les caractéristiques de
haute qualité d'une manière différente.
• 1) enregistre les éléments(mots) dans une
base de données en mode binaire
• 2 ) trouver les règles
• 3) classer les documents invisibles
Explication détaillé de la méthode de
classification de document (Baca)
1. Convertir du texte en formulaire structuré
2. Rechercher des mots fréquents pour chaque
étiquette de classe
3. Produire des sous-ensembles de mots
fréquents et enregistrer des règles
4. Classer les documents invisibles
• Convertir du texte en formulaire structuré

1 < seuil alors on mets 0 dans tab 2 Le seuil = 2


Rechercher des mots fréquents pour chaque étiquette de classe
Produire des sous-ensembles de mots fréquents et enregistrer des règles
classer les documents invisibles
Etudes comparatives entre les méthodes de
classification
Pour démontrer les performances de
l'algorithme, un ensemble de données
d'articles d'actualités perses, contenant 565
documents, dont cinq classes - sociales,
financières, culturelles, politiques et sportives -
ont été collectées
La validation croisée est un moyen de prédire
l'efficacité d'un modèle
Nous utilisons la précision, le rappel et le score F
pour mesurer l'efficacité de l'approche
proposée
Afin de trouver les meilleurs résultats pour
BACA, différentes gammes de support
minimum et de confiance minimum sont
examinées
Différentes parties de l'algorithme ont été
comparées séparément avec certaines
méthodes connues d'exécution de chaque
partie.
• Pour commencer, nous avons comparé les fonctionnalités générées par la
méthode proposée (BACA) avec celles obtenues par les méthodes TF_IDF et
Entropy
évaluer la performance globale des techniques
Pour évaluer les performances de la deuxième
partie de l'algorithme proposé, les algorithmes
SVM, NB et KNN ont été utilisées
Conclusion
Un nouvel algorithme de classification d'association, nommé BACA, a
été proposé qui vise à classer les documents. L'algorithme proposé a
de nombreuses fonctionnalités améliorées par rapport aux méthodes
de classification traditionnelles et d'association qui sont utilisées pour
classification des documents. Il (a) produit des règles
compréhensibles qui peuvent être facilement interprétées par les
humains, (b) contient une partie de sélection des fonctionnalités afin
de réduire la dimension du texte, (c) regroupe les fonctionnalités
importantes basées sur les étiquettes de classe, (d) ne nécessite
qu'une seule analyse des données de formation, (e) enregistre les
fonctionnalités sous forme de flux binaire et utilise des opérations
binaires dans tous les processus afin de réduire l'espace mémoire
nécessaire, (f) a la capacité de prédire plus d'une étiquette de classe
pour chaque document invisible (classification multi-étiquettes) et (g)
il est indépendant de la langue dans la classification.

Vous aimerez peut-être aussi