Vous êtes sur la page 1sur 72

Classification et segmentation

avec WEKA

Hicham BEHJA
WEKA: l’oiseau
WEKA: Le software
• Bibliothèque d’algorithmes de classification et
segmentation pour le data mining écrits en Java
• Utilisé par les chercheurs, les universitaires
• Principales fonctions:
– Ensemble de méthodes de prétraitements des algorithmes
d’apprentissage et des méthodes d’évaluation
– Interface graphique (incl. data visualization)
– Environnement de comparaison des algorithmes
d’apprentissage
WEKA travail qu’avec des fichiers
“text”
@relation heart-disease-simplified

@attribute age numeric


@attribute sex { female, male}
@attribute chest_pain_type { typ_angina, asympt, non_anginal,
atyp_angina}
@attribute cholesterol numeric
@attribute exercise_induced_angina { no, yes}
@attribute class { present, not_present}

@data
63,male,typ_angina,233,no,not_present
67,male,asympt,286,yes,present
67,male,asympt,229,yes,present
38,female,non_anginal,?,no,not_present
...
WEKA travail qu’avec des fichiers
“text”
@relation heart-disease-simplified

@attribute age numeric


@attribute sex { female, male}
@attribute chest_pain_type { typ_angina, asympt, non_anginal,
atyp_angina}
@attribute cholesterol numeric
@attribute exercise_induced_angina { no, yes}
@attribute class { present, not_present}

@data
63,male,typ_angina,233,no,not_present
67,male,asympt,286,yes,present
67,male,asympt,229,yes,present
38,female,non_anginal,?,no,not_present
...
Explorer: pre-processing des
données
• Les données peuvent être importées d’un des
formats suivants: ARFF, CSV, C4.5, binary
• Les données peuvent être lus à partir d’une
URL ou bien à partir d’une requête SQL d’une
base de données (utilisant JDBC)
• Les outils de Pre-processing (prétraitements)
dans WEKA sont appelés “filters”
• WEKA contient des filtres pour:
– Discretization, normalization, resampling, attribute
selection, transforming and combining attributes, …
Explorer: “classifiers”
• Classifiers dans WEKA utilisent des attributs
numériques et nominaux
• Les algorithmes d’apprentissage inclus
différents méthodes
– Decision trees, instance-based classifiers,
support vector machines, multi-layer
perceptrons, logistic regression, Bayes’ nets…
• “Meta”-classifiers rassemble (pour la
comparaison):
– Bagging, boosting, stacking, error-correcting
output codes, locally weighted learning, …
The Knowledge Flow GUI
• Nouveau interface graphique pour Weka
• Connexion graphique entre source,
classifiers, visualization…
• Les configurations ou les schémas
d’exécution peuvent être enregistrés et
rechargés après.
Conclusion
• Lien pour WEKA
http://www.cs.waikato.ac.nz/ml/weka

Vous aimerez peut-être aussi