Vous êtes sur la page 1sur 8

Prsentation de Weka (1)

I Weka (Waikato Environment for Knowledge Analysis)


Environnement Waikato pour lanalyse de connaissances

I Suite de logiciels dapprentissage automatique et dexploration de


donnes crite en Java

I Dveloppe luniversit de Waikato en Nouvelle-Zlande


I Historique
I 1993, Dveloppement de la version originale en C
I 1997, Re-dveloppement partir de zro en Java
I 2005, Weka reoit le SIG KDD award
I 2006, Pentaho Corporation acquiert une licence exclusive
Prsentation de Weka (2)

I 2 848 660 downloads sur Sourceforge (2011)


I Disponible pour toutes les plateformes
I Windows x86, Windows x64, Mac OS X, Linux etc.

I Documentation riche et communaut large


I Le livre Data Mining : Practical Machine Learning Tools and
Techniques (troisime dition)
I API http://weka.sourceforge.net/doc.stable/
I Wiki http://weka.wikispaces.com/
I FAQ http://weka.wikispaces.com/FAQ
I Tutoriels, mailing list, etc.
Que contient le toolkit Weka ?

I Outils de pr-traitement des donnes (filtering)


I Slection, transformation, combinaison dattributs, normalisation,
re-chantillonnage, etc.

I Algorithmes pour lexploration de donnes


I Clustering, classification, rgression, etc.

I Analyse de rsultats
I valuation de performances, comparaison dalgorithmes, etc.

I Plusieurs interfaces
I Graphiques (Explorer, Experimenter et Knowledge Flow )
I En ligne de commande (CLI)
Aperu de linterface de Weka

04 jan 2012 / Rv. 1 - page 10 sur 53


Format dentre (1)
I Le format dentre par dfaut de Weka est le ARFF (Attribute
Relation File Format)
I Dautres formats peuvent tre imports
I CSV, binaire, BDD SQL (avec JDBC), partir dune URL, etc.

I Caractristiques du format de fichier ARFF :

1. Les commentaires sont prcds de %


% Ceci est un commentaire dans un ensemble
% de donnees.
2. Dfinition du nom de lensemble de donnes avec @relation
I Le nom doit tre aussi comprhensible que possible

@relation temperatureMaison_14jours
Format dentre (2)

3. Dfinition des features avec @attribute


I Attributs nominaux suivis des valeurs entre accolades
@attribute outlook {sunny, overcast, rainy}
I Attributs numriques avec real
@attribute temperature real
I Attributs chaines avec string, les valeurs doivent tre entre doubles
guillemets "blah blih bloh"
@attribute unTexte string
I Attributs dates avec date (yyyy-MM-dd-THH :mm :ss)
@attribute uneDate date

4. @data signale le dbut des instances


Exemple de fichier ARFF
% Ensemble de donnees sur la meteo
@relation weather

% Definition des features


@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

% Debut des instances


@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
...
Format dentre (3)
I Par dfaut, le dernier attribut est considr comme la variable de
classe / prdire
I En CLI, la commande -c permet de choisir la variable prdire,
e.g. -c 1 spcifie le premier attribut

I Dans le cas de donnes parses, il est possible de compresser les


donnes en ne reprsentant pas explicitement les valeurs 0
I Le format est <index><espace><valeur>

% Instances contenant beaucoup de 0


0, 6, 0, 0, 0, 0, 3, 0, 0, 0, "class A"
0, 0, 0, 4, 0, 0, 0, 0, 0, 0, "class B"

% Instances compressees avec des accolades


{1 6,6 3 , 10 "class A"}
{3 4, 10 "class B"}

Vous aimerez peut-être aussi