Académique Documents
Professionnel Documents
Culture Documents
Weka
i
Weka
À propos du tutoriel
Il s'agit d'un logiciel complet qui permet de préparer les grandes données, d'appliquer différents
algorithmes d'apprentissage automatique sur les grandes données et de comparer
différents résultats. Ce logiciel permet de travailler facilement avec des données
volumineuses et de former une machine à l'aide d' algorithmes d'apprentissage
automatique.
Le didacticiel vous guidera dans l'utilisation de la WEKA pour satisfaire aux exigences ci-dessus.
Audience
Les didacticiels répondent aux besoins des utilisateurs de l'apprentissage automatique qui souhaitent
apprendre à utiliser Weka et répondent aux besoins d'apprentissage des débutants
et des experts en apprentissage automatique.
Conditions préalables
Ce tutoriel est destiné aux lecteurs qui sont supposés avoir des connaissances de
base sur l'extraction de données et les algorithmes d'apprentissage automatique.
Si vous avez un nouveau sujet, nous vous conseillons de suivre un tutoriel avant
de commencer votre apprentissage avec Weka.
Tout le contenu et les graphiques publiés dans ce livre sont la propriété de TutorialsPoint(I)
Pvt.Ltd. L'utilisateur de ce livre est interdit d'utiliser, de conserver, de copier, de distribuer ou de
publier tout ou partie du contenu de ce livre de la même
manière sans le consentement écrit de l'éditeur.
i
Table des matières
À propos de the Tutorial......................................................................................i
Audience......................................................................................................... i
Prerequisites........................................................................................................... i
Tableau of Contents........................................................................................... ii
1. WEKA — Introduction........................................................................................1
3. WEKA — Installation.......................................................................................... 4
Arff Format.................................................................................................... 13
Autres Formats...............................................................................................15
Comprendre Data............................................................................................18
Suppression de Attributes...................................................................................20
Candidature Filters.......................................................................................... 21
8. WEKA — Classifiers.......................................................................................... 23
En sélectionnant Classifier..................................................................................25
Visualiser Results.............................................................................................27
9. WEKA — Clustering.......................................................................................... 31
Chargement Data.............................................................................................31
Clustering..................................................................................................... 32
Examiner Output.............................................................................................34
Visualisation Clusters........................................................................................36
Chargement Data.............................................................................................41
Associator..................................................................................................... 42
Chargement Data.............................................................................................45
Caractéristiques Extraction.................................................................................46
Conclusion..................................................................................................... 51
1. WEKA - Introduction Weka
Si vous voulez analyser des données importantes, vous devez avoir plusieurs
points de vue sur les données :
Thedatamustbeclean.
Il ne devrait pas contenir de valeurs nulles.
En outre, les colonnes qui ne sont pas utilisables ne seraient pas utiles pour le type
d'analyse que vous essayez d'effectuer. Leurs colonnes de données pertinentes ou leurs
caractéristiques, appelées dans la terminologie de l'apprentissage automatique,
doivent être supprimées avant que les données ne soient introduites dans un algorithme
d'apprentissage automatique.
Le type d'algorithme que vous appliquez est basé en grande partie sur la connaissance du domaine.
Même au sein de ce type, par exemple la classification, il existe plusieurs
algorithmes disponibles. Vous pouvez noter les différents
algorithmes sous ce modèle d'apprentissage machine efficace, mais vous préférerez
la visualisation des données traitées et vous aurez également besoin d'outils de visualisation.
Dans les prochains chapitres, vous découvrirez Weka, un logiciel qui complète les chapitres
précédents et vous permet de travailler confortablement avec des données
importantes.
1
2. WEKA - Qu'est-ce Weka
que WEKA ?
Les logiciels de WEKA fournissent des outils pour le prétraitement, la mise en œuvre
de plusieurs algorithmes d'apprentissage automatique et des outils de visualisation afin
que vous puissiez développer des techniques d'apprentissage automatique et les appliquer
à des problèmes de données du monde entier :
Vous commencez par les données recueillies sur le terrain, qui peuvent contenir plusieurs valeurs
nulles et des champs non pertinents. Vous utilisez ces données pour le
prétraitement des outils fournis par WEKA pour nettoyer les données.
Ensuite, vous sauvegarderiez les données prétraitées dans votre mémoire locale pour appliquer les
2
2. WEKA - Qu'est-ce Weka
que WEKA ?
algorithmes ML.
3
Weka
Il est à noter que dans chaque catégorie, WEKA fournit une mise en œuvre de plusieurs algorithmes.
Vous pouvez sélectionner un algorithme de votre choix, définir les paramètres et les
unités souhaités dans l'ensemble des données.
Ensuite, WEKA vous fournira les résultats statistiques du traitement du modèle et vous fournira un
avis sur l' outil d'inspection des données.
Maintenant que nous avons prévu ce que fait WEKA, nous allons, dans le chapitre suivant, apprendre
comment installer WEKA sur votre ordinateur local.
3
3. WEKA - Installation Weka
Pour installer WEKA sur votre machine, visitez le site officiel de WEKA et téléchargez le
fichier d'installation. WEKA supporte l'installation sur Windows, MacOSX et Linux. Vous devez
simplement suivre les instructions de cette page pour installer WEKA sur votre
ordinateur.
4
Weka
Explorer
Expérimentateur
KnowledgeFlow
Workbench
SimpleCLI
5
4. WEKA - Lancement de Weka
l'explorateur
Lorsque vous cliquez sur le bouton de l'explorateur dans le sélecteur d'applications, l'écran
suivant s'ouvre :
Préprocessus
Classifier
Cluster
Associé
SelectAttributes
Visualiser
6
Weka
Onglet Préprocessus
Au départ, il est facile d'ouvrir l'explorateur, seul l'onglet "Prétraitement" est activé.
La première étape de l'apprentissage machine consiste à prétraiter les données. Ainsi, dans
l'option Prétraitement, vous allez sélectionner le fichier de données, le traiter et le rendre
apte à l'application des différents algorithmes d'apprentissage automatique.
Onglet Classifier
L'onglet Classifier vous fournit plusieurs algorithmes d'apprentissage automatique pour la
classification de vos données. Pour en énumérer quelques-uns, vous pouvez appliquer des
algorithmes tels que la régression linéaire, la régression logistique , les machines à vecteurs de
soutien, les arbres de décision, RandomTree, RandomForest, NaiveBayes, etc. La liste est très
exhaustive et fournit des algorithmes d' apprentissage machine supervisés et non supervisés.
Onglet Cluster
Sous l'onglet Clu ster, plusieurs algorithmes de regroupement sont fournis, tels que
SimpleKMeans, FilteredClusterer, HierarchicalClusterer et bientôt.
Onglet Associé
Sous l'onglet "Associé", vous trouverez "Associé", "Associé filtré" et "Croissance".
Visualiser l'onglet
Enfin, la visualisation des options permet de visualiser les données traitées pour l'analyse.
Comme vous l'avez remarqué, WEKA fournit des algorithmes prêts à l'emploi pour
tester et construire vos applications d'apprentissage sur machine. Pour utiliser WEKA efficacement,
vous devez avoir une bonne connaissance de ces algorithmes, de leur fonctionnement, du
choix de l'algorithme à utiliser et des circonstances dans lesquelles il est utilisé, de l'efficacité
de leur traitement et, bientôt, vous devez avoir de solides bases en matière
d'apprentissage machine avec WEKA pour construire efficacement vos applications.
Dans les prochains chapitres, vous étudierez chaque onglet de l'explorateur en profondeur.
7
5. WEKA - Chargement des Weka
données
Dans ce chapitre, le point de départ est le premier onglet qui vous permet de prétraiter les données,
ce qui est commun à tous les algorithmes que vous appliquez pour construire
votre modèle et qui est une étape commune à toutes les opérations suivantes de la
WEKA.
Pour que l'algorithme d'apprentissage de chaque machine soit d'une précision acceptable, il est
important de le nettoyer en premier lieu, car les données recueillies sur le
terrain peuvent contenir des valeurs nulles, des couleurs non pertinentes et
bientôt.
Dans ce chapitre, vous apprendrez comment prétraiter les données brutes et créer un ensemble de
données propres et significatives pour une utilisation ultérieure.
Tout d'abord, vous apprendrez à charger le fichier de données dans l'explorateur de la WEKA, qui
sera alimenté par les sources suivantes :
Localfilesystem
Web
Base de données
Dans ce chapitre, nous allons sceller les trois options de chargement des données en détail.
Ouvrez le dossier...
OpenURL...
OpenDB...
8
Weka
Cliquez sur le bouton Ouvrir fichier ... Une fenêtre de navigateur de répertoire s'ouvre
comme indiqué dans l'écran suivant :
9
Chargement de données à partir du Web
Une fois que vous avez cliqué sur le bouton Ouvrir URL ..., vous pouvez voir la fenêtre suivante :
Nous allons établir le profil de l'URL publique par le biais de l'URL suivante dans la boîte à lettres :
https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff
Vous pouvez spécifier toute autre URL où vos données sont stockées. L'explorateur chargera
les données du site distant dans son environnement.
Chargement des données de la base de données
Une fois que vous avez cliqué sur le bouton Ouvrir DB ..., vous pouvez voir la fenêtre suivante :
Installez la chaîne de connexion à votre base de données, configurez la demande de sélection, traitez
la demande et téléchargez les enregistrements sélectionnés dans WEKA.
6. WEKA - Formats des Weka
fichiers
WEKA soutient un plus grand nombre de formats de données, dont voici la liste complète :
arff
arff.gz
bsi
csv
dat
données
json
json.gz
libsvm
m
noms
xrff
xrff.gz
Les types de fichiers qu'il soutient sont énumérés dans la boîte de dialogue située au
bas de l'écran, comme le montre la capture d'écran ci-dessous.
12
Weka
Vous devez savoir qu'il prend en charge plusieurs formats, dont CSV et JSON. Le
fichier par défaut est de type Arff.
Format Arff
Le fichier AnArff contient deux sections : l'en-tête et les données.
13
A titre d'exemple pour le format Arff, le fichier de données météorologiques chargé à partir
des bases de données d'échantillons WEKA est présenté ci-dessous :
La@datatag démarre l'index des données contenant les champs séparés par
une virgule.
Les attributs peuvent prendre des valeurs nominales comme dans le cas des perspectives
présentées ici :
Vous pouvez choisir une cible ou un jeu appelé variable comme celui présenté ici :
L'objectif est d'obtenir les valeurs économiques les plus élevées possible.
Autres formats
L'explorateur peut charger les données dans n'importe quel des formats mentionnés ci-dessus.
Comme le format préféré de WEKA, vous pouvez charger
les données à partir de n'importe quel format et les sauvegarder pour une utilisation ultérieure. Après
avoir traité les données, il suffit de les sauvegarder pour une analyse plus
approfondie.
Maintenant que vous avez appris à charger les données dans WEKA, dans le chapitre suivant, vous
apprendrez comment les traiter.
7. WEKA - Prétraitement des Weka
données
Les données recueillies sur le terrain contiennent de nombreux éléments qui conduisent
à des analyses erronées. Par exemple, les données peuvent contenir des champs non pertinents, elles
peuvent contenir des colonnes qui ne sont pas pertinentes pour l'analyse actuelle,
et bientôt, les données doivent être traitées pour répondre aux exigences du type
d'analyse que vous recherchez. C'est ce qui est fait dans le module de prétraitement.
Pour démontrer les fonctionnalités disponibles en prétraitement, nous utiliserons la base de données
météo fournie à l'installation.
En utilisant l'option Ouvrir le fichier ... sous l'étiquette Prétraiter, sélectionnez le fichier
.arff nominal de la météo.
16
Weka
Ce chapitre présente des informations sur les données téléchargées, qui ont été
discutées plus en détail dans ce chapitre.
17
Comprendre les données
Regardons d'abord la sous-fenêtre de la relation actuelle mise en évidence. Elle
indique le nom de la base de données qui est actuellement chargée :
Le tableau contient 5 attributs de champs, qui ont été discutés dans les
sections suivantes.
Sur le côté gauche, remarquez la sous-fenêtre Attributs qui affiche les différents champs de la
base de données.
Lorsque vous sélectionnez un attribut du législateur en cliquant dessus, vous obtenez plus
de détails sur l'attribut en question affiché sur le côté gauche.
Sélectionnez d'abord l'attribut de la température, puis cliquez sur l'écran
suivant :
Ces attributs choisis seront retirés de la base de données. Après avoir prétraité les
données, vous pourrez les sauvegarder pour construire un modèle.
Nous convertissons les données astronomiques en appliquant un filtre sur nos données brutes.
dans la sous-fenêtre Filtre et sélectionnez le filtre suivant :
weka->filtres->supervisés->attributs->Discrétiser
Cliquez sur le bouton "Appliquer" et examinez l'attribut de température et/ou d'humidité, vous
remarquerez que ces derniers ont changé de type numérique.
Regardons maintenant dans un autre filtre. Supposons que vous vouliez choisir les meilleurs
attributs pour décider du jeu. Sélectionnez et appliquez le filtre suivant :
Une fois que vous êtes satisfait du prétraitement de vos données, sauvegardez-les en cliquant sur le
bouton
Bouton "Enregistrer ...". Vous utiliserez ce modèle de fichier enregistré.
De nombreuses applications d'apprentissage machine sont liées à la classification. Par exemple, vous
pouvez souhaiter classer une tumeur ou une affection bénigne. Vous pouvez
choisir de décider si le jeu doit être joué à l' extérieur en
fonction des conditions météorologiques. En général, cette décision dépend de plusieurs
caractéristiques ou conditions météorologiques.
Dans ce chapitre, nous apprendrons comment construire un tel catalogue de théâtre sur la base de
données météorologiques et décider des conditions de jeu.
23
Weka
Avant de vous renseigner sur les classificateurs disponibles, examinons les options de test .
Vous remarquerez que les options de test sont énumérées ci-dessous :
Trainingset
Suppliedtestset
Validation croisée
Pourcentagesplit
Si vous ne fournissez pas un ensemble de tests pour la formation et les clients, vous devrez utiliser
des options de validation croisée et de pourcentage de répartition. En cas de
validation croisée, vous pouvez définir le nombre de plis qui doivent être divisés et utilisés
pendant chaque session de formation. Dans la répartition en pourcentage, vous
partagerez les données entre la formation et les tests en utilisant le pourcentage de répartition
défini.
24
Sélection du classificateur
Cliquez sur le bouton "Choisir" et sélectionnez le classificateur suivant :
weka->classificateurs>arbres>J48
Sélectionnez Visualiser l'arbre pour obtenir une représentation visuelle de l'arbre de traversée
tel que vu dans la capture d'écran ci-dessous :
En sélectionnant Visualiser les erreurs de classification, vous obtiendrez les résultats
de la classification tels qu'ils sont présentés ici :
Une croix représente une instance correctement classée, tandis que les carrés
représentent des instances mal classées. Au coin inférieur gauche du terrain, une
croix indique que si la perspective est ensoleillée, alors jouez le jeu. Il s'agit donc d'une
instance correctement classée. Pour localiser les instances, vous pouvez introduire une certaine
gigue en faisant glisser la barre de défilement de la gigue.
L'intrigue actuelle est celle de la perspective contre le jeu. Ces éléments sont indiqués par
les deux listes déroulantes en haut de l'écran.
Maintenant, essayez de choisir parmi les différentes boîtes et notez comment le X&Y change.
Ce dernier peut être atteint en utilisant la ligne horizontale du huitième côté de la parcelle.
Chaque bande représente un attribut. Un clic gauche sur la bande permet de régler l'attribut choisi
sur l'axe X, tandis qu'un clic droit permet de le régler sur l'axe Y.
Il existe d'autres parcelles fournies pour votre analyse approfondie. Utilisez-les judicieusement
pour affiner votre modèle. Une telle parcelle d' analyse coûts/avantages
est indiquée ci-dessous pour votre référence rapide.
Expliquer l'analyse de ces graphiques dépasse le cadre de ce tutoriel. Le lecteur est encouragé à
approfondir ses connaissances sur l'analyse des algorithmes d'apprentissage automatique.
Un algorithme de regroupement permet de trouver des groupes d'instances similaires dans l'ensemble
des données. WEKA prend en charge plusieurs algorithmes de regroupement tels que EM,
FilteredClusterer, HierarchicalClusterer, SimpleKMeans et autres. Vous devez comprendre
ces algorithmes afin d'exploiter pleinement les capacités de WEKA.
Comme dans le cas de la classification, WEKA permet de visualiser graphiquement les clusters
détectés. Pour démontrer la classification, nous utiliserons la base de données de l'iris
fournie. Cette base de données contient trois classes de 50 instances chacune, chacune d'entre elles
se référant à un type de plante de l'iris.
31
Weka
Vous pouvez observer qu'il y a 150 instances et 5 attributs, dont les noms sont
les suivants : longueur de sépale, largeur de sépale, longueur de pétale, largeur de pétale
et classe. Les quatre premiers attributs sont de type numérique, tandis que la classe
est un type nominal avec trois valeurs distinctes. Examinez chaque attribut pour comprendre les
caractéristiques de la base de données. Nous ne ferons aucun prétraitement de ces données et
nous procéderons directement à la construction du modèle.
Regroupement
Cliquez sur l'onglet "Cluste r TAB" pour appliquer les algorithmes de regroupement à nos
données chargées. Cliquez sur le bouton "Choisir" pour afficher l'écran suivant :
32
Maintenant, sélectionnez EM comme algorithme de classification.
Option d'évaluation des classes aux groupes comme indiqué sur la capture d'écran ci-
dessous :
Cliquez sur le bouton "Démarrer " pour traiter les données. Après un certain temps, les
résultats seront présentés sur l'écran.
Comme dans le cas de la classification, vous remarquerez la distinction entre les instances
correctement et incorrectement identifiées. Vous pouvez jouer en changeant les axes X
et Y pour analyser les résultats. Vous pouvez utiliser la gigue comme dans le cas de la classification
pour déterminer la concentration d'instances correctement identifiées. Les opérations
de visualisation sont similaires à celles étudiées dans le cas de la classification.
Appliquer le clustering hiérarchique
Pour démontrer la puissance de WEKA, voyons maintenant comment appliquer un autre
algorithme de regroupement. Dans l'explorateur WEKA, sélectionnez le cluster hiérarchique
comme algorithme ML, comme indiqué dans les captures d'écran ci-dessous :
Choisissez le mode de sélection des classes pour l'évaluation des classes, et cliquez sur le
bouton
Bouton de démarrage : vous verrez le résultat suivant :
Remarquez que dans la liste des résultats , il y a deux résultats : le premier est
le résultat et le second est le résultat hiérarchique actuel. De même, vous pouvez appliquer plusieurs
algorithmes ML de la même manière et comparer rapidement les résultats.
Si vous examinez l'arbre produit par cet algorithme, vous verrez le résultat suivant :
Dans le chapitre suivant, vous étudierez le type d'association des algorithmes ML.
10. WEKA - Association Weka
On a constaté que les gens qui achètent de la bière achètent des couches en
même temps. Bien que cela ne semble pas très convaincant, cette règle d'association a été
extraite d'énormes bases de données de supermarchés. De même, une association peut
être trouvée entre le beurre européen et le pain.
Trouver de telles associations devient vital pour les supermarchés où l'on stocke les
couches à côté de celles que les clients peuvent acheter, et où le chiffre
d'affaires est en augmentation.
L'algorithme Apriori est l'un de ces algorithmes de ML qui permet de découvrir les
associations probables et de créer des règles d'association. Vous pouvez définir le
soutien minimum et un niveau de confiance acceptable pour l'application de ces
règles. Vous appliquerez l'algorithme Apriori aux données de supermarché fournies
dans l'installation de WEKA.
41
Weka
La base de données contient 4627 instances et 217 attributs. Il est facile de comprendre combien il
serait difficile de détecter l'association entre un si grand nombre d'attributs.
Heureusement, cette tâche est liée à l'algorithme de l'apriori.
Associé
Cliquez sur l'onglet "Associer " et cliquez sur le bouton "Choisir". Sélectionnez
l'association prioritaire indiquée sur la capture d'écran :
42
Pour régler les paramètres de l'algorithme primaire, cliquez sur son nom et une fenêtre
s'ouvrira, comme indiqué ci-dessous, sans régler les paramètres :
Après avoir défini les paramètres, cliquez sur le bouton Démarrer . Au bout d'un moment,
vous verrez les résultats apparaître sur la capture d'écran ci-dessous :
En bas, vous trouverez les meilleures règles d'associations détectées. Cela aidera le supermarché
qui stocke ses produits à s'approprier les rayons.
11. WEKA - Sélection de Weka
reportages
Vous pouvez examiner visuellement les données et décider de leurs attributs pertinents, ce
qui pourrait être une tâche énorme pour les bases de données contenant un grand nombre
d'attributs, comme l'affaire du supermarché que vous avez vue dans une leçon précédente.
Heureusement, WEKA propose un outil de sélection automatique des caractéristiques.
Ce chapitre présente cette fonctionnalité sur une base de données contenant un grand nombre d'
attributs.
45
Weka
Remarquez qu'il y a 17 attributs. Notre tâche consiste à créer un ensemble de données en éliminant
certains des attributs qui sont pertinents pour notre analyse.
46
Cliquez sur le bouton "Démarrer" pour traiter l'ensemble des données et vous obtiendrez les résultats
suivants :
En bas de la fenêtre de résultats, vous obtiendrez la liste des attributs sélectionnés . Pour
obtenir la représentation visuelle, cliquez avec le bouton droit de la souris sur le résultat dans la liste
des résultats.
Il s'agit d'un exemple similaire à ceux que nous avons déjà abordés dans les chapitres précédents,
qui présente les différentes options disponibles pour analyser les résultats.
Tapez vos commandes dans la boîte de saisie située en bas de l'écran. Vous pourrez
faire tout ce que vous avez fait jusqu'à présent dans l'explorateur et bien plus encore. Pour plus de
détails, consultez la documentation de WEKA
(https://www.cs.waikato.ac.nz/ml/weka/documentation.html).
Enfin, WEKA est développé à Java et fournit une interface avec son API. Ainsi , si vous
êtes un développeur Java et que vous souhaitez inclure les réalisations de WEKAML dans vos propres
projets Java, vous pouvez facilement le faire.
Conclusion
WEKA est un outil puissant pour le développement de modèles d'apprentissage machine. Il permet la
mise en œuvre de plusieurs algorithmes de modélisation les plus utilisés. Avant
que ces algorithmes ne soient appliqués à votre jeu de données, ils permettent également de
prétraiter les données. Les types d'algorithmes qui sont pris en charge sont classés
dans les catégories Classifier, Regrouper, Associer et Sélectionner les attributs. Les
différents niveaux de traitement peuvent être visualisés grâce à une représentation visuelle
magnifique et puissante , ce qui permet aux scientifiques d'appliquer rapidement les
différentes techniques d'apprentissage automatique sur l'ensemble des données, de
comparer les résultats et de créer le meilleur modèle pour l'utilisation finale.