Vous êtes sur la page 1sur 57

Abonnez-vous à DeepL Pro pour éditer ce document.

Visitez www.DeepL.com/Pro pour en savoir plus.

Weka

i
Weka

À propos du tutoriel
Il s'agit d'un logiciel complet qui permet de préparer les grandes données, d'appliquer différents
algorithmes d'apprentissage automatique sur les grandes données et de comparer
différents résultats. Ce logiciel permet de travailler facilement avec des données
volumineuses et de former une machine à l'aide d' algorithmes d'apprentissage
automatique.

Le didacticiel vous guidera dans l'utilisation de la WEKA pour satisfaire aux exigences ci-dessus.

Audience
Les didacticiels répondent aux besoins des utilisateurs de l'apprentissage automatique qui souhaitent
apprendre à utiliser Weka et répondent aux besoins d'apprentissage des débutants
et des experts en apprentissage automatique.

Conditions préalables
Ce tutoriel est destiné aux lecteurs qui sont supposés avoir des connaissances de
base sur l'extraction de données et les algorithmes d'apprentissage automatique.

Si vous avez un nouveau sujet, nous vous conseillons de suivre un tutoriel avant
de commencer votre apprentissage avec Weka.

Droits d'auteur et clause de non-responsabilité


 Copyright2019byTutorialsPoint(I)Pvt.Ltd.

Tout le contenu et les graphiques publiés dans ce livre sont la propriété de TutorialsPoint(I)
Pvt.Ltd. L'utilisateur de ce livre est interdit d'utiliser, de conserver, de copier, de distribuer ou de
publier tout ou partie du contenu de ce livre de la même
manière sans le consentement écrit de l'éditeur.

TutorialsPoint(I)Pvt. Ltd. ne garantit pas l'exactitude, l'actualité ou l'exhaustivité de


notre site Web ou de son contenu, y compris le didacticiel. Si vous
découvrez un miroir sur votre site Web ou sur
inthistutorial,pleasenotifyusatcontact@tutorialspoint.com

i
Table des matières
À propos de the Tutorial......................................................................................i

Audience......................................................................................................... i

Prerequisites........................................................................................................... i

Copyright & Disclaimer........................................................................................i

Tableau of Contents........................................................................................... ii

1. WEKA — Introduction........................................................................................1

2. WEKA - Quoi is WEKA?.......................................................................................2

3. WEKA — Installation.......................................................................................... 4

4. WEKA - Launching Explorer.................................................................................6

5. WEKA - Loading Data......................................................................................... 8

Chargement Data from Local File System..................................................................8

Chargement des données from Web.......................................................................10

Chargement des données from DB.........................................................................11

6. WEKA - File Formats........................................................................................ 12

Arff Format.................................................................................................... 13

Autres Formats...............................................................................................15

7. WEKA — Preprocessing the Data.........................................................................16

Comprendre Data............................................................................................18

Suppression de Attributes...................................................................................20

Candidature Filters.......................................................................................... 21

8. WEKA — Classifiers.......................................................................................... 23

Cadre Test Data..............................................................................................23

En sélectionnant Classifier..................................................................................25

Visualiser Results.............................................................................................27

9. WEKA — Clustering.......................................................................................... 31

Chargement Data.............................................................................................31
Clustering..................................................................................................... 32

Examiner Output.............................................................................................34

Visualisation Clusters........................................................................................36

Candidature Hierarchical Clusterer.......................................................................38

10. WEKA — Association........................................................................................41

Chargement Data.............................................................................................41

Associator..................................................................................................... 42

11. WEKA - Feature Selection.................................................................................45

Chargement Data.............................................................................................45

Caractéristiques Extraction.................................................................................46

Qu'est-ce que Next?.......................................................................................... 49

Conclusion..................................................................................................... 51
1. WEKA - Introduction Weka

La fondation de toute machine d'apprentissage de l'application des données


n'est pas seulement une question d'embrassement, mais aussi de grandes données dans la
terminologie actuelle.

Si vous voulez analyser des données importantes, vous devez avoir plusieurs
points de vue sur les données :

 Thedatamustbeclean.
 Il ne devrait pas contenir de valeurs nulles.
En outre, les colonnes qui ne sont pas utilisables ne seraient pas utiles pour le type
d'analyse que vous essayez d'effectuer. Leurs colonnes de données pertinentes ou leurs
caractéristiques, appelées dans la terminologie de l'apprentissage automatique,
doivent être supprimées avant que les données ne soient introduites dans un algorithme
d'apprentissage automatique.

En bref, vous disposez d'un grand nombre de données de prétraitement avant de


les utiliser pour l'apprentissage machine. Une fois que vous êtes prêt, vous pouvez appliquer
différents algorithmes d'apprentissage machine tels que la classification, la
régression, le regroupement et la résolution des problèmes.

Le type d'algorithme que vous appliquez est basé en grande partie sur la connaissance du domaine.
Même au sein de ce type, par exemple la classification, il existe plusieurs
algorithmes disponibles. Vous pouvez noter les différents
algorithmes sous ce modèle d'apprentissage machine efficace, mais vous préférerez
la visualisation des données traitées et vous aurez également besoin d'outils de visualisation.

Dans les prochains chapitres, vous découvrirez Weka, un logiciel qui complète les chapitres
précédents et vous permet de travailler confortablement avec des données
importantes.

1
2. WEKA - Qu'est-ce Weka

que WEKA ?

Les logiciels de WEKA fournissent des outils pour le prétraitement, la mise en œuvre
de plusieurs algorithmes d'apprentissage automatique et des outils de visualisation afin
que vous puissiez développer des techniques d'apprentissage automatique et les appliquer
à des problèmes de données du monde entier :

Si vous observez le début du cycle d'enseignement, vous comprendrez qu'il y a de


nombreuses étapes dans le traitement des grandes données qui se prêtent à l'apprentissage
automatique :

Vous commencez par les données recueillies sur le terrain, qui peuvent contenir plusieurs valeurs
nulles et des champs non pertinents. Vous utilisez ces données pour le
prétraitement des outils fournis par WEKA pour nettoyer les données.

Ensuite, vous sauvegarderiez les données prétraitées dans votre mémoire locale pour appliquer les

2
2. WEKA - Qu'est-ce Weka

que WEKA ?
algorithmes ML.

3
Weka

Ensuite, selon le type de modèle ML que vous essayez de développer, vous


pouvez choisir l'une des options telles que Classifier, Regrouper ou Associer. La sélection des
attributs permet la sélection automatique de la création d'un ensemble de données.

Il est à noter que dans chaque catégorie, WEKA fournit une mise en œuvre de plusieurs algorithmes.
Vous pouvez sélectionner un algorithme de votre choix, définir les paramètres et les
unités souhaités dans l'ensemble des données.

Ensuite, WEKA vous fournira les résultats statistiques du traitement du modèle et vous fournira un
avis sur l' outil d'inspection des données.

Vous pouvez alors comparer les résultats de différents modèles et choisir le


meilleur qui correspond à votre objectif.

Ainsi, l'utilisation de la WEKA permet un développement rapide du modèle


d'apprentissage machine dans son ensemble.

Maintenant que nous avons prévu ce que fait WEKA, nous allons, dans le chapitre suivant, apprendre
comment installer WEKA sur votre ordinateur local.

3
3. WEKA - Installation Weka

Pour installer WEKA sur votre machine, visitez le site officiel de WEKA et téléchargez le
fichier d'installation. WEKA supporte l'installation sur Windows, MacOSX et Linux. Vous devez
simplement suivre les instructions de cette page pour installer WEKA sur votre
ordinateur.

Les mesures de mise en place sur Macareas suivent :

 Téléchargez le fichier d'installation du Mac.

 Double-cliquez sur le fichierweka-3-8-3-corretto-jvm.dmg pour le télécharger.

Vous verrez l'écran suivant sur une installation réussie.

 Cliquez sur le petit 3-8-3-correttojvm icontostartWeka.

 Il est possible de participer depuis la ligne de commande :

java -jar weka. jar

4
Weka

L'application WEKAGUIChoosera démarrée et vous verrez l'écran suivant :

L'application de l'UICHOOSERA permet d'éviter cinq types


d'applications différents, énumérés ici :

 Explorer
 Expérimentateur
 KnowledgeFlow
 Workbench
 SimpleCLI

WewillbeusingExplorer dans le tutoriel.

5
4. WEKA - Lancement de Weka

l'explorateur

Dans ce chapitre, examinons les diverses fonctionnalités que l'explorateur fournit


pour travailler avec des données importantes.

Lorsque vous cliquez sur le bouton de l'explorateur dans le sélecteur d'applications, l'écran
suivant s'ouvre :

En haut, vous trouverez plusieurs listes ici :

 Préprocessus
 Classifier
 Cluster
 Associé
 SelectAttributes
 Visualiser

6
Weka

Sous ces rubriques, il y a des algorithmes d'apprentissage automatique déjà mis en


œuvre.

Onglet Préprocessus
Au départ, il est facile d'ouvrir l'explorateur, seul l'onglet "Prétraitement" est activé.
La première étape de l'apprentissage machine consiste à prétraiter les données. Ainsi, dans
l'option Prétraitement, vous allez sélectionner le fichier de données, le traiter et le rendre
apte à l'application des différents algorithmes d'apprentissage automatique.

Onglet Classifier
L'onglet Classifier vous fournit plusieurs algorithmes d'apprentissage automatique pour la
classification de vos données. Pour en énumérer quelques-uns, vous pouvez appliquer des
algorithmes tels que la régression linéaire, la régression logistique , les machines à vecteurs de
soutien, les arbres de décision, RandomTree, RandomForest, NaiveBayes, etc. La liste est très
exhaustive et fournit des algorithmes d' apprentissage machine supervisés et non supervisés.

Onglet Cluster
Sous l'onglet Clu ster, plusieurs algorithmes de regroupement sont fournis, tels que
SimpleKMeans, FilteredClusterer, HierarchicalClusterer et bientôt.

Onglet Associé
Sous l'onglet "Associé", vous trouverez "Associé", "Associé filtré" et "Croissance".

Onglet Sélectionner les attributs


Select Attributes vous permet de présenter des sélections basées sur plusieurs algorithmes tels que
ClassifierSubsetEval, PrinicipalComponents, etc.

Visualiser l'onglet
Enfin, la visualisation des options permet de visualiser les données traitées pour l'analyse.

Comme vous l'avez remarqué, WEKA fournit des algorithmes prêts à l'emploi pour
tester et construire vos applications d'apprentissage sur machine. Pour utiliser WEKA efficacement,
vous devez avoir une bonne connaissance de ces algorithmes, de leur fonctionnement, du
choix de l'algorithme à utiliser et des circonstances dans lesquelles il est utilisé, de l'efficacité
de leur traitement et, bientôt, vous devez avoir de solides bases en matière
d'apprentissage machine avec WEKA pour construire efficacement vos applications.

Dans les prochains chapitres, vous étudierez chaque onglet de l'explorateur en profondeur.

7
5. WEKA - Chargement des Weka

données

Dans ce chapitre, le point de départ est le premier onglet qui vous permet de prétraiter les données,
ce qui est commun à tous les algorithmes que vous appliquez pour construire
votre modèle et qui est une étape commune à toutes les opérations suivantes de la
WEKA.

Pour que l'algorithme d'apprentissage de chaque machine soit d'une précision acceptable, il est
important de le nettoyer en premier lieu, car les données recueillies sur le
terrain peuvent contenir des valeurs nulles, des couleurs non pertinentes et
bientôt.

Dans ce chapitre, vous apprendrez comment prétraiter les données brutes et créer un ensemble de
données propres et significatives pour une utilisation ultérieure.

Tout d'abord, vous apprendrez à charger le fichier de données dans l'explorateur de la WEKA, qui
sera alimenté par les sources suivantes :

 Localfilesystem
 Web
 Base de données
Dans ce chapitre, nous allons sceller les trois options de chargement des données en détail.

Chargement de données à partir d'un système de fichiers local


Juste sous les tableaux d'apprentissage machine que vous avez étudiés lors de la leçon précédente,
vous trouverez les trois boutons suivants :

 Ouvrez le dossier...
 OpenURL...
 OpenDB...

8
Weka

Cliquez sur le bouton Ouvrir fichier ... Une fenêtre de navigateur de répertoire s'ouvre
comme indiqué dans l'écran suivant :

Maintenant, naviguez dans le dossier où sont stockés vos fichiers. L'installation de


WEKA vous propose de nombreux exemples de bases de données à expérimenter. Celles-ci sont
disponibles dans le dossier data de l'installation de WEKA.

Le contenu du fichier sera téléchargé dans l' environnement WEKA. Nous


apprendrons bientôt comment inspecter et traiter les données téléchargées.
Avant cela, voyons comment télécharger le fichier de données à partir du web.

9
Chargement de données à partir du Web
Une fois que vous avez cliqué sur le bouton Ouvrir URL ..., vous pouvez voir la fenêtre suivante :

Nous allons établir le profil de l'URL publique par le biais de l'URL suivante dans la boîte à lettres :

https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff

Vous pouvez spécifier toute autre URL où vos données sont stockées. L'explorateur chargera
les données du site distant dans son environnement.
Chargement des données de la base de données
Une fois que vous avez cliqué sur le bouton Ouvrir DB ..., vous pouvez voir la fenêtre suivante :

Installez la chaîne de connexion à votre base de données, configurez la demande de sélection, traitez
la demande et téléchargez les enregistrements sélectionnés dans WEKA.
6. WEKA - Formats des Weka

fichiers

WEKA soutient un plus grand nombre de formats de données, dont voici la liste complète :

 arff

 arff.gz

 bsi

 csv

 dat

 données

 json

 json.gz

 libsvm

 m

 noms

 xrff

 xrff.gz

Les types de fichiers qu'il soutient sont énumérés dans la boîte de dialogue située au
bas de l'écran, comme le montre la capture d'écran ci-dessous.

12
Weka

Vous devez savoir qu'il prend en charge plusieurs formats, dont CSV et JSON. Le
fichier par défaut est de type Arff.

Format Arff
Le fichier AnArff contient deux sections : l'en-tête et les données.

 L'en-tête décrit les types d'attributs.


 La section des données contient des données séparées.

13
A titre d'exemple pour le format Arff, le fichier de données météorologiques chargé à partir
des bases de données d'échantillons WEKA est présenté ci-dessous :

A partir de la capture d'écran, vous pouvez indiquer les points suivants :

 La balise@relation définit le nom de la base de données.

 La balise@attribut définit les attributs.

 La@datatag démarre l'index des données contenant les champs séparés par
une virgule.

 Les attributs peuvent prendre des valeurs nominales comme dans le cas des perspectives
présentées ici :

@attribute outlook (ensoleillé, couvert, pluvieux)

 Les attributs peuvent prendre la valeur des céréales comme base :

@attribuer la température réelle

 Vous pouvez choisir une cible ou un jeu appelé variable comme celui présenté ici :

@attribut play (oui, non)

 L'objectif est d'obtenir les valeurs économiques les plus élevées possible.
Autres formats
L'explorateur peut charger les données dans n'importe quel des formats mentionnés ci-dessus.
Comme le format préféré de WEKA, vous pouvez charger
les données à partir de n'importe quel format et les sauvegarder pour une utilisation ultérieure. Après
avoir traité les données, il suffit de les sauvegarder pour une analyse plus
approfondie.

Maintenant que vous avez appris à charger les données dans WEKA, dans le chapitre suivant, vous
apprendrez comment les traiter.
7. WEKA - Prétraitement des Weka

données

Les données recueillies sur le terrain contiennent de nombreux éléments qui conduisent
à des analyses erronées. Par exemple, les données peuvent contenir des champs non pertinents, elles
peuvent contenir des colonnes qui ne sont pas pertinentes pour l'analyse actuelle,
et bientôt, les données doivent être traitées pour répondre aux exigences du type
d'analyse que vous recherchez. C'est ce qui est fait dans le module de prétraitement.

Pour démontrer les fonctionnalités disponibles en prétraitement, nous utiliserons la base de données
météo fournie à l'installation.

En utilisant l'option Ouvrir le fichier ... sous l'étiquette Prétraiter, sélectionnez le fichier
.arff nominal de la météo.

16
Weka

Quand vous ouvrez le dossier, votre écran ressemble à celui d'ici :

Ce chapitre présente des informations sur les données téléchargées, qui ont été
discutées plus en détail dans ce chapitre.

17
Comprendre les données
Regardons d'abord la sous-fenêtre de la relation actuelle mise en évidence. Elle
indique le nom de la base de données qui est actuellement chargée :

 Il y a 14 instances - le nombre de lignes de la table.

 Le tableau contient 5 attributs de champs, qui ont été discutés dans les
sections suivantes.

Sur le côté gauche, remarquez la sous-fenêtre Attributs qui affiche les différents champs de la
base de données.

Lorsque vous sélectionnez un attribut du législateur en cliquant dessus, vous obtenez plus
de détails sur l'attribut en question affiché sur le côté gauche.
Sélectionnez d'abord l'attribut de la température, puis cliquez sur l'écran
suivant :

Dans la sous-fenêtre Attributs sélectionnés, vous pouvez observer ce qui suit :

 Ensuite, le nom et le type de l'attribut entendu sont affichés.

 Le type d'attribut de la température est Nominal.

 Le nombre de valeurs manquantes est alors de zéro.

 Il y a trois valeurs distinctes à évaluer.

 Le tableau ci-dessous indique les valeurs nominales de ces domaines


comme étant chauds, doux et froids.

 Il indique également le nombre et le poids des intervalles de pourcentage par rapport à la


valeur nominale.

Au bas de la fenêtre, vous voyez la représentation visuelle des valeurs de la classe.


Si vous cliquez sur le bouton "Visualiser tout ", vous pourrez voir toutes les
fonctionnalités dans une seule fenêtre :

Suppression des attributs


A Manyatime, les données que vous souhaitez utiliser pour élaborer des modèles
concernent des domaines peu pertinents. Par exemple, les données sur les clients peuvent contenir
un nombre mobile d'éléments pertinents pour l'analyse et l'évaluation du crédit.
Sélectionnez les attributs et cliquez sur le bouton "Supprimer" en bas.

Ces attributs choisis seront retirés de la base de données. Après avoir prétraité les
données, vous pourrez les sauvegarder pour construire un modèle.

Ensuite, vous apprendrez à préparer l'application de filtres sur ces données.

Appliquer des filtres


Certaines des techniques d'apprentissage automatique, telles que l'extraction de règles d'association,
nécessitent des données catégorielles. Pour illustrer l'utilisation des filtres, nous utiliserons
les bases de données weather-numeric.arff qui contiennent deux attributs numériques :
la température et l'humidité.

Nous convertissons les données astronomiques en appliquant un filtre sur nos données brutes.
dans la sous-fenêtre Filtre et sélectionnez le filtre suivant :

weka->filtres->supervisés->attributs->Discrétiser

Cliquez sur le bouton "Appliquer" et examinez l'attribut de température et/ou d'humidité, vous
remarquerez que ces derniers ont changé de type numérique.
Regardons maintenant dans un autre filtre. Supposons que vous vouliez choisir les meilleurs
attributs pour décider du jeu. Sélectionnez et appliquez le filtre suivant :

weka->filtres->supervisés->attributs->Sélection des attributs

Vous remarquerez qu'il supprime les attributs de température et d'humidité de la base


de données.

Une fois que vous êtes satisfait du prétraitement de vos données, sauvegardez-les en cliquant sur le
bouton
Bouton "Enregistrer ...". Vous utiliserez ce modèle de fichier enregistré.

Dans le prochain chapitre, nous explorerons la construction du modèle à l'aide de


plusieurs algorithmes ML prédéfinis.
8. WEKA - Classificateurs Weka

De nombreuses applications d'apprentissage machine sont liées à la classification. Par exemple, vous
pouvez souhaiter classer une tumeur ou une affection bénigne. Vous pouvez
choisir de décider si le jeu doit être joué à l' extérieur en
fonction des conditions météorologiques. En général, cette décision dépend de plusieurs
caractéristiques ou conditions météorologiques.

Dans ce chapitre, nous apprendrons comment construire un tel catalogue de théâtre sur la base de
données météorologiques et décider des conditions de jeu.

Définition des données de test


Ouvrez ce fichier en utilisant l'option Ouvrir le fichier ... sous l'onglet
Prétraitement, cliquez sur l'onglet Classement et vous obtiendrez l'écran suivant :

23
Weka

Avant de vous renseigner sur les classificateurs disponibles, examinons les options de test .
Vous remarquerez que les options de test sont énumérées ci-dessous :

 Trainingset
 Suppliedtestset
 Validation croisée
 Pourcentagesplit
Si vous ne fournissez pas un ensemble de tests pour la formation et les clients, vous devrez utiliser
des options de validation croisée et de pourcentage de répartition. En cas de
validation croisée, vous pouvez définir le nombre de plis qui doivent être divisés et utilisés
pendant chaque session de formation. Dans la répartition en pourcentage, vous
partagerez les données entre la formation et les tests en utilisant le pourcentage de répartition
défini.

Maintenant, gardez l'option de jeu par défaut pour la classe supérieure :

Ensuite, vous allez sélectionner le classificateur.

24
Sélection du classificateur
Cliquez sur le bouton "Choisir" et sélectionnez le classificateur suivant :

weka->classificateurs>arbres>J48

C'est ce que montre la capture d'écran ci-dessous :


Cliquez sur le bouton " Démarrer" pour lancer le processus de classification. Après un certain
temps, les résultats de la classification seront présentés sur notre écran ici :

Examinons les résultats obtenus sur la huitième face de l'écran.

La taille de l'arbre est de 6,5 cm. Vous verrez brièvement la représentation


visuelle de l'arbre. Dans le résumé, il est dit que les instances correctement
classées comme 2 et les instances incorrectement classées comme 3, il est également
dit que l'erreur absolue relative est de 110 %.Cependant, il
est facile de faire comprendre que la classification n'est pas acceptable et qu'il
faudra vous armer de patience pour l'analyse, pour affiner votre sélection de fonctions, pour
reconstruire le modèle et pour que vous ne soyez pas satisfait de la sacralité du
modèle.
Visualiser les résultats
Pour voir la représentation visuelle des résultats, cliquez à droite sur le résultat dans la liste des
résultats
Plusieurs options s'offrent à vous sur cet écran :

Sélectionnez Visualiser l'arbre pour obtenir une représentation visuelle de l'arbre de traversée
tel que vu dans la capture d'écran ci-dessous :
En sélectionnant Visualiser les erreurs de classification, vous obtiendrez les résultats
de la classification tels qu'ils sont présentés ici :

Une croix représente une instance correctement classée, tandis que les carrés
représentent des instances mal classées. Au coin inférieur gauche du terrain, une
croix indique que si la perspective est ensoleillée, alors jouez le jeu. Il s'agit donc d'une
instance correctement classée. Pour localiser les instances, vous pouvez introduire une certaine
gigue en faisant glisser la barre de défilement de la gigue.
L'intrigue actuelle est celle de la perspective contre le jeu. Ces éléments sont indiqués par
les deux listes déroulantes en haut de l'écran.

Maintenant, essayez de choisir parmi les différentes boîtes et notez comment le X&Y change.
Ce dernier peut être atteint en utilisant la ligne horizontale du huitième côté de la parcelle.
Chaque bande représente un attribut. Un clic gauche sur la bande permet de régler l'attribut choisi
sur l'axe X, tandis qu'un clic droit permet de le régler sur l'axe Y.
Il existe d'autres parcelles fournies pour votre analyse approfondie. Utilisez-les judicieusement
pour affiner votre modèle. Une telle parcelle d' analyse coûts/avantages
est indiquée ci-dessous pour votre référence rapide.

Expliquer l'analyse de ces graphiques dépasse le cadre de ce tutoriel. Le lecteur est encouragé à
approfondir ses connaissances sur l'analyse des algorithmes d'apprentissage automatique.

Dans le chapitre suivant, nous apprendrons un ensemble d'algorithmes d'apprentissage automatique,


le regroupement.
9. WEKA - Regroupement Weka

Un algorithme de regroupement permet de trouver des groupes d'instances similaires dans l'ensemble
des données. WEKA prend en charge plusieurs algorithmes de regroupement tels que EM,
FilteredClusterer, HierarchicalClusterer, SimpleKMeans et autres. Vous devez comprendre
ces algorithmes afin d'exploiter pleinement les capacités de WEKA.

Comme dans le cas de la classification, WEKA permet de visualiser graphiquement les clusters
détectés. Pour démontrer la classification, nous utiliserons la base de données de l'iris
fournie. Cette base de données contient trois classes de 50 instances chacune, chacune d'entre elles
se référant à un type de plante de l'iris.

Chargement des données


Dans l'explorateur WEKA , sélectionnez l'onglet Prétraiter. Cliquez sur l'option Ouvrir
fichier .. . et sélectionnez leur fichier .arff dans le dialogue de sélection de
fichier :

31
Weka

Vous pouvez observer qu'il y a 150 instances et 5 attributs, dont les noms sont
les suivants : longueur de sépale, largeur de sépale, longueur de pétale, largeur de pétale
et classe. Les quatre premiers attributs sont de type numérique, tandis que la classe
est un type nominal avec trois valeurs distinctes. Examinez chaque attribut pour comprendre les
caractéristiques de la base de données. Nous ne ferons aucun prétraitement de ces données et
nous procéderons directement à la construction du modèle.

Regroupement
Cliquez sur l'onglet "Cluste r TAB" pour appliquer les algorithmes de regroupement à nos
données chargées. Cliquez sur le bouton "Choisir" pour afficher l'écran suivant :

32
Maintenant, sélectionnez EM comme algorithme de classification.
Option d'évaluation des classes aux groupes comme indiqué sur la capture d'écran ci-
dessous :

Cliquez sur le bouton "Démarrer " pour traiter les données. Après un certain temps, les
résultats seront présentés sur l'écran.

Ensuite, étudions les résultats.


Examiner les résultats
Le résultat du traitement des données est présenté dans l'écran ci-dessous :

Sur l'écran de sortie, vous pouvez l'observer :

 Il y a cinq instances groupées détectées dans la base de données.

 Le groupe 0 représente la setosa, le groupe 1 représente la virginica, le groupe 2


représente laversicolor, tandis que les deux derniers groupes ne sont pas
associés à une classe particulière.
Si vous faites défiler la fenêtre de sortie, vous perdrez également certaines statistiques qui donnent la
moyenne et l'écart type des attributs des différents groupes détectés
:

Ensuite, nous nous intéresserons à la représentation visuelle des clusters.


Visualisation des clusters
Pour visualiser les clusters, cliquez à droite sur le résultat de l'évaluation dans la liste des
résultats et vous verrez les options suivantes :
SélectionnezVisualiser les affectations des groupes et vous verrez les résultats suivants :

Comme dans le cas de la classification, vous remarquerez la distinction entre les instances
correctement et incorrectement identifiées. Vous pouvez jouer en changeant les axes X
et Y pour analyser les résultats. Vous pouvez utiliser la gigue comme dans le cas de la classification
pour déterminer la concentration d'instances correctement identifiées. Les opérations
de visualisation sont similaires à celles étudiées dans le cas de la classification.
Appliquer le clustering hiérarchique
Pour démontrer la puissance de WEKA, voyons maintenant comment appliquer un autre
algorithme de regroupement. Dans l'explorateur WEKA, sélectionnez le cluster hiérarchique
comme algorithme ML, comme indiqué dans les captures d'écran ci-dessous :
Choisissez le mode de sélection des classes pour l'évaluation des classes, et cliquez sur le
bouton
Bouton de démarrage : vous verrez le résultat suivant :

Remarquez que dans la liste des résultats , il y a deux résultats : le premier est
le résultat et le second est le résultat hiérarchique actuel. De même, vous pouvez appliquer plusieurs
algorithmes ML de la même manière et comparer rapidement les résultats.
Si vous examinez l'arbre produit par cet algorithme, vous verrez le résultat suivant :

Dans le chapitre suivant, vous étudierez le type d'association des algorithmes ML.
10. WEKA - Association Weka

On a constaté que les gens qui achètent de la bière achètent des couches en
même temps. Bien que cela ne semble pas très convaincant, cette règle d'association a été
extraite d'énormes bases de données de supermarchés. De même, une association peut
être trouvée entre le beurre européen et le pain.

Trouver de telles associations devient vital pour les supermarchés où l'on stocke les
couches à côté de celles que les clients peuvent acheter, et où le chiffre
d'affaires est en augmentation.

L'algorithme Apriori est l'un de ces algorithmes de ML qui permet de découvrir les
associations probables et de créer des règles d'association. Vous pouvez définir le
soutien minimum et un niveau de confiance acceptable pour l'application de ces
règles. Vous appliquerez l'algorithme Apriori aux données de supermarché fournies
dans l'installation de WEKA.

Chargement des données


Dans l'explorateur WEKA, ouvrez l'onglet Prétraitement, cliquez sur le bouton Ouvrir le fichier
.. . et sélectionnez la base de données supermarket.arff dans le dossier d'installation.
Une fois les données chargées, vous verrez l'écran suivant :

41
Weka

La base de données contient 4627 instances et 217 attributs. Il est facile de comprendre combien il
serait difficile de détecter l'association entre un si grand nombre d'attributs.
Heureusement, cette tâche est liée à l'algorithme de l'apriori.

Associé
Cliquez sur l'onglet "Associer " et cliquez sur le bouton "Choisir". Sélectionnez
l'association prioritaire indiquée sur la capture d'écran :

42
Pour régler les paramètres de l'algorithme primaire, cliquez sur son nom et une fenêtre
s'ouvrira, comme indiqué ci-dessous, sans régler les paramètres :
Après avoir défini les paramètres, cliquez sur le bouton Démarrer . Au bout d'un moment,
vous verrez les résultats apparaître sur la capture d'écran ci-dessous :

En bas, vous trouverez les meilleures règles d'associations détectées. Cela aidera le supermarché
qui stocke ses produits à s'approprier les rayons.
11. WEKA - Sélection de Weka

reportages

Lorsque la base de données contient un grand nombre d'attributs, il y en aura plusieurs


qui ne seront pas significatifs dans l'analyse que vous recherchez actuellement. Ainsi, la
suppression des attributs indésirables de l'ensemble de données devient une tâche importante dans
l'élaboration d'un bon modèle d'apprentissage automatique.

Vous pouvez examiner visuellement les données et décider de leurs attributs pertinents, ce
qui pourrait être une tâche énorme pour les bases de données contenant un grand nombre
d'attributs, comme l'affaire du supermarché que vous avez vue dans une leçon précédente.
Heureusement, WEKA propose un outil de sélection automatique des caractéristiques.

Ce chapitre présente cette fonctionnalité sur une base de données contenant un grand nombre d'
attributs.

Chargement des données


Dans le prétraitement de l'explorateur WEKA, sélectionnez le fichier labor.arff pour le
charger dans le système. Lorsque vous aurez chargé les données, vous verrez l'écran suivant :

45
Weka

Remarquez qu'il y a 17 attributs. Notre tâche consiste à créer un ensemble de données en éliminant
certains des attributs qui sont pertinents pour notre analyse.

Extraction des caractéristiques


Cliquez sur les attributs TAB. Vous verrez l'écran suivant :

Dans le mode de sélection des attributs, vous trouverez plusieurs options.

46
Cliquez sur le bouton "Démarrer" pour traiter l'ensemble des données et vous obtiendrez les résultats
suivants :
En bas de la fenêtre de résultats, vous obtiendrez la liste des attributs sélectionnés . Pour
obtenir la représentation visuelle, cliquez avec le bouton droit de la souris sur le résultat dans la liste
des résultats.

L'image ci-dessous montre la ville :


En cliquant sur l'une de ces cases, vous obtiendrez un graphique pour votre analyse ultérieure, avec
des données atypiques en bas :

Il s'agit d'un exemple similaire à ceux que nous avons déjà abordés dans les chapitres précédents,
qui présente les différentes options disponibles pour analyser les résultats.

Quelle est la prochaine étape ?


Vous avez pu constater que la puissance de WEKA permet de développer rapidement des modèles
d'apprentissage automatique. Nous avons utilisé un outil graphique appelé
Explorer pour développer ces modèles. WEKA fournit également une interface de commande en
ligne qui vous donne plus de puissance que celle fournie par l'Explorer.
En cliquant sur le bouton Simple CLI dans l'application GUI Chooser, vous démarrez cette
interface en ligne de commande, qui est illustrée ci-dessous :

Tapez vos commandes dans la boîte de saisie située en bas de l'écran. Vous pourrez
faire tout ce que vous avez fait jusqu'à présent dans l'explorateur et bien plus encore. Pour plus de
détails, consultez la documentation de WEKA
(https://www.cs.waikato.ac.nz/ml/weka/documentation.html).

Enfin, WEKA est développé à Java et fournit une interface avec son API. Ainsi , si vous
êtes un développeur Java et que vous souhaitez inclure les réalisations de WEKAML dans vos propres
projets Java, vous pouvez facilement le faire.
Conclusion
WEKA est un outil puissant pour le développement de modèles d'apprentissage machine. Il permet la
mise en œuvre de plusieurs algorithmes de modélisation les plus utilisés. Avant
que ces algorithmes ne soient appliqués à votre jeu de données, ils permettent également de
prétraiter les données. Les types d'algorithmes qui sont pris en charge sont classés
dans les catégories Classifier, Regrouper, Associer et Sélectionner les attributs. Les
différents niveaux de traitement peuvent être visualisés grâce à une représentation visuelle
magnifique et puissante , ce qui permet aux scientifiques d'appliquer rapidement les
différentes techniques d'apprentissage automatique sur l'ensemble des données, de
comparer les résultats et de créer le meilleur modèle pour l'utilisation finale.

Vous aimerez peut-être aussi