Vous êtes sur la page 1sur 3

Datamining : TP Arbre de décisions

Présentation générale

L'objectif de ce TP est de comprendre l'algorithme ID3 qui permet la création d'un arbre de
décision à partir d'un ensemble de données et de maitriser l'outil sipina qui permet de créer de
manière automatique des arbres de décision à partir d'un ensemble de données.

Compétences à acquérir

 Comprendre les arbres de décision : leurs intérêts et leurs constructions.


 Savoir utiliser sipina pour le data mining.
 Savoir analyser les résultats obtenus avec sipina.
 Avoir une approche critique par rapport à l'outil d'analyse que représente le data-
mining.

Travail à faire :
1. installation de sipinasite web :
La première étape consiste à télécharger et à installer le « package » SIPINA, outre le logiciel
SIPINA proprement dit (spécialisé dans l’apprentissage supervisé, avec une très forte
prédilection pour les arbres de décision).
Le setup du logiciel SIPINA est accessible en ligne http://eric.univ-
lyon2.fr/~ricco/sipina.html
2. Installation de l’add-in dans Excel 2007 ou 2010 :
a. Après avoir démarré Excel, nous actionnons le bouton Microsoft Office et nous
cliquons sur « Options Excel ».
b. Dans la boîte de paramétrage, nous sélectionnons l’option « Compléments » et
nous cliquons sur le bouton « Atteindre ».
c. La fenêtre « Macro complémentaire » est visible, avec la liste des add-ins recensés.
Pour une première installation, Sipina n’y apparaît pas.
d. Nous cliquons sur le bouton « Parcourir » pour le sélectionner sur le disque de
notre machine.
e. L’add-in « Sipina.xla » est accessible dans le répertoire :
« c:\Program Files\StatPackage » sous Windows 32 bits ;

Pr.Chaimae SAADI Page 1


« c:\Program Files (x86)\StatPackage » sous Windows 64 bits
f. L’add-in est installé, il est visible et activé dans la fenêtre « Macro
complémentaire » (Nous validons Le menu SIPINA est maintenant disponible
dans l’onglet COMPLEMENTS d’Excel.
g. Les 3 modules composant la distribution y sont visibles : Sipina, spécialisé dans
les arbres de décision ; Assocationrule, dédié à l’extraction des règles
d’association ; Regression, dédié à la régression linéaire multiple.
h. Utilisation de l’add-in
3. Exercices
Exercice d’apprentissage :
a. Objectif
Déploiement d’un modèle de prédiction sur des nouvelles données non étiquetées. Evaluation
de l’erreur de prédiction par ré échantillonnage.

b. Préparation des données de déploiement


Il est possible de lancer directement le logiciel SIPINA à partir d’EXCEL via la
macrocomplémentaire qui accompagne le logiciel. Cependant, s’agissant du déploiement
surun nouveau fichier, nous sommes obligés de sauvegarder le fichier des individus à
classerdans un format propre à SIPINA (*.fdm).
Sélectionnez les données dans la feuille «auto_for_decision_tree_analysis».
Activez le menu SIPINA / EXCEUTE SIPINA.
Vérifiez que la plage de données est correctement sélectionnée.
Validez.
c. Chargement des données d’apprentissage dans SIPINA
Pour construire notre arbre de décision :
Sélectionnez les données de la feuille «auto_for_decision_tree_analysis».
De nouveau, activez le menu SIPINA / EXECUTE SIPINA. Après avoir Vérifié la
sélection de données
Validez.
SIPINA est automatiquement démarré et les données chargées.

Pr.Chaimae SAADI Page 2


d. Construction d’un arbre de décision
Concernant les observations, SIPINA les sélectionne toutes pour l’apprentissage.
Cesinformations sont résumées dans la partie gauche de la fenêtre principale.
Nous devons maintenant indiquer à SIPINA la variable à prédire et les variables
Prédictives, pour ce faire :
1. Activez le menu ANALYSIS / DEFINE CLASS ATTRIBUTE.
La sélection est résumée dans la partie gauche de la fenêtre. Nous pouvons maintenant lancer
l’apprentissage.
2. Cliquez sur le menu ANALYSIS / LEARNING.
Exercice1 : Arbres de décision et données binaires

 Appliquez l’algorithme ID3 présenté en cours sur le tableau de données suivant.

Exercice2 : Arbre de décision et données nominales


 Appliquez l’algorithme ID3 présenté en cours sur le tableau de données suivant.

Exercice3 :

Refaire l’exercice 1 et 2 par l’utilisation du C4.5 et CART et détaillerez à chaque fois le


calcul de l'entropie et du gain. Trouvez-vous le même arbre ?

Pr.Chaimae SAADI Page 3