100% ont trouvé ce document utile (1 vote)

1K vues6 pages

Arbre de décision en Data Mining avec Python

Ce document décrit les étapes pour construire et évaluer un modèle d'arbre de décision sur un ensemble de données médicales en utilisant Python. Il présente comment importer les données, diviser les données en ensembles d'apprentissage et de test, construire et entraîner le modèle, faire des prédictions et évaluer les performances.

Transféré par

Meryem Bakir

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

1K vues6 pages

Arbre de décision en Data Mining avec Python

Transféré par

Meryem Bakir

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Filière : 5 MIAGE Data Mining

Data Mining : Arbre de décision

TP N : 1

Objectif
Un arbre de décision est un outil d'aide à la décision représentant un ensemble de
choix sous la forme graphique d'un arbre. Les différentes décisions possibles sont
situées aux extrémités des branches (les « feuilles » de l'arbre), et sont atteintes en
fonction de décisions prises à chaque étape.
L'objectif de ce TP est d’appliquer l’algorithme d’arbre de décision sur l’ensemble de
données « [Link] » afin de décider si un patient est atteint de la cyphose ou pas.
Les attributs sont : "Age", "Number" et "Start". Les patients sont répartis selon s’ils
sont malade ou pas, alors deux classes sont identifié : present et absent

Ce TP couvre les aspects suivants :

1. Comment diviser l’ensemble de données en un ensemble d’apprentissage et de
test à l'aide de Scikit-Learn.
2. Comment construire un modèle d'arbre de décision à l'aide de Scikit-Learn.
3. Comment évaluer un arbre de décision avec Scikit-Learn.
4. Comment imprimer la représentation textuelle de l'arbre avec la méthode
Scikit-Learn.
5. Comment visualiser les arbres de décision à l'aide de Matplotlib.

I. Importez les librairies python

Pour réaliser ce TP, on a besoin d’importer plusieurs librairies à savoir :
 Importez la bibliothèque pandas pour importer le contenu du fichier
« [Link] »
→ import pandas as pd
 Importez la bibliothèque matplotlib pour tracer et visualiser des données sous
formes de graphiques.
→ import [Link] as plt
 Importez train_test_split à partir de la bibliothèque sklearn.model_selection
pour diviser l’ensemble de données en un ensemble d’apprentissage et de test.
→ from sklearn.model_selection import train_test_split
 Importez DecisionTreeClassifier à partir de la bibliothèque [Link] pour
construire l’arbre de décision.
→ from [Link] import DecisionTreeClassifier
 Importez classification_report, confusion_matrix à partir de la bibliothèque
[Link] pour construire l’arbre de décision.
→ from [Link] import classification_report,confusion_matrix

Ilham KADI Page: 1

Filière : 5 MIAGE Data Mining

 Importez tree à partir de la bibliothèque Scikit-learn pour visualiser l’arbre de

décision.
→ from sklearn import tree

II. Obtenez les données

1. Utilisez pandas pour lire le contenu du fichier « [Link] » en tant qu’un
objet DataFrame appelée df.
→ df = pd.read_csv('[Link]')
2. Affichez les dimensions de l’ensemble de données
3. Affichez le contenu des premières et dernières lignes.
4. Explorez le contenu de « [Link] » en utilisant les méthodes info() et
describe().

III. Analyse exploratoire des données

La visualisation des données est la discipline qui consiste à essayer de comprendre les
données en les plaçant dans un contexte visuel. Python propose plusieurs excellentes
bibliothèques graphiques contenant de nombreuses fonctionnalités différentes, à
savoir :
 Matplotlib : bas niveau, offre beaucoup de liberté
 Seaborn : interface de haut niveau, excellents styles par défaut
 ggplot : basé sur le ggplot2 de R, utilise la grammaire des graphiques
 Plotly : peut créer des tracés interactifs
Dans ce TP, nous allons créer quelques graphiques de base à l'aide de Matplotlib.
Matplotlib est la bibliothèque de traçage Python la plus populaire. Il s'agit d'une
bibliothèque de bas niveau avec une interface de type Matlab qui offre beaucoup de
liberté au prix d'avoir à écrire plus de code. Matplotlib est particulièrement adapté à la
création de graphiques de base tels que des graphiques linéaires, des graphiques à
barres, des histogrammes et bien d'autres.
Histogramme
Dans Matplotlib, nous pouvons créer un histogramme en utilisant la méthode hist. Si
nous lui transmettons des données catégoriques comme la colonne 'Kyphosis' de
l'ensemble de données, il calculera automatiquement la fréquence à laquelle chaque
classe se produit.

Ilham KADI Page: 2

Filière : 5 MIAGE Data Mining

Graphique à barres
Un graphique à barres peut être créé à l'aide de la méthode bar. Le graphique à barres
ne calcule pas automatiquement la fréquence d'une catégorie, nous allons donc utiliser
la fonction pandas value_counts pour ce faire. Le graphique à barres est utile pour les
données catégorielles qui n'ont pas beaucoup de catégories différentes (moins de 30)
car sinon cela peut devenir assez compliqué.

IV. Ensemble d’apprentissage et de test

La bibliothèque Python scikit-learn fournit une implémentation de la procédure de
fractionnement train-test via la fonction train_test_split(). La fonction prend un
ensemble de données chargé en entrée et renvoie l'ensemble de données divisé en
deux sous-ensembles.
Idéalement, vous pouvez diviser votre ensemble de données d'origine en colonnes
d'entrée (X) et de sortie (y), puis appeler la fonction en passant les deux tableaux et
les diviser de manière appropriée en sous-ensembles d'apprentissage et de test.

La taille de la division peut être spécifiée via l'argument "test_size" qui prend un
nombre de lignes (entier) ou un pourcentage (float) de la taille de l'ensemble de
données entre 0 et 1. Ce dernier est le plus courant, avec des valeurs utilisées telles
que 0,33 où 33% de l'ensemble de données seront alloués à l'ensemble de test et 67%
seront alloués à l'ensemble d'apprentissage.

Il est maintenant temps de diviser nos données en un ensemble d'entraînement et un

ensemble de test ! Nous allons adopter la répartition suivante :
 Ensemble d’apprentissage = 70%
 Ensemble de test = 30%

Tout d’abord, il faut préciser les colonnes qui représentent les attributs et celle qui
représente la classe.

Ilham KADI Page: 3

Filière : 5 MIAGE Data Mining

Remarque :
Supprimer des colonnes et des lignes de votre DataFrame n'est pas toujours aussi
intuitif qu'il pourrait l'être. Tout tourne autour de la commande "DataFrame drop".
La fonction de suppression permet de supprimer des lignes et des colonnes de votre
DataFrame, et une fois que vous l'aurez utilisé plusieurs fois, vous n'aurez aucun
problème.

Construction d’un arbre de décision

1. Étape 1 : Importez le modèle que vous souhaitez utiliser
→ from [Link] import DecisionTreeClassifier
2. Étape 2 : Créez une instance du modèle
→ clf = DecisionTreeClassifier()
3. Étape 3 : Former le modèle sur les données
→ [Link](X_train, Y_train)
4. Étape 4 : Prédire les étiquettes des données (test) invisibles
→ [Link](X_test)

Ilham KADI Page: 4

Filière : 5 MIAGE Data Mining

Remarque :
DecisionTreeClassifier est une classe capable d'effectuer une classification multi-
classe sur un ensemble de données.

Pramètres Description

Criterion : {“gini”, “entropy”}, La fonction pour mesurer la qualité d'un

default=”gini” split

Splitter : {“best”, “random”}, La stratégie utilisée pour choisir la

default=”best” division à chaque nœud.

max_depth : int, default=None La profondeur maximale de l'arbre.

min_samples_split : int or float, Le nombre minimum d'échantillons
default=2
requis pour diviser un nœud interne

max_features : int, float or {“auto”, Le nombre d’attribut à prendre en

“sqrt”, “log2”}, default=None compte lors de la recherche du meilleur
partage

Prédiction & Evaluation

Maintenant que notre classificateur a été entraîné, faisons des prédictions sur les
données de test. Pour faire des prédictions, la méthode predict() de la classe
DecisionTreeClassifier est utilisée.
→ predictions = [Link](X_test)
Nous allons maintenant voir à quel point notre algorithme est précis. Pour les tâches
de classification, certaines métriques couramment utilisées sont la matrice de
confusion, la précision, le rappel et le score F1. La bibliothèque Scikit-Learn contient
les méthodes classification_report() et confusion_matrix() qui peuvent être utilisées
pour calculer ces métriques.

Ilham KADI Page: 5

Filière : 5 MIAGE Data Mining

Visualisation de l’arbre de décision

Afficher la représentation textuelle :
L'exportation de l'arbre de décision vers la représentation textuelle peut être utile
lorsque vous travaillez sur des applications sans interface utilisateur ou lorsque vous
voulez enregistrer des informations sur le modèle dans un fichier texte. Pour cela, la
bibliothèque Scikit-Learn dispose la méthode export_text().

Visualisation de l'arbre:
La méthode plot_tree a été ajoutée à sklearn dans la version 0.21. Il nécessite
l'installation de matplotlib. Il nous permet de produire facilement la figure de l'arbre
(sans exportation intermédiaire vers graphviz).

Ilham KADI Page: 6

Vous aimerez peut-être aussi

TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
Exercice Random Forest Classification Bayesienne
Pas encore d'évaluation
Exercice Random Forest Classification Bayesienne
5 pages
Visualisation Des Données Avec Python Seaborn - Acervo Lima
Pas encore d'évaluation
Visualisation Des Données Avec Python Seaborn - Acervo Lima
27 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
Correction TP2 : Modèles de classification
Pas encore d'évaluation
Correction TP2 : Modèles de classification
19 pages
Classification Et Évaluation: Objectif Du TP 4
Pas encore d'évaluation
Classification Et Évaluation: Objectif Du TP 4
5 pages
Examen Deep Learning - Ing-5-SSIR
Pas encore d'évaluation
Examen Deep Learning - Ing-5-SSIR
3 pages
TP SVM
Pas encore d'évaluation
TP SVM
7 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
TD 3 Règles D'association PDF
33% (3)
TD 3 Règles D'association PDF
1 page
Exam Modeles Pour Le Datamining 2015 2016cor
Pas encore d'évaluation
Exam Modeles Pour Le Datamining 2015 2016cor
4 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
63 pages
Règles D'association
Pas encore d'évaluation
Règles D'association
35 pages
Interrogatoire sur le Datamining 2016-2017
Pas encore d'évaluation
Interrogatoire sur le Datamining 2016-2017
6 pages
TD Machine Learning
100% (2)
TD Machine Learning
3 pages
Introduction A La Methodologie CRISP DM
100% (1)
Introduction A La Methodologie CRISP DM
20 pages
Examen MEQ3 ML
Pas encore d'évaluation
Examen MEQ3 ML
3 pages
Resumé de Cours Et Questionnaires
Pas encore d'évaluation
Resumé de Cours Et Questionnaires
14 pages
Examen
Pas encore d'évaluation
Examen
4 pages
Exam Fouille Extraction Datamining Donnees 2017 2018corrige
100% (1)
Exam Fouille Extraction Datamining Donnees 2017 2018corrige
9 pages
Arbre de Décision ET KNN PDF
Pas encore d'évaluation
Arbre de Décision ET KNN PDF
47 pages
TP1 Backpropagation
100% (1)
TP1 Backpropagation
3 pages
Chapitre 2 - Arbres - de - Décision - Part1 PDF
Pas encore d'évaluation
Chapitre 2 - Arbres - de - Décision - Part1 PDF
34 pages
Examen d'Intelligence Artificielle 2021
Pas encore d'évaluation
Examen d'Intelligence Artificielle 2021
7 pages
Examen Datamining: Classification et SVM
Pas encore d'évaluation
Examen Datamining: Classification et SVM
5 pages
Correction TD1 Partie 1
Pas encore d'évaluation
Correction TD1 Partie 1
16 pages
TP4: Apprentissage Supervisé en IA
Pas encore d'évaluation
TP4: Apprentissage Supervisé en IA
5 pages
EF ML TekUP 22-23
100% (1)
EF ML TekUP 22-23
4 pages
Correction TD1
Pas encore d'évaluation
Correction TD1
8 pages
Plateforme de Prédiction Médicale
Pas encore d'évaluation
Plateforme de Prédiction Médicale
5 pages
Examen M1 : Apprentissage automatique en Python
100% (1)
Examen M1 : Apprentissage automatique en Python
3 pages
TP1 Classification SVM
Pas encore d'évaluation
TP1 Classification SVM
4 pages
Examen Data Mining et Recherche d'Info
Pas encore d'évaluation
Examen Data Mining et Recherche d'Info
95 pages
K Plus Proches Voisions K-Nearest Neighbors KNN: Mme Hiba Lahmer 2020/2021
Pas encore d'évaluation
K Plus Proches Voisions K-Nearest Neighbors KNN: Mme Hiba Lahmer 2020/2021
14 pages
Kmeans et ID3 : Examen Master ISIA 2018
100% (1)
Kmeans et ID3 : Examen Master ISIA 2018
2 pages
Chapitre 3 Apprentissage Supervisé - Classification
Pas encore d'évaluation
Chapitre 3 Apprentissage Supervisé - Classification
85 pages
CoursWB CRISPDM
100% (1)
CoursWB CRISPDM
13 pages
Arbre de décision pour évaluation étudiante
Pas encore d'évaluation
Arbre de décision pour évaluation étudiante
1 page
Corrige Exercices Machine Learning
Pas encore d'évaluation
Corrige Exercices Machine Learning
2 pages
QCM sur le NLP - Niveau 1
100% (1)
QCM sur le NLP - Niveau 1
3 pages
Leçon6-Arbre de Decision
100% (2)
Leçon6-Arbre de Decision
25 pages
Arbres de Décision en Machine Learning
Pas encore d'évaluation
Arbres de Décision en Machine Learning
82 pages
Exercice de régression linéaire en Python
Pas encore d'évaluation
Exercice de régression linéaire en Python
2 pages
TD Apprentissage Supervisée Master
Pas encore d'évaluation
TD Apprentissage Supervisée Master
2 pages
K Means
Pas encore d'évaluation
K Means
34 pages
Correction Examen Data Mining 2015
Pas encore d'évaluation
Correction Examen Data Mining 2015
1 page
Cassandra: Architecture et Stratégies NOSQL
100% (1)
Cassandra: Architecture et Stratégies NOSQL
20 pages
K-Means : Apprentissage Non Supervisé en IA
Pas encore d'évaluation
K-Means : Apprentissage Non Supervisé en IA
5 pages
Chapitre 3-Apprentissage Non Supervisé
Pas encore d'évaluation
Chapitre 3-Apprentissage Non Supervisé
85 pages
Support de TP 1 V1
Pas encore d'évaluation
Support de TP 1 V1
6 pages
TP 6 Algorithme KNN
Pas encore d'évaluation
TP 6 Algorithme KNN
7 pages
Datamining : Théorie, Pratique et Exercices
100% (2)
Datamining : Théorie, Pratique et Exercices
8 pages
TD N°1: Les Arbres de Décision: FSEG-Nabeul (2023-2024) 3 EB
100% (1)
TD N°1: Les Arbres de Décision: FSEG-Nabeul (2023-2024) 3 EB
2 pages
Examen Master 2022/2023 en TALN
100% (3)
Examen Master 2022/2023 en TALN
3 pages
TP2 Decision Trees 23 24
Pas encore d'évaluation
TP2 Decision Trees 23 24
4 pages
Arbres de décision avec Scikit-Learn
Pas encore d'évaluation
Arbres de décision avec Scikit-Learn
24 pages
TP 6: Decision Trees: Partie 1: Chargement Du Dataset Digits de Sklearn Et Entraînement Du Modèle D'arbre de Décision
Pas encore d'évaluation
TP 6: Decision Trees: Partie 1: Chargement Du Dataset Digits de Sklearn Et Entraînement Du Modèle D'arbre de Décision
4 pages
TP7 Fouille de Données 2025
Pas encore d'évaluation
TP7 Fouille de Données 2025
5 pages
Classification supervisée en Machine Learning
Pas encore d'évaluation
Classification supervisée en Machine Learning
11 pages
Ad TD-1
Pas encore d'évaluation
Ad TD-1
4 pages
SIG et Cartographie Web pour Enquêtes
Pas encore d'évaluation
SIG et Cartographie Web pour Enquêtes
103 pages
Offres d'emploi pour Anlagenmechaniker
Pas encore d'évaluation
Offres d'emploi pour Anlagenmechaniker
2 pages
Mapping ISO 27001, NIS 2, Guide D'hygiène de l'ANSSI
100% (2)
Mapping ISO 27001, NIS 2, Guide D'hygiène de l'ANSSI
26 pages
Guide des Souris et Claviers d'Ordinateur
Pas encore d'évaluation
Guide des Souris et Claviers d'Ordinateur
20 pages
EID TRDE702 Qualité Des Données
Pas encore d'évaluation
EID TRDE702 Qualité Des Données
5 pages
AFT Fathom12 ANS Quick Start Metric Units 25
Pas encore d'évaluation
AFT Fathom12 ANS Quick Start Metric Units 25
1 page
Proposition PR2312-0002 pour PowerERP
Pas encore d'évaluation
Proposition PR2312-0002 pour PowerERP
3 pages
Test Pendant Le Cycle de Vie
Pas encore d'évaluation
Test Pendant Le Cycle de Vie
28 pages
PFE Rapport de Projet de Fin D'étude 39 1
100% (1)
PFE Rapport de Projet de Fin D'étude 39 1
80 pages
Amplificateur opérationnel en saturation
Pas encore d'évaluation
Amplificateur opérationnel en saturation
3 pages
Attention, Danger: Non-Conformites: Exigences Normatives Relatives À La Gestion Des NO N-Conformites 1
Pas encore d'évaluation
Attention, Danger: Non-Conformites: Exigences Normatives Relatives À La Gestion Des NO N-Conformites 1
4 pages
Ingénieur Systèmes Embarqués
Pas encore d'évaluation
Ingénieur Systèmes Embarqués
1 page
Procedure D'interfaçage
Pas encore d'évaluation
Procedure D'interfaçage
6 pages
Programmation Événementielle en Python
Pas encore d'évaluation
Programmation Événementielle en Python
20 pages
10 Exemples de Logiciels D'application
Pas encore d'évaluation
10 Exemples de Logiciels D'application
6 pages
Insa Toulouse Avis 20170402-1 PDF
Pas encore d'évaluation
Insa Toulouse Avis 20170402-1 PDF
19 pages
QCM DNS
Pas encore d'évaluation
QCM DNS
2 pages
Pont Redresseur Triphasé Mixte en MCC
Pas encore d'évaluation
Pont Redresseur Triphasé Mixte en MCC
2 pages
Plan de Gestion de Voyage
Pas encore d'évaluation
Plan de Gestion de Voyage
2 pages
Catalogue Finsecur - 20.1
Pas encore d'évaluation
Catalogue Finsecur - 20.1
136 pages
Configuration GLPI et Gestion Helpdesk
Pas encore d'évaluation
Configuration GLPI et Gestion Helpdesk
8 pages
111 Curriculum Vitae Communication
Pas encore d'évaluation
111 Curriculum Vitae Communication
2 pages
Budget prévisionnel 2017 pour MEGA-PRODUCT
100% (1)
Budget prévisionnel 2017 pour MEGA-PRODUCT
5 pages
Chapitre I
Pas encore d'évaluation
Chapitre I
7 pages
Questions sur les structures Oracle et privilèges
Pas encore d'évaluation
Questions sur les structures Oracle et privilèges
4 pages
Optimisation du dépôt d'or par électrolyse
Pas encore d'évaluation
Optimisation du dépôt d'or par électrolyse
9 pages
MFA
Pas encore d'évaluation
MFA
2 pages
Programme de Formation GET
Pas encore d'évaluation
Programme de Formation GET
5 pages
Dossier Professionnel CDA Exemple
33% (3)
Dossier Professionnel CDA Exemple
16 pages