Vous êtes sur la page 1sur 9

TP2 : Arbre de décision

Exercice1: Dataset – Kyphosis :


On veut créer un arbre de décision en se basant sur les données liées la maladie de la cyphose
(une courbure anormale de la colonne vertébrale qui cause une bosse.) trouvant dans ce lien :
cyphosis.csv :
Ce data frame contient les colonnes suivantes :
 Cyphose : Un facteur avec des niveaux absents présents indiquant si une cyphose était
présente après l'opération.
 Âge : En mois.
 Nombre : Le nombre de vertèbres impliquées.
 Début : Le numéro de la première vertèbre opérée

1. Importer les bibliothèques python

*import pandas as pd: Cette ligne importe la bibliothèque pandas sous le nom d'alias
'pd'. Cela simplifie l'accès aux fonctionnalités de pandas en utilisant simplement 'pd' au
lieu du nom complet 'pandas'.
*df = pd.read_csv('jouer.csv'): Cette ligne lit le fichier CSV 'jouer.csv' et crée un objet
DataFrame, qui est essentiellement une structure de données tabulaire bidimensionnelle de
pandas. Les données du fichier CSV sont stockées dans ce DataFrame, et il est assigné à la
variable 'df'.
*df: En affichant simplement 'df' dans la console, tu obtiens une représentation tabulaire
des données. C'est utile pour inspecter rapidement les premières lignes du DataFrame et
comprendre la structure des données que tu as chargées.
2. Diviser l'ensemble de données en un ensemble d'apprentissage et un ensemble de test
X = df.drop('Kyphosis', axis=1): Cette ligne crée une variable X qui contient les features en
supprimant la colonne 'Kyphosis' de ton DataFrame df. La méthode drop est utilisée pour
exclure la colonne spécifiée (ici, 'Kyphosis') en spécifiant axis=1 pour indiquer que nous
voulons supprimer une colonne plutôt qu'une ligne.
Y = df['Kyphosis']: Cette ligne crée une variable Y qui contient la variable cible, ici
'Kyphosis'. On extrait cette colonne du DataFrame df en utilisant l'opérateur d'indexation
['Kyphosis'].

3. Créer un modèle d’arbre de décision


train_test_split(X, Y, test_size=0.30): Cette fonction prend en entrée les features X et ta
variable cible Y et divise les données en ensembles d'apprentissage et de test. test_size=0.30
indique que 30% des données seront utilisées comme ensemble de test, et le reste (70%) sera
utilisé comme ensemble d'apprentissage.
Les variables résultantes, Xtrain, Xtest, Ytrain, et Ytest, contiennent les données
d'apprentissage et de test respectivement.
4. Calculer la précision

5. Tracer l’arbre de décision

Exercice 2 :
On veut estimer une décision (jouer ou non) en se basant sur 4 caractéristiques(features):
temps, température, humidité et vent.
1. Importer le fichier joueur.csv (data/jouer.csv)
2. Diviser les données

3. Utiliser pandas.get_dummies() pour convertir ces données

4. Créer un modèle d’arbre de décision

5. Tracer l’arbre de décision

Vous aimerez peut-être aussi