Vous êtes sur la page 1sur 9

TP n°2 : Les Arbres

de De´ cision
tp3_python22-23Up

Travail réaliser par :

Ala Mabrouk 2IDL groupe2

0
1/2/3/4:

5-
Le fichier de données contient des informations concernant des patients portant des tumeurs
de seins. Ce fichier contient 699 observations et 10 variables. Chaque observation est
caractérisée par 10 variables. Nous cherchons à prédire la variable Classe qui décrit le type
de tumeur. Cette variable peut prendre une de ces deux valeurs begnin Ou malignant à
partir des 9 variable prédictives présentés dans la base.

1
6-

8-

9-

2
10-

11-

3
a)
Cet arbre de décision est représenté graphiquement avec des nœuds et des branches qui
indiquent les différentes décisions prises pour séparer les données en sous-groupes.
 Nombre de feuilles : L'arbre de décision a 8 feuilles. Chaque feuille
représente un groupe d'observations similaires qui ont été classées
ensemble.

 Nombre de règles : L'arbre de décision utilise 8 règles pour diviser les données en
sous-groupes. Chaque règle est représentée par une condition booléenne qui teste
une caractéristique de l'ensemble de données.

 Profondeur: La profondeur de l'arbre est de 3 niveaux, car il y a trois couches de


nœuds, en partant de la racine jusqu'aux feuilles. La profondeur de l'arbre est donc de
3.

En résumé, l'arbre de décision a 8 feuilles, 8 règles et une profondeur de 3 niveaux.

b)

4
12-

13-

5
e)
malignant begnin
malignant 96 7
begnin 12 185

f)

g)
D'après les résultats, l'ensemble de test comportait 197 échantillons de la classe "begnin"
et 103 échantillons de la classe "malignant".
A partir de la prédiction nous avons 192 prédictions pour la classe "begnin" et 108
prédictions pour la classe "malignant".
La matrice de confusion montre qu'il y a 185 vrais positifs, 12 faux positifs pour la classe «
begnin », 7 faux négatifs et 96 vrais négatifs pour la classe « malignant ».
Le score de précision est de 0,9366666666666666, ce qui signifie que le modèle a été
capable de prédire correctement la classe de 93,67 % des échantillons de l'ensemble de test.
 la performance du modèle est bonne,
14-

6
b)
 Nombre de feuilles : La nouvelle arbre de décision a 3 feuilles. Chaque feuille
représente un groupe d'observations similaires qui ont été classées ensemble.

 Nombre de règles : L'arbre de décision utilise 3 règles pour diviser les


données en sous-groupes.

 Profondeur : La profondeur de l'arbre est de 1 niveaux, car il y a une seule couche


de nœuds, en partant de la racine jusqu'aux feuilles.
En résumé, l'arbre de décision a 3 feuilles, 3 règles et une profondeur de 1 niveau.
c)

d)

7
e)
D'après les résultats, le premier arbre de décision et le second arbre de décision ont le même
taux de précision (0,9367 = 0,9367). Par contre, le deuxième arbre de décision est meilleur
en termes d'optimisation car il a moins de nœuds et est plus simple, ce qui permet
d'économiser de l'espace mémoire et du temps de calcul. Par conséquent, il est meilleur
d’utiliser le second arbre de décision.

f)
Afin d'améliorer le taux de précision d'un arbre de décision, il est possible d'explorer
différentes valeurs pour les paramètres « max_leaf_nodes », « min_samples_split » et «
min_samples_leaf ».
Par exemple on peut utiliser une valeur relativement élevée pour « max_leaf_nodes
», telle que 20 ou 30, permettra à l'arbre de réaliser plus de divisions et de saisir davantage
d'informations à partir des données. En peut aussi expérimenter avec différentes valeurs de «
min_samples_split » et « min_samples_leaf », qui contrôlent le critère d'arrêt de l'arbre.
L'augmentation de leur valeur permettra d'éviter que l'arbre ne sur-ajuste les données
d'apprentissage, mais cela peut également limiter sa capacité à identifier des modèles
complexes.

Vous aimerez peut-être aussi