Académique Documents
Professionnel Documents
Culture Documents
de De´ cision
tp3_python22-23Up
0
1/2/3/4:
5-
Le fichier de données contient des informations concernant des patients portant des tumeurs
de seins. Ce fichier contient 699 observations et 10 variables. Chaque observation est
caractérisée par 10 variables. Nous cherchons à prédire la variable Classe qui décrit le type
de tumeur. Cette variable peut prendre une de ces deux valeurs begnin Ou malignant à
partir des 9 variable prédictives présentés dans la base.
1
6-
8-
9-
2
10-
11-
3
a)
Cet arbre de décision est représenté graphiquement avec des nœuds et des branches qui
indiquent les différentes décisions prises pour séparer les données en sous-groupes.
Nombre de feuilles : L'arbre de décision a 8 feuilles. Chaque feuille
représente un groupe d'observations similaires qui ont été classées
ensemble.
Nombre de règles : L'arbre de décision utilise 8 règles pour diviser les données en
sous-groupes. Chaque règle est représentée par une condition booléenne qui teste
une caractéristique de l'ensemble de données.
b)
4
12-
13-
5
e)
malignant begnin
malignant 96 7
begnin 12 185
f)
g)
D'après les résultats, l'ensemble de test comportait 197 échantillons de la classe "begnin"
et 103 échantillons de la classe "malignant".
A partir de la prédiction nous avons 192 prédictions pour la classe "begnin" et 108
prédictions pour la classe "malignant".
La matrice de confusion montre qu'il y a 185 vrais positifs, 12 faux positifs pour la classe «
begnin », 7 faux négatifs et 96 vrais négatifs pour la classe « malignant ».
Le score de précision est de 0,9366666666666666, ce qui signifie que le modèle a été
capable de prédire correctement la classe de 93,67 % des échantillons de l'ensemble de test.
la performance du modèle est bonne,
14-
6
b)
Nombre de feuilles : La nouvelle arbre de décision a 3 feuilles. Chaque feuille
représente un groupe d'observations similaires qui ont été classées ensemble.
d)
7
e)
D'après les résultats, le premier arbre de décision et le second arbre de décision ont le même
taux de précision (0,9367 = 0,9367). Par contre, le deuxième arbre de décision est meilleur
en termes d'optimisation car il a moins de nœuds et est plus simple, ce qui permet
d'économiser de l'espace mémoire et du temps de calcul. Par conséquent, il est meilleur
d’utiliser le second arbre de décision.
f)
Afin d'améliorer le taux de précision d'un arbre de décision, il est possible d'explorer
différentes valeurs pour les paramètres « max_leaf_nodes », « min_samples_split » et «
min_samples_leaf ».
Par exemple on peut utiliser une valeur relativement élevée pour « max_leaf_nodes
», telle que 20 ou 30, permettra à l'arbre de réaliser plus de divisions et de saisir davantage
d'informations à partir des données. En peut aussi expérimenter avec différentes valeurs de «
min_samples_split » et « min_samples_leaf », qui contrôlent le critère d'arrêt de l'arbre.
L'augmentation de leur valeur permettra d'éviter que l'arbre ne sur-ajuste les données
d'apprentissage, mais cela peut également limiter sa capacité à identifier des modèles
complexes.