Académique Documents
Professionnel Documents
Culture Documents
arbres de décision
Tarek Hamrouni
hamrouni.tarek@gmail.com
Introduction
Arbre de décision :
- 2 classes (malade, bien portant)
- 2 variables explicatives (température, gorge irritée)
gorgeirritée malade
OUI NON
bien
malade portant
7
malade
gorge irritée
NON
OUI
bien
malade portant Nœud terminal ou
feuille
Idée intuitive :
Diviser récursivement et le plus efficacement possible les objets de
l’ensemble d’apprentissage par des tests définis à l’aide des variables
explicatives jusqu’à ce que l’on obtienne des sous-ensembles d’objets ne
contenant (presque) que des objets appartenant à une même classe, c’est-
à-dire ont la même valeur de la variable cible.
10
11
- etc.
12
- Entrées :
- n objets, p variables continues ou discrètes
- une variable supplémentaire contenant la classe de chaque
objet (c classes)
-Sortie :
16
- un arbre de décision
Cours Data Mining - T. Hamrouni - 2021-2022
Algorithme CART
avec :
n : nombre de classes à prédire
fi : fréquence de la classe dans le nœud (égale à la proportion
des objets du nœud appartenant à cette classe par rapport au
nombre total des objets du nœud)
17
Algorithme CART
Plus l’indice de Gini est bas, plus le nœud est pur (c’est-à-dire que plus
tous les objets associés appartiennent à la même classe)
En séparant un nœud en n nœuds fils, on cherche la plus grande
hausse de la pureté :
La variable la plus discriminante doit maximiser :
Gain = IG(nœud avant séparation) - (p1 * IG(fils1) + … + pn* IG(filsn))
avec pi la proportion des objets ayant atteint le nœud filsi
Application
Soit la base d’apprentissage suivante. Donner l’arbre de décision
associé sachant que tous les nœuds terminaux doivent être purs.
id A B C = Classe
1 1 fort oui
2 0 faible non
3 0 moyen non
4 1 fort oui
5 0 faible non
6 1 faible oui
7 0 fort non
8 1 moyen non
20
Exercice (suite)
Déterminer l’arbre de décision associé à la base d’apprentissage
suivante sachant que :
- M, A, R et E sont les variables prédictives et I est la variable cible
- La condition d’arrêt est que tous les nœuds terminaux soient purs
23
28
I=oui : 3 clients
8 clients
I=non : 5 clients
Fréquence Fréquence
des I = oui des I = non
29
I=oui : 1 client
I=non : 0 clients
A= Jeune : 1 client
I=oui : 0 clients
I=non : 3 clients
30
I=oui : 1 client
1 client
I=non : 0 clients
Fréquence Fréquence
des I = oui des I = non
31
I=oui : 2 clients
4 clients
I=non : 2 clients
Fréquence Fréquence
des I = oui des I = non
32
I=oui : 0 clients
3 clients
I=non : 3 clients
Fréquence Fréquence
des I = oui des I = non
33
0.21875
34
35
A
Jeune Agé
Moyen
I=Oui I=Non
36
I=oui : 2 clients
4 clients
I=non : 2 clients
Fréquence Fréquence
des I = oui des I = non
38
I=oui : 2 clients
I=non : 0 clients
E = Oui : 2 clients
2 valeurs de E
E = Non : 2 clients
I=oui : 0 clients
I=non : 2 clients
39
I=oui : 2 clients
2 clients
I=non : 0 clients
Fréquence Fréquence
des I = oui des I = non
40
I=oui : 0 clients
2 clients
I=non : 2 clients
Fréquence Fréquence
des I = oui des I = non
41
42
A
Jeune Agé
Moyen
I=Oui E I=Non
OUI NON
I=Oui I=Non
43
45
tauxErreurClassification = m/n
46
Critères d’évaluation
48
Attributs (Variables)
Données quantitatives Données qualitatives