Vous êtes sur la page 1sur 36

Construction d’un arbre de décision

Introduction
Les méthodes de classification ont pour but d'identifier les classes auxquelles
appartiennent des objets à partir de certains traits descriptifs.

Elles trouvent leur utilité dans un grand nombre d'activités humaines et en


particulier dans la prise de décision automatisée.

Citons par exemple :

 L'aide au diagnostic médical : à partir de la liste des symptômes d'un malade (sa
description) la procédure de classification indique sa maladie probable (sa classe).

 Accord d'un prêt bancaire : à partir de la situation d'un client (sa description) la
procédure de classification donne la réponse à la demande de prêt : oui / non (sa
classe).

 Détection automatique des spams dans les logiciels de messagerie…


Exemple…

Y
Xj
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
 Le premier sommet s0 est
appelé la racine de l’arbre.

 La variable exogène X1 qui


correspond à Ensoleillement,
est la première variable
utilisée ; on parle de variable
de segmentation.

 Le sommet s1, qui n’est pas pur, est


segmenté à l’aide de la variable exogène X3
qui correspond à Humidité.

 Pour classer un nouvel


individu, il suffit de
l’injecter dans l’arbre, et
de lui associer la
conclusion attachée à la
feuille dans laquelle il
aboutit : s2, s4, s5, s6, etc…
Construction d’un arbre de décision
Construire des arbres de décision utilise une stratégie qui consiste à chercher
localement, sur chaque nœud, l’attribut Xj qui induit le meilleur éclatement.

Question : Quelle mesure a-t-on utilisée pour sélectionner les variables X1, X3 et enfin
X4 ?
Choix d’une variable de segmentation
Les méthodes d’induction d’arbres s’appuient sur le même principe :

1. Pour chaque variable candidate, nous réalisons le partitionnement des


observations, et nous calculons un indicateur de qualité ;
2. La variable retenue est celle qui optimise cet indicateur.

9
5
Choix d’une variable de segmentation
Les méthodes d’induction d’arbres s’appuient sur le même principe :

1. Pour chaque variable candidate, nous réalisons le partitionnement des


observations, et nous calculons un indicateur de qualité ;
2. La variable retenue est celle qui optimise cet indicateur.

9
5

2 4 3
3 0 2
Choix d’une variable de segmentation
Les méthodes d’induction d’arbres s’appuient sur le même principe :

1. Pour chaque variable candidate, nous réalisons le partitionnement des


observations, et nous calculons un indicateur de qualité ;
2. La variable retenue est celle qui optimise cet indicateur.

9
5

? ?
? ?
Mesure d’écart du Khi-2
La construction d’un arbre optimal est ramenée à la recherche de la combinaison des
attributs prédictifs Xj (exogènes) la plus corrélée avec la variable à prédire Y
(endogène).
Mesure d’écart à l’indépendance du Khi-2 :
La mesure la plus connue pour apprécier
l’indépendance dans les tableaux de
contingence (Pearson, 1904).
La statistique du test s’écrit :

Remarque : Il est préférable de normaliser le Khi-2 par le nombre de degrés de


libertés, en prenant par exemple le test de Tschuprow dont le domaine de définition
est [0,1].
Exemple … éclatement selon X1 & X4
Discrétisation des variables continues

Les seuils de coupure utilisés étant :


"66.5", "68.5", "70.5", "73.5", "78.5"
et enfin "85.5".

"66.5"
"68.5"
"70.5"
"73.5"
"78.5"
"85.5"
Discrétisation des variables continues

Les seuils de coupure utilisés étant :


"65.5", "68.5", "70.5", "73.5", "78.5"
et enfin "85.5".

"65.5"
"68.5"
"70.5"
"73.5"
"78.5"
"85.5"
Discrétisation des variables continues

Supposons les seuils de coupure


suivant :
"65.5", "68.5", "70.5", "73.5",
"78.5" et enfin "85.5".

"65.5"
"68.5"
"70.5"
"73.5"
"78.5"
"85.5"

Vous aimerez peut-être aussi