Académique Documents
Professionnel Documents
Culture Documents
Présentation Classification DT 2016-2017
Présentation Classification DT 2016-2017
Introduction
Les méthodes de classification ont pour but d'identifier les classes auxquelles
appartiennent des objets à partir de certains traits descriptifs.
L'aide au diagnostic médical : à partir de la liste des symptômes d'un malade (sa
description) la procédure de classification indique sa maladie probable (sa classe).
Accord d'un prêt bancaire : à partir de la situation d'un client (sa description) la
procédure de classification donne la réponse à la demande de prêt : oui / non (sa
classe).
Y
Xj
Le premier sommet s0 est
appelé la racine de l’arbre.
Question : Quelle mesure a-t-on utilisée pour sélectionner les variables X1, X3 et enfin
X4 ?
Choix d’une variable de segmentation
Les méthodes d’induction d’arbres s’appuient sur le même principe :
9
5
Choix d’une variable de segmentation
Les méthodes d’induction d’arbres s’appuient sur le même principe :
9
5
2 4 3
3 0 2
Choix d’une variable de segmentation
Les méthodes d’induction d’arbres s’appuient sur le même principe :
9
5
? ?
? ?
Mesure d’écart du Khi-2
La construction d’un arbre optimal est ramenée à la recherche de la combinaison des
attributs prédictifs Xj (exogènes) la plus corrélée avec la variable à prédire Y
(endogène).
Mesure d’écart à l’indépendance du Khi-2 :
La mesure la plus connue pour apprécier
l’indépendance dans les tableaux de
contingence (Pearson, 1904).
La statistique du test s’écrit :
"66.5"
"68.5"
"70.5"
"73.5"
"78.5"
"85.5"
Discrétisation des variables continues
"65.5"
"68.5"
"70.5"
"73.5"
"78.5"
"85.5"
Discrétisation des variables continues
"65.5"
"68.5"
"70.5"
"73.5"
"78.5"
"85.5"