Académique Documents
Professionnel Documents
Culture Documents
CART
Master MLDS
Université Paris Descartes
Lazhar.labiod@parisdescartes.fr
1
Références
Pattern classification. R. Duda, P. Hart and D. Stork. Wiley, New York, 2000.
2
Introduction
On parle d’arbres de décision pour désigner à la fois des arbres de
classification et de régression
Ici : arbres de classification
3
Exemple
4
Notations
Variables d’entrées : X = (X1, ..., Xp ) ∈ X , quantitatives ou
qualitatives
Variable de sortie : Y ∈ Y = {1, ..., K}, qualitative à K classes.
On cherche à construire un classifieur associé à un arbre :
f :X → Y
5
Exemple d’arbre
6
Notations
A chaque noeud t de l’arbre on associe une coupure (split)
A chaque coupure est associée une variable de coupure Xjt selon
laquelle on découpe le noeud
Variable quantitative ∈ R : on lui associe un seuil de
coupure
si ≤ θ alors l’observation i va dans le noeud fils gauche
si > θ alors l’observation i va dans le noeud fils droit
Variable qualitative ∈ A : on lui associe une partition des
modalités en 2 groupes {At , cAt } :
si ∈ A alors l’observation i va dans le noeud fils gauche
si ∈/ A alors l’observation i va dans le noeud fils droit
7
Mesure de pureté
On va chercher, parmi toutes les coupures possibles celle qui
sépare au mieux les classes :
On note
8
Fonctions d’impureté standard
Indice de Gini :
Entropie :
9
Fonctions d’impureté standard
Cas binaire : K = 2
› Gini :
› Entropie :
positive
nulle si le nœud est constitué d’observations de la
même classe (nœud est pur)
maximale si la moitié des obs. sont de classe 1 et
l’autre moitié de classe 2.
10
Mesure d’impurté
On note tL et tR les nœuds fils gauche et droit du nœud t.
On mesure la qualité d’une coupure ct par
11
Exemple : données synthétiques
12
Exemple SPAM CART
13
Critère d’arrêt
De façon générale, on ne découpe pas un nœud pur.
Ensuite, plusieurs choix possibles
14
Règle de classification
A chaque nœud terminal (ou feuille) on
associe la classe majoritaire des observations
appartenant à ce nœud :
15
Elagage
Les critères d’arrêt étant difficiles à régler en
pratique, Breiman et al. ont proposé une meilleure
stratégie :
16
Construction de l’arbre suite..
Critère de coût-complexité à minimiser :
17
Construction de l’arbre suite..
18
Limites des arbre de classification
Instabilité
Un faible changement dans les données d’apprentissage peut donner un arbre
très différent
Du à la construction hiérarchique de l’arbre
Solution : méthodes d’ensemble bagging et random forests (Breiman 1996,
2001)
Partitions binaires ?
On pourrait considérer un partitionnement en plus de deux noeuds.
Cette stratégie est en général moins bonne, les données d’apprentissage étant
trop vite fragmentées
Combinaisons linéaires
On peut considérer des règles de partition de la forme
Poids aj peuvent être obtenus par optimisation
Mais perte de l’interprétation et augmentation significative du temps de calcul
19