Arbre de Décision - CART

Arbre de décision
CART
Master MLDS
Université Paris Descartes
Lazhar.labiod@parisdescartes.fr
1
Références
 Classification and regression trees. L. Breiman, J. H. Friedman, R. A. Olshen, and

C. J. Stone, Chapman & Hall, 1984.
 Pattern classification. R. Duda, P. Hart and D. Stork. Wiley, New York, 2000.
 Bagging Predictors. L. Breiman. Machine Learning 26 :123-140.
 Random Forests. L. Breiman. Machine Learning 45 :5-32.
2
Introduction
On parle d’arbres de décision pour désigner à la fois des arbres de
classification et de régression
 Ici : arbres de classification
 Principe général : un arbre de classification est obtenu par un

partitionnement récursif dyadique de l’espace d’entrée
 CART peut s’appliquer à des données comportant des variables

d’entrée quantitatives et qualitatives et à une variable de sortie
multiclasse.
 Fournit une représentation graphique simple du prédicteur obtenu, qui

facilite l’interprétation des résultats.
 Deux étapes principales de CART :

 1.construction de l’arbre maximal
 2.élagage
3
Exemple
4
Notations
 Variables d’entrées : X = (X1, ..., Xp ) ∈ X , quantitatives ou
qualitatives
 Variable de sortie : Y ∈ Y = {1, ..., K}, qualitative à K classes.
 On cherche à construire un classifieur associé à un arbre :
f :X → Y
sur la base des observations d’apprentissage (Xi, Yi ), i = 1, ..., n
5
Exemple d’arbre
6
Notations
 A chaque noeud t de l’arbre on associe une coupure (split)
 A chaque coupure est associée une variable de coupure Xjt selon
laquelle on découpe le noeud
 Variable quantitative ∈ R : on lui associe un seuil de
coupure
 si ≤ θ alors l’observation i va dans le noeud fils gauche
 si > θ alors l’observation i va dans le noeud fils droit
 Variable qualitative ∈ A : on lui associe une partition des
modalités en 2 groupes {At , cAt } :
 si ∈ A alors l’observation i va dans le noeud fils gauche
 si ∈/ A alors l’observation i va dans le noeud fils droit
7
Mesure de pureté
 On va chercher, parmi toutes les coupures possibles celle qui
sépare au mieux les classes :
 i.e. donne deux noeuds fils les plus homogènes possibles

 i.e. minimise une certaine fonction d’impureté
 On note Rt l’ensemble des données d’apprentissage appartenant

au noeud t
 La racine de l’arbre R1 = {1, ..., n} contient l’ensemble des données
 On définit la fréquence de la classe k dans le nœud t
 On note
8
Fonctions d’impureté standard
 Indice de Gini :
 Entropie :
9
Fonctions d’impureté standard
 Cas binaire : K = 2
 › Gini :
 › Entropie :
 positive
 nulle si le nœud est constitué d’observations de la
même classe (nœud est pur)
 maximale si la moitié des obs. sont de classe 1 et
l’autre moitié de classe 2.
10
Mesure d’impurté
 On note tL et tR les nœuds fils gauche et droit du nœud t.
 On mesure la qualité d’une coupure ct par
 où πL et πR sont les proportions de données de Rt appartenant

à RtL et RtR .
 On choisit la coupure ct associée au nœud t qui vérifie
11
Exemple : données synthétiques
12
Exemple SPAM CART
13
Critère d’arrêt
 De façon générale, on ne découpe pas un nœud pur.
Ensuite, plusieurs choix possibles
 On ne découpe pas un nœud qui contient moins de nmin

données.
 Si nmin = 1, on découpe les données au maximum (arbre maximal).

 Si nmin > 1, on obtient un arbre moins profond.
 choix de nmin difficile
 On ne découpe pas un nœud si max ∆(ct ) < s, donc si le gain

en pureté n’est pas suffisant
 choix de s difficile
14
Règle de classification
A chaque nœud terminal (ou feuille) on
associe la classe majoritaire des observations
appartenant à ce nœud :
 › La règle de classification est :
 où F(x ) est la feuille dans laquelle tombe

l’observation x .
15
Elagage
 Les critères d’arrêt étant difficiles à régler en
pratique, Breiman et al. ont proposé une meilleure
stratégie :
 Partant de l’arbre maximal Tmax , on construit

une suite de sous-arbres élagués de Tmax
 On choisit l’arbre final parmi cette collection

d’arbres
16
Construction de l’arbre suite..
 Critère de coût-complexité à minimiser :
17
Construction de l’arbre suite..
18
Limites des arbre de classification
 Instabilité
 Un faible changement dans les données d’apprentissage peut donner un arbre
très différent
 Du à la construction hiérarchique de l’arbre
 Solution : méthodes d’ensemble bagging et random forests (Breiman 1996,
2001)
 Partitions binaires ?
 On pourrait considérer un partitionnement en plus de deux noeuds.
 Cette stratégie est en général moins bonne, les données d’apprentissage étant
trop vite fragmentées
 Combinaisons linéaires
 On peut considérer des règles de partition de la forme
 Poids aj peuvent être obtenus par optimisation
 Mais perte de l’interprétation et augmentation significative du temps de calcul
19

Arbre de Décision - CART

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arbre de Décision - CART

Transféré par

Droits d'auteur :

Formats disponibles

Arbre de décision

 Classification and regression trees. L. Breiman, J. H. Friedman, R. A. Olshen, and

 Bagging Predictors. L. Breiman. Machine Learning 26 :123-140.

 Random Forests. L. Breiman. Machine Learning 45 :5-32.

 Principe général : un arbre de classification est obtenu par un

 CART peut s’appliquer à des données comportant des variables

 Fournit une représentation graphique simple du prédicteur obtenu, qui

 Deux étapes principales de CART :

sur la base des observations d’apprentissage (Xi, Yi ), i = 1, ..., n

 i.e. donne deux noeuds fils les plus homogènes possibles

 On note Rt l’ensemble des données d’apprentissage appartenant

 On définit la fréquence de la classe k dans le nœud t

 où πL et πR sont les proportions de données de Rt appartenant

 On choisit la coupure ct associée au nœud t qui vérifie

 On ne découpe pas un nœud qui contient moins de nmin

 Si nmin = 1, on découpe les données au maximum (arbre maximal).

 On ne découpe pas un nœud si max ∆(ct ) < s, donc si le gain

 › La règle de classification est :

 où F(x ) est la feuille dans laquelle tombe

 Partant de l’arbre maximal Tmax , on construit

 On choisit l’arbre final parmi cette collection

Vous aimerez peut-être aussi