Académique Documents
Professionnel Documents
Culture Documents
Arbres de décision
M2R ISI
Université Paris-Dauphine
2015-2016
Plan
1 Introduction
2 Arbres de décision
Choix de l’attribut discriminant
Algorithme CART
Algorithme C4.5
Classification
Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ
particulier à valeurs discrètes).
Etant donnée une collection d’enregistrements (ensemble
d’apprentissage).
Chaque enregistrement contient un ensemble d’attributs et un de ces
attributs est sa classe.
Trouver un modèle pour l’attribut classe comme une fonction de la
valeurs des autres attributs
But : permettre d’assigner une classe à des enregistrements inconnus de
manière aussi précise que possible.
Un ensemble de test est utilisé pour déterminer la précision du modèle.
Classification : exemple
Plan
1 Introduction
2 Arbres de décision
Choix de l’attribut discriminant
Algorithme CART
Algorithme C4.5
Arbres de décision
Définition
Ensemble de règles de classification basant leur décision sur des tests associés
aux attributs, organisés de manière arborescente.
Motivation
Produire des classifications compréhensibles par l’utilisateur (versus les autres
méthodes)
Arbres de décision
Principe
Prédire la valeur d’un attribut(variable cible ou variable exogène) à partir
d’un ensemble de valeurs d’attributs (variables prédictives ou variables
endogènes).
Arbres de décision
Arbres de décision
Vocabulaire
Noeud interne, intermédiaire ou test (noeud de décision) : chaque noeud
intermédiaire est défini par un test construit à partir d’une variable. Le
test est applicable à toute description d’une instance et généralement un
test sur un seul attribut.
Noeud terminal ou feuille : étiquetés par une classe.
Arcs issus d’un noeud interne : réponses possibles au test du noeud.
Chaque noeud interne ou feuille est repéré par sa position (i.e. liste des
numéros des arcs qui permettent d’y accéder en partant de la racine).
Arbre de décision et apprentissage :
Tout arbre de décision définit un classifieur.
Le classifier se traduit immédiatement en terme de règle de décision.
Plusieurs algorithmes
Algorithme de Hunt (méthode de base)
CART
ID3, C4.5
SLIQ, SPRINT
...
Notations
n(p) = nombre d’individus associés à la position p, i.e. au noeud p.
n(k|p) = nombre d’individus appartenant à la classe k en sachant qu’ils
sont associés à la position p.
n(k|p)
p(k|p) = n(p) = proportion des individus appartenant à la classe k.
Exemple
But : construire un arbre de décision qui classe et détermine les
caractéristiques des clients qui consultent leurs comptes sur internet.
Variables :
M : moyenne des montants sur le compte
A : âge du client
R : lieu de résidence du client
E : le client fait des études supérieures ?
I : le client consulte ses comptes sur Internet ?
Exemple
Construction descendante.
Au début, tous les individus sont regroupés.
Est-ce que le noeud initial (3, 5) est un noeud terminal ou est-ce qu’on
peut construire un test sur une variable qui permettra de mieux
discriminer les individus ?
Quatre constructions possibles suivant les variables Montant (M ), Age
(A), Résidence (R), et Etudes (E).
Plan
1 Introduction
2 Arbres de décision
Choix de l’attribut discriminant
Algorithme CART
Algorithme C4.5
Attribut nominal
Division multiple : autant de partitions que de valeurs distinctes.
Attribut ordinal
Division multiple : autant de partitions que de valeurs distinctes.
Attribut continu
Différentes manières de discrétiser :
Discrétisation pour former un attribut ordinal.
Décision binaire
Indice de Gini
Entropie
Taux de classification
Fonction de gain
n
X
Gain(p, t) = i(p) − Pj i(pj )
j=1
avec Pj la proportion des individus à la position p qui vont en position pj
Exemples
Entropie
Entropie à un noeud t :
X
Entropy(t) = − p(j|t) log p(j|t)
j
Entropie
X
Entropy(t) = − p(j|t) log p(j|t)
j
Construction de l’arbre.
Noeud terminal
Lorsque (presque) tous les exemples en ce noeud sont dans la même classe.
Lorsqu’il n’y a plus d’attributs à tester à ce niveau.
Idée : rappel
Diviser récursivement et le plus efficacement possible les individus de
l’ensemble d’apprentissage par des tests définis à l’aide des variables jusqu’à
obtenir des sous ensembles d’individus ne contenant presque que des exemples
appartenant à une même classe.
Plan
1 Introduction
2 Arbres de décision
Choix de l’attribut discriminant
Algorithme CART
Algorithme C4.5
Algorithme CART
Algorithme CART
Phase d’expansion
Entrée : ensemble d’apprentissage A
On utilise la fonction Gini.
Décider si un noeud est terminal :
Un noeud à la position p est terminal si Gini(p) ≤ s0 ou n(p) ≤ n0 où s0
et n0 sont des paramètres à fixer.
Selectionner un test à associer à un noeud :
On choisit le test qui maximise ∆(p, t), avec p une position, t un test et
Pg , Pd la proportion d’éléments qui vont sur la position p1 ,
respectivement p2
Algorithme CART
Phase d’elaguage
Entrée : l’arbre de décision obtenu dans la phase d’expansion.
Construction d’une suite d’arbres t0 t1 ...tk .
On calcule pour chaque tj l’erreur apparente sur l’ensemble T
La suite est donnée par :
1 t0 est l’arbre obtenu dans la phase d’expansion.
2 tk est une feuille.
3 A l’étape ti : pour toute position p de ti , on calcule g(p) et on choisit la
position p qui minimise g(p). L’arbre ti+1 est un élagué de ti en position p.
Sortie : l’arbre de la suite dont l’erreur apparente est minimale.
Algorithme CART
Fonction g
Calcul de g(p) : soit up le sous-arbre de ti à la position p et
∆app (p)
g(p) =
|up | − 1
M C(p)−M C(up )
, où ∆app (p) = N (p)
, nombre d’erreurs supplémentaires que commet l’arbre sur
l’échantillon lorsqu’on élague à la position p. |up | − 1 mesure le nombre de feuilles
supprimées.
|up | taille de l’arbre up
N (p) est le nombre d’exemples de A associés à p.
M C(p) est le nombre d’exemples de A mal classés à p si on élague ti en position p.
M C(up ) est le nombre d’exemples de A associés à p de ti mal classés par up
On choisit la position p pour laquelle g(p) est minimale.
Algorithme CART
Processus iératif
ti+1 est obtenu à partir de ti , auquel on coupe la branche qui permet un g
minimal.
Soit t0 , ...tk la suite obtenue, tk est réduit à une feuille.
Sélection de l’arbre ti dont le nombre d’erreurs calculées sur l’ensemble de
validation est minimal.
Algorithme CART
Exemple d’élagage
Algorithme CART
Exemple d’élagage
Algorithme CART
Exemple d’élagage
Algorithme CART
Exemple d’élagage
Calculs d’erreurs :
1
t0 : 0 en apprentissage, 2 en test.
1 1
t1 : 4 en apprentissage, 2 en test.
1 1
t2 : 2 en apprentissage, 4 en test.
1 1
t3 : 2 en apprentissage, 4 en test.
Plan
1 Introduction
2 Arbres de décision
Choix de l’attribut discriminant
Algorithme CART
Algorithme C4.5
Algorithme C4.5
Algorithme C4.5
Algorithme C4.5
Phase d’elagage
La phase d’élagage est basée sur une heuristique.
Améliorations :
Attributs discrets.
Attributs continus.
Valeurs manquantes.
Conclusion