Decision Trees

Apprentissage Artificiel et fouille de données
Arbres de décision
Jamal Atif, Université Paris Dauphine

D’après Céline Hudelot (ECP), d’après Tan, Steinbach, Kumar
M2R ISI
Université Paris-Dauphine
2015-2016
Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

ISI-3 (ECP), d’après Tan, Steinbach, Kumar
2015-2016
(Université
1 /Paris
73
Introduction
Plan
1 Introduction
2 Arbres de décision
Choix de l’attribut discriminant
Algorithme CART
Algorithme C4.5

2015-2016
(Université
2 /Paris
73
Introduction
Classification
Examiner les caractéristiques d’un objet et lui attribuer une classe (un champ
particulier à valeurs discrètes).
Etant donnée une collection d’enregistrements (ensemble
d’apprentissage).
Chaque enregistrement contient un ensemble d’attributs et un de ces
attributs est sa classe.
Trouver un modèle pour l’attribut classe comme une fonction de la
valeurs des autres attributs
But : permettre d’assigner une classe à des enregistrements inconnus de
manière aussi précise que possible.
Un ensemble de test est utilisé pour déterminer la précision du modèle.

2015-2016
(Université
3 /Paris
73
Introduction
Classification : exemple

2015-2016
(Université
4 /Paris
73
Plan
1 Introduction
Algorithme CART
Algorithme C4.5

2015-2016
(Université
5 /Paris
73
Définition
Ensemble de règles de classification basant leur décision sur des tests associés
aux attributs, organisés de manière arborescente.
Motivation
Produire des classifications compréhensibles par l’utilisateur (versus les autres
méthodes)

2015-2016
(Université
6 /Paris
73
Principe
Prédire la valeur d’un attribut(variable cible ou variable exogène) à partir
d’un ensemble de valeurs d’attributs (variables prédictives ou variables
endogènes).
Une méthode simple, supervisée, et très connue de classification et de

prédiction.
Un arbre est équivalent à un ensemble de règles de décision : un modèle
facile à comprendre.
Un arbre est composé :
de noeuds : classes d’individus de plus en plus fines depuis la racine.
d’arcs : prédicats de partitionnement de la classe source.

2015-2016
(Université
7 /Paris
73
Un arbre de décision est un arbre au sens informatique.

Les noeuds sont repérés par des positions ∈ {1, ...p}∗ , où p est l’arité
maximale des noeuds.
Les noeuds internes sont les noeuds de décision.
Un noeud de décision est étiqueté par un test qui peut être appliqué à
chaque description d’un individu d’une population.
Chaque test examine la valeur d’un unique attribut.
Dans les arbres de décision binaires, on omet les labels des arcs.
Les feuilles sont étiquetées par une classe.

2015-2016
(Université
8 /Paris
73
Arbres de décision : exemple

Décider si un patient est malade ou bien portant selon sa température et s’il a
la gorge irritée.
Arbre de décision :
2 classes : malade ; bien portant
2 variables : température, gorge irritée.

2015-2016
(Université
9 /Paris
73
Vocabulaire
Noeud interne, intermédiaire ou test (noeud de décision) : chaque noeud
intermédiaire est défini par un test construit à partir d’une variable. Le
test est applicable à toute description d’une instance et généralement un
test sur un seul attribut.
Noeud terminal ou feuille : étiquetés par une classe.
Arcs issus d’un noeud interne : réponses possibles au test du noeud.
Chaque noeud interne ou feuille est repéré par sa position (i.e. liste des
numéros des arcs qui permettent d’y accéder en partant de la racine).
Arbre de décision et apprentissage :
Tout arbre de décision définit un classifieur.
Le classifier se traduit immédiatement en terme de règle de décision.

2015-2016
(Université
10 /Paris
73

2015-2016
(Université
11 /Paris
73

2015-2016
(Université
12 /Paris
73

2015-2016
(Université
13 /Paris
73

2015-2016
(Université
14 /Paris
73

2015-2016
(Université
15 /Paris
73

2015-2016
(Université
16 /Paris
73

2015-2016
(Université
17 /Paris
73
Arbres de décision : induction

2015-2016
(Université
18 /Paris
73
Plusieurs algorithmes
Algorithme de Hunt (méthode de base)
CART
ID3, C4.5
SLIQ, SPRINT
...

2015-2016
(Université
19 /Paris
73
Principe général de construction de l’arbre de décision

Construction de l’arbre en découpant successivement les données en fonction
des variables prédictives.
Soit Dt l’ensemble d’enregistrements (données d’apprentissage) qui amène
au noeud t.
Algorithme générique : Segmenter(Dt )
Si tous les enregistrements de Dt appartiennent à la même classe de
variable à prédire yt alors t est une feuille labelisée comme yt
Si Dt contient des enregistrements appartenant à plusieurs classes :
Pour chaque attribut prédictif A, évaluer la qualité de découpage selon A.
Utiliser l’attribut donnant la meilleure découpe pour découper l’ensemble de
données en sous ensembles.
Appliquer la procédure de manière récursive sur les sous ensembles obtenus.

2015-2016
(Université
20 /Paris
73
Problèmes fondamentaux pour construire l’arbre

1 Choix de l’attribut discriminant.
2 Affectation d’un label à une feuille.
3 Arrêt de la procédure de segmentation (i.e. profondeur de l’arbre). Si un
arbre est trop profond, il est trop complexe et trop adapté à l’ensemble
d’apprentissage, i.e. pas assez généraliste.
4 Choix des bornes de discrétisation (i.e. comment découper les valeurs
d’un attribut continu).

2015-2016
(Université
21 /Paris
73
Arbres de décision : construction
Notations
n(p) = nombre d’individus associés à la position p, i.e. au noeud p.
n(k|p) = nombre d’individus appartenant à la classe k en sachant qu’ils
sont associés à la position p.
n(k|p)
p(k|p) = n(p) = proportion des individus appartenant à la classe k.
Pureté d’un noeud

Un noeud est pur si tous les individus associés appartiennent à la même classe.

2015-2016
(Université
22 /Paris
73
Exemple
But : construire un arbre de décision qui classe et détermine les
caractéristiques des clients qui consultent leurs comptes sur internet.
Variables :
M : moyenne des montants sur le compte
A : âge du client
R : lieu de résidence du client
E : le client fait des études supérieures ?
I : le client consulte ses comptes sur Internet ?

2015-2016
(Université
23 /Paris
73
Exemple

2015-2016
(Université
24 /Paris
73
Construction descendante.
Au début, tous les individus sont regroupés.
Est-ce que le noeud initial (3, 5) est un noeud terminal ou est-ce qu’on
peut construire un test sur une variable qui permettra de mieux
discriminer les individus ?
Quatre constructions possibles suivant les variables Montant (M ), Age
(A), Résidence (R), et Etudes (E).

2015-2016
(Université
25 /Paris
73
Construction selon la variable Montant (M )

2015-2016
(Université
26 /Paris
73
Construction selon la variable Age (A)

2015-2016
(Université
27 /Paris
73
Construction selon la variable Résidence (R)

2015-2016
(Université
28 /Paris
73
Construction selon la variable Etudes (E)

2015-2016
(Université
29 /Paris
73
Quel test choisir ?
Un test est intéressant s’il permet une bonne discrimination.

Sur R, aucune discrimination sur aucune branche : on ne gagne rien avec
ce test !
Sur A, deux noeuds sur trois sont purs.
Comment écrire cela de manière algorithmique et mathématique ?

2015-2016
(Université
30 /Paris
73
Degré de désordre (mélange)

On a besoin de comparer les différents choix possibles.
On introduit des fonctions qui permettent de mesurer le degré de désordre
dans les différentes classes (pureté d’un noeud)
Propriétés des fonctions (degré de mélange ou désordre) :
Le minimum est atteint lorsque tous les noeuds sont purs : tous les
exemples ou individus sont dans une même classe.
Le maximum est atteint lorsque les individus sont équirépartis entre les
classes.
Exemples de fonctions :
Indice de Gini
Entropie
...

2015-2016
(Université
31 /Paris
73
Arbres de décision Choix de l’attribut
Plan
1 Introduction
Algorithme CART
Algorithme C4.5

2015-2016
(Université
32 /Paris
73
Choix de l’attribut discrimimant
Comment spécifier la condition de test ?

Dépend du type d’attribut
Nominal
Ordinal
Continu
Dépend du nombre de façon de diviser
Division en 2
Division en n.

2015-2016
(Université
33 /Paris
73
Attribut nominal
Division multiple : autant de partitions que de valeurs distinctes.
Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouver

le partitionnement optimal.

2015-2016
(Université
34 /Paris
73
Attribut ordinal
Division multiple : autant de partitions que de valeurs distinctes.
Division binaire : Division des valeurs en deux sous-ensembles ⇒ Trouver

le partitionnement optimal.

2015-2016
(Université
35 /Paris
73
Attribut continu
Différentes manières de discrétiser :
Discrétisation pour former un attribut ordinal.
Décision binaire

2015-2016
(Université
36 /Paris
73
Critère de choix de l’attribut et de la division

2015-2016
(Université
37 /Paris
73
On privilégie les noeuds avec des distributions homogènes

Mesure du désordre d’un noeud
Indice de Gini
Entropie
Taux de classification

2015-2016
(Université
38 /Paris
73

2015-2016
(Université
39 /Paris
73
t = le test (i.e. la variable)

n = le nombre de modalités de t.
i = la fonction pour mesurer le degré de désordre.
Fonction de gain
n
X
Gain(p, t) = i(p) − Pj i(pj )
j=1
avec Pj la proportion des individus à la position p qui vont en position pj
On cherche le test qui maximise le gain.

2015-2016
(Université
40 /Paris
73
Mesure du désordre : GINI

Pour un noeud t donné :
X
GIN I(t) = 1 − p(j|t)2
j
avec p(j|t) la fréquence relative de la classe j au noeud t.

Maximum : 1 − n1c quand tous les enregistrements sont distribués de
manière égale parmi toutes les classes.
Minimum : 0.0 quand tous les enregistrements appartiennent à une classe.

2015-2016
(Université
41 /Paris
73
Mesure du désordre : GINI

X
GIN I(t) = 1 − p(j|t)2
j
Exemples

2015-2016
(Université
42 /Paris
73
Division basée sur l’indice GINI

Utilisé dans les algorithmes CART, SPLIQ et SPRINT
Quand un noeud p est divisé en k partitions, la qualité de la division est
calculée par
k
X ni
GIN Isplit = GIN I(i)
i=1
n
avec
ni nombre d’enregistrements au noeud i.
n nombre d’enregistrements au noeud p.

2015-2016
(Université
43 /Paris
73
Attributs binaires : indice de Gini

2015-2016
(Université
44 /Paris
73
Attributs catégoriques : indice de Gini

2015-2016
(Université
45 /Paris
73
Attributs continus : indice de Gini

Pour chaque attribut
Trier les attributs par valeurs
Scanner linéairement les valeurs , en calculant l’indice de Gini
Choisir la position qui a le plus petit indice de Gini

2015-2016
(Université
46 /Paris
73
Entropie
Entropie à un noeud t :
X
Entropy(t) = − p(j|t) log p(j|t)
j
Mesure de l’homogénéité d’un noeud :

Maximum : log nc quand les enregistrements sont distribués de manière
égal parmi les classes.
Minimum : 0.0 quand tous les enregistrements appartiennent à une classe

2015-2016
(Université
47 /Paris
73
Entropie
X
Entropy(t) = − p(j|t) log p(j|t)
j

2015-2016
(Université
48 /Paris
73
Retour sur l’exemple

Tester sur la variable Montant (M ) : on considère le noeud 0, (3, 5) avec
comme fonction l’entropie.

2015-2016
(Université
49 /Paris
73

3 3 2
Gain(0, M ) = i(0) − ( i(1) + i(2) + i(3))
8 8 8
1 1 2 2
Entropie(1) = − log − log = 0.64
3 3 3 3
2 2 1 1
Entropie(2) = − log − log = 0.64
3 3 3 3
2 2
Entropie(3) = − log = 0
2 2
Gain(0, M ) = Entropie(0) − 0.48

2015-2016
(Université
50 /Paris
73

on considère le noeud 0, (3, 5) avec comme fonction l’entropie.
Choix de l’attribut âge (A)

2015-2016
(Université
51 /Paris
73
Construction de l’arbre.
Noeud terminal
Lorsque (presque) tous les exemples en ce noeud sont dans la même classe.
Lorsqu’il n’y a plus d’attributs à tester à ce niveau.
Quelle classe à un noeud terminal ?

Classe majoritaire.
Classe la plus représentée si égalité.

2015-2016
(Université
52 /Paris
73

2015-2016
(Université
53 /Paris
73

Suite de la construction

2015-2016
(Université
54 /Paris
73

Quel test choisir ?

Calcul du gain pour chaque test.

2015-2016
(Université
55 /Paris
73


2015-2016
(Université
56 /Paris
73
Apprentissage des arbres de décision
Idée : rappel
Diviser récursivement et le plus efficacement possible les individus de
l’ensemble d’apprentissage par des tests définis à l’aide des variables jusqu’à
obtenir des sous ensembles d’individus ne contenant presque que des exemples
appartenant à une même classe.
Trois opérations : rappel

1 Décider si un noeud est terminal, i.e. tous les individus sont dans la même
classe ou il y a moins d’un certain nombre d’erreurs.
2 Sélectionner un test associé à un noeud.
3 Affecter une classe à une feuille.
Les différents algorithmes diffèrent par ces trois opérations.
Objectif : construire un arbre avec la plus petite erreur de classification
possible

2015-2016
(Université
57 /Paris
73
Apprentissage des arbres de décision : généralités

Arbre de décision parfait, i.e. tous les exemples sont bien classifiés :
n’existe pas toujours.
Le meilleur arbre est l’arbre le plus petit parfait.
L’objectif est d’obtenir l’arbre le plus petit possible (facilitant la
recherche) tout en établissant un compromis entre les taux d’erreur sur
l’ensemble d’apprentissage et sur l’ensemble de test afin de pouvoir
généraliser.
En pratique : on construit l’arbre en sélectionnant les attributs qui
minimisent la taille de l’arbre en classant correctement les exemples
d’apprentissage et ensuite on élague certaines branches pour garder un
pouvoir de généralisation (quitte à faire augmenter l’erreur sur l’ensemble
d’apprentissage)..
Deux approches :
Eviter une trop grande croissance de l’arbre en arrêtant sa construction au
bon moment.
Procéder en deux phases : construire l’arbre complètement puis couper les
branches qui dépassent.
2015-2016
(Université
58 /Paris
73
Arbres de décision Algorithme CART
Plan
1 Introduction
Algorithme CART
Algorithme C4.5

2015-2016
(Université
59 /Paris
73
Algorithme CART
Génère un arbre de décision binaire.

On suppose prédéfini un ensemble de tests binaires.
1 Variables qualitatives à n modalités.
autant de tests binaires que de partitions en deux classes.
2n−1 − 1 tests possibles.
2 Variables quantitatives
Une infinité de découpage selon des seuils.
Le meilleur seuil est choisi par un expert ou de manière automatique.
On dispose d’un échantillon S découpé en un ensemble d’apprentissage A
et un ensemble de test T .

2015-2016
(Université
60 /Paris
73
Algorithme CART
Phase d’expansion
Entrée : ensemble d’apprentissage A
On utilise la fonction Gini.
Décider si un noeud est terminal :
Un noeud à la position p est terminal si Gini(p) ≤ s0 ou n(p) ≤ n0 où s0
et n0 sont des paramètres à fixer.
Selectionner un test à associer à un noeud :
On choisit le test qui maximise ∆(p, t), avec p une position, t un test et
Pg , Pd la proportion d’éléments qui vont sur la position p1 ,
respectivement p2
∆(p, t) = Gini(p) − (Pg × Gini(p1 ) + Pd × Gini(p2 ))
Affecter une classe à une feuille : on choisit la classe majoritaire

Sortie : un arbre de décision.

2015-2016
(Université
61 /Paris
73
Algorithme CART
Phase d’elaguage
Entrée : l’arbre de décision obtenu dans la phase d’expansion.
Construction d’une suite d’arbres t0 t1 ...tk .
On calcule pour chaque tj l’erreur apparente sur l’ensemble T
La suite est donnée par :
1 t0 est l’arbre obtenu dans la phase d’expansion.
2 tk est une feuille.
3 A l’étape ti : pour toute position p de ti , on calcule g(p) et on choisit la
position p qui minimise g(p). L’arbre ti+1 est un élagué de ti en position p.
Sortie : l’arbre de la suite dont l’erreur apparente est minimale.

2015-2016
(Université
62 /Paris
73
Algorithme CART
Fonction g
Calcul de g(p) : soit up le sous-arbre de ti à la position p et
∆app (p)
g(p) =
|up | − 1
M C(p)−M C(up )
, où ∆app (p) = N (p)
, nombre d’erreurs supplémentaires que commet l’arbre sur
l’échantillon lorsqu’on élague à la position p. |up | − 1 mesure le nombre de feuilles
supprimées.
|up | taille de l’arbre up
N (p) est le nombre d’exemples de A associés à p.
M C(p) est le nombre d’exemples de A mal classés à p si on élague ti en position p.
M C(up ) est le nombre d’exemples de A associés à p de ti mal classés par up
On choisit la position p pour laquelle g(p) est minimale.

2015-2016
(Université
63 /Paris
73
Algorithme CART
Processus iératif
ti+1 est obtenu à partir de ti , auquel on coupe la branche qui permet un g
minimal.
Soit t0 , ...tk la suite obtenue, tk est réduit à une feuille.
Sélection de l’arbre ti dont le nombre d’erreurs calculées sur l’ensemble de
validation est minimal.

2015-2016
(Université
64 /Paris
73
Algorithme CART
Exemple d’élagage

2015-2016
(Université
65 /Paris
73
Algorithme CART

2015-2016
(Université
66 /Paris
73
Algorithme CART

2015-2016
(Université
67 /Paris
73
Algorithme CART
Calculs d’erreurs :
1
t0 : 0 en apprentissage, 2 en test.
1 1
1 1
1 1

2015-2016
(Université
68 /Paris
73
Arbres de décision Algorithme C4.5
Plan
1 Introduction
Algorithme CART
Algorithme C4.5

2015-2016
(Université
69 /Paris
73
Algorithme C4.5
Alternative à l’algorithme CART quand la taille de l’échantillon S ne permet

pas le découpage en A et T .
Phase d’expansion (1/2)

Entrée : ensemble d’apprentissage A et ensemble de tests n-aires.
On utilise la fonction Entropie
Décider si un noeud est terminal :
Un noeud à la position p est terminal si tous les éléments associés à ce
noeud sont dans une même classe où si on ne peut sélectionner aucun test.
Selectionner un test à associer à un noeud :
On envisage seulement les tests qui ont au moins deux branches contenant
au moins deux éléments (paramètres pouvant être modifiés).
On choisit le test qui maximise le gain en utilisant la fonction entropie.

2015-2016
(Université
70 /Paris
73
Algorithme C4.5
Phase d’expansion (2/2)

La fonction Gain privilégie les attributs ayant un grand nombre de valeurs. On modifie
la fonction en conséquence :
Gain(p, T )
Gainratio(p, T ) =
Splitinf o(p, T )
avec
n
X 0 0
Splitinf o(p, T ) = − P (j|p) × log(P (j|p))
j=1
n est l’arité du test T .

0
P (j|p) est la proportion d’exemples présentes à p prenant la jième valeur
(classe) du test T .
Affecter une classe à une feuille :
On attribute la classe majoritaire. Si il n’y a pas d’exemples, on attribue la classe
majoritaire du père.
Sortie : un arbre de décision.

2015-2016
(Université
71 /Paris
73
Algorithme C4.5
Phase d’elagage
La phase d’élagage est basée sur une heuristique.
Améliorations :
Attributs discrets.
Attributs continus.
Valeurs manquantes.

2015-2016
(Université
72 /Paris
73
Conclusion
Conclusion sur les arbres de décision

Algorithme de classification supervisée.
Méthode statistique non paramétrique
Permet de classer un ensemble d’individus décrits par des variables
qualitatives ou quantitatives
Produit les classes les plus homogènes possibles

2015-2016
(Université
73 /Paris
73

Decision Trees

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Decision Trees

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage Artificiel et fouille de données

Jamal Atif, Université Paris Dauphine

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Une méthode simple, supervisée, et très connue de classification et de

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Un arbre de décision est un arbre au sens informatique.

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : exemple

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : induction

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : induction

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : induction

Principe général de construction de l’arbre de décision

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : induction

Problèmes fondamentaux pour construire l’arbre

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Pureté d’un noeud

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Construction selon la variable Montant (M )

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Construction selon la variable Age (A)

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Construction selon la variable Résidence (R)

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Construction selon la variable Etudes (E)

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot

Arbres de décision : construction

Quel test choisir ?

Un test est intéressant s’il permet une bonne discrimination.

Jamal Atif, Université Paris Dauphine D’après Céline Hudelot