Arbre de Decision

Arbres de décision
Proposé par : Dr. Ben Othman Ibtissem
1
Généralités
Définition
 Outil utilisé dans l’exploration de données et informatique
décisionnelle.
 Représentation hiérarchique de la structure des données
sous forme des séquences de décision (tests) en vue de la
prédiction d’un résultat ou d’une classe.
2
Généralités
Motivation
 Problème à résoudre : comment répartir une population
d’individus (e.g. clients, produit, utilisateurs etc.) en
groupes homogènes selon un ensemble de variables
discriminantes (e.g. âge, temps passé sur un site Web, etc.)
et en fonction d’un objectif fixé (variable de sortie ; par
exemple : chiffre d’affaires, probabilité de cliquer sur une
publicité, etc.)
3
Généralités
Exemple illustratif 1
4
Généralités
Exemple illustratif 2
5
Généralités
Exemple illustratif 3: (Quinlan,83)
6
Construction d’arbres de décision
Principe
 Les arbres de décision sont des classifieurs pour des
entités représentées dans un formalisme attribut/valeur
 Les noeuds de l’arbre testent les attributs
 Il y a une branche pour chaque valeur de l’attribut testé
 Les feuilles indiquent les catégories (deux ou plus)
7
Principe
 Utiliser les variables explicatives pour subdiviser les
individus en groupes hétérogènes (classes)
 Obtention de règles de décisions intelligibles
 Représentation graphique hiérarchisée intuitive
8
Apprentissage d ’arbres de décision
9
10
Représentation :
 Chaque noeud interne correspond à un attribut
 Chaque noeud teste l’attribut correspondant et génère
plusieurs branches
 Variable catégorielle :
 une branche par valeur de l’attribut
 Variable numérique :
 test sur valeur
 Les feuilles spécifient les classes
11
Principe de la construction :
 L’arbre est construit par partition récursive de la base
d’apprentissage en fonction de la valeur de l’attribut testé
à chaque itération (top-down induction).
 Le processus s’arrête quand les éléments d’un noeud ont
la même valeur pour la variable cible (homogénéité).
12
Construction
 La construction proprement dite de l’arbre nécessite de
suivre cinq étapes :
1. Etablir pour chaque nœud toutes les divisions possibles
2. Définir un critère de sélection de la meilleure division d’un
nœud (on parle également de division admissible d’un nœud)
3. Définir une règle d’arrêt des segmentations de l’arbre pour
déclarer un nœud comme terminal (on parle alors de segment
terminal)
4. Affecter une valeur de la variable Y pour ces nœuds terminaux
5. Estimer le risque d’erreur de prévision associé à cet arbre
13
Construction
Construction de l’arbre
14
Construction
 Gauche : division de l’espace impossible à obtenir par
partition récursive sur les attributs.
 Milieu et droite : Partition récursive de l’espace et arbre
obtenu. (source : wikimedia.org )
15
Construction
 Gauche : séparation de classes par partition itérative des
variables.
 Droite : séparation par combinaison linéaire de plusieurs
variables.
16
Construction
17
Construction
18
Construction
19
Construction
20
Comment sélectionner le bon attribut ?
21
Le meilleur choix conduit à un arbre de décision plus simple
 L’arbre le plus simple est celui qui permet de minimiser
l’espérance du nombre de questions nécessaires à la
classification d’un exemple d’apprentissage.
 Comme évaluer la simplicité globale de l’arbre ?
22
Algorithme de construction d’arbre de décision
 Une première approche pourrait consister à générer tous
les arbres possibles et à choisir le meilleur
 ... trop coûteux sauf si l’on a très peu d’attributs et très peu
d’exemples.
 Il faut un biais
 exploration ascendante ou descendante
 forme des arbres de décision
 Le problème principal: choisir à chaque étape, au cours
de la construction, le bon attribut sur lequel tester ...
23
Classifieurs courants
Arbres de décision
 Comment trouver les variables qui séparent le mieux les
individus de chaque classe ?
 Plusieurs critères de choix de variables correspondant à
différents types d’arbres
 CART (Classification And Regression Tree : Indice de Gini)
 CHAID (Chi square Automatic Interaction Detection)
 C5.0 (Entropie de Shannon)
24
Arbres de décision
 Déroulement de la construction :
1. Recherche de la variable et du seuil qui sépare le mieux
2. Applique la séparation à la population
3. Obtention de nouveaux nœuds
 Arrêt de l’approfondissement de l’arbre lorsque les
conditions d’arrêts sont rencontrées
25
Arbres de décision
 Conditions d’arrêts de construction d’un arbre de décision:
 Profondeur de l’arbre atteint une limite fixée
= nombre de variables utilisées
 Nombre de feuilles atteint un maximum fixé
 L’effectif de chaque nœud est inférieur à un seuil fixé
 La qualité de l’arbre est suffisante
 La qualité de l’arbre n’augmente plus de façon sensible
26
Arbres de décision de type CART
Définition
 L’arbre de décision de type CART (Classification And
Regression Tree) est une méthode de discrimination basée
sur la construction d’un arbre de décision binaire qui
permet de classer un ensemble d’individus décrits par des
variables qualitatives et quantitatives et produit des classes
les plus homogènes possibles.
 C’est une méthode statistique non-paramétrique de
classiﬁcation supervisée.
27
Définition
 Le CART permet donc de construire un arbre par le biais
de divisions successives en fonction de covariables
explicatives qui peuvent être continues ou catégorielles.
Les extrémités de cet arbre représentent les sous-groupes
homogènes.
28
Principe
 Le principe général de CART est de partitionner
récursivement l'espace d'entrée X de façon dyadique, puis
de déterminer une sous-partition optimale pour la
prédiction.
 L’idée fondamentale est de créer des sous-groupes (dit
fils) où le mélange soit moins important que dans la
population initiale (dit groupe parent).
29
Principe
 Lorsque la variable dépendante (variable Y) est
catégorielle (des classes), on parle de technique de
classification arborescente, par opposition à la technique
de régression arborescente s’intéressant à une variable
dépendante continue.
 CART nécessite, avant toute analyse, de subdiviser la
population initiale en deux échantillons; un échantillon
d’apprentissage et un échantillon test. L’échantillon
d’apprentissage permettra de construire l’arbre le plus
étendu possible, c’est-à-dire contenant toutes les
segmentations admissibles. Cet arbre est nommé Tmax.
30
 Classification And Regression Tree
 1984, L. Breiman, J.H Friedman, R.A. Olshen et C.J. Stone
 Parmi les plus performants et plus répandus
 On le trouve dans : SAS, R, S-Plus, SPAD,…
 Binaire : Deux nœuds fils pour chaque nœud parent
 Accepte tout type de variables
 Critère de séparation : Indice de Gini
31
 Indice de Gini:
n
I  1   fi ²
i
 N = nombre de classes à prédire
 fi = fréquence de la classe i dans le nœud
 Plus l’indice de Gini est bas, plus le nœud est pure
32
Algorithme CART
 Répartition des individus dans les nœuds
 Quand l’arbre est construit : critères de division connus
 On affecte chaque individu selon les règles obtenues
 remplissage des feuilles
33
Arbres de décision
 Un des problèmes connus lors des phases de construction
et de classement est que la taille de l'arbre grandit de
manière linéaire avec la taille de la base d'apprentissage.
 De plus, les arbres de décision complexes peuvent avoir
des taux d'erreur très élevés à cause du sur-ajustement/
sur-apprentissage (over-fitting) qui peut se produire
lorsque l'ensemble d'apprentissage contient des données
bruitées (noise) ou qu'il ne contient pas certaines
observations importantes, ou encore lorsque les
observations sont trop spécifiques.
34
Arbres de décision
 Problèmes des arbres trop étoffés
 Complexité de l’arbre, trop de règles
 Trop spécifique aux données d’apprentissage
 Règles non reproductibles (« sur-apprentissage »)
 Trop peu d’individus dans les feuilles (aucune signification
réelle)
 Solution  Élagage
 L’élagage est l’une des solutions pour réduire ces taux d’erreur
en simplifiant l’arbre par suppression de quelques branches.
35
Arbres de décision
Elagage
 Processus d’élagage
 Création de l’arbre maximum
 Toutes les feuilles des extrémités sont pures
 Élagages successifs de l’arbre
 Retient l’arbre élagué pour lequel le taux d’erreur estimé
mesuré sur un échantillon test est le plus bas possible
36
Arbres de décision
Elagage
 Plusieurs techniques d'élagage ont été proposées pour
éviter le sur-ajustement.
 On distingue deux approches principales:
 Le pré-élagage
 Le post-élagage.
37
Arbres de décision
Pré-élagage
 Le pré-élagage a pour but d'arrêter la construction de
l'arbre de décision à l'avance même si les feuilles ne sont
pas pures; c'est-à-dire qu'on décide ou non de continuer à
développer un certain nœud.
38
Arbres de décision
Post-élagage
 Dans cette approche, l'arbre de décision est simplifié en
supprimant un ou plusieurs de ses sous arbres et en les
remplaçant par des feuilles.
 On construit l'arbre de décision jusqu'au bout et ensuite on
l'élague.
39
Arbres de décision
Post-élagage
 On estime les erreurs de classification à chaque nœud.
 Le sous-ensemble est remplacé par une feuille (classe) ou
par la branche la plus fréquente.
 On commence par le fond de l'arbre et on examine chacun
des sous arbres (non-feuille); si le remplacement de ce
sous-arbre par une feuille ou par sa branche la plus
fréquente conduit à prévoir un taux d'erreur plus bas, dans
ce cas, on élague le sous arbre.
40
Arbres de décision
Avantages
 Résultats explicites
 Arbre
 Règles de décisions simples
 Modèle facilement programmable pour affecter de
nouveaux individus
 Peu de perturbation des individus extrêmes
 Isolés dans des petites feuilles
 Peu sensible au bruit des variables non discriminantes
 Non introduites dans le modèle
41
Arbres de décision
Avantages
 CART permet l’utilisation de variables de tous types
 Continues, discrètes, catégoriques
 Traitement d’un grand nombre de variables explicatives
 Peu d’hypothèses préalables
42
Arbres de décision
Inconvénients
 Arbre non optimaux
 Utilisation de règles heuristiques
 Utilisation des variables non simultanée mais séquentielle
 « Effet papillon »  On change une variable dans l’arbre, tout
l’arbre change
 Nécessité d’un grand nombre d’individus
 Pour avoir 20-30 individus minimum par nœud pour que les
règles aient une valeur
43
Arbres de décision
Inconvénients
 Temps de calcul important
 Recherche des critères de division
 Élagage
 Choix d'un attribut n'est jamais remis en question
 Un partitionnement dépend tjrs du précédent
 Univarié: ne s’intéresse qu’à une seule variable à un nœud
44

Arbre de Decision

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arbre de Decision

Transféré par

Droits d'auteur :

Formats disponibles

Arbres de décision

Proposé par : Dr. Ben Othman Ibtissem

 Plus l’indice de Gini est bas, plus le nœud est pure

Vous aimerez peut-être aussi