Académique Documents
Professionnel Documents
Culture Documents
1
Généralités
Définition
Outil utilisé dans l’exploration de données et informatique
décisionnelle.
Représentation hiérarchique de la structure des données
sous forme des séquences de décision (tests) en vue de la
prédiction d’un résultat ou d’une classe.
2
Généralités
Motivation
Problème à résoudre : comment répartir une population
d’individus (e.g. clients, produit, utilisateurs etc.) en
groupes homogènes selon un ensemble de variables
discriminantes (e.g. âge, temps passé sur un site Web, etc.)
et en fonction d’un objectif fixé (variable de sortie ; par
exemple : chiffre d’affaires, probabilité de cliquer sur une
publicité, etc.)
3
Généralités
Exemple illustratif 1
4
Généralités
Exemple illustratif 2
5
Généralités
Exemple illustratif 3: (Quinlan,83)
6
Construction d’arbres de décision
Principe
Les arbres de décision sont des classifieurs pour des
entités représentées dans un formalisme attribut/valeur
Les noeuds de l’arbre testent les attributs
Il y a une branche pour chaque valeur de l’attribut testé
Les feuilles indiquent les catégories (deux ou plus)
7
Construction d’arbres de décision
Principe
Utiliser les variables explicatives pour subdiviser les
individus en groupes hétérogènes (classes)
Obtention de règles de décisions intelligibles
Représentation graphique hiérarchisée intuitive
8
Construction d’arbres de décision
Apprentissage d ’arbres de décision
9
Construction d’arbres de décision
Apprentissage d ’arbres de décision
10
Construction d’arbres de décision
Apprentissage d ’arbres de décision
Représentation :
Chaque noeud interne correspond à un attribut
Chaque noeud teste l’attribut correspondant et génère
plusieurs branches
Variable catégorielle :
une branche par valeur de l’attribut
Variable numérique :
test sur valeur
Les feuilles spécifient les classes
11
Construction d’arbres de décision
Apprentissage d ’arbres de décision
Principe de la construction :
L’arbre est construit par partition récursive de la base
d’apprentissage en fonction de la valeur de l’attribut testé
à chaque itération (top-down induction).
Le processus s’arrête quand les éléments d’un noeud ont
la même valeur pour la variable cible (homogénéité).
12
Construction d’arbres de décision
Construction
La construction proprement dite de l’arbre nécessite de
suivre cinq étapes :
1. Etablir pour chaque nœud toutes les divisions possibles
2. Définir un critère de sélection de la meilleure division d’un
nœud (on parle également de division admissible d’un nœud)
3. Définir une règle d’arrêt des segmentations de l’arbre pour
déclarer un nœud comme terminal (on parle alors de segment
terminal)
4. Affecter une valeur de la variable Y pour ces nœuds terminaux
5. Estimer le risque d’erreur de prévision associé à cet arbre
13
Construction d’arbres de décision
Construction
Construction de l’arbre
14
Construction d’arbres de décision
Construction
Gauche : division de l’espace impossible à obtenir par
partition récursive sur les attributs.
Milieu et droite : Partition récursive de l’espace et arbre
obtenu. (source : wikimedia.org )
15
Construction d’arbres de décision
Construction
Gauche : séparation de classes par partition itérative des
variables.
Droite : séparation par combinaison linéaire de plusieurs
variables.
16
Construction d’arbres de décision
Construction
17
Construction d’arbres de décision
Construction
18
Construction d’arbres de décision
Construction
19
Construction d’arbres de décision
Construction
20
Construction d’arbres de décision
Comment sélectionner le bon attribut ?
21
Construction d’arbres de décision
Le meilleur choix conduit à un arbre de décision plus simple
L’arbre le plus simple est celui qui permet de minimiser
l’espérance du nombre de questions nécessaires à la
classification d’un exemple d’apprentissage.
Comme évaluer la simplicité globale de l’arbre ?
22
Construction d’arbres de décision
Algorithme de construction d’arbre de décision
Une première approche pourrait consister à générer tous
les arbres possibles et à choisir le meilleur
... trop coûteux sauf si l’on a très peu d’attributs et très peu
d’exemples.
Il faut un biais
exploration ascendante ou descendante
forme des arbres de décision
Le problème principal: choisir à chaque étape, au cours
de la construction, le bon attribut sur lequel tester ...
23
Classifieurs courants
Arbres de décision
Construction de l’arbre
Comment trouver les variables qui séparent le mieux les
individus de chaque classe ?
Plusieurs critères de choix de variables correspondant à
différents types d’arbres
CART (Classification And Regression Tree : Indice de Gini)
CHAID (Chi square Automatic Interaction Detection)
C5.0 (Entropie de Shannon)
24
Classifieurs courants
Arbres de décision
Construction de l’arbre
Déroulement de la construction :
1. Recherche de la variable et du seuil qui sépare le mieux
2. Applique la séparation à la population
3. Obtention de nouveaux nœuds
Arrêt de l’approfondissement de l’arbre lorsque les
conditions d’arrêts sont rencontrées
25
Classifieurs courants
Arbres de décision
Conditions d’arrêts de construction d’un arbre de décision:
Profondeur de l’arbre atteint une limite fixée
= nombre de variables utilisées
Nombre de feuilles atteint un maximum fixé
L’effectif de chaque nœud est inférieur à un seuil fixé
La qualité de l’arbre est suffisante
La qualité de l’arbre n’augmente plus de façon sensible
26
Classifieurs courants
Arbres de décision de type CART
Définition
L’arbre de décision de type CART (Classification And
Regression Tree) est une méthode de discrimination basée
sur la construction d’un arbre de décision binaire qui
permet de classer un ensemble d’individus décrits par des
variables qualitatives et quantitatives et produit des classes
les plus homogènes possibles.
C’est une méthode statistique non-paramétrique de
classification supervisée.
27
Classifieurs courants
Arbres de décision de type CART
Définition
Le CART permet donc de construire un arbre par le biais
de divisions successives en fonction de covariables
explicatives qui peuvent être continues ou catégorielles.
Les extrémités de cet arbre représentent les sous-groupes
homogènes.
28
Classifieurs courants
Arbres de décision de type CART
Principe
Le principe général de CART est de partitionner
récursivement l'espace d'entrée X de façon dyadique, puis
de déterminer une sous-partition optimale pour la
prédiction.
L’idée fondamentale est de créer des sous-groupes (dit
fils) où le mélange soit moins important que dans la
population initiale (dit groupe parent).
29
Classifieurs courants
Arbres de décision de type CART
Principe
Lorsque la variable dépendante (variable Y) est
catégorielle (des classes), on parle de technique de
classification arborescente, par opposition à la technique
de régression arborescente s’intéressant à une variable
dépendante continue.
CART nécessite, avant toute analyse, de subdiviser la
population initiale en deux échantillons; un échantillon
d’apprentissage et un échantillon test. L’échantillon
d’apprentissage permettra de construire l’arbre le plus
étendu possible, c’est-à-dire contenant toutes les
segmentations admissibles. Cet arbre est nommé Tmax.
30
Classifieurs courants
Arbres de décision de type CART
Classification And Regression Tree
1984, L. Breiman, J.H Friedman, R.A. Olshen et C.J. Stone
Parmi les plus performants et plus répandus
On le trouve dans : SAS, R, S-Plus, SPAD,…
Binaire : Deux nœuds fils pour chaque nœud parent
Accepte tout type de variables
Critère de séparation : Indice de Gini
31
Classifieurs courants
Arbres de décision de type CART
Indice de Gini:
n
I 1 fi ²
i
N = nombre de classes à prédire
fi = fréquence de la classe i dans le nœud
32
Classifieurs courants
Arbres de décision de type CART
Algorithme CART
Répartition des individus dans les nœuds
Quand l’arbre est construit : critères de division connus
On affecte chaque individu selon les règles obtenues
remplissage des feuilles
33
Classifieurs courants
Arbres de décision
Un des problèmes connus lors des phases de construction
et de classement est que la taille de l'arbre grandit de
manière linéaire avec la taille de la base d'apprentissage.
De plus, les arbres de décision complexes peuvent avoir
des taux d'erreur très élevés à cause du sur-ajustement/
sur-apprentissage (over-fitting) qui peut se produire
lorsque l'ensemble d'apprentissage contient des données
bruitées (noise) ou qu'il ne contient pas certaines
observations importantes, ou encore lorsque les
observations sont trop spécifiques.
34
Classifieurs courants
Arbres de décision
Problèmes des arbres trop étoffés
Complexité de l’arbre, trop de règles
Trop spécifique aux données d’apprentissage
Règles non reproductibles (« sur-apprentissage »)
Trop peu d’individus dans les feuilles (aucune signification
réelle)
Solution Élagage
L’élagage est l’une des solutions pour réduire ces taux d’erreur
en simplifiant l’arbre par suppression de quelques branches.
35
Classifieurs courants
Arbres de décision
Elagage
Processus d’élagage
Création de l’arbre maximum
Toutes les feuilles des extrémités sont pures
Élagages successifs de l’arbre
Retient l’arbre élagué pour lequel le taux d’erreur estimé
mesuré sur un échantillon test est le plus bas possible
36
Classifieurs courants
Arbres de décision
Elagage
Plusieurs techniques d'élagage ont été proposées pour
éviter le sur-ajustement.
On distingue deux approches principales:
Le pré-élagage
Le post-élagage.
37
Classifieurs courants
Arbres de décision
Pré-élagage
Le pré-élagage a pour but d'arrêter la construction de
l'arbre de décision à l'avance même si les feuilles ne sont
pas pures; c'est-à-dire qu'on décide ou non de continuer à
développer un certain nœud.
38
Classifieurs courants
Arbres de décision
Post-élagage
Dans cette approche, l'arbre de décision est simplifié en
supprimant un ou plusieurs de ses sous arbres et en les
remplaçant par des feuilles.
On construit l'arbre de décision jusqu'au bout et ensuite on
l'élague.
39
Classifieurs courants
Arbres de décision
Post-élagage
On estime les erreurs de classification à chaque nœud.
Le sous-ensemble est remplacé par une feuille (classe) ou
par la branche la plus fréquente.
On commence par le fond de l'arbre et on examine chacun
des sous arbres (non-feuille); si le remplacement de ce
sous-arbre par une feuille ou par sa branche la plus
fréquente conduit à prévoir un taux d'erreur plus bas, dans
ce cas, on élague le sous arbre.
40
Classifieurs courants
Arbres de décision
Avantages
Résultats explicites
Arbre
Règles de décisions simples
Modèle facilement programmable pour affecter de
nouveaux individus
Peu de perturbation des individus extrêmes
Isolés dans des petites feuilles
Peu sensible au bruit des variables non discriminantes
Non introduites dans le modèle
41
Classifieurs courants
Arbres de décision
Avantages
CART permet l’utilisation de variables de tous types
Continues, discrètes, catégoriques
Traitement d’un grand nombre de variables explicatives
Peu d’hypothèses préalables
42
Classifieurs courants
Arbres de décision
Inconvénients
Arbre non optimaux
Utilisation de règles heuristiques
Utilisation des variables non simultanée mais séquentielle
« Effet papillon » On change une variable dans l’arbre, tout
l’arbre change
Nécessité d’un grand nombre d’individus
Pour avoir 20-30 individus minimum par nœud pour que les
règles aient une valeur
43
Classifieurs courants
Arbres de décision
Inconvénients
Temps de calcul important
Recherche des critères de division
Élagage
Choix d'un attribut n'est jamais remis en question
Un partitionnement dépend tjrs du précédent
Univarié: ne s’intéresse qu’à une seule variable à un nœud
44