Arbres de Décision
I. Définition
II. Apprentissage par arbres de décision
III. Algorithme d’entrainement CART
IV. Impureté Gini ou entropie?
V. Hyperparamètres de régularisation
VI. Exemples
I. Définition
o Tous comme les SVM, les arbres de décision sont des algorithmes d’apprentissage
automatique polyvalents : classification et régression.
o Les arbres de décision est une classe d’algorithmes d’apprentissage se basant sur la
représentation des choix sous la forme graphique d’un arbre avec les différentes
décisions de classification placées dans les feuilles.
Rym Besrour 2
I. Définition
o Les arbres de décision (AD) sont une catégorie d’arbres utilisée dans l’exploration de
données et en informatique décisionnelle. Ils emploient une représentation hiérarchique
de la structure des données sous forme des séquences de décisions (tests) en vue de la
prédiction d’un résultat ou d’une classe.
o Chaque observation, qui doit être attribuée à une classe, est décrite par un ensemble de
variables qui sont testées dans les nœuds de l’arbre. Les tests s’effectuent dans les
nœuds internes et les décisions sont prise dans les nœuds feuille.
Rym Besrour 3
I. Définition
Accorder ou non un prêt bancaire. Chaque Classement sur la base de données des
individu est évalué sur un ensemble de variables survivants du Titanic
testées dans les nœuds internes. Les décisions
sont prises dans les feuilles
Rym Besrour 4
II. Apprentissage avec arbres de décision
Problème de classification
o Chaque élément 𝑥 de la base de données est représenté par un vecteur multidimensionnel
𝑥1 , 𝑥2 , … 𝑥𝑛 correspondant à l’ensemble de variables descriptives du point.
o Chaque nœud interne de l’arbre correspond à un test fait sur une des variables 𝑥𝑖 :
• Variable catégorielle : génère une branche (un descendant) par valeur de l’attribut ;
• Variable numérique : test par intervalles (tranches) de valeurs.
o Les feuilles de l’arbre spécifient les classes.
Rym Besrour 7
II. Apprentissage avec arbres de décision
Rym Besrour 8
II. Apprentissage avec arbres de décision
o L’attribut Gini d’un nœud mesure son impureté : un nœud est « pur » (Gini=0)
si toutes les observations d’entrainement qui y aboutissent appartiennent à la
même classe.
• Le nœud gauche de profondeur 1, par exemple, ne reçoit que des
observations d’entrainement d’Iris setosa, il est pur et son Gini vaut donc 0.
• Par exemple, le nœud de gauche de profondeur 2 a un score Gini égal à
2 2 2
0 49 5
1− − − ≈ 0,168
54 54 54
𝑛
2
𝐺𝑖 = 1 − 𝑝𝑖,𝑘
𝑘=1
𝑝𝑖,𝑘 est le pourcentage d’observations de la classe 𝑘 parmi toutes les observations
d’entrainement dans le 𝑖è𝑚𝑒 nœud.
Rym Besrour 9
II. Apprentissage avec arbres de décision
Rym Besrour 10
II. Apprentissage avec arbres de décision
𝑚𝑔𝑎𝑢𝑐ℎ𝑒 𝑚𝑑𝑟𝑜𝑖𝑡𝑒
𝐽 𝑘, 𝑡𝑘 = 𝐺𝑔𝑎𝑢𝑐ℎ𝑒 + 𝐺𝑑𝑟𝑜𝑖𝑡𝑒
𝑚 𝑚
Où
𝐺𝑔𝑎𝑢𝑐ℎ𝑒/𝑑𝑟𝑜𝑖𝑡𝑒 𝑚𝑒𝑠𝑢𝑟𝑒 𝑙 ′ 𝑖𝑚𝑝𝑢𝑟𝑒𝑡é 𝑑𝑢 𝑠𝑜𝑢𝑠 𝑒𝑛𝑠𝑒𝑚𝑏𝑙𝑒 𝑑𝑒 𝑔𝑎𝑢𝑐ℎ𝑒 𝑜𝑢 𝑑𝑒 𝑑𝑟𝑜𝑖𝑡𝑒
൝
𝑚𝑔𝑎𝑢𝑐ℎ𝑒/𝑑𝑟𝑜𝑖𝑡𝑒 𝑒𝑠𝑡 𝑙𝑒 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑 ′ 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠 𝑑𝑢 𝑠𝑜𝑢𝑠 𝑒𝑛𝑠𝑒𝑚𝑏𝑙𝑒 𝑑𝑒 𝑔𝑎𝑢𝑐ℎ𝑒 𝑜𝑢 𝑑𝑒 𝑑𝑟𝑜𝑖𝑡𝑒
Rym Besrour 12
III. Algorithme d’entrainement CART
(Classification And Regression Tree)
o Une fois le jeu d’entrainement partagé en deux, il applique la même logique aux
sous-ensemble afin de les partager, et ainsi de suite récursivement.
Rym Besrour 13
IV. Impureté Gini ou Entropie ?
Par défaut, c’est la mesure d’impureté Gini qui est utilisée, mais on peut sélectionner
à la place la mesure d’entropie en donnant à l’hyperparamètre criterion la valeur
« entropy »
Cette notion mesure l’information moyenne contenue dans un message : l’entropie
est nulle lorsque tous les messages sont identiques.
L’entropie d’un jeu de données est nulle lorsque toutes ses observations
appartiennent à une seule classe. 𝑛
• Dans la plupart des cas, cela ne fait pas une grande différence : on aboutit
à des arbres similaires.
• L’impureté Gini est un peu plus rapide à calculer, un bon choix par défaut.
Rym Besrour 15
V. Hyperparamètres de régularisation
o Les arbres de décision font très peu d’hypothèses sur les données
d’entrainement.
En l’absence de contraintes, la structure de l’arbre s’adaptera aux données
d’entrainement en les ajustant le mieux possible, voire en les sur-ajustant.
Rym Besrour 16
V. Hyperparamètres de régularisation
La classe DecisionTreeClassifier possède quelques autres paramètres qui
restreignent de manière similaire la forme de l’arbre de décision :
Rym Besrour 17
VI. Exemples
Exemple1 avec la fonction Entropie
Données : un tableau d'observations
Problème :
Pourquoi certains attrapent un coup de soleil ? Comment prédire le résultat pour une
Rym Besrour nouvelle personne (coup de soleil ou RAS : Rien A Signaler) ? 18
La fonction de choix
Fonction d’Entropie
Fonction de Gini
Rym Besrour 19
E = ensemble des 8 exemples
entropie(E) = - 5/8 log2 (5/8) - 3/8 log2 (3/8) = 0.42 + 0.53 = 0.95
= 3/8 [ -1/3*log2 (1/3) –2/3*log2 (2/3) ] + 3/8 [ -1/3*log2 (1/3) –2/3*log2 (2/3) ] + 2/8 [ -1*log2
(1) –0*log2 (0) ]
L’étape suivante : chercher l’attribut qui va discriminer les 4 exemples (blonde) non
discriminés par Cheveux.
Rym Besrour 21
Exemple 2 avec la fonction de Gini
Données : ensemble des clients d’une compagnie d’assurance
Problème :
Comment prédire le résultat internet pour un client (le client consulte ses
comptes sur internet ou non ) ?
Rym Besrour 22
Avec 8 clients dont : 3 (oui) et 5 (non), le mélange initial (selon Gini) :
Rym Besrour 23
Construction selon la variable M (Montant)
Rym Besrour 24
Construction selon la variable R (Résidence)
Rym Besrour 25
o L’étape suivante :
• ignorer les valeurs (les supprimer du tableau de valeurs) pour laquelle Age = jeune et
Age = âgé (pour les lignes : 3, 5, 6, 7)
• ne pas prendre en considération la variable Age A (retirer la colonne Age).
o Puis, continuer la construction des autres niveaux selon les variables restantes M, R et E.
Rym Besrour 26
Arbre Finalement Appris
Rym Besrour 27
Extensions
Rym Besrour 28