Académique Documents
Professionnel Documents
Culture Documents
A1 , . . . , An : attributs binaires,
n-aires ou réels. Match à domicile ?
�n oui non
X = i=1 Xi où Xi = Dom(Ai ).
perdu
Arbres de décision : règles de Mauvaises conditions climatiques ?
Trois opérateurs :
1 Décider si un nœud est terminal,
2 Si un nœud n’est pas terminal, lui associer un test,
3 Si un nœud est terminal, lui affecter une classe.
En général,
un nœud est terminal lorsque
(presque) tous les exemples correspondant à ce nœud sont
dans la même classe,
il n’y a plus d’attributs non utilisés dans la branche
correspondante.
on attribue à un nœud terminal la classe majoritaire
(heuristiques en cas d’égalité),
on sélectionne le test qui fait le plus progresser la classification
des données d’apprentissage. Comment mesurer cette
progression ? CART utilise l’indice de Gini et C4.5 utilise la
notion d’entropie.
Gini(S) = Σki=1 |Si |/|S| × (1 − |Si |/|S|) = Σi�=j |Si |/|S| × |Sj |/|S|
Ent(S) = −Σki=1 |Si |/|S| × log(|Si |/|S|)
Ces fonctions
- prennent leurs valeurs dans l’intervalle [0, 1],
- sont nulles pour x = 0 et x = 1,
- ont leur maximum pour x = 1/2.
Propriétés analogues pour k quelconque.
François Denis, Hachem Kadri, Cécile Capponi Introduction à l’apprentissage automatique
Introduction à l’apprentissage automatique
Apprentissage à l’aide d’arbres de décisions
Algorithme du perceptron
Régression linéaire
Vers des méthodes non linéaires
Soit
p la position courante de l’arbre en construction,
Sp échantillon associé à p
T un test,
Spi éléments de Sp qui satisfont la i-ème réponse à T ,
Pi = |SPi |/|Sp |
f = Ent ou f = Gini.
2
�
Gainf (p, T ) = f (Sp ) − Pj × f (Spj )
j=1
�
Maximiser le gain revient à minimiser 2j=1 Pj × f (Spj ).
Gain maximal : Gainf (p, T ) = f (Sp ) ssi le test T permet de
classer correctement toutes les données.
Gain nul : données aussi mal classées après le test qu’avant.
Stratégie gloutonne : à chaque nœud ; sélectionner le test
dont le gain est maximum.
François Denis, Hachem Kadri, Cécile Capponi Introduction à l’apprentissage automatique
Critère de Gini
5 3
Gain(�, Dom) = Gini(S) − ( Gini(S1 ) + Gini(S2 ))
8 8
5 2 3 3 1 2
= Gini(S) − 2 · · · − 2 · · ·
8 5 5 8 3 3
7
= Gini(S) −
15
3
Gain(�, BP) = Gini(S) −
8
7
Gain(�, MCC ) = Gini(S) −
15
1
Gain(�, MPG ) = Gini(S) −
2
Le gain maximal est obtenu pour le test Balance positive ?.
François Denis, Hachem Kadri, Cécile Capponi Introduction à l’apprentissage automatique
Introduction à l’apprentissage automatique
Apprentissage à l’aide d’arbres de décisions
Algorithme du perceptron
Régression linéaire
Vers des méthodes non linéaires
Entropie
� �
5 3
Gain(�, Dom) = Ent(S) − Ent(S1 ) + Ent(S2 )
8 8
5 3
= 1 − ( Ent(3, 2) + Ent(1, 2))
8 8
1 1
Gain(�, BP) = Ent(S) − ( Ent(1, 3) + Ent(1, 3))
2 2
= 1 − Ent(1, 3)
5 3
Gain(�, MCC ) = 1 − ( Ent(3, 2) + Ent(1, 2))
8 8
1 1
Gain(�, MPG ) = 1 − ( Ent(2, 2) + Ent(2, 2)) = 0
2 2
oui non
oui non
0.9
Erreur reelle
Erreur apparente
0.8
0.7
0.6
Taux d’erreur
0.5
0.4
0.3
0.2
0.1
0
0 10 20 30 40 50 60 70 80
Nombre de feuilles
Un arbre peut avoir une erreur apparente nulle mais une erreur réelle
importante, c’est-à-dire être bien adapté à l’échantillon mais avoir un
pouvoir de prédiction faible. Notion de sur-apprentissage (overfitting).
oui non
oui non
oui non
Compléments
Attributs continus
Attributs n-aires
1 On peut prolonger directement les formules de gain définies
pour un attribut binaire.
N
�
Gainf (p, T ) = f (Sp ) − Pj × f (Spj )
j=1
Instabilité
Un des inconvénients principaux des méthodes d’apprentissage par
arbres de décision est leur instabilité. Sur des données réelles, il
s’en faut souvent de peu qu’un attribut soit choisi plutôt qu’un
autre et le choix d’un attribut-test, surtout s’il est près de la
racine, influence grandement le reste de la construction. La
conséquence de cette instabilité est que les algorithmes
d’apprentissage par arbres de décision ont une variance importante,
qui nuit à la qualité de l’apprentissage.
Des méthodes comme
le Bagging (pour Bootstrap Aggregating, voir par
exemple [HastieTibshiraniFriedman2001] ) ou
les Random Forests [Breiman01]
permettent dans une certaine mesure de remédier à ce problème.
François Denis, Hachem Kadri, Cécile Capponi Introduction à l’apprentissage automatique