Académique Documents
Professionnel Documents
Culture Documents
1
Principe des arbres de décisions (AD)
2
Principe des arbres de décisions (AD)
3
Construction d’un AD
Exemple:
5
Construction d’un AD
• Soit un exemple d’AD:
Nœud = racine;
9
Choix de l’attribut de décision
10
Choix de l’attribut de décision
11
Choix de l’attribut de décision
p(x) p(y)
x y
12
Choix de l’attribut de décision
𝐻 x =− 𝑝 x = 𝑥𝑖 log2(𝑝 x = 𝑥𝑖 )
x =𝑥𝑖
• 0 ≤ 𝐻 x ≤ 1.
• Si 𝑝⊕ = 0 ou 𝑝⊖ = 0, alors 𝐻 x = 0.
• Si 𝑝⊕ = 𝑝⊖ = 0.5, alors 𝐻 x = 1 (entropie maximale).
14
Choix de l’attribut de décision (cas binaire)
𝐻 𝑋
𝑝⊕
15
Choix de l’attribut de décision (cas binaire)
|Daj=v|
𝐺𝑎𝑖𝑛 D, 𝑎𝑗 = 𝐻 D − 𝐻 Daj=v
|D|
𝑣∈𝑣𝑎𝑙𝑒𝑢𝑟𝑠(𝑎𝑗 )
16
17
Choix de l’attribut de décision (cas binaire)
• On notera que plus cette différence (le gain) est grande, plus
l’homogénéisation est grande.
18
Choix de l’attribut de décision (cas binaire)
Exercice:
|Daj=v|
𝐺𝑎𝑖𝑛 D, 𝑎𝑗 = 𝐻 D − 𝐻 Daj=v
|D|
𝑣∈𝑣𝑎𝑙𝑒𝑢𝑟𝑠(𝑎𝑗 )
𝐻 x =− 𝑝 x = 𝑥𝑖 log2(𝑝 x = 𝑥𝑖 )
19
x =𝑥𝑖
Solution:
a y
Parmi ces exemples, 6 ⊕ et 2 ⊖ prennent 6 ⊕ alpha
la valeur «alpha» pour l'attribut a 2 ⊖ alpha 9⊕
les autres exemples prennent la valeur 3 ⊕ beta 5⊖
«beta» pour cet attribut. 3 ⊖ beta
8 6
𝐺𝑎𝑖𝑛 D, 𝑎 = 𝐻 𝐷 − 𝐻 D𝑎=𝑎𝑙𝑝ℎ𝑎 − 𝐻 D𝑎=𝑏𝑒𝑡𝑎
14 14
9 9 5 5
𝐻 𝐷 = − log2 − log = 0.940
14 14 14 2 14
6 6 2 2
𝐻 D𝑎=𝑎𝑙𝑝ℎ𝑎 = − log2 − log2 = 0.811
8 8 8 8
3 3 3 3
𝐻 D𝑎=𝑏𝑒𝑡𝑎 = − log2 − log2 =1
6 6 6 6
8 6
𝐺𝑎𝑖𝑛 D, 𝑎 = 0.940 − 0.811 − 1 = 0.940 − 0.8920 = 0.048
14 14 20
Choix de l’attribut de décision (cas binaire)
21
Étude d’un exemple d’AD
22
Étude d’un exemple d’AD
24
Étude d’un exemple d’AD
25
Étude d’un exemple d’AD
26
Classification par AD
27
Classification par AD
28
Classification par AD
29
Attributs numériques dans les ADs
• Successeur d'ID3, C4.5 prend en compte les attributs
numériques, c.-à-d., des attributs dont l'arité est enlevée
(voire infinie).
31
Attributs numériques dans les ADs
• On commence par trier les exemples sur la valeur de leur
attribut numérique.
32
Attributs numériques dans les ADs
C4.5 utilise les règles suivantes :
34
Attributs numériques dans les ADs
• Dans notre exemple, l’entropie de l’ensemble est donnée par:
2 2 3 3
𝐻 D = − log2 − log2 ≈ 0.971
5 5 5 5
1 1 1 1
𝐻 D 𝑇𝑒𝑚𝑝é𝑟𝑎𝑡𝑢𝑟𝑒≤21 = − log2 + log2 ≈1
2 2 2 2
1 1 2 2
𝐻 D 𝑇𝑒𝑚𝑝é𝑟𝑎𝑡𝑢𝑟𝑒>21 = − log2 + log2 ≈ 0.39
3 3 3 3
35
Attributs numériques dans les ADs
• Il s’en suit que:
2 3
𝐺𝑎𝑖𝑛 D, 𝑇𝑒𝑚𝑝é𝑟𝑎𝑡𝑢𝑟𝑒, 𝑠 = 21 = 0.971 − ∙ 1 + ∙ 0.39 ≈ 0.337
5 5
Exercice:
36
Attributs numériques dans les ADs
• Dans son action, C4.5 effectue ce traitement pour chaque
attribut quantitatif et détermine donc pour chacun un seuil
produisant un gain d'information maximal.
37
Rapport de gain pour C4.5
• En présence d'attribut numérique ou d'attribut d'arité élevée,
ceux-ci sont automatiquement favorisés pour être sélectionnés
comme test dans les nœuds.
𝐺𝑎𝑖𝑛 D, 𝑎
𝑅𝑎𝑝𝑝𝑜𝑟𝑡 𝑔𝑎𝑖𝑛 D, 𝑎 =
𝐷𝑖𝑣𝑖𝑠𝑖𝑜𝑛 𝐼𝑛𝑓 D, 𝑎
38
Rapport de gain pour C4.5
• Où on a:
|Da=v| |Da=v|
𝐷𝑖𝑣𝑖𝑠𝑖𝑜𝑛 𝐼𝑛𝑓 D, 𝑎 = log2
|D| |D|
𝑣∈𝑣𝑎𝑙𝑒𝑢𝑟𝑠(𝑎)
40
Rapport de gain pour C4.5
41
Valeurs d’attributs manquantes (VAM)
• ID3 ne dispose pas de possibilité pour gérer le problème des
valeurs d’attributs manquantes (VAM); C4.5 dispose d'un
mécanisme décrit comme suit:
• On distingue deux cas :
42
VAM dans la phase d’apprentissage
Plusieurs solutions peuvent être envisagées, les plus générales:
• On laisse de côté les exemples ayant des valeurs manquantes ;
ennuyeux car le nombre d'exemples diminue ;
43
VAM dans la phase d’apprentissage
44
VAM dans la phase d’apprentissage
• On redéfinit: 𝐻 D = 𝐻 Dsans? et on a:
|Dsans?,a=v| |Dsans?|
𝐺𝑎𝑖𝑛 D,a = 𝐻 D − 𝐻(Dsans?,v=a)
|Dsans?| |D|
𝑣∈𝑣𝑎𝑙𝑒𝑢𝑟𝑠(𝑎)
45
VAM dans la phase d’apprentissage
Exemple : Supposons que 𝑥 (12) ait ? a la place de « Couvert »
comme valeur de son attribut « Ciel ».
8 8 5 5
𝐻 D =− log − log2 ≈ 0.961
13 2 13 13 13
𝐺𝑎𝑖𝑛 D,Ciel
13 5 2 2 3 3
≈ 0.961 − − log2 − log2
14 13 5 5 5 5
3 3 3 0 0
− − log2 − log2
13 3 3 3 3
5 3 3 2 2
− − log2 − log2 ≈ 0.199
13 5 5 5 5
46
VAM dans la phase d’apprentissage
• Demeurant l'attribut fournissant un gain maximal, « Ciel » est
placé à la racine de l'arbre.
5 3 5
• L'exemple 12 est affecté avec les poids , et à chacune
13 13 13
des branches, respectivement « Ensoleillé » , « Couvert » et
« Pluie ».
50
VAM dans la phase de classification
• La valeur de « Humidité » est inconnue également, .
5
• Puisque exemple a suivi cette branche depuis la racine, on
14
5 3 3
obtient × = exemple atteignant l‘étiquette « non » et
14 5 14
5 2 1
× = exemple atteignant l‘étiquette « oui ».
14 5 7
51
VAM dans la phase de classification
5
• L'attribut « Vent » a la valeur « Faible »; le d'exemple qui
14
ont suivi cette branche depuis la racine est donc classé comme
« oui ».
• En résumé:
3
Il y a exemple qui atteint une étiquette « non » ;
14
1 4 5 11
Il y a + + = exemple qui atteint une étiquette
7 14 14 14
« oui ».
53
Validation d’un classificateur
54
Validation d’un arbre de décision
56
Validation d’un arbre de décision
58
Mesure de qualité d’un classificateur
• S'il n'y a des nombres non nuls que sur la diagonale principale,
c'est qu'aucun exemple n'est mal classé (bonne classification).
61
Mesure de qualité d’un classificateur
62
Exercice
Soit un classificateur binaire tel que le nombre de l’ensemble de test N = 100,
le nombre d’éléments de la classe ⨁ = 60, le nombre d’éléments de la classe
⊝ = 40.
𝑣𝑝
Résultats de classification pour la classe ⨁ : Précision = 𝑣𝑝:𝑓𝑝 = 0.8
𝑉𝑃 = 40 ⨁ 𝑣𝑝
Rappel = 𝑣𝑝:𝑓𝑛 = 0.67
FN = 20 ⊝
Résultats de classification pour la classe ⊝:
VN = 30 ⊝
FP = 10 ⨁
63
Validation croisée
𝐸𝐴 + 𝐸𝐵 + 𝐸𝐶
𝐸=
3
65
66
Sur-apprentissage
67
Sur-apprentissage
68
Sur-apprentissage
70
Élagage
71
Élagage
72
Élagage
73
Élagage
• Les taux d'erreur estimé de ces 3 fils sont 0.47, 0.72 et 0.47. La
6 2 6
combinaison des 3 donne : 0.47 + 0.72 + 0.47 = 0.504.
14 14 14
75