Académique Documents
Professionnel Documents
Culture Documents
Chap 2
Chap 2
Apprentissage supervisé
(par les arbres de décision)
24
Plan du chapitre
II.1. Introduction
II.2. Construction d’un arbre de décision
II.3. Evaluation
II.4. Classification
25
II.1. Introduction
Parmi les tâches de l’apprentissage : La classification
O
Objet
Attributs A1 A2 ……………... Ak
(Variables)
Classifieur
27
II.1. Introduction
Apprentissage par exemples
28
II.1. Introduction
Ensemble d’apprentissage
Attributs
30
II.1. Introduction
Arbre de décision
31
II.1. Introduction
Arbre de décision : les composantes
Représente tout
l’ensemble
d’apprentissage
Racine
Représente des Test sur les attributs
sous-ensembles
d’apprentissage
Branches
Valeurs de l’attribut
32
II.1. Introduction
Arbre de décision : exemple
33
II.2. Construction d’un arbre de décision
Problème
Apprendre un arbre de décision à partir d’un ensemble d’apprentissage.
Objectif
34
II.2. Construction d’un arbre de décision
La solution horrible !
35
II.2. Construction d’un arbre de décision
Une meilleure solution
36
II.2. Construction d’un arbre de décision
Une meilleure solution
37
II.2. Construction d’un arbre de décision
Procédure de construction
Processus récursif
Si les objets sont de la même classe, alors le nœud devient une feuille
libellée par le nom de la classe.
Sinon,
sélectionner les attributs qui séparent le mieux les objets en classes
homogènes.
La récursion s'arrête quand au moins l’un des critères d’arrêt est vérifié.
38
II.2. Construction d’un arbre de décision
Procédure de construction
Partition (données T)
39
II.2. Construction d’un arbre de décision
Les paramètres
Stratégie de partitionnement
Critères d’arrêt
40
II.2. Construction d’un arbre de décision
Comment choisir l’attribut ?
Gain d’information
Indice de Gini
Ratio de gain
…
41
II.2. Construction d’un arbre de décision
Choix de l’attribut : Gain d’information (ID3)
freq(T, Cj): Nombre d’objets de T appartenant à la classe Cj.
L’information relative à T est définie par :
Quantité moyenne
n
d’information nécessaire Info(T) = - freq(T, Cj) log2 freq(T, Cj)
pour identifier la classe
d’un objet de T
j=1
|T| |T|
Lorsqu’un attribut a plusieurs valeurs possibles, son gain peut être très
élevé, car il classifie parfaitement les objets.
43
II.2. Construction d’un arbre de décision
Choix de l’attribut : Ratio de gain (C4.5)
44
II.2. Construction d’un arbre de décision
Stratégie de partitionnement
45
II.2. Construction d’un arbre de décision
Critères d’arrêt
46
II.2. Construction d’un arbre de décision
Exemple
47
II.3. Evaluation d’un AD
PCC: Pourcentage de Classification Correcte.
Matrice de confusion
Validation croisée
…
48
II.3. Evaluation d’un AD
Pourcentage de Classification Correcte (PCC)
Ensemble de test
Revenu Propriété Crédit Classes Vraies
non payé prédites classes
Elevé Supérieur Oui C2 C2
Moyen Inférieur Non C2 C2
Elevé Supérieur Oui C2 C2
Moyen Supérieur Oui C2 C3
Faible Inférieur Oui C3 C1
Faible Inférieur Oui C3 C3
Elevé Supérieur Non C1 C1
Moyen Inférieur Oui C2 C2
49
II.3. Evaluation d’un AD
Pourcentage de Classification Correcte (PCC)
PCC = 6 = 75%
8
Taux d’erreur = 25%
50
II.3. Evaluation d’un AD
Matrice de confusion
Classifieur
Prédites C1 (1) C2 (5) C3 (2)
Vraies
C1(2) 1 0 1
C2 (4) 0 4 0
C3 (2) 0 1 1
51
II.3. Evaluation d’un AD
Validation croisée
Pour chaque i = 1, 2, …, n
2- On teste sur Ti
53
II.4. Classification avec un AD
Propriété
Supérieur Inférieur
Crédit non
remboursé Revenu
C2 C1 C2 C2 C3
À classer ?
Revenu Propriété Crédit non Classe
remboursé
Moyen Supérieur Non ?
Faible Inférieur Oui ?
54
II.4. Classification avec un AD
Convertir l’arbre en règles
55
II.4. Classification avec un AD
Propriété
Convertir l’arbre en règles
Supérieur Inférieur
Crédit non
remboursé Revenu
C2 C1 C2 C2 C3