Vous êtes sur la page 1sur 33

Chapitre II

Apprentissage supervisé
(par les arbres de décision)

24
Plan du chapitre
II.1. Introduction
II.2. Construction d’un arbre de décision
II.3. Evaluation
II.4. Classification

25
II.1. Introduction
Parmi les tâches de l’apprentissage : La classification

O
Objet

Attributs A1 A2 ……………... Ak
(Variables)
Classifieur

Classes C1, C2, …………………Cn 26


II.1. Introduction

Comment savoir si je dois


attribuer un crédit bancaire
à un client ?

Apprendre à partir d’exemples que la banque connaît déjà !

27
II.1. Introduction
Apprentissage par exemples

 On dispose d’un grand ensemble d’exemples (objets).


On cherche à trouver une structure relative à ces exemples pour obtenir
un modèle.
Ce modèle permet de:
Extraire une procédure de classification à partir d’exemples.
Classer un nouvel exemple
Prévoir une valeur numérique
Comprendre la structure des exemples.

28
II.1. Introduction
Ensemble d’apprentissage

Attributs

Revenu Propriété Crédit non Classes


remboursé
Elevé Supérieur Non C1
Elevé Supérieur Oui C2
Valeurs des attributs

Elevé Supérieur Non C1


Elevé Inférieur Oui C2
Moyen Supérieur Non C1
Moyen Supérieur Oui C2
Moyen Inférieur Non C2
Moyen Inférieur Oui C2
Faible Inférieur Non C3
Faible Inférieur Oui C3

C1: Attribuer tout le crédit.


C2: Attribuer une partie du crédit.
C3: Ne pas attribuer le crédit. 29
II.1. Introduction
Ensemble de test

On cache les vraies classes

30
II.1. Introduction
Arbre de décision

L’arbre de décision est une technique de classification en


apprentissage supervisé

Utilisation dans le domaine de l’intelligence artificielle

 Traitement des problèmes complexes.

 Expression simple de la connaissance.

 Facilité dans la compréhension et l’interprétation des résultats.

 Participation des experts dans l’élaboration des règles.

31
II.1. Introduction
Arbre de décision : les composantes

Représente tout
l’ensemble
d’apprentissage
Racine
Représente des Test sur les attributs
sous-ensembles
d’apprentissage

Nœuds de décision Nœuds feuilles


Tests sur les attributs Classes

Branches
Valeurs de l’attribut
32
II.1. Introduction
Arbre de décision : exemple

33
II.2. Construction d’un arbre de décision

Problème
Apprendre un arbre de décision à partir d’un ensemble d’apprentissage.

Objectif

Être efficace en généralisation

Être capable de classer correctement un nouvel objet (exemple).

34
II.2. Construction d’un arbre de décision
La solution horrible !

 Générer tous les arbres de décision possibles.


 Tester combien chaque arbre décrit l’ensemble d’apprentissage.

 Choisir le meilleur arbre de décision.

Trop coûteux …voire impossible !

35
II.2. Construction d’un arbre de décision
Une meilleure solution

 Choisir le meilleur attribut.

 Partitionner l’ensemble d’apprentissage.

 Répéter jusqu’à ce que chaque élément de l’ensemble


d’apprentissage soit correctement classé.

Mais comment ???

36
II.2. Construction d’un arbre de décision
Une meilleure solution

Top Down Induction of Decision Trees (TDIDT)


Principe
Diviser pour régner (Induction descendante)

 ID3 (Quinlan, 1979)

 CART (Breiman et al., 1984)

 ASSISTANT (Bratko, 1984)

 C4.5 (Quinlan, 1993)


 …

37
II.2. Construction d’un arbre de décision
Procédure de construction

Processus récursif

L'arbre commence à un nœud représentant toutes les données.

 Si les objets sont de la même classe, alors le nœud devient une feuille
libellée par le nom de la classe.

 Sinon,
sélectionner les attributs qui séparent le mieux les objets en classes
homogènes.
 La récursion s'arrête quand au moins l’un des critères d’arrêt est vérifié.

38
II.2. Construction d’un arbre de décision
Procédure de construction

 Recherche à chaque niveau, l’attribut le plus discriminant.

 Partition (données T)

 Si tous les éléments de T sont dans la même classe alors retour;

 Pour chaque attribut A, évaluer la qualité du partitionnement sur A;

 Utiliser le meilleur partitionnement pour diviser T en T1, T2, …Tk;

 Pour i = 1 à k faire Partition(Ti);

39
II.2. Construction d’un arbre de décision
Les paramètres

Mesure de sélection d’attributs

Stratégie de partitionnement

Critères d’arrêt

40
II.2. Construction d’un arbre de décision
Comment choisir l’attribut ?

 Plusieurs mesures ont été proposées :

 Gain d’information

 Indice de Gini

 Ratio de gain

…

41
II.2. Construction d’un arbre de décision
Choix de l’attribut : Gain d’information (ID3)
freq(T, Cj): Nombre d’objets de T appartenant à la classe Cj.
L’information relative à T est définie par :
Quantité moyenne
n
d’information nécessaire Info(T) = -  freq(T, Cj) log2 freq(T, Cj)
pour identifier la classe
d’un objet de T
j=1
|T| |T|

Une mesure similiaire de T après partition selon l’attribut A


(contenant n valeurs) est:
InfoA(T) =  |Ti| Info(Ti)
iD |T| A

DA =Domaine de valeurs de l’attribut A.


Le gain d’information mesure le gain obtenu suite au partitionnement selon
l’attribut A.
Gain(T, A) = Info(T) – InfoA(T)
On sélectionne l’attribut offrant le plus de gain.
42
II.2. Construction d’un arbre de décision
Choix de l’attribut : Gain d’information (ID3)

 Le Critère de gain d’information présente une limite.

Il favorise les attributs ayant


plusieurs valeurs

 Lorsqu’un attribut a plusieurs valeurs possibles, son gain peut être très
élevé, car il classifie parfaitement les objets.

 Par contre, ça peut générer un arbre de décision d'une profondeur de 1


(ou faible) qui ne sera pas très bon pour les instances futures.

43
II.2. Construction d’un arbre de décision
Choix de l’attribut : Ratio de gain (C4.5)

Une mesure de l’information contenue dans l’attribut A (mesure de dispersion)


est définie:
|Ti| |Ti|
Split Info(T, A) = -  log2
iDA |T| |T|

Le ratio de gain mesure le gain calibré par Split Info.

Proportion d’information Gain(T, A)


générée par T et utile Gain Ratio(T, A) =
pour la classification Split Info(T, A)

On sélectionne l’attribut offrant le plus de ratio de gain.

44
II.2. Construction d’un arbre de décision
Stratégie de partitionnement

Pour chaque valeur de l’attribut, on va associer une branche dans l’arbre.

Problème avec les attributs continus.

Découper en sous-ensembles ordonnés

45
II.2. Construction d’un arbre de décision
Critères d’arrêt

Si tous les objets appartiennent à la même classe.

S’il n’y a plus d’attributs à tester.

Il n'y a pas d'objets avec la valeur d'attribut (Feuille vide).

Absence d’apport informationnel des attributs (Tous les ratios


de gain sont  0).

46
II.2. Construction d’un arbre de décision
Exemple

47
II.3. Evaluation d’un AD
 PCC: Pourcentage de Classification Correcte.

 Matrice de confusion

 Validation croisée

 …

48
II.3. Evaluation d’un AD
Pourcentage de Classification Correcte (PCC)

Nombre d’objets correctement classés


PCC =
Nombre total des objets tests

Ensemble de test
Revenu Propriété Crédit Classes Vraies
non payé prédites classes
Elevé Supérieur Oui C2 C2
Moyen Inférieur Non C2 C2
Elevé Supérieur Oui C2 C2
Moyen Supérieur Oui C2 C3
Faible Inférieur Oui C3 C1
Faible Inférieur Oui C3 C3
Elevé Supérieur Non C1 C1
Moyen Inférieur Oui C2 C2
49
II.3. Evaluation d’un AD
Pourcentage de Classification Correcte (PCC)

Revenu Propriété Crédit Classes Vraies


non payé prédites classes
Elevé Supérieur Oui C2 C2
Moyen Inférieur Non C2 C2
Elevé Supérieur Oui C2 C2
Moyen Supérieur Oui C2 C3
Faible Inférieur Oui C3 C1
Faible Inférieur Oui C3 C3
Elevé Supérieur Non C1 C1
Moyen Inférieur Oui C2 C2

PCC = 6 = 75%
8
Taux d’erreur = 25%
50
II.3. Evaluation d’un AD
Matrice de confusion

Classifieur
Prédites C1 (1) C2 (5) C3 (2)
Vraies
C1(2) 1 0 1
C2 (4) 0 4 0
C3 (2) 0 1 1

 Bon classifieur : sur les les diagonales


 Identifier les classes mal comprises (apprises).
 Comparer les classifieurs selon la classe.
 Fixer des pénalités.

51
II.3. Evaluation d’un AD
Validation croisée

 Partition de l’ensemble d’apprentissage T en n ensembles


disjoints (T1, T2,…, Tn) de même taille |Ti|.

 Pour chaque i = 1, 2, …, n

1- On fait l’apprentissage sur T – {Ti}

2- On teste sur Ti

3- On calcule le PCC sur Ti

 On fait la moyenne des PCC.


52
II.4. Classification avec un AD
 Classification basée sur une séquence de questions portant sur un
attribut.
 La question est représentée par un nœud.

 On prend la branche qui correspond à la réponse jusqu’à la question


suivante.
 La feuille désigne la classe correspondant à l’objet à classer.

Organiser les questions/réponses sous la forme d’un arbre.

Trouver le chemin relatif à l’objet


à classer menant de la racine
à l’une des feuilles de l’arbre

53
II.4. Classification avec un AD
Propriété

Supérieur Inférieur

Crédit non
remboursé Revenu

Oui Non Elevé Moyen Faible

C2 C1 C2 C2 C3
À classer ?
Revenu Propriété Crédit non Classe
remboursé
Moyen Supérieur Non ?
Faible Inférieur Oui ?
54
II.4. Classification avec un AD
Convertir l’arbre en règles

 Représenter la connaissance sous la forme de Si….alors.

 Une règle est créée pour chaque chemin de la racine jusqu’à la


feuille.

 Les feuilles contiennent la classe à prédire.

 Les règles sont plus faciles à comprendre et à interpréter.

55
II.4. Classification avec un AD
Propriété
Convertir l’arbre en règles

Supérieur Inférieur

Crédit non
remboursé Revenu

Oui Non Elevé Moyen Faible

C2 C1 C2 C2 C3

Si (Propriété = Supérieur)  (Crédit non remboursé = Oui) alors C2


Si (Propriété = Supérieur)  (Crédit non remboursé = Non) alors C1
Si (Propriété = Inférieur)  (Revenu = Elevé) alors C2
Si (Propriété = Inférieur)  (Revenu = Moyen) alors C2
Si (Propriété = Inférieur)  (Revenu = Faible) alors C3

Vous aimerez peut-être aussi