Chap 2

Chapitre II
Apprentissage supervisé
(par les arbres de décision)
24
Plan du chapitre
II.1. Introduction
II.2. Construction d’un arbre de décision
II.3. Evaluation
II.4. Classification
25
II.1. Introduction
Parmi les tâches de l’apprentissage : La classification
O
Objet
Attributs A1 A2 ……………... Ak
(Variables)
Classifieur
Classes C1, C2, …………………Cn 26

II.1. Introduction
Comment savoir si je dois

attribuer un crédit bancaire
à un client ?
Apprendre à partir d’exemples que la banque connaît déjà !
27
II.1. Introduction
Apprentissage par exemples
 On dispose d’un grand ensemble d’exemples (objets).

On cherche à trouver une structure relative à ces exemples pour obtenir
un modèle.
Ce modèle permet de:
Extraire une procédure de classification à partir d’exemples.
Classer un nouvel exemple
Prévoir une valeur numérique
Comprendre la structure des exemples.
28
II.1. Introduction
Ensemble d’apprentissage
Attributs
Revenu Propriété Crédit non Classes

remboursé
Elevé Supérieur Non C1
Elevé Supérieur Oui C2
Valeurs des attributs
Elevé Supérieur Non C1

Elevé Inférieur Oui C2
Moyen Supérieur Non C1
Moyen Supérieur Oui C2
Moyen Inférieur Non C2
Moyen Inférieur Oui C2
Faible Inférieur Non C3
Faible Inférieur Oui C3
C1: Attribuer tout le crédit.

C2: Attribuer une partie du crédit.
C3: Ne pas attribuer le crédit. 29
II.1. Introduction
Ensemble de test
On cache les vraies classes
30
II.1. Introduction
Arbre de décision
L’arbre de décision est une technique de classification en

apprentissage supervisé
Utilisation dans le domaine de l’intelligence artificielle
 Traitement des problèmes complexes.
 Expression simple de la connaissance.
 Facilité dans la compréhension et l’interprétation des résultats.
 Participation des experts dans l’élaboration des règles.
31
II.1. Introduction
Arbre de décision : les composantes
Représente tout
l’ensemble
d’apprentissage
Racine
Représente des Test sur les attributs
sous-ensembles
d’apprentissage
Nœuds de décision Nœuds feuilles

Tests sur les attributs Classes
Branches
Valeurs de l’attribut
32
II.1. Introduction
Arbre de décision : exemple
33
Problème
Apprendre un arbre de décision à partir d’un ensemble d’apprentissage.
Objectif
Être efficace en généralisation
Être capable de classer correctement un nouvel objet (exemple).
34
La solution horrible !
 Générer tous les arbres de décision possibles.

 Tester combien chaque arbre décrit l’ensemble d’apprentissage.
 Choisir le meilleur arbre de décision.
Trop coûteux …voire impossible !
35
Une meilleure solution
 Choisir le meilleur attribut.
 Partitionner l’ensemble d’apprentissage.
 Répéter jusqu’à ce que chaque élément de l’ensemble

d’apprentissage soit correctement classé.
Mais comment ???
36
Une meilleure solution
Top Down Induction of Decision Trees (TDIDT)

Principe
Diviser pour régner (Induction descendante)
 ID3 (Quinlan, 1979)
 CART (Breiman et al., 1984)
 ASSISTANT (Bratko, 1984)
 C4.5 (Quinlan, 1993)

 …
37
Procédure de construction
Processus récursif
L'arbre commence à un nœud représentant toutes les données.
 Si les objets sont de la même classe, alors le nœud devient une feuille
libellée par le nom de la classe.
 Sinon,
sélectionner les attributs qui séparent le mieux les objets en classes
homogènes.
 La récursion s'arrête quand au moins l’un des critères d’arrêt est vérifié.
38
Procédure de construction
 Recherche à chaque niveau, l’attribut le plus discriminant.
 Partition (données T)
 Si tous les éléments de T sont dans la même classe alors retour;
 Pour chaque attribut A, évaluer la qualité du partitionnement sur A;
 Utiliser le meilleur partitionnement pour diviser T en T1, T2, …Tk;
 Pour i = 1 à k faire Partition(Ti);
39
Les paramètres
Mesure de sélection d’attributs
Stratégie de partitionnement
Critères d’arrêt
40
Comment choisir l’attribut ?
 Plusieurs mesures ont été proposées :
 Gain d’information
 Indice de Gini
 Ratio de gain
…
41
Choix de l’attribut : Gain d’information (ID3)
freq(T, Cj): Nombre d’objets de T appartenant à la classe Cj.
L’information relative à T est définie par :
Quantité moyenne
n
d’information nécessaire Info(T) = -  freq(T, Cj) log2 freq(T, Cj)
pour identifier la classe
d’un objet de T
j=1
|T| |T|
Une mesure similiaire de T après partition selon l’attribut A

(contenant n valeurs) est:
InfoA(T) =  |Ti| Info(Ti)
iD |T| A
DA =Domaine de valeurs de l’attribut A.

Le gain d’information mesure le gain obtenu suite au partitionnement selon
l’attribut A.
Gain(T, A) = Info(T) – InfoA(T)
On sélectionne l’attribut offrant le plus de gain.
42
Choix de l’attribut : Gain d’information (ID3)
 Le Critère de gain d’information présente une limite.
Il favorise les attributs ayant

plusieurs valeurs
 Lorsqu’un attribut a plusieurs valeurs possibles, son gain peut être très
élevé, car il classifie parfaitement les objets.
 Par contre, ça peut générer un arbre de décision d'une profondeur de 1

(ou faible) qui ne sera pas très bon pour les instances futures.
43
Choix de l’attribut : Ratio de gain (C4.5)
Une mesure de l’information contenue dans l’attribut A (mesure de dispersion)

est définie:
|Ti| |Ti|
Split Info(T, A) = -  log2
iDA |T| |T|
Le ratio de gain mesure le gain calibré par Split Info.
Proportion d’information Gain(T, A)

générée par T et utile Gain Ratio(T, A) =
pour la classification Split Info(T, A)
On sélectionne l’attribut offrant le plus de ratio de gain.
44
Stratégie de partitionnement
Pour chaque valeur de l’attribut, on va associer une branche dans l’arbre.
Problème avec les attributs continus.
Découper en sous-ensembles ordonnés
45
Critères d’arrêt
Si tous les objets appartiennent à la même classe.
S’il n’y a plus d’attributs à tester.
Il n'y a pas d'objets avec la valeur d'attribut (Feuille vide).
Absence d’apport informationnel des attributs (Tous les ratios

de gain sont  0).
46
Exemple
47
II.3. Evaluation d’un AD
 PCC: Pourcentage de Classification Correcte.
 Matrice de confusion
 Validation croisée
 …
48
Pourcentage de Classification Correcte (PCC)
Nombre d’objets correctement classés

PCC =
Nombre total des objets tests
Ensemble de test
Revenu Propriété Crédit Classes Vraies
non payé prédites classes
Elevé Supérieur Oui C2 C2
Moyen Inférieur Non C2 C2
Moyen Supérieur Oui C2 C3
Faible Inférieur Oui C3 C1
Elevé Supérieur Non C1 C1
Moyen Inférieur Oui C2 C2
49
Pourcentage de Classification Correcte (PCC)
Revenu Propriété Crédit Classes Vraies

non payé prédites classes
Moyen Inférieur Non C2 C2
Moyen Supérieur Oui C2 C3
Elevé Supérieur Non C1 C1
Moyen Inférieur Oui C2 C2
PCC = 6 = 75%
8
Taux d’erreur = 25%
50
Matrice de confusion
Classifieur
Prédites C1 (1) C2 (5) C3 (2)
Vraies
C1(2) 1 0 1
C2 (4) 0 4 0
C3 (2) 0 1 1
 Bon classifieur : sur les les diagonales

 Identifier les classes mal comprises (apprises).
 Comparer les classifieurs selon la classe.
 Fixer des pénalités.
51
Validation croisée
 Partition de l’ensemble d’apprentissage T en n ensembles

disjoints (T1, T2,…, Tn) de même taille |Ti|.
 Pour chaque i = 1, 2, …, n
1- On fait l’apprentissage sur T – {Ti}
2- On teste sur Ti
3- On calcule le PCC sur Ti
 On fait la moyenne des PCC.

52
II.4. Classification avec un AD
 Classification basée sur une séquence de questions portant sur un
attribut.
 La question est représentée par un nœud.
 On prend la branche qui correspond à la réponse jusqu’à la question

suivante.
 La feuille désigne la classe correspondant à l’objet à classer.
Organiser les questions/réponses sous la forme d’un arbre.
Trouver le chemin relatif à l’objet

à classer menant de la racine
à l’une des feuilles de l’arbre
53
Propriété
Supérieur Inférieur
Crédit non
remboursé Revenu
Oui Non Elevé Moyen Faible
C2 C1 C2 C2 C3
À classer ?
Revenu Propriété Crédit non Classe
remboursé
Moyen Supérieur Non ?
Faible Inférieur Oui ?
54
Convertir l’arbre en règles
 Représenter la connaissance sous la forme de Si….alors.
 Une règle est créée pour chaque chemin de la racine jusqu’à la

feuille.
 Les feuilles contiennent la classe à prédire.
 Les règles sont plus faciles à comprendre et à interpréter.
55
Propriété
Convertir l’arbre en règles
Supérieur Inférieur
Crédit non
remboursé Revenu
Oui Non Elevé Moyen Faible
C2 C1 C2 C2 C3
Si (Propriété = Supérieur)  (Crédit non remboursé = Oui) alors C2

Si (Propriété = Supérieur)  (Crédit non remboursé = Non) alors C1
Si (Propriété = Inférieur)  (Revenu = Elevé) alors C2
Si (Propriété = Inférieur)  (Revenu = Moyen) alors C2
Si (Propriété = Inférieur)  (Revenu = Faible) alors C3

Chap 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap 2

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre II

Classes C1, C2, …………………Cn 26

Comment savoir si je dois

Apprendre à partir d’exemples que la banque connaît déjà !

 On dispose d’un grand ensemble d’exemples (objets).

Revenu Propriété Crédit non Classes

Elevé Supérieur Non C1

C1: Attribuer tout le crédit.

On cache les vraies classes

L’arbre de décision est une technique de classification en

Utilisation dans le domaine de l’intelligence artificielle

 Traitement des problèmes complexes.

 Expression simple de la connaissance.

 Facilité dans la compréhension et l’interprétation des résultats.

 Participation des experts dans l’élaboration des règles.

Nœuds de décision Nœuds feuilles

Être efficace en généralisation

Être capable de classer correctement un nouvel objet (exemple).

 Générer tous les arbres de décision possibles.

 Choisir le meilleur arbre de décision.

Trop coûteux …voire impossible !

 Choisir le meilleur attribut.

 Partitionner l’ensemble d’apprentissage.

 Répéter jusqu’à ce que chaque élément de l’ensemble

Mais comment ???

Top Down Induction of Decision Trees (TDIDT)

 ID3 (Quinlan, 1979)

 CART (Breiman et al., 1984)

 ASSISTANT (Bratko, 1984)

 C4.5 (Quinlan, 1993)

L'arbre commence à un nœud représentant toutes les données.

 Recherche à chaque niveau, l’attribut le plus discriminant.

 Si tous les éléments de T sont dans la même classe alors retour;

 Pour chaque attribut A, évaluer la qualité du partitionnement sur A;

 Utiliser le meilleur partitionnement pour diviser T en T1, T2, …Tk;

 Pour i = 1 à k faire Partition(Ti);

Mesure de sélection d’attributs

 Plusieurs mesures ont été proposées :

Une mesure similiaire de T après partition selon l’attribut A

DA =Domaine de valeurs de l’attribut A.

 Le Critère de gain d’information présente une limite.

Il favorise les attributs ayant

 Par contre, ça peut générer un arbre de décision d'une profondeur de 1

Une mesure de l’information contenue dans l’attribut A (mesure de dispersion)

Le ratio de gain mesure le gain calibré par Split Info.

Proportion d’information Gain(T, A)

On sélectionne l’attribut offrant le plus de ratio de gain.

Pour chaque valeur de l’attribut, on va associer une branche dans l’arbre.

Problème avec les attributs continus.

Découper en sous-ensembles ordonnés

Si tous les objets appartiennent à la même classe.

S’il n’y a plus d’attributs à tester.

Il n'y a pas d'objets avec la valeur d'attribut (Feuille vide).

Absence d’apport informationnel des attributs (Tous les ratios

Nombre d’objets correctement classés

Revenu Propriété Crédit Classes Vraies

 Bon classifieur : sur les les diagonales

 Partition de l’ensemble d’apprentissage T en n ensembles

1- On fait l’apprentissage sur T – {Ti}

3- On calcule le PCC sur Ti

 On fait la moyenne des PCC.

 On prend la branche qui correspond à la réponse jusqu’à la question

Organiser les questions/réponses sous la forme d’un arbre.