Vous êtes sur la page 1sur 19

Arbres  

de  décision  

Arbres de décision
n  Exemple:
¨  Classification de la
grandeur d’une personne
¨  T= grand, t=moyen à grand,
M= moyen, m= petit à
grand, S= petit
¨  But: prédire la grandeur
d’une personne à partir
d’une série de questions.
n  CART: Classification &
Regression Trees

2
Arbre de décision

3
Exemple: Arbre de décision Instance

a)ribut
Jour Ciel Température Humidité Vent Jouer

J1 Soleil Chaud Élevé Faible Non

J2 Soleil Chaud Élevé Fort Non

J3 Couvert Chaud Élevé Faible Oui

J4 Pluie Moyen Élevé Faible Oui

J5 Pluie Frais Normal Faible Oui

J6 Pluie Frais Normal Fort Non

J7 Couvert Frais Normal Fort Oui

J8 Soleil Moyen Élevé Faible Non

J9 Soleil Frais Normal Faible Oui

J10 Pluie Moyen Normal Faible Oui

J11 Soleil Moyen Normal Fort Oui

J12 Couvert Moyen Élevé Fort Oui

J13 Couvert Chaud Normal Faible Oui

J14 Pluie Moyen Élevé Fort Non

4
Arbre de décision
n  Exemple : Est-ce que les conditions sont favorables pour
jouer au tennis?

Ciel
Ensoleillé Pluie
Couvert

Humidité Oui
Vent
Élevée Basse Fort Faible

Non Oui Non Oui

Classifier l’instance suivante:


<Ciel = Ensoleillé,Température = chaud, Humidité = élevé,Vent = fort> 5
Arbre de décision
n  Un arbre de décision est représenté par une
séquence de conditions.

n  JouerTennis = (Ciel = ensoleillé et Humidité = normal)


ou
(Ciel = couvert)
ou
(Ciel = pluie et Vent = faible)

6
Arbre de décision: Apprentissage

n  Première possibilité: produire un chemin pour chaque


donnée d’entraînement
A1
A1 A2 A3 Sortie
+ + + 1
+ - + 0 A1

+ - - 0

A1 A1

0 0 1

7
Arbre de décision: Apprentissage

n  Principe:
¨  Étant donné un ensemble d’instances I
¨  Trouver l’attribut qui est le meilleur discriminant sur
l’ensemble d’entraînement.
¨  Cet attribut sera utilisé comme test pour le nœud.
¨  Un nœud enfant est créé pour chacune des valeurs possibles
de l’attribut.
¨  Les exemples d’entraînement sont ensuite assignés à leurs
nœuds correspondants
¨  On reprend le processus pour chacun des nœuds.

8
Comment choisir le meilleur
discriminant?
[39+,  31-­‐‑] [39+,  31-­‐‑]
Genre Fumeur

[20+,  15-­‐‑] [19+,  16-­‐‑] [39+,  0-­‐‑] [0+,  31-­‐‑]

Lequel des deux attributs devrions nous choisir?

9
Arbre de décision: Entropie

n  Quel attribut est le meilleur discriminant?


n  Calcul de l’entropie:
c
Entropie ( S ) = ∑ − pi log 2 pi
i =1

n  Calcul du gain d’information

Sv
Gain( S , A) = Entropie( S ) − ∑ Entropie( S v )
v∈Valeurs ( A ) S
n  Où Valeurs(A) est l’ensemble des valeurs v possibles pour l’attribut
A et Sv = {s ∈S | A(s) = v}

10
Algorithme d’entraînement
ID3( Exemples, AttributCible, Attributs )

Créer un nouveau nœud

Si tous les exemples sont positifs, le nœud est une feuille positive

Si tous les exemples sont négatifs, le nœud est une feuille négative

Si attribut est vide, le nœud prend la valeur la plus commune des exemples

Sinon

A <- l’attribut classifie le mieux l’ensemble d’entraînement

question[noeud] <- A

pour chaque v ∈A

Ajouter une branche à nœud pour la valeur v


Exemplesv = {e ∈ exemples | A[e] = v}

Si Exemplesv est vide

nœud devient une feuille avec la valeur la plus commune de AttributCible dans Exemples.

sinon

ID3(Exemplesv,AttributCible,Attributs – {A}

retourner noeud
11
Exemple: Arbre de décision
n  Gain(S,Ciel) = 0.246
n  Gain(S,Humidité) = 0.151
n  Gain(S,Vent) = 0.048
n  Gain(S,Température) = 0.029

{J1,J2,…,J14}

Ciel
Ensoleillé Pluie
Couvert

{J1,J2,J8,J9,J11} {J3,J7,J12,J13} {J4,J5,J6,J10,J14}

? Oui ?

12
Exemple: Arbre de décision
n  Gain(Ssoleil,Humidité) = 0.970 {J1,J2,…,J14}
n  Gain(Ssoleil,Vent) = .019
n  Gain(Ssoleil,Température) = 0.570 Ciel
Ensoleillé Pluie
Couvert

{J1,J2,J8,J9,J11} {J3,J7,J12,J13} {J4,J5,J6,J10,J14}

Humidité Oui ?
Élevée Basse

{J1,J2,J8} {J9,J11}

Non Oui

13
Exemple: Arbre de décision
{J1,J2,…,J14}

Ciel
Ensoleillé Pluie
Couvert

{J1,J2,J8,J9,J11} {J3,J7,J12,J13} {J4,J5,J6,J10,J14}

Humidité Oui Vent


Élevée Basse Fort Faible

{J1,J2,J8} {J9,J11} {J6,J14} {J4,J5,J10}

Non Oui Non Oui

14
Arbre de décision
n  Un autre exemple:
Decision Tree Learning Applet
n  Un exemple pratique:
¨  Reconnaissance de la parole: classification des triphones

15
Élagage
n  Contrôler la complexité du nombre des branches et
des feuilles pour réaliser un arbre de décision.
n  Minimiser la taille de l’arbre.
n  Trouver le nombre optimale k0 de nœuds.
n  Une méthode régularisation ou de sélection des
modèles

16
Technique d’élagage
n  Deux techniques d’élagage
¨  Pré-élagage.
¨  Post-élagage.

17
Pré-élagage
n  Arrêter de diviser un nœud quand la pureté des
points qui domine est non parfaite mais suffisante.
n  Arrêter quand il y a une classe majoritaire dans le
nœud.
n  Utiliser un seuil pour détecter une classe
dominantes.
n  Inconvénients:
¨  Arrêter la construction de l’arbre peut donner un arbre
sous optimal.

18
Post élagage
n  Finir la construction de l’arbre.
n  Simplifier l’arbre en remontant des feuilles vers la
racine pour trouver ou élaguer.
n  Utiliser des critères de qualité qui mesure un
compromis l’erreur obtenue et la complexité de
l’arbre.
n  Utiliser un ensemble de validation pour mesurer
l’erreur à chaque neouds.

19

Vous aimerez peut-être aussi