Vous êtes sur la page 1sur 80

Arbres de Dcision

1 - Arbres de Dcision - Dfinition


2 - Apprentissage dArbres de Dcision
Le problme

Lalgorithme de base
Lheuristique dentropie

3 - Evaluation de lapprentissage Elagage


Biais dapprentissage des arbres de dcision
Evaluation empirique
Sur-apprentissage
Techniques dlagage

Concepts
Arbres de Dcision

Un arbre de dcision est une reprsentation arborescente


dune fonction valeurs discrtes.
Expressivit: peut reprsenter des disjonctions de conjonctions

Lisibilit: peut tre traduit comme un ensemble de rgles de

dcision
Apprentissage

Lapprentissage darbres de dcision est une des


mthodes les plus connues et appliques en classification. Les
principaux algorithmes sont ID3, ID4, C4.5 et C5.0.

1 - Arbres de Dcision : dfinition

Exemple de donnes observes

Jouer au tennis

Exemple
Instance :
Fonction x qui associe
tout attribut a une valeur v.

Jouer au tennis

Exemple
Instance :
Fonction x qui associe
tout attribut a une valeur v.
Exemple :
paire (x, c) o x est une
instance et c la classe
prdire pour cette
instance.

Jouer au tennis

Structure
Arbre de dcision
Construit partir des

donnes
Noeuds: attributs
Branches: valeurs
Feuilles: dcisions (classes)

Structure
Arbre de dcision
Construit partir des

donnes
Noeuds: attributs
Branches: valeurs
Feuilles: dcisions (classes)
Classification
Une nouvelle instance est

teste par son chemin


depuis la racine jusqu la
feuille

Structure
Arbre de dcision
Construit partir des

donnes
Noeuds: attributs
Branches: valeurs
Feuilles: dcisions (classes)
Classification
Une nouvelle instance est

teste par son chemin


depuis la racine jusqu la
feuille

Structure
Rgles
Chaque chemin depuis la

racine jusqu une feuille est


une rgle de dcision.
Classification
Si x est un modle du corps

dune rgle de dcision r,


alors x est class par la tte
de r.
(ciel = soleil) ^ (humidit = leve) (classe = non)

Structure
Rgles
Chaque chemin depuis la

racine jusqu une feuille est


une rgle de dcision.
Classification
Si x est un modle du corps

dune rgle de dcision r,


alors x est class par la tte
de r.
(ciel = soleil) ^ (humidit = leve) (classe = non)
corps

tte

Autres rgles de dcision ?

2 Apprentissage
dArbres de Dcision
Comment construire un arbre de dcision partir dun jeu de

donnes ?
Algorithme
b) Entropie
a)

Problme
Description du problme
Etant donn un ensemble dexemples E, trouver un arbre de dcision h,

le plus petit possible, tant consistant avec E.

Taille
La taille dun arbre de dcision est donne par le nombre de nuds

qui le reprsentent.

Rasoir dOccam
Etant donn un ensemble H dhypothses consistantes avec les donnes,

choisir une hypothse h dans H qui est la plus simple.


Induction : lhypothse la plus gnrale est souvent celle qui classifie
le mieux les donnes test.
Lisibilit: lhypothse la plus petite est souvent la plus
comprhensible.

Problme
Complexit
Etant donn un ensemble dexemples E et un paramtre k,

trouver un arbre de dcision de taille au plus k consistant avec


E est un problme NP-difficile.
Combinatoire
Soit a le nombre dattributs et v le nombre de valeurs par

attribut, lespace des arbres de dcisions est de cardinalit :


a 1

Recherche

(a i 1)

vi

i 0

Lexploration brutale des arbres de dcision est impossible.

Il faut trouver :
des stratgies de parcours de lespace
des heuristiques de choix dattributs

a) Algorithme

Algorithme
Stratgie
Hill-Climbing : Etendre la

structure de faon incrmentale


jusqu obtenir un arbre
consistant.
Heuristique
Sparation : Trouver une

fonction dvaluation qui


favorise les attributs
discriminants.

Algorithme
Stratgie
Hill-Climbing : Etendre la

structure de faon incrmentale


jusqu obtenir un arbre
consistant.
Heuristique
Sparation : Trouver une

fonction dvaluation qui


favorise les attributs
discriminants.

Algorithme
Stratgie
Hill-Climbing : Etendre la

structure de faon incrmentale


jusqu obtenir un arbre
consistant.
Heuristique
Sparation : Trouver une

fonction dvaluation qui


favorise les attributs
discriminants.

Algorithme
Stratgie
Hill-Climbing : Etendre la

structure de faon incrmentale


jusqu obtenir un arbre
consistant.
Heuristique
Sparation : Trouver une

fonction dvaluation qui


favorise les attributs
discriminants.

Algorithme
Stratgie
Hill-Climbing : Etendre la

structure de faon incrmentale


jusqu obtenir un arbre
consistant.
Heuristique
Sparation : Trouver une

fonction dvaluation qui


favorise les attributs
discriminants.

Algorithme
Entre
Nud courant de

larbre de dcision
Ensemble dexemples E
Ensemble dattributs A
Sortie
Un arbre de dcision

dont la racine est le


nud donn en entre
Projection

Ea ,v x, c E : x(a) v

Algorithme
Entre
Nud courant de

larbre de dcision
Ensemble dexemples E
Ensemble dattributs A
Sortie
Un arbre de dcision

dont la racine est le


nud donn en entre
Comment ???

Projection

Ea ,v x, c E : x(a) v

Une approche trs utilise :


Heuristique dentropie
Entropie dun ensemble

dexemples
Nombre de bits ncessaires

pour coder la classification dun


exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion

dexemples de classe i dans E.


c

H ( E ) pi log 2 pi
i 1

b) Quest-ce que lentropie ?

Principe de base de lentropie


Mesure de linformation
Objectif : mesurer la quantit dinformation utile
Exemple (extrait de wikipdia)
Soit N botes numrotes de 1 N
Un individu A a cach un objet dans lune des botes
Un individu B doit trouver cet objet
Il peut poser des questions A qui doit
Chaque question a un cot (pay par B)

rpondre Oui ou Non

Un individu C connat la bote contenant lobjet et peut vendre

linformation B
Le nombre de questions ncessaires pour trouver la bote va
conditionner le prix de linformation dtenue par C

Il sagit de la quantit dinformation ncessaire pour dterminer

la bonne bote. Notons I cette quantit.

Exemple
Si N = 1, I = 0. Il ny a quune seule bote : aucune question nest ncessaire.

Exemple
Si N = 1, I = 0. Il ny a quune seule bote : aucune question nest ncessaire.

Si N = 2, I =

Exemple
Si N = 1, I = 0. Il ny a quune seule bote : aucune question nest ncessaire.

Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI

ou NON dtermine alors sans ambigut quelle est la bote cherche.

Exemple
Si N = 1, I = 0. Il ny a quune seule bote : aucune question nest ncessaire.

Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI

ou NON dtermine alors sans ambigut quelle est la bote cherche.


Si N = 4, I = 2. On demande si la bote porte le n1 ou 2. La rponse permet

alors dliminer deux des botes et il suffit dune dernire question pour
trouver quelle est la bonne bote par deux.
k
Si N = 2 , I =

Exemple
Si N = 1, I = 0. Il ny a quune seule bote : aucune question nest ncessaire.
Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI

ou NON dtermine alors sans ambigut quelle est la bote cherche.


Si N = 4, I = 2. On demande si la bote porte le n1 ou 2. La rponse permet
alors dliminer deux des botes et il suffit dune dernire question pour
trouver quelle est la bonne bote par deux.
Si N = 2 k , I = k. On crit les numros des botes en base 2. Les numros ont au
plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si
la bote cherche possde le chiffre 0 ou le chiffre 1. En k questions, on a
dtermin tous les chiffres binaires de la bonne bote. Cela revient galement
poser k questions, chaque question ayant pour but de diviser successivement le
nombre de botes considres par 2 (mthode de dichotomie).
On est donc amen poser :

Exemple
Si N = 1, I = 0. Il ny a quune seule bote : aucune question nest ncessaire.
Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI

ou NON dtermine alors sans ambigut quelle est la bote cherche.


Si N = 4, I = 2. On demande si la bote porte le n1 ou 2. La rponse permet
alors dliminer deux des botes et il suffit dune dernire question pour
trouver quelle est la bonne bote par deux.
Si N = 2 k , I = k. On crit les numros des botes en base 2. Les numros ont au
plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si
la bote cherche possde le chiffre 0 ou le chiffre 1. En k questions, on a
dtermin tous les chiffres binaires de la bonne bote. Cela revient galement
poser k questions, chaque question ayant pour but de diviser successivement le
nombre de botes considres par 2 (mthode de dichotomie).
On est donc amen poser :

I log 2 (N)

mais attention : cette configuration ne se produit que dans le cas de N


vnements quiprobables.

Quantit dinformation relative un


vnement
Ajout dinformation
Supposons maintenant que les botes soient colores et quil y
ait n botes rouges.
Supposons galement que lindividu C sache que la bote o est
cach lobjet est rouge.
Question : Quel est le prix de cette information ?
Sans cette information, le prix payer est : log 2 (N)
Muni de cette information, le prix payer nest plus que:

Quantit dinformation relative un


vnement
Ajout dinformation
Supposons maintenant que les botes soient colores et quil y
ait n botes rouges.
Supposons galement que lindividu C sache que la bote o est
cach lobjet est rouge.
Question : Quel est le prix de cette information ?
Sans cette information, le prix payer est : log 2 (N)
Muni de cette information, le prix payer nest plus que: log 2 (n)
Le prix de linformation la bote cherche est rouge est donc :
N
log 2 (N) - log 2 (n) log 2
n

Quantit dinformation relative un


vnement
Dfinition
La quantit dinformation est dfinie comme une
N
fonction croissante de
avec :
n
N le nombre d vnements possibles
n le cardinal du sous-ensemble dlimit par linformation
Afin de mesurer cette quantit dinformation, on pose :
N
I log 2
n

Entropie, formule de Shannon


Gnralisation
Supposons maintenant que les botes soient de diverses
couleurs :
n1 botes de couleur C1, n2 botes de couleur C2, . . ., nk
botes de couleurs Ck
avec n1 + n2 + . . . + nk = N.

Lindividu C sait de quelle couleur est la bote recherche.

Question : quel est le prix de cette information ?

Entropie, formule de Shannon


Gnralisation
Linformation la bote est de couleur C1 vaut log2 (N/n1) et
cette ventualit a une probabilit n1/N
Linformation la bote est de couleur C2 vaut log2 (N/n2) ,
et cette ventualit a une probabilit n2/N

Le prix moyen de linformation est donc :
N
N n2
N
nk
n1
H ( E ) log 2 log 2 ... log 2
N
N
n1 N
n2
nk

Entropie, formule de Shannon


Gnralisation, suite
Plus gnralement, si on considre k vnements disjoints de
probabilits respectives p1, p2, . . ., pk avec :
p1 + p2 +. . .+pk = 1

alors la quantit dinformation correspondant cette distribution de


probabilit est :
1
1
1
H ( E ) p1 log 2 p2 log 2 ... pk log 2
p1
p2
pk
soit :

H ( E ) p1 log 2 p1 p2 log2 p2 ... pk log 2 pk

Cette quantit sappelle lentropie de la distribution de

probabilit.

Entropie

S est un chantillon de donnes (training sample)


P+ est la proportion dexemples positifs
La mesure dentropie de S est reprsente sur la courbe
Quand est-elle maximale ?

minimale ?

Heuristique dentropie : Une approche


trs utilise pour la construction darbres
Entropie dun ensemble

dexemples
Nombre de bits ncessaires

pour coder la classification dun


exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion

dexemples de classe i dans E.


c

H ( E ) pi log 2 pi
i 1

Heuristique dentropie
Entropie dun ensemble

dexemples
Nombre de bits ncessaires

pour coder la classification dun


exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion

dexemples de classe i dans E.


c

H (E) 1

H ( E ) pi log 2 pi
i 1

Heuristique dentropie
Entropie dun ensemble

dexemples
Nombre de bits ncessaires

pour coder la classification dun


exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion

dexemples de classe i dans E.


c

H ( E ) pi log 2 pi
i 1

Heuristique dentropie
Entropie dun ensemble

dexemples
Nombre de bits ncessaires

pour coder la classification dun


exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion

dexemples de classe i dans E.


c

H (E) 0

H ( E ) pi log 2 pi
i 1

Heuristique dentropie
Entropie dun ensemble

dexemples
Nombre de bits ncessaires

pour coder la classification dun


exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion

dexemples de classe i dans E.


c

H ( E ) pi log 2 pi
i 1

Heuristique dentropie
Entropie dun ensemble

dexemples
Nombre de bits ncessaires

pour coder la classification dun


exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion

dexemples de classe i dans E.


c

H ( E ) 0.33

H ( E ) pi log 2 pi
i 1

Heuristique dentropie
Gain entropique
= Diminution de lentropie

engendre par la partition dun


ensemble dexemples selon un
attribut donn.
Dfinition
Soit E un ensemble dexemples,

a un attribut et V(a) les valeurs


de a.
G ( a, E ) H ( E )

vV ( a )

Ea ,v
E

H ( Ea ,v )

Heuristique dentropie
Gain entropique
= Diminution de lentropie

engendre par la partition dun


ensemble dexemples selon un
attribut donn.
Dfinition
Soit E un ensemble dexemples,

a un attribut et V(a) les valeurs


de a.
G ( a, E ) H ( E )

vV ( a )

G(a1 , E) 1 - ((0.5 1) (0.5 1)) 0

Ea ,v
E

H ( Ea ,v )

Heuristique dentropie
Gain entropique
= Diminution de lentropie

engendre par la partition dun


ensemble dexemples selon un
attribut donn.
Dfinition
Soit E un ensemble dexemples,

a un attribut et V(a) les valeurs


de a.
G ( a, E ) H ( E )

vV ( a )

Ea ,v
E

H ( Ea ,v )

Heuristique dentropie
Gain entropique
= Diminution de lentropie

engendre par la partition dun


ensemble dexemples selon un
attribut donn.
Dfinition
Soit E un ensemble dexemples,

a un attribut et V(a) les valeurs


de a.
G ( a, E ) H ( E )

vV ( a )

G(a 2 , E) 1 - ((0.25 0) (0.25 0) (0.5 1)) 0.5

Ea ,v
E

H ( Ea ,v )

3 Evaluation de lapprentissage
Elagage
a)

Biais dapprentissage des arbres de dcision

b)

Evaluation empirique

c)

Sur-apprentissage

d)

Techniques dlagage

Recherche sur les Arbres de Dcision


Overfitting
Dans un espace H, une hypothse h est sur-apprise sil existe

une hypothse h telle que


h est plus prcise que h sur les donnes dentranement
h est plus prcise que h sur les donnes test

Pruning
Rduire les branches de larbre afin de permettre damliorer la

prcision estime
Plusieurs mthodes destimation: thoriques, empiriques.
Plusieurs techniques dlagage: pre-pruning, post-pruning,
reduced error, pruning, . . . .

Biais en apprentissage [Mitchell, 97]


Biais de Prfrence / Biais de Langage
Biais de prfrence
Dynamique: ordonne les hypothses de lespace de recherche:

heuristique de recherche
Biais de Langage
Souvent statique, simplmente travers le langage

dhypothses (langage cible)


Restriction a priori de lespace de recherche

Rasoir dOccam: un biais de prfrence


Rasoir dOccam : pour
Moins dhypothses courtes que dhypothses longues
2 fois moins de chanes de bits de longueur n que de longueur n+1, n>=0
Si une hypothse courte colle aux donnes, cela a moins de chance dtre
une concidence
Justification / compromis
Toutes autres choses tant gales par ailleurs, des modles complexes
semblent se gnraliser moins bien

Rasoir dOccam : contre


taille(h) repose sur H - dfinition circulaire?
Une reprsentation interne lalgorithme dfinit quelles h sont

courtes arbitraires ?
Il y a beaucoup de manires de dfinir de petits ensembles
dhypothses

b) Evaluation empirique

Evaluation empirique des hypothses produites


Evaluation / ensemble dapprentissage
Evaluation de la prdictivit des hypothses produites :

ensemble dexemples spars en ensemble dapprentissage A


et ensemble test T.
Apprentissage dune hypothse H avec A
Evaluation de la prdiction de H sur T

Estimation de l'erreur relle d'une hypothse


Matrice de confusion ou de contingence

TP : True Positive = nombre de positifs classs positifs


FP : False Positive = nombre de ngatifs classs positifs
TN : True Negative = nombre de ngatifs classs ngatifs
FN : False Negative = nombre de positifs classs ngatifs

Estimation de l'erreur relle d'une hypothse


Erreur(h) = (erreurs)/(nombre total)*100

= (FP+FN)/(TP+TN+FP+FN)*100
Exemple :

Erreur(h) = (FP+FN)/(TP+TN+FP+FN)*100 = 30%

Dcoupage des donnes


Donnes d'apprentissage
utilises par les algorithmes d'apprentissage pour gnrer les

classeurs
Donnes d'optimisation ou de validation
utilises pour optimiser les paramtres de ces classeurs

Donnes de test
utilises pour calculer les taux d'erreurs sur classeurs optimiss

Ensemble test
Pour prdire les performances d'un classeur sur les donnes

non observes, on a besoin de donnes non utilises pour la


construction de ce classeur :
l'ensemble test doit tre indpendant de l'ensemble

d'apprentissage
les deux ensembles doivent avoir des exemples
reprsentatifs du problme

Prdiction des performances


Quelques mthodes :
Hold-out
Hold-out stratifi
Hold-out rpt

Validation croise
Leave-one-out
...

Hold-out
Un sous-ensemble pour le test, le reste pour

l'apprentissage /validation (ex: 1/3 - 2/3)


Stratifi : quilibre des classes respect
Rpt : l'erreur est la moyenne sur plusieurs hold-out
(estimation de la variance de l'estimateur)
Dilemme :
Pour obtenir un bon classeur, utiliser le plus de donnes possible
Pour avoir une bonne estimation de l'erreur, utiliser le plus de

donnes de test possible

k-validation croise (k-fold cross-validation)

Dcider du nombre k fixe de partitions des exemples

Couper les donnes en k partitions gales


Utiliser une partition pour le test, les k-1 autres pour

l'apprentissage
Rpter le processus k fois (par permutation circulaire)
Erreur = moyenne des erreurs sur les k partitions

k-validation croise (k-fold cross-validation)


Souvent stratifie : rpartition homogne des diffrentes

classes entre les k blocs (pour le maintient des probabilits a


priori)
En pratique : 10 partitions trs utilises (bon compromis entre
le nombre d'exemples pour l'apprentissage et pour le test)
Variante: 5 x validation 2 blocs
Rptition de 5 processus de validation croises en 2 blocs:

Apprentissage sur 50% et test sur 50%

=> cette dernire procdure semble plus efficace dans


certains cas (montr exprimentalement)

Leave-one-out
Cas particulier de la k-validation croise o k = nombre
d'exemples
Avantage :
chaque itration utilise un nombre lev de donnes pour la

phase d'apprentissage
dterministe : pas de variance
Inconvnients :
algorithme d'apprentissage excut n fois
pb de garantie de la stratification des exemples

=> utilis quand n < 100


Mthode indique pour un faible nombre dexemples
disponibles (N < 100)

c) Sur-apprentissage

Sur-apprentissage - Exemple

Arbre de dcision et sur-apprentissage


Si bruit dans les exemples ou trop peu dexemples,
les performances des hypothses produites peuvent se dgrader

sur lensemble de test, tout en restant excellentes sur


lensemble dapprentissage calage ou overfitting
Plus prcisment: lhypothse h sur-apprend tant donn un
ensemble dapprentissage D si il existe une autre hypothse h
telle que erreur_D(h) < erreur_D(h)
mais erreur_test(h) > erreur_test(h)
Causes: ensemble dapprentissage trop petit, bruit,

concidence,

Sur-apprentissage en apprentissage supervis


Elagage : on perd de la prcision sur lensemble dapprentissage,
mais on gagne en terme de prdiction.
A priori
Slectionner les attributs pertinents (i.e., utile la construction

du modle). Pb: demande une mesure permettant de prdire


quels attributs sont pertinents
Pr-lagage :
dcide ou non de continuer dvelopper un certain nud. On

slectionne un ensemble de validation V, et on stoppe quand la


performance de h se dgrade sur V
Post-lagage
Construit le modle complet, puis lague les lments qui

contribuent au sur-apprentissage

Arbre de dcision - mme exemple

Sur-apprentissage dans les arbres de


dcisions: exemple
Arbre :

Supposons quarrive le nouvel exemple:

<Soleil,Chaud, Eleve, Fort, oui>


Larbre construit lui assigne une classe incorrecte
Comment larbre doit-il tre mis jour?

Apprentissage darbre de dcision :


Comment viter le sur-apprentissage ?

d) Techniques dlagage

Apprentissage darbre de dcision :


Comment viter le sur-apprentissage ?
A priori:
Filtre dattribut, dveloppement de wrapper pour la slection de

sous-ensembles dattributs pertinents.


Pr-lagage :
Arrte le dveloppement de l'arbre avant que tous les exemples de

l'ensemble d'apprentissage soient bien classs


Post-lagage:
Construire larbre complet et enlever les nuds

qui sont non ncessaires

Apprentissage d'arbres de dcision et


surapprentissage
Mthodes pour valuer les sous-arbres laguer (pre ou postpruning):
Validation croise : slectionner un ensemble de validation
pour valuer lutilit de T
Test statistique : valuer si la rgularit observe a une
chance dtre due au hasard (test du chi2 ou de fisher).
Minimum Description Length (MDL)
Complexit additionnelle de T plus grande que celle de retenir des

exceptions ?
Compromis: coder le modle contre coder lerreur rsiduelle

(1) Reduced-Error Pruning (REP)


Utilise le post-lagage, avec une approche par Validation Croise
Enlever de sous-arbre de racine noeud
Noeud devient une feuille (avec pour tiquette la classe majoritaire des exemples de ce

noeud)

Algorithme Reduced-Error-Pruning (D)


Partitionner D en D_train (training / growing),

D_validation (validation / pruning)


Construire l'arbre complet T en utilisant ID3 sur
D_train
JUSQU'A CE QUE la prcision sur D_validation baisse DO

FOR chaque noeud interne candidat de T


Temp[candidat] Elague(T, candidat)
Prcision[candidat] Test(Temp[candidat], D_validation)

T T in Temp avec la meilleure prcision


(algorithme glouton)
RETURN T (lagu)

Effets de Reduced-Error Pruning


Rduction de lerreur sur lensemble de test

NB: ATTENTION, D_validation est diffrent de Dtrain er Dtest

Pour et contre

+: Produit le plus petit sous-arbre de T le plus prcis


- : utilise moins de donnes pour construire T
Etant donn le nb des exemples disponibles, peut-on se
permettre dutiliser un D_validation?

(2) Elagage de rgles


(Rule-Post-Pruning )
Mthode trs frquemment utilise
Variantes utilises dans C4.5
Indpendant de la manire dont les rgles ont t obtenues

Algorithme Rule-Post-Pruning (D)


Construire un arbre de dcision T sans

lagage
Convertir T en un ensemble de rgles
quivalentes (une pour chaque chemin de
la racine une feuille)
Elague (gnralise) chaque rgle
indpendamment en effaant toutes les
prconditions dont leffacement amliore
lerreur apparente
Trier les rgles obtenues par leur prcision
Les appliquer dans lordre D_test

Critres dvaluation de rgles


Positif

Ngatif

Positif

VP

FN

Sensibilit = VP/(VP+FN)

Ngatif

FP

VN

Spcificit = VN/(VN+FP)

Prcision
= VP/(VP+FP)

Proportion de classs correctement parmi les Positifs (VP+FN) :


VP
Sensibilit ou Rappel (Recall) =
VP FN
Proportion de classs correctement parmi les Ngatifs (VN+FP) :
VN
Spcificit =
VN FP
Proportion de classs correctement parmi les Classs Positifs (VP+FP) :
VP
Prcision = VP FP

Convertir un arbre de dcision en rgles


Syntaxe dune rgle :
Prmisses : prconditions (conjonction des tests de la racine

une feuille)
Conclusion : tiquette de classe

Exemple :
SI (Ciel = Soleil) et (Humidit = Eleve) ALORS PlayTennis = non
SI (Ciel = Soleil) et (Humidit = Normale) ALORS PlayTennis = oui

Avantage des ensembles de rgles


vs. Arbres de dcision
Avantages
Facile comprendre
Souvent de meilleurs rsultats que les arbres de dcision

reprsentable en logique dordre un possibilit dajouter de la


connaissance du domaine

Inconvnients
Pb si la taille de lensemble dapprentissage augmente
Pb si bruit dans les donnes

Rfrence biblio

T. Mitchell, Machine Learning, sections 3.6-3.8

Recherche sur les Arbres de Dcision


Discrtisation des attributs

en TP

mthodes par intervalles, entropiques, topologiques, . . .

Amlioration de la recherche
Mthodes lookahead, beam search, branch-and-bound search, . . .

Amlioration de la prcision
Mthodes ensemble: boosting, bagging, stacking, . . .

Tree drafting

Vous aimerez peut-être aussi