Arbres de Decision

Arbres de Dcision
1 - Arbres de Dcision - Dfinition

2 - Apprentissage dArbres de Dcision
Le problme
Lalgorithme de base
Lheuristique dentropie
3 - Evaluation de lapprentissage Elagage

Biais dapprentissage des arbres de dcision
Evaluation empirique
Sur-apprentissage
Techniques dlagage
Concepts
Arbres de Dcision
Un arbre de dcision est une reprsentation arborescente

dune fonction valeurs discrtes.
Expressivit: peut reprsenter des disjonctions de conjonctions
Lisibilit: peut tre traduit comme un ensemble de rgles de
dcision
Apprentissage
Lapprentissage darbres de dcision est une des

mthodes les plus connues et appliques en classification. Les
principaux algorithmes sont ID3, ID4, C4.5 et C5.0.
1 - Arbres de Dcision : dfinition
Exemple de donnes observes
Jouer au tennis
Exemple
Instance :
Fonction x qui associe
tout attribut a une valeur v.
Jouer au tennis
Exemple
Instance :
Fonction x qui associe
tout attribut a une valeur v.
Exemple :
paire (x, c) o x est une
instance et c la classe
prdire pour cette
instance.
Jouer au tennis
Structure
Arbre de dcision
Construit partir des
donnes
Noeuds: attributs
Branches: valeurs
Feuilles: dcisions (classes)
Structure
Arbre de dcision
donnes
Noeuds: attributs
Branches: valeurs
Classification
Une nouvelle instance est
teste par son chemin

depuis la racine jusqu la
feuille
Structure
Arbre de dcision
donnes
Noeuds: attributs
Branches: valeurs
Classification
Une nouvelle instance est
teste par son chemin

depuis la racine jusqu la
feuille
Structure
Rgles
Chaque chemin depuis la
racine jusqu une feuille est

une rgle de dcision.
Classification
Si x est un modle du corps
dune rgle de dcision r,

alors x est class par la tte
de r.
(ciel = soleil) ^ (humidit = leve) (classe = non)
Structure
Rgles
Chaque chemin depuis la
racine jusqu une feuille est

une rgle de dcision.
Classification
Si x est un modle du corps
dune rgle de dcision r,

alors x est class par la tte
de r.
(ciel = soleil) ^ (humidit = leve) (classe = non)
corps
tte
Autres rgles de dcision ?
2 Apprentissage
dArbres de Dcision
Comment construire un arbre de dcision partir dun jeu de
donnes ?
Algorithme
b) Entropie
a)
Problme
Description du problme
Etant donn un ensemble dexemples E, trouver un arbre de dcision h,
le plus petit possible, tant consistant avec E.
Taille
La taille dun arbre de dcision est donne par le nombre de nuds
qui le reprsentent.
Rasoir dOccam
Etant donn un ensemble H dhypothses consistantes avec les donnes,
choisir une hypothse h dans H qui est la plus simple.

Induction : lhypothse la plus gnrale est souvent celle qui classifie
le mieux les donnes test.
Lisibilit: lhypothse la plus petite est souvent la plus
comprhensible.
Problme
Complexit
Etant donn un ensemble dexemples E et un paramtre k,
trouver un arbre de dcision de taille au plus k consistant avec

E est un problme NP-difficile.
Combinatoire
Soit a le nombre dattributs et v le nombre de valeurs par
attribut, lespace des arbres de dcisions est de cardinalit :

a 1
Recherche
(a i 1)
vi
i 0
Lexploration brutale des arbres de dcision est impossible.
Il faut trouver :
des stratgies de parcours de lespace
des heuristiques de choix dattributs
a) Algorithme
Algorithme
Stratgie
Hill-Climbing : Etendre la
structure de faon incrmentale

jusqu obtenir un arbre
consistant.
Heuristique
Sparation : Trouver une
fonction dvaluation qui

favorise les attributs
discriminants.
Algorithme
Stratgie

consistant.
Heuristique

discriminants.
Algorithme
Stratgie

consistant.
Heuristique

discriminants.
Algorithme
Stratgie

consistant.
Heuristique

discriminants.
Algorithme
Stratgie

consistant.
Heuristique

discriminants.
Algorithme
Entre
Nud courant de
larbre de dcision
Ensemble dexemples E
Ensemble dattributs A
Sortie
Un arbre de dcision
dont la racine est le

nud donn en entre
Projection
Ea ,v x, c E : x(a) v
Algorithme
Entre
Nud courant de
larbre de dcision
Ensemble dexemples E
Ensemble dattributs A
Sortie
Un arbre de dcision
dont la racine est le

nud donn en entre
Comment ???
Projection
Ea ,v x, c E : x(a) v
Une approche trs utilise :

Heuristique dentropie
Entropie dun ensemble
dexemples
Nombre de bits ncessaires
pour coder la classification dun

exemple choisi arbitrairement
dans E.
Dfinition
Soit pi la proportion
dexemples de classe i dans E.

c
H ( E ) pi log 2 pi
i 1
b) Quest-ce que lentropie ?
Principe de base de lentropie

Mesure de linformation
Objectif : mesurer la quantit dinformation utile
Exemple (extrait de wikipdia)
Soit N botes numrotes de 1 N
Un individu A a cach un objet dans lune des botes
Un individu B doit trouver cet objet
Il peut poser des questions A qui doit
Chaque question a un cot (pay par B)
rpondre Oui ou Non
Un individu C connat la bote contenant lobjet et peut vendre
linformation B
Le nombre de questions ncessaires pour trouver la bote va
conditionner le prix de linformation dtenue par C
Il sagit de la quantit dinformation ncessaire pour dterminer
la bonne bote. Notons I cette quantit.
Exemple
Si N = 1, I = 0. Il ny a quune seule bote : aucune question nest ncessaire.
Exemple
Si N = 2, I =
Exemple
Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI
ou NON dtermine alors sans ambigut quelle est la bote cherche.
Exemple

Si N = 4, I = 2. On demande si la bote porte le n1 ou 2. La rponse permet
alors dliminer deux des botes et il suffit dune dernire question pour
trouver quelle est la bonne bote par deux.
k
Si N = 2 , I =
Exemple

Si N = 2 k , I = k. On crit les numros des botes en base 2. Les numros ont au
plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si
la bote cherche possde le chiffre 0 ou le chiffre 1. En k questions, on a
dtermin tous les chiffres binaires de la bonne bote. Cela revient galement
poser k questions, chaque question ayant pour but de diviser successivement le
nombre de botes considres par 2 (mthode de dichotomie).
On est donc amen poser :
Exemple

Si N = 2 k , I = k. On crit les numros des botes en base 2. Les numros ont au
plus k chiffres binaires, et pour chacun des rangs de ces chiffres, on demande si
la bote cherche possde le chiffre 0 ou le chiffre 1. En k questions, on a
dtermin tous les chiffres binaires de la bonne bote. Cela revient galement
poser k questions, chaque question ayant pour but de diviser successivement le
nombre de botes considres par 2 (mthode de dichotomie).
On est donc amen poser :
I log 2 (N)
mais attention : cette configuration ne se produit que dans le cas de N

vnements quiprobables.
Quantit dinformation relative un

vnement
Ajout dinformation
Supposons maintenant que les botes soient colores et quil y
ait n botes rouges.
Supposons galement que lindividu C sache que la bote o est
cach lobjet est rouge.
Question : Quel est le prix de cette information ?
Sans cette information, le prix payer est : log 2 (N)
Muni de cette information, le prix payer nest plus que:

vnement
Ajout dinformation
Supposons maintenant que les botes soient colores et quil y
ait n botes rouges.
Supposons galement que lindividu C sache que la bote o est
cach lobjet est rouge.
Question : Quel est le prix de cette information ?
Sans cette information, le prix payer est : log 2 (N)
Muni de cette information, le prix payer nest plus que: log 2 (n)
Le prix de linformation la bote cherche est rouge est donc :
N
log 2 (N) - log 2 (n) log 2
n

vnement
Dfinition
La quantit dinformation est dfinie comme une
N
fonction croissante de
avec :
n
N le nombre d vnements possibles
n le cardinal du sous-ensemble dlimit par linformation
Afin de mesurer cette quantit dinformation, on pose :
N
I log 2
n
Entropie, formule de Shannon

Gnralisation
Supposons maintenant que les botes soient de diverses
couleurs :
n1 botes de couleur C1, n2 botes de couleur C2, . . ., nk
botes de couleurs Ck
avec n1 + n2 + . . . + nk = N.
Lindividu C sait de quelle couleur est la bote recherche.
Question : quel est le prix de cette information ?

Gnralisation
Linformation la bote est de couleur C1 vaut log2 (N/n1) et
cette ventualit a une probabilit n1/N
Linformation la bote est de couleur C2 vaut log2 (N/n2) ,
et cette ventualit a une probabilit n2/N

Le prix moyen de linformation est donc :
N
N n2
N
nk
n1
H ( E ) log 2 log 2 ... log 2
N
N
n1 N
n2
nk

Gnralisation, suite
Plus gnralement, si on considre k vnements disjoints de
probabilits respectives p1, p2, . . ., pk avec :
p1 + p2 +. . .+pk = 1
alors la quantit dinformation correspondant cette distribution de

probabilit est :
1
1
1
H ( E ) p1 log 2 p2 log 2 ... pk log 2
p1
p2
pk
soit :
H ( E ) p1 log 2 p1 p2 log2 p2 ... pk log 2 pk
Cette quantit sappelle lentropie de la distribution de
probabilit.
Entropie
S est un chantillon de donnes (training sample)

P+ est la proportion dexemples positifs
La mesure dentropie de S est reprsente sur la courbe
Quand est-elle maximale ?
minimale ?
Heuristique dentropie : Une approche

trs utilise pour la construction darbres
dexemples

dans E.
Dfinition

c
H ( E ) pi log 2 pi
i 1
dexemples

dans E.
Dfinition

c
H (E) 1
H ( E ) pi log 2 pi
i 1
dexemples

dans E.
Dfinition

c
H ( E ) pi log 2 pi
i 1
dexemples

dans E.
Dfinition

c
H (E) 0
H ( E ) pi log 2 pi
i 1
dexemples

dans E.
Dfinition

c
H ( E ) pi log 2 pi
i 1
dexemples

dans E.
Dfinition

c
H ( E ) 0.33
H ( E ) pi log 2 pi
i 1
Gain entropique
= Diminution de lentropie
engendre par la partition dun

ensemble dexemples selon un
attribut donn.
Dfinition
Soit E un ensemble dexemples,
a un attribut et V(a) les valeurs

de a.
G ( a, E ) H ( E )
vV ( a )
Ea ,v
E
H ( Ea ,v )
Gain entropique

attribut donn.
Dfinition

de a.
G ( a, E ) H ( E )
vV ( a )
G(a1 , E) 1 - ((0.5 1) (0.5 1)) 0
Ea ,v
E
H ( Ea ,v )
Gain entropique

attribut donn.
Dfinition

de a.
G ( a, E ) H ( E )
vV ( a )
Ea ,v
E
H ( Ea ,v )
Gain entropique

attribut donn.
Dfinition

de a.
G ( a, E ) H ( E )
vV ( a )
G(a 2 , E) 1 - ((0.25 0) (0.25 0) (0.5 1)) 0.5
Ea ,v
E
H ( Ea ,v )
3 Evaluation de lapprentissage
Elagage
a)
Biais dapprentissage des arbres de dcision
b)
Evaluation empirique
c)
Sur-apprentissage
d)
Techniques dlagage
Recherche sur les Arbres de Dcision

Overfitting
Dans un espace H, une hypothse h est sur-apprise sil existe
une hypothse h telle que

h est plus prcise que h sur les donnes dentranement
h est plus prcise que h sur les donnes test
Pruning
Rduire les branches de larbre afin de permettre damliorer la
prcision estime
Plusieurs mthodes destimation: thoriques, empiriques.
Plusieurs techniques dlagage: pre-pruning, post-pruning,
reduced error, pruning, . . . .
Biais en apprentissage [Mitchell, 97]

Biais de Prfrence / Biais de Langage
Biais de prfrence
Dynamique: ordonne les hypothses de lespace de recherche:
heuristique de recherche
Biais de Langage
Souvent statique, simplmente travers le langage
dhypothses (langage cible)

Restriction a priori de lespace de recherche
Rasoir dOccam: un biais de prfrence

Rasoir dOccam : pour
Moins dhypothses courtes que dhypothses longues
2 fois moins de chanes de bits de longueur n que de longueur n+1, n>=0
Si une hypothse courte colle aux donnes, cela a moins de chance dtre
une concidence
Justification / compromis
Toutes autres choses tant gales par ailleurs, des modles complexes
semblent se gnraliser moins bien
Rasoir dOccam : contre

taille(h) repose sur H - dfinition circulaire?
Une reprsentation interne lalgorithme dfinit quelles h sont
courtes arbitraires ?
Il y a beaucoup de manires de dfinir de petits ensembles
dhypothses
b) Evaluation empirique
Evaluation empirique des hypothses produites

Evaluation / ensemble dapprentissage
Evaluation de la prdictivit des hypothses produites :
ensemble dexemples spars en ensemble dapprentissage A

et ensemble test T.
Apprentissage dune hypothse H avec A
Evaluation de la prdiction de H sur T
Estimation de l'erreur relle d'une hypothse

Matrice de confusion ou de contingence
TP : True Positive = nombre de positifs classs positifs

FP : False Positive = nombre de ngatifs classs positifs
TN : True Negative = nombre de ngatifs classs ngatifs
FN : False Negative = nombre de positifs classs ngatifs
Estimation de l'erreur relle d'une hypothse

Erreur(h) = (erreurs)/(nombre total)*100
= (FP+FN)/(TP+TN+FP+FN)*100
Exemple :
Erreur(h) = (FP+FN)/(TP+TN+FP+FN)*100 = 30%
Dcoupage des donnes

Donnes d'apprentissage
utilises par les algorithmes d'apprentissage pour gnrer les
classeurs
Donnes d'optimisation ou de validation
utilises pour optimiser les paramtres de ces classeurs
Donnes de test
utilises pour calculer les taux d'erreurs sur classeurs optimiss
Ensemble test
Pour prdire les performances d'un classeur sur les donnes
non observes, on a besoin de donnes non utilises pour la

construction de ce classeur :
l'ensemble test doit tre indpendant de l'ensemble
d'apprentissage
les deux ensembles doivent avoir des exemples
reprsentatifs du problme
Prdiction des performances

Quelques mthodes :
Hold-out
Hold-out stratifi
Hold-out rpt
Validation croise
Leave-one-out
...
Hold-out
Un sous-ensemble pour le test, le reste pour
l'apprentissage /validation (ex: 1/3 - 2/3)

Stratifi : quilibre des classes respect
Rpt : l'erreur est la moyenne sur plusieurs hold-out
(estimation de la variance de l'estimateur)
Dilemme :
Pour obtenir un bon classeur, utiliser le plus de donnes possible
Pour avoir une bonne estimation de l'erreur, utiliser le plus de
donnes de test possible
k-validation croise (k-fold cross-validation)
Dcider du nombre k fixe de partitions des exemples
Couper les donnes en k partitions gales

Utiliser une partition pour le test, les k-1 autres pour
l'apprentissage
Rpter le processus k fois (par permutation circulaire)
Erreur = moyenne des erreurs sur les k partitions
k-validation croise (k-fold cross-validation)

Souvent stratifie : rpartition homogne des diffrentes
classes entre les k blocs (pour le maintient des probabilits a

priori)
En pratique : 10 partitions trs utilises (bon compromis entre
le nombre d'exemples pour l'apprentissage et pour le test)
Variante: 5 x validation 2 blocs
Rptition de 5 processus de validation croises en 2 blocs:
Apprentissage sur 50% et test sur 50%
=> cette dernire procdure semble plus efficace dans

certains cas (montr exprimentalement)
Leave-one-out
Cas particulier de la k-validation croise o k = nombre
d'exemples
Avantage :
chaque itration utilise un nombre lev de donnes pour la
phase d'apprentissage
dterministe : pas de variance
Inconvnients :
algorithme d'apprentissage excut n fois
pb de garantie de la stratification des exemples
=> utilis quand n < 100

Mthode indique pour un faible nombre dexemples
disponibles (N < 100)
c) Sur-apprentissage
Sur-apprentissage - Exemple
Arbre de dcision et sur-apprentissage

Si bruit dans les exemples ou trop peu dexemples,
les performances des hypothses produites peuvent se dgrader
sur lensemble de test, tout en restant excellentes sur

lensemble dapprentissage calage ou overfitting
Plus prcisment: lhypothse h sur-apprend tant donn un
ensemble dapprentissage D si il existe une autre hypothse h
telle que erreur_D(h) < erreur_D(h)
mais erreur_test(h) > erreur_test(h)
Causes: ensemble dapprentissage trop petit, bruit,
concidence,
Sur-apprentissage en apprentissage supervis

Elagage : on perd de la prcision sur lensemble dapprentissage,
mais on gagne en terme de prdiction.
A priori
Slectionner les attributs pertinents (i.e., utile la construction
du modle). Pb: demande une mesure permettant de prdire

quels attributs sont pertinents
Pr-lagage :
dcide ou non de continuer dvelopper un certain nud. On
slectionne un ensemble de validation V, et on stoppe quand la

performance de h se dgrade sur V
Post-lagage
Construit le modle complet, puis lague les lments qui
contribuent au sur-apprentissage
Arbre de dcision - mme exemple
Sur-apprentissage dans les arbres de

dcisions: exemple
Arbre :
Supposons quarrive le nouvel exemple:
<Soleil,Chaud, Eleve, Fort, oui>

Larbre construit lui assigne une classe incorrecte
Comment larbre doit-il tre mis jour?
Apprentissage darbre de dcision :

Comment viter le sur-apprentissage ?
d) Techniques dlagage
Apprentissage darbre de dcision :

Comment viter le sur-apprentissage ?
A priori:
Filtre dattribut, dveloppement de wrapper pour la slection de
sous-ensembles dattributs pertinents.

Pr-lagage :
Arrte le dveloppement de l'arbre avant que tous les exemples de
l'ensemble d'apprentissage soient bien classs

Post-lagage:
Construire larbre complet et enlever les nuds
qui sont non ncessaires
Apprentissage d'arbres de dcision et

surapprentissage
Mthodes pour valuer les sous-arbres laguer (pre ou postpruning):
Validation croise : slectionner un ensemble de validation
pour valuer lutilit de T
Test statistique : valuer si la rgularit observe a une
chance dtre due au hasard (test du chi2 ou de fisher).
Minimum Description Length (MDL)
Complexit additionnelle de T plus grande que celle de retenir des
exceptions ?
Compromis: coder le modle contre coder lerreur rsiduelle
(1) Reduced-Error Pruning (REP)

Utilise le post-lagage, avec une approche par Validation Croise
Enlever de sous-arbre de racine noeud
Noeud devient une feuille (avec pour tiquette la classe majoritaire des exemples de ce
noeud)
Algorithme Reduced-Error-Pruning (D)

Partitionner D en D_train (training / growing),
D_validation (validation / pruning)

Construire l'arbre complet T en utilisant ID3 sur
D_train
JUSQU'A CE QUE la prcision sur D_validation baisse DO
FOR chaque noeud interne candidat de T

Temp[candidat] Elague(T, candidat)
Prcision[candidat] Test(Temp[candidat], D_validation)
T T in Temp avec la meilleure prcision

(algorithme glouton)
RETURN T (lagu)
Effets de Reduced-Error Pruning

Rduction de lerreur sur lensemble de test
NB: ATTENTION, D_validation est diffrent de Dtrain er Dtest
Pour et contre
+: Produit le plus petit sous-arbre de T le plus prcis

- : utilise moins de donnes pour construire T
Etant donn le nb des exemples disponibles, peut-on se
permettre dutiliser un D_validation?
(2) Elagage de rgles

(Rule-Post-Pruning )
Mthode trs frquemment utilise
Variantes utilises dans C4.5
Indpendant de la manire dont les rgles ont t obtenues
Algorithme Rule-Post-Pruning (D)

Construire un arbre de dcision T sans
lagage
Convertir T en un ensemble de rgles
quivalentes (une pour chaque chemin de
la racine une feuille)
Elague (gnralise) chaque rgle
indpendamment en effaant toutes les
prconditions dont leffacement amliore
lerreur apparente
Trier les rgles obtenues par leur prcision
Les appliquer dans lordre D_test
Critres dvaluation de rgles

Positif
Ngatif
Positif
VP
FN
Sensibilit = VP/(VP+FN)
Ngatif
FP
VN
Spcificit = VN/(VN+FP)
Prcision
= VP/(VP+FP)
Proportion de classs correctement parmi les Positifs (VP+FN) :

VP
Sensibilit ou Rappel (Recall) =
VP FN
Proportion de classs correctement parmi les Ngatifs (VN+FP) :
VN
Spcificit =
VN FP
Proportion de classs correctement parmi les Classs Positifs (VP+FP) :
VP
Prcision = VP FP
Convertir un arbre de dcision en rgles

Syntaxe dune rgle :
Prmisses : prconditions (conjonction des tests de la racine
une feuille)
Conclusion : tiquette de classe
Exemple :
SI (Ciel = Soleil) et (Humidit = Eleve) ALORS PlayTennis = non
SI (Ciel = Soleil) et (Humidit = Normale) ALORS PlayTennis = oui

Avantage des ensembles de rgles

vs. Arbres de dcision
Avantages
Facile comprendre
Souvent de meilleurs rsultats que les arbres de dcision
reprsentable en logique dordre un possibilit dajouter de la

connaissance du domaine
Inconvnients
Pb si la taille de lensemble dapprentissage augmente
Pb si bruit dans les donnes
Rfrence biblio
T. Mitchell, Machine Learning, sections 3.6-3.8
Recherche sur les Arbres de Dcision

Discrtisation des attributs
en TP
mthodes par intervalles, entropiques, topologiques, . . .
Amlioration de la recherche
Mthodes lookahead, beam search, branch-and-bound search, . . .
Amlioration de la prcision
Mthodes ensemble: boosting, bagging, stacking, . . .
Tree drafting

Arbres de Decision

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Arbres de Decision

Transféré par

Droits d'auteur :

Formats disponibles

Arbres de Dcision

1 - Arbres de Dcision - Dfinition

3 - Evaluation de lapprentissage Elagage

Un arbre de dcision est une reprsentation arborescente

Lisibilit: peut tre traduit comme un ensemble de rgles de

Lapprentissage darbres de dcision est une des

1 - Arbres de Dcision : dfinition

Exemple de donnes observes

teste par son chemin

teste par son chemin

racine jusqu une feuille est

dune rgle de dcision r,

racine jusqu une feuille est

dune rgle de dcision r,

Autres rgles de dcision ?

le plus petit possible, tant consistant avec E.

choisir une hypothse h dans H qui est la plus simple.

trouver un arbre de dcision de taille au plus k consistant avec

attribut, lespace des arbres de dcisions est de cardinalit :

Lexploration brutale des arbres de dcision est impossible.

structure de faon incrmentale

fonction dvaluation qui

structure de faon incrmentale

fonction dvaluation qui

structure de faon incrmentale

fonction dvaluation qui

structure de faon incrmentale

fonction dvaluation qui

structure de faon incrmentale

fonction dvaluation qui

dont la racine est le

dont la racine est le

Une approche trs utilise :

pour coder la classification dun

dexemples de classe i dans E.

b) Quest-ce que lentropie ?

Principe de base de lentropie

rpondre Oui ou Non

Un individu C connat la bote contenant lobjet et peut vendre

Il sagit de la quantit dinformation ncessaire pour dterminer

la bonne bote. Notons I cette quantit.

Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI

ou NON dtermine alors sans ambigut quelle est la bote cherche.

Si N = 2, I = 1. On demande si la bonne bote est la bote n1. La rponse OUI

ou NON dtermine alors sans ambigut quelle est la bote cherche.

ou NON dtermine alors sans ambigut quelle est la bote cherche.

ou NON dtermine alors sans ambigut quelle est la bote cherche.

mais attention : cette configuration ne se produit que dans le cas de N

Quantit dinformation relative un

Quantit dinformation relative un

Quantit dinformation relative un

Entropie, formule de Shannon

Lindividu C sait de quelle couleur est la bote recherche.

Question : quel est le prix de cette information ?

Entropie, formule de Shannon

Entropie, formule de Shannon

alors la quantit dinformation correspondant cette distribution de

H ( E ) p1 log 2 p1 p2 log2 p2 ... pk log 2 pk

Cette quantit sappelle lentropie de la distribution de

S est un chantillon de donnes (training sample)

Heuristique dentropie : Une approche

pour coder la classification dun

dexemples de classe i dans E.