Vous êtes sur la page 1sur 6

Chapitre 5

Les techniques de Classement et de


Prdiction

Etape 1 trier les donner selon Investissement


Investissement Gare Statut Distance
faible Non Village loin
1
faible Non Ville Loin
moyen non Village proche
2
moyen Oui Ville Loin
lev Oui Ville proche
3 lev Oui Village proche
lev non ville proche
Etape 2 dtermination des diffrent classes ou disposer dune population
P compos de n individu
Le rsultat final se compose de plusieurs classes.
C1 : compos dune population P(C1)
C2 : compos dune population P(C2)
C3 : compos dune population P(C3)

Classe C population
C1 : Investissement = faible 2/7
C2 : Investissement = moyen 2/7
C3 : Investissement = lev 3/7
Ou bien :
faible moyen lev Investissement
2/7 2/7 3/7 7/7
Etape 3 calcul du mlange initial au moyen de lentropie
Pour construire larbre de dcision 2 moyen Entropie ou formule de GINI

Entropie (P) = - P(C1)*log(P(C1)) - P(C2)*log(P(C2)) - P(C3)*log(P(C3))

= - (2/7)*log(2/7) - (2/7)*log(2/7) - (3/7)*log(3/7) = 0.4686

Etape 4 calcul du Gain


Pour choisir lattribut qui doit figurer la racine :
Il est important de calculer le Gain de chaque attribut (Gare, station,
distance)
Lattribut devient servie de premier test est celui qui maximise le
Gain.
Pour une population P donne compos de n individu, un test lire la
population P en sous ensemble P1 de taille n1 et P2 de taille n2.
4-1 conditions de la racine :
Le calcul du Gain pour lattribut Gare.
ensemble Gare faible moyen lev ni/n
P1 oui 0 1 2 3/7
P1 non 2 1 1 4/7

Entropie (P1) = - P(C1)*log(P(C1)) - P(C2)*log(P(C2)) - P(C3)*log(P(C3))

= 0 - (1/3)*log(1/3) - (2/3)*log(2/3) = 0.2764

Entropie (P2) = - P(C1)*log(P(C1)) - P(C2)*log(P(C2)) - P(C3)*log(P(C3))

= - (2/4)*log(2/4) - (1/4)*log(1/4) - (1/4)*log(1/4) = 0.4515

Rappel de formule

Gain = entropie (p) ( n1/n* entropie (p1)) ( n2/n* entropie (p2))


Gain(Gare)= 0.4686-((3/7)*0.276) -((4/7)*0.4515) =0.0921

4-2 Gain pour lattribut station:


ensemble station faible moyen lev ni/n
P1 Ville 1 1 2 4/7
P1 village 1 1 1 3/7

Entropie (P1) = - P(C1)*log(P(C1)) - P(C2)*log(P(C2)) - P(C3)*log(P(C3))

= - (1/4)*log(1/4) - (1/4)*log(1/4) - (2/4)*log(2/4) = 0.4515

Entropie (P2) = - P(C1)*log(P(C1)) - P(C2)*log(P(C2)) - P(C3)*log(P(C3))

= - (1/3)*log(1/3) - (1/3)*log(1/3) - (1/3)*log(1/3) = 0.4771

Gain(station)= 0.4686-((4/7)*0.4515) -((3/7)*0.4771)= 0.0061

4-3 Gain pour lattribut distance:

ensemble distance faible moyen lev ni/n


P1 loin 2 1 0 3/7
P1 Proche 0 1 3 4/7

Entropie (P1) = - P(C1)*log (P(C1)) - P(C2)*log (P(C2)) - P(C3)*log(P(C3))

= - (2/3)*log (2/3) - (1/3)*log (1/3) - 0 = 0.2764

Entropie (P2) = - P(C1)*log (P(C1)) - P(C2)*log (P(C2)) - P(C3)*log (P(C3))

= 0- (1/4)*log (1/4) - (3/4)*log (3/4) = 0.0.2442


Gain(distance)= 0.4686-((3/7)*0.0.2764) -((4/7)*0.2441)= 0.2106

Etape 5 candidat la racine, rappel des Gain


Calculer
Gain(Gare)= 0.0921
Gain(station= 0.0061
Gain(distance)= 0.2106 (sup )
Lattribut distance maximise le Gain donc il doit tre choisi comme
racine.

Etape 6 construction de larbre


ensemble distance faible moyen lev ni/n
P1 loin 2 1 0 3/7
P1 Proche 0 1 3 4/7

Distance

Loin Proche

(2,1) (1,3)

2 faible, 1 moyen 1 moyen , 3 lev


Etape 7 pour suite la constriction de larbre, on tudie comment se
rpartissent les individus restant
Investissement Gare Statut Distance
faible Non Village loin
1
faible Non Ville Loin
moyen Oui Ville Loin
2
moyen non Village proche
lev Oui Ville proche
3 lev Oui Village proche
lev non ville proche

Le racine loin
1 Investissement moyenne Gare (oui) Statut (ville)
2 Investissement faible Gare (non) Statut (village)
Gare (non) Statut (ville)
Alors lattribut Gare suffit discriminer les autres individus restant

Distance

Loin Proche

(2,1) (1,3)

Gare 1 moyen , 3 lev

moyen faible

Vous aimerez peut-être aussi