Académique Documents
Professionnel Documents
Culture Documents
Pour calculer la qualit dune partition S, il faut introduire des quantits qui permettent de
comparer les diffrents choix possibles (selon les attributs). Pour cela sont dfinit des fonctions, mesures de qualits des partitions notes I (S),qui permettent de mesurer le degr de mlange des exemples entre les diffrentes classe.
Cette fonction doit prendre: Son minimum lorsque tous les exemples sont dans une mme classe. Son maximum lorsque les exemples sont qui-rpartis.
Variation dincertitude (le gain): Lors du passage dune partition Si une partition Si+1 on va essayer de maximiser le quantit ((Si+1)= I (Si+1) - I (Si)) qui est la variation dincertitude (gain) entre la partition prcdente Si et la partition suivante Si+1.
Avec une distribution de probabilit P = (p1,p2,,pn) alors linformation porte par cette
distribution appele entropie de P : I(P) = -(p1*log2(p1)+p2*log2 (p2)++pnlog2 (pn)).
n.i I ( si ) n
Ce critre a tendance favoriser les attributs prsentant de nombreuses catgories, une correction a t propose dans (Quinlan, 1990).
- Distance de Kolmogorov-Smirnoff : Issue du domaine statistique et varie en fonction de la distance maximale entre deux distributions de probabilits cumules, utilis comme critre de partition dans (Friedman, 1977) il possde des performances identiques ceux obtenues avec le gain ratio.
- Le test dindpendance du Chi-deux: Utilis par (Loh, 1997) directement comme critre de segmentation. Utilis pour contrebalancer la tendance des critres bass sur lentropie favoriser les attributs multivalus (Quinlan, 1986).
(Kass, 1980) propose une modification de AID quil nomma CHAID CHi-square AID .
Le vritable point de succs de ces mthodes fut avec les travaux de (Breiman et al, 1984) et (Quinlan, 1986) avec les algorithmes CART et ID3 qui posrent les bases thoriques et appliques de tout un nouveau domaine.
La surveillance du diabte permet de vrifier si un patient diabtique insulinodpendant ou pas prsente des complications.
Type du Diabte (TD).
D E S C R I P T E U R S
Age.
Sexe.
Poids.
Glycmie (G).
HBNC.
EFO.
Modle de classement
Diagnostic Classe
Complications.
Exemple dapplication
Echantillon
TD TypeI TypeI TypeI TypeI TypeI TypeI TypeI TypeI TypeI TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII Var FE Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult IMC SP SP M M ObsG2 ObsG2 ObsG2 ObsG2 ObsG2 SP SP SP SP SP SP SP SP SP SP SP Glyc HyperG HyperG HyperG HyperG Normal Normal Normal Normal Normal HyperG HyperG HyperG HyperG HyperG HyperG HyperG HyperG Normal Normal Normal HBANC EFO Neuropath D D D D E E E E E D D D D D D D D E E E R R R R PR PR PR PR R PR PR PR PR PR PR PR PR PR PR PR Neurpath Neurpath Neurpath Neurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath ECG Normal Normal Normal Normal InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor Normal Normal Normal Complications DDTC DDTC DDTC DDTC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DENC DENC DENC
Mthode ID3
Premier algorithme populaire base darbres de dcision pour la classification supervise propos par Quinlan en 1986. Larbre est non lagu, construit de faon non incrmentale descendante gloutonne et la mesure du gain dinformation est utilise pour le partitionnement des donnes. Entre : X (variables exognes), Y (classe), chantillon dapprentissage a ; Sortie : arbre de dcision ID3 ;
DargmaxXj gain(X, a) avec Xj dans X; {dji avec i=1p} les valeurs de lattribut Xj ; {ai avec i=1p} les sous ensembles de a composs des valeurs dji de la variable Xj ; Arbre de racine D et arcs tiquets par dj1,,djp allant vers les sous arbres ID3(X-D,Y, a1), ID3(X-D,Y, a2),, ID3(X-D,Y, ap) ;
8