Vous êtes sur la page 1sur 8

Mesures de qualit de partitions

Pour calculer la qualit dune partition S, il faut introduire des quantits qui permettent de

comparer les diffrents choix possibles (selon les attributs). Pour cela sont dfinit des fonctions, mesures de qualits des partitions notes I (S),qui permettent de mesurer le degr de mlange des exemples entre les diffrentes classe.

Cette fonction doit prendre: Son minimum lorsque tous les exemples sont dans une mme classe. Son maximum lorsque les exemples sont qui-rpartis.

Variation dincertitude (le gain): Lors du passage dune partition Si une partition Si+1 on va essayer de maximiser le quantit ((Si+1)= I (Si+1) - I (Si)) qui est la variation dincertitude (gain) entre la partition prcdente Si et la partition suivante Si+1.

Mesures de qualit de partitions 1- Mesures de la thorie de linformation:


En ayant n messages possibles quiprobables (possdant chacun la probabilit p de 1/n), alors la quantit dinformation porte par un message est de log2(p) = log2(n).

Avec une distribution de probabilit P = (p1,p2,,pn) alors linformation porte par cette
distribution appele entropie de P : I(P) = -(p1*log2(p1)+p2*log2 (p2)++pnlog2 (pn)).

Par exemple, si P = (0.5,0.5) alors I(P) = 1, si P = (0.67,0.33) alors I(P) = 0.92 et si P =


(1,0) alors I(P) = 0 . Etant donn un ensemble de nuds s dun arbre de dcision, la quantit dinformation associe chacun des nuds note I(s).

Mesures de qualit de partitions 1- Mesures de la thorie de linformation:


Le choix dun attribut A possdant p modalits (valeurs) pour lclatement dun nud s est effectu en mesurant un gain dinformation. Le gain dinformation est mesur par la diffrence entre limpuret du nud parent et la somme des impurets de ses p nuds fils. Gain(s,A) = I(s) -
i 1 p

n.i I ( si ) n

Ce critre a tendance favoriser les attributs prsentant de nombreuses catgories, une correction a t propose dans (Quinlan, 1990).

Mesures de qualit de partitions 2- Mesures de distances entre distributions de probabilit:


. mesures permettent lestimation dune mesure de lcart entre deux distributions Les de probabilits, estimes au dpart des frquences observes dans lchantillon.

- Distance de Kolmogorov-Smirnoff : Issue du domaine statistique et varie en fonction de la distance maximale entre deux distributions de probabilits cumules, utilis comme critre de partition dans (Friedman, 1977) il possde des performances identiques ceux obtenues avec le gain ratio.

- Le test dindpendance du Chi-deux: Utilis par (Loh, 1997) directement comme critre de segmentation. Utilis pour contrebalancer la tendance des critres bass sur lentropie favoriser les attributs multivalus (Quinlan, 1986).

Arbres de dcision: Etat de lart


Les arbres de dcision ont vu le jour avec lalgorithme AID Automatic Interaction Detection (Morgan, 1963).

(Kass, 1980) propose une modification de AID quil nomma CHAID CHi-square AID .

Le vritable point de succs de ces mthodes fut avec les travaux de (Breiman et al, 1984) et (Quinlan, 1986) avec les algorithmes CART et ID3 qui posrent les bases thoriques et appliques de tout un nouveau domaine.

Exemple dapplication: Surveillance de diabtiques


Classe et descripteurs

La surveillance du diabte permet de vrifier si un patient diabtique insulinodpendant ou pas prsente des complications.
Type du Diabte (TD).

D E S C R I P T E U R S

Age.

Sexe.
Poids.

Glycmie (G).
HBNC.

EFO.

Modle de classement

Diagnostic Classe
Complications.

Exemple dapplication
Echantillon
TD TypeI TypeI TypeI TypeI TypeI TypeI TypeI TypeI TypeI TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII TypeII Var FE Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult Adult IMC SP SP M M ObsG2 ObsG2 ObsG2 ObsG2 ObsG2 SP SP SP SP SP SP SP SP SP SP SP Glyc HyperG HyperG HyperG HyperG Normal Normal Normal Normal Normal HyperG HyperG HyperG HyperG HyperG HyperG HyperG HyperG Normal Normal Normal HBANC EFO Neuropath D D D D E E E E E D D D D D D D D E E E R R R R PR PR PR PR R PR PR PR PR PR PR PR PR PR PR PR Neurpath Neurpath Neurpath Neurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath PNeurpath ECG Normal Normal Normal Normal InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor InsufCor Normal Normal Normal Complications DDTC DDTC DDTC DDTC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DDMC DENC DENC DENC

Mthode ID3
Premier algorithme populaire base darbres de dcision pour la classification supervise propos par Quinlan en 1986. Larbre est non lagu, construit de faon non incrmentale descendante gloutonne et la mesure du gain dinformation est utilise pour le partitionnement des donnes. Entre : X (variables exognes), Y (classe), chantillon dapprentissage a ; Sortie : arbre de dcision ID3 ;

Si a est vide alors retourner un nud de valeur chec ;


Si a est constitu de valeurs similaires pour la classe alors retourner un nud tiquet par la valeur de cette classe ; Si X est vide alors retourner un nud simple avec comme valeur la valeur la plus frquente des valeurs de la classe dans a ;

DargmaxXj gain(X, a) avec Xj dans X; {dji avec i=1p} les valeurs de lattribut Xj ; {ai avec i=1p} les sous ensembles de a composs des valeurs dji de la variable Xj ; Arbre de racine D et arcs tiquets par dj1,,djp allant vers les sous arbres ID3(X-D,Y, a1), ID3(X-D,Y, a2),, ID3(X-D,Y, ap) ;
8

Vous aimerez peut-être aussi