Vous êtes sur la page 1sur 234

Stphane Tuffry

DATA MINING
& STATISTIQUE DCISIONNELLE

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Quest-ce que le data mining ? A quoi sert le data mining ? Les 2 grandes familles de techniques Le droulement dun projet de data mining Cots et gains du data mining Facteurs de succs - Erreurs - Consulting Lanalyse et la prparation des donnes Techniques descriptives de data mining Techniques prdictives de data mining Logiciels de statistique et de data mining Informatique dcisionnelle et de gestion CNIL et limites lgales du data mining Le text mining Le web mining
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 2

Plan du cours

Techniques prdictives
Points forts et points faibles

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Techniques prdictives de data mining :

Gnralits

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Les 2 grandes familles : Classement et prdiction

Classement : la variable expliquer est qualitative



on parle aussi de classification (dans lcole anglosaxonne) ou de discrimination scoring : classement appliqu une problmatique dentreprise

Prdiction : la variable expliquer est continue



on parle aussi de rgression ou dapprentissage supervis (rseaux de neurones)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Classement classification

Le classement consiste placer chaque individu de la population dans une classe, parmi plusieurs classes prdfinies, en fonction des caractristiques de lindividu indiques comme variables explicatives Le rsultat du classement est un algorithme permettant daffecter chaque individu la meilleure classe Le plus souvent, il y a 2 classes prdfinies ( sain et malade , par exemple)

La classification consiste regrouper les individus dune population en un nombre limit de classes qui : ne sont pas prdfinies mais dtermines au cours de lopration, contrairement aux classes du classement regroupent les individus ayant des caractristiques similaires et sparent les individus ayant des caractristiques diffrentes

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Prdiction

La prdiction consiste estimer



la valeur dune variable continue (dite expliquer , cible , rponse , dpendante ou endogne ) en fonction de la valeur dun certain nombre dautres variables (dites explicatives , de contrle , indpendantes ou exognes ) le poids (en fonction de la taille) la taille des ailes dune espce doiseau (en fonction de lge) le prix dun appartement (en fonction de sa superficie, de ltage et du quartier) la consommation dlectricit (en fonction de la temprature extrieure et de lpaisseur de lisolation)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 7

Cette variable cible est par exemple :


08/03/2007

Tableau synoptique
explicatives expliquer 1 quantitative rg. linaire simple, rgression robuste, arbres de dcision rgression PLS2 ADL, rgression logistique, arbres de dcision rg. linaire multiple, ANOVA, rg. robuste, PLS, arbres de arbres, rseaux de dcision neurones rgression PLS2, rseaux de neurones MANOVA ANOVA, arbres de dcision, rseaux de neurones ANCOVA, arbres de dcision, rseaux de neurones MANCOVA, rseaux de neurones rgression logistique, arbres, rseaux de neurones 1 quantitative n quantitatives (covariable) (covariables) 1 qualitative (facteur) n qualitatives (facteurs) mlange

n quantitatives
(reprsentent des quantits )

1 qualitative nominale

1 discrte (comptage) 1 quantitative asymtrique 1 qualitative ordinale n quantitatives


08/03/2007

MANOVA, rseaux de neurones ADL, rg. logistique, rgression rgression reg. logistique PLS, logistique, logistique, arbres, rseaux de DISQUAL, DISQUAL, neurones, SVM arbres arbres, rseaux de neurones modle linaire gnralis (rgression de Poisson, modle log-linaire) modle linaire gnralis (rgressions gamma et log-normale) rgression logistique ordinale
(au moins 3 niveaux)

modle mesures rptes


Stphane Tuffry - Data Mining - http://data.mining.free.fr
(les n variables reprsentent des mesures rptes dune mme quantit)

Dans les techniques inductives :


Techniques inductives et transductives

une phase dapprentissage (phase inductive) pour laborer un modle, qui rsume les relations entre les variables et qui peut ensuite tre appliqu de nouvelles donnes pour en dduire un classement ou une prdiction (phase dductive)

Les techniques transductives

ne comprennent quune seule tape (ventuellement ritre), au cours de laquelle chaque individu est directement class (ou objet dune prdiction) par rfrence aux autres individus dj classs il ny a pas laboration dun modle
Stphane Tuffry - Data Mining - http://data.mining.free.fr 9

08/03/2007

k-plus proches voisins

La plus connue des techniques transductives Le classement (prdiction) de chaque individu

sopre en regardant, parmi les individus dj classs, la classe des k individus qui sont les plus proches voisins (ou en calculant la moyenne dans le voisinage de la variable prdire) La valeur de k sera choisie en sorte dobtenir le meilleur classement (prdiction) possible :

Ainsi, dans lexemple ci-contre,

ce choix est la principale difficult de cet algorithme !


0 0 0 1 0 1 0 1 0 0 1 1 ? 0 1 1 0 1 ? est class en "0" 1 0

lindividu ? est class en 0 , car entour en majorit de 0


08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

10

Limites des mthodes transductives

Une

technique inductive rsume dans un modle linformation contenue dans les donnes ce qui permet d appliquer rapidement ce modle de
nouvelles donnes

Une technique transductive manipule lensemble des


et de calcul On utilise surtout les techniques inductives.

individus dj classs, pour tout nouveau classement

ce qui ncessite donc une grande puissance de stockage

Une

mthode transductive, comme les k-NN, peut tre utilise dans une tape pralable de dtection et de mise lcart des individus hors norme, des outliers .
Stphane Tuffry - Data Mining - http://data.mining.free.fr 11

08/03/2007

Mthodes inductives : schma


laboration du modle

:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois observation des variables explicatives 12 mois observation de la variable expliquer aujourdhui

Application du modle

:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois observation des variables explicatives aujourdhui prdiction de la variable expliquer + 12 mois

Le modle sera par exemple une fonction f telle que : Probabilit(variable cible = x) = f(variables explicatives)
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 12

Mthodes inductives : 4 tapes

Apprentissage : construction du modle sur un 1er

chantillon pour lequel on connat la valeur de la variable cible Test : vrification du modle sur un 2d chantillon pour lequel on connat la valeur de la variable cible, que lon compare la valeur prdite par le modle si le rsultat du test est insuffisant (daprs la matrice de confusion ou laire sous la courbe ROC), on recommence
lapprentissage

Eventuellement, validation du modle sur un 3e

chantillon, pour avoir une ide du taux derreur non biais du modle Application du modle lensemble de la population scorer, pour dterminer la valeur de la variable cible de chaque individu
Stphane Tuffry - Data Mining - http://data.mining.free.fr 13

08/03/2007

Courbes du taux derreur en apprentissage et en test


taux d'erreur
t donnes apprentissage

mauvaise gnralisation
donnes de test et d'application

bonne gnralisation

taille de l'chantillon
taille suffisante

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

14

Sur-apprentissage en rgression

(A) Modle trop simp le

(B) Bon modle

(C) Modle trop complexe

Un modle trop pouss dans la phase dapprentissage :


pouse toutes les fluctuations de lchantillon dapprentissage, dtecte ainsi de fausses liaisons, et les applique tort sur dautres chantillons

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

15

Sur-apprentissage en classement
(C) Modle trop complexe

(B) Bon modle

) (A

ro et l d Mo

le mp si

Source : Olivier Bousquet

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

16

Sur-apprentissage dans un arbre


variable cible (Echantillon d'apprentissage) Noeud 0 Catgorie % n N 82,46 282 O 17,54 60 Total (100,00) 342 rglements crdit Taux d'amlioration=0,0286

la scission des nuds 9 et 10 manque de robustesse


>1,165 Noeud 4 Catgorie % N 62,64 O 37,36 Total (26,61)

<=1,165 Noeud 3 Catgorie % n N 89,64 225 O 10,36 26 Total (73,39) 251 abonnement autre service 2 Taux d'amlioration=0,0112

n 57 34 91

la diffrence entre les erreurs en test et en apprentissage est dautant plus petite que lchantillon dapprentissage est plus grand
variable cible (Echantillon de Test) Noeud 0 Catgorie % n N 83,39 241 O 16,61 48 Total (100,00) 289 rglements crdit Taux d'amlioration=0,0286
>55,5

nb achats Taux d'amlioration=0,0054

<=101,935 Noeud 5 Catgorie % N 91,32 O 8,68 Total (70,76)

>101,935 Noeud 6 Catgorie % n N 44,44 4 O 55,56 5 Total (2,63) 9

<=55,5 Noeud 9 Catgorie % N 68,66 O 31,34 Total (19,59)

n 221 21 242

n 46 21 67

Noeud 10 Catgorie % N 45,83 O 54,17 Total (7,02)

n 11 13 24

<=1,165

>1,165 Noeud 4 Catgorie % N 66,67 O 33,33 Total (31,14)

Intrt du bootstrap aggregating (bagging) avec des mthodes relativement peu robustes comme les arbres de dcision
08/03/2007

Noeud 3 Catgorie % n N 90,95 181 O 9,05 18 Total (68,86) 199 abonnement autre service 2 Taux d'amlioration=0,0112

n 60 30 90

nb achats Taux d'amlioration=0,0054

<=101,935 Noeud 5 Catgorie % n N 91,19 176 O 8,81 17 Total (66,78) 193

>101,935 Noeud 6 Catgorie % n N 83,33 5 O 16,67 1 Total (2,08) 6

<=55,5 Noeud 9 Catgorie % N 65,52 O 34,48 Total (20,07)

>55,5 Noeud 10 Catgorie % N 68,75 O 31,25 Total (11,07)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

n 38 20 58

17

n 22 10 32

Mthodes de slection

Pas pas : Ascendante ( forward )

Pas pas : Descendante ( backward )

aucune variable au dpart : on ajoute 1 1 celles qui contribuent le plus au modle (en un sens pouvant varier selon les cas : R, maximum de vraisemblance) toutes les variables au dpart : on rejette 1 1 celles qui sont insuffisamment corrles la cible et contribuent le moins au modle comme Ascendante , mais on peut retrancher une variable chaque tape si son pouvoir discriminant est contenu dans une combinaison des nouvelles variables

Pas pas : Mixte ( stepwise )

Globale : Algorithme de Furnival et Wilson (si 2 groupes)

cherche ajuster le R en comparant une partie de tous les modles possibles (limine les moins intressants a priori)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 18 08/03/2007

Validation des modles

Etape trs importante car des modles peuvent :



donner de faux rsultats (donnes non fiables) mal se gnraliser dans lespace (autre chantillon) ou le temps (chantillon postrieur)
sur-apprentissage

tre peu efficaces (dterminer avec 2 % derreur un phnomne dont la probabilit dapparition = 1 % !) tre incomprhensibles ou inacceptables par les utilisateurs
souvent en raison des variables utilises

Principaux outils de comparaison :


matrices de confusion, courbes ROC, de lift, et indices associs

ne pas correspondre aux attentes

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

19

Matrice de confusion
valeur prdite valeur relle A B TOTAL A 1800 300 B 200 1700 4000 TOTAL

Taux derreur = (200 + 300) / 4000 = 12,5 %


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 20

QPRESS

Pour vrifier que le % dindividus correctement classs


est significativement meilleur que par un classement alatoire, on calcule la quantit suivante :

QPRESS

(n (c k )) = n (k 1)

QPRESS suit un 1 degr de libert Ici on a : QPRESS = (4000 - 7000)/4000 = 2250


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr

n = taille chantillon k = nb de groupes c = nb dindividus bien classs

valeur critique : 10,8 0,1 % - 6,63 1 % - 3,84 5 %

21

Sensibilit et spcificit

Pour un score devant discriminer un groupe A (les positifs


; ex : les risqus) par rapport un autre groupe B (les ngatifs ; ex : les non risqus), on dfinit 2 fonctions du seuil de sparation s du score :
sensibilit = (s) = Proba(score s / A) = probabilit de bien dtecter un positif spcificit = (s) = Proba(score < s / B) = probabilit de bien dtecter un ngatif

Pour un modle, on cherche s qui maximise (s) tout en


minimisant les faux positifs 1 - (s) = Proba(score s / B)

Le meilleur modle : permet de capturer le plus possible


de vrais positifs avec le moins possible de faux positifs
Stphane Tuffry - Data Mining - http://data.mining.free.fr 08/03/2007 22

faux positifs : ngatifs considrs comme positifs cause du score

1,0

Courbe ROC

La courbe ROC
(receiver operating characteristic)

,8

Source de la courbe
,5 Ligne de rfrence arbre de dcision analys discriminante 0,0 rgress. logistique

,3

sur laxe Y : sensibilit = (s) 0,0 ,3 ,5 ,8 1,0 sur laxe X : 1 - spcificit = 1 - (s) proportion y de vrais positifs en fonction de la proportion x de faux positifs, lorsque l'on fait varier le seuil s du score Exemple : si la courbe ROC passe par le point (0,3;0,9), ce point correspond un seuil s qui est tel que : si on considre risqus tous les individus dont le score s, on a dtect : 30% de faux risqus (30% des non-risqus ont un score s : ce sont les faux positifs) 90 % de vrais risqus (90 % des risqus ont un score s : ce sont les vrais positifs) NB : 0,3 ne correspond pas 30 % de la population totale !
Stphane Tuffry - Data Mining - http://data.mining.free.fr

08/03/2007

23

Interprtation de la courbe ROC


prdiction parfaite
p m rd qu eill icti a eu on u re pr ha p i d sa r e ict rd ha qu ion sa rd au pr ha d sa ict rd ion au

seuil s minimum : tous classs en +

seuil s maximum : tous classs en taux de faux positifs


08/03/2007

taux de vrais positifs

prdiction nulle

Stphane Tuffry - Data Mining - http://data.mining.free.fr

24

Matrice de confusion et courbe ROC


Tableau de classementa Prvu CHD Etape 1 Observ CHD Pourcentage global a. La valeur de csure est ,500 0 0 1 45 14 1 12 29 Pourcentage correct 78,9 67,4 74,0

Sensibilit = 29/43 = 0,67


Seuil 0,5 (= csure de
la matrice de confusion)

1 - Spcificit = 1-(45/57) = 0,21

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

25

Exemple de courbe ROC

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

26

Courbes ROC avec entre progressive des variables du modle


S ensi bi l i t 1. 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4

0. 3 0. 2 0. 1 0. 0 0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 1 - S pci f i ci t 0. 6 0. 7 0. 8 0. 9 1. 0

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

27

AUC : Aire sous la courbe ROC

Aire AUC sous la courbe ROC = probabilit que score(x)


> score(y), si x est tir au hasard dans le groupe A ( prdire) et y dans le groupe B 1re mthode destimation : par la mthode des trapzes 2e mthode destimation : par les paires concordantes

3e mthode quivalente : par le test de Mann-Whitney


08/03/2007

soit n1 (resp. n2) le nb dobservations dans A (resp. B) on sintresse aux n1n2 paires formes dun x dans A et dun y dans B parmi ces t paires : on a concordance si score(x) > score(y) ; discordance si score(x) < score(y) soient nc = nb de paires concordantes ; nd = nb de paires discordantes ; n1n2 - nc - nd = nb dex aequo aire sous la courbe ROC (nc + 0,5[t - nc - nd]) / n1n2 U = n1n2(1 AUC) ou n1n2AUC

Stphane Tuffry - Data Mining - http://data.mining.free.fr

28

AUC : calcul avec SAS


%macro AUC(data,target,score); ODS OUTPUT WilcoxonScores = wilcoxon; PROC NPAR1WAY WILCOXON DATA=&data CORRECT=no; CLASS &target; U est VAR &score; DATA auc; SET wilcoxon; n0 = N; R0 = SumOfScores ; n1 = lag(N); R1 = lag(SumOfScores) ; U1 = (n1*n0) + (n1*(n1+1)/2) - R1; U0 = (n1*n0) + (n0*(n0+1)/2) - R0; U = min(U1,U0); AUC = 1- (U/(n1*n0));

la statistique de Mann-Whitney, qui se dduit des effectifs ni et de la somme des rangs Ri fournis par la proc NPAR1WAY de SAS
n (n + 1) n (n + 1) R1 , n1n2 + 2 2 R2 U = minn1n2 + 1 1 2 2

PROC PRINT DATA=auc (KEEP = AUC) NOOBS; nb TITLE "Aire sous la courbe ROC"; un WHERE AUC > .; RUN; Obs Class N SumOfScores n2 %mend AUC;
1 2 1 0 711 1490 1038858.0 1384443.0

de fois o un score du groupe 1 > score du groupe 2


R2 1038858 1384443 n1 . 711 R1 . 1038858 U1 . 273648 U2 . 785742 U . 273648 AUC . 0.74169

711 1490

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

29

Utilisation de lAUC

Le

modle est d'autant meilleur que lAUC est plus proche de 1 Si l'AUC = 0,5 : modle pas meilleur qu'une notation alatoire. Il existe un intervalle de confiance sur lAUC et un test associ :
Variable(s) de rsultats tests arbre de dcision rgression logistique analyse discriminante Zone ,887 ,906 ,889 Erreur Std. ,008 ,007 ,008
a

Signif. b asymptotique ,000000 ,000000 ,000000

Intervalle de confiance 95% asymptotique Borne Borne infrieure suprieure ,872 ,902 ,892 ,921 ,873 ,904

a. Dans l'hypothse non-paramtrique

Permet de comparer des modles de types diffrents


sur tout chantillon
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 30

b. Hypothse nulle /: zone vraie = 0.5

Courbe de lift

La courbe de lift :

% d'individus rpondants

Trs utilise en marketing

sur laxe Y : on a la sensibilit = (s) = Proba(score s / A) sur laxe X : on a Proba(score s) proportion y de vrais positifs en fonction des individus slectionns, lorsque l'on fait varier le seuil s du score mme ordonne que la courbe ROC, mais une abscisse gnralement plus grande > la courbe de lift est gnralement sous la courbe ROC
100 90 80 70 60 50 40 30 20 10 0 0 25 50 75 100 ciblage idal

ciblage alatoire ciblage par scoring

Lift = 40/10 = 4

% d'individus cibls

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

31

Lien entre courbe de lift et ROC

Relation entre laire AUL sous la courbe de lift et laire AUC :


Cas particuliers :

AUC AUL = p(AUC 0,5) AUL = p/2 + (1 p)AUC o p = Proba(A) = probabilit a priori de lvnement dans la population AUC = 1 AUL = p/2 + (1 p) = 1 p/2 AUC = 0,5 AUL = p/2 + 1/2 p/2 = 0,5 p petit AUC et AUL sont proches AUC1 > AUC2 AUL1 > AUL2

Ces indicateurs sont des critres universels de comparaison


de modles

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

32

Technique de prdiction :

La rgression linaire

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

33

Cadre du modle linaire

Dans le modle simple : X et Y deux variables continues Les valeurs xi de X sont contrles et sans erreur de
mesure On observe les valeurs correspondantes y1, , yn de Y Exemples :

X peut tre le temps et Y une grandeur mesure diffrentes dates Y peut tre la diffrence de potentiel mesure aux bornes dune rsistance pour diffrentes valeurs de lintensit du courant

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

34

Hypothse fondamentale du modle linaire

X et Y ne sont pas indpendantes et la connaissance de X

permet damliorer la connaissance de Y Savoir que X = x permet rarement de connatre exactement la valeur de Y, mais on suppose que cela de connatre la valeur moyenne E(Y|X=x), lesprance conditionnelle de Y sachant que X = x On suppose plus prcisment que E(Y|X=x) est une fonction linaire de x, ce qui permet dcrire

Rgression linaire multiple :



08/03/2007

E(yi) = + xi pour tout i = 1, , n yi = + xi + i, avec E(i) = 0 pour tout i = 1, , n n = nb dobservations et i = rsidu de lobservation i
Y = 0 + 1X1 + + kXk + important : on suppose lindpendance linaire des Xi
Stphane Tuffry - Data Mining - http://data.mining.free.fr

35

Autres hypothses du modle linaire

La

variance des rsidus est la mme pour toutes les valeurs de X (homoscdasticit)
V(i) = s

Les rsidus sont linairement indpendants Les rsidus sont normalement distribus
i ~ N(0,s) cov(i,j) = 0 i j

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

36

La composante stochastique

Lexistence de la composante stochastique (i) correspond


au fait que :

On a quivalence de i ~ N(0,s) et Y/X=xi ~ N( + xi,s) Cette hypothse de normalit classe la rgression linaire
dans la famille des modles linaires gnraux (GLM) Dans les modles linaires gnraliss, la loi de Y/X=xi nest plus ncessairement normale
Stphane Tuffry - Data Mining - http://data.mining.free.fr 37

des individus avec mme valeur xi peuvent avoir des rponses Y diffrentes (variation synchronique) OU un mme individu mesur plusieurs reprises avec la mme valeur xi peut avoir des rponses Y diffrentes (variation diachronique)

08/03/2007

Que signifie la variance des estimateurs ?

Aprs avoir postul lexistence dune relation E(Y) = + On natteint jamais les vritables coefficients et car :

le modle linaire nest le plus souvent quune approximation de la ralit on ne travaille que sur des chantillons et non la population entire on commet des erreurs de mesure

X, on recherche des estimateurs a et b de et

Des

modles sur des chantillons diffrents donneront des estimateurs a et b diffrents Do une variance des estimateurs a et b

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

38

Mthode des moindres carrs ordinaires (MCO)


On recherche des estimateurs a et b de et qui minimisent les rsidus i= (Yi - i), o i est prdit par la droite = a + bX Lestimateur b de la pente est :
i i i

b = Y/X
Yi

( x x )( y y ) cov( X ,Y ) = b= ( x x )
i X i

Lestimateur a de la constante vaut : a= y - b. x La droite = a + bX ajuste le nuage de points

X
39

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Proprits des estimateurs MCO

Les estimateurs MCO des coefficients ont :



une moyenne : E(a) et E(b) une variance :
constante : a= s [1/n + x / (xi avec : s = variance des rsidus > IC au niveau 100(1-)% = a t/2,n-p-1. a x)]

La mthode MCO est optimale car :


pente : b = s [1/ (xi x)] > IC au niveau 100(1-)% = b t/2,n-p-1. b

Hypothse de normalit i ~ N(0,s) les estimateurs


sont de variance minimale parmi tous les estimateurs
Stphane Tuffry - Data Mining - http://data.mining.free.fr 08/03/2007

les estimateurs sont sans biais : E(a) = et E(b) = de variance minimale parmi tous les estimateurs linaires on dit quils sont BLUE : best linear unbiased estimators

40

Consquence des formules de variance

Pour diminuer les variances : Mais



diminuer la variance rsiduelle s de lchantillon augmenter la taille n de lchantillon augmenter ltendue des valeurs observes de X

: on accepte parfois (rgression ridge) des estimateurs lgrement biaiss pour diminuer leur variance

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

41

Coefficients de rgression et tests


Coefficientsa Coefficients non s tandardis s Erreur B s tandard 1467,643 62,422 -37,060 2,295 -29,774 3,492 Coefficients s tandardis s Bta -,866 -,457 t 23,512 -16,147 -8,526 Signification ,000 ,000 ,000

Modle 1

(cons tante) TEMPERAT ISOLATIO

a. Variable dpendante : CONSOMMA

Valeur des coefficients

cart-type des estimateurs

Coefficients comparables entre eux

Statistique t de Student

Une valeur t > 2 ou t < - 2 est significative 95 % dun coeff 0


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 42

Sommes des carrs


somme des carrs rsiduels SCE = ( yi yi )
i 2

somme des carrs totale SCT = ( yi y )


i 2

yi

somme des carrs dus la rg. SCR = ( yi y )


i 2

xi
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 43

Test global du modle


ANOVAb Modle 1 Somme des carrs Rgress ion 3267046,7 Rs idu 116727,068 Total 3383773,7 ddl 2 12 14 Carr moyen 1633523,333 9727,256 F 167,933 Signification ,000 a

a. Valeurs prdites : (cons tantes ), ISOLATIO, TEMPERAT b. Variable dpendante : CONSOMMA

SCR p F= SCE n p 1
suit une loi F de ddl (p,n-p-1) sous lhypothse nulle (H0) : (b1 = b2 = 0)
08/03/2007

SCR SCE p n

2 prdicteurs rgression linaire multiple = somme des carrs Rgression = somme des carrs Erreurs = nombre de variables = nombre dobservations

R = SCR / SCT = 1 (SCE / SCT)

variance s du terme derreur = 98,627


44

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Coefficient de dtermination

R2 = SCR / SCT R2 = proportion de variation de la variable cible

explique par tous les prdicteurs (syn : rgresseurs) Bon ajustement si R proche de 1 R2 est biais (optimiste car croissant avec le nb de variables) et on lui substitue le R ajust :

n p 1 R ajust est toujours < R et peut tre < 0


Modle 1 R ,983 a R-deux ,966 R-deux ajus t ,960 Erreur s tandard de l'es timation 98,627
45

(1 R )(n 1) R ajust = 1
2 2

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Intervalles de confiance

0 = a + bx0 est une prvision de Y et de la moyenne E(Y)


en tout point x0 de lintervalle de mesure (car E(i) = 0) Daprs les formules sur les variances des estimateurs, les IC (100-) % de E(Y) et Y au point X0 sont :

0 t/2,n-p-1. s [1/n + (x0 E(Y)

x) / (xi -

x)]1/2 pour

Autrement dit, la variance de la valeur prdite pour une


observation est :

0 t/2,n-p-1. s [1 + 1/n + (x0 x) / (xi x)]1/2 pour Y (on a ajout la variance du terme derreur)

>Plus difficile destimer une valeur possible de Y sachant


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr

s [1 + 1/n + (x0 -

x) / (xi -

x)]

X=x0 que la moyenne des valeurs possibles sachant X=x0


46

IC de la moyenne et des observations

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

47

Prcautions dutilisation

Le modle nest valide que sur ltendue des observations,

et surtout prs de la moyenne de X Un petit chantillon (< 20) ne dtecte que les relations fortes ; un grand dtecte toutes les relations mme faibles (rejet de H0 malgr petit R) Minimum de 5 observations (mieux vaut en avoir > 15) Attention aux rsidus standardiss (rsidu / s) > 3 Pour savoir si les extrmes ont une influence : les enlever et voir les coeff. restent dans les IC des coeff. initiaux Attention aux distances de Cook > 1

Rgression multiple : vrifier labsence de multicolinarit


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 48

la distance de Cook dune observation i mesure lcart des coefficients avec et sans cette observation

Vrification du respect des hypothses de base

Analyse des rsidus

Test dautocorrlation

(statistique de DurbinWatson comprise entre 1,5 et 2,5) Test dhomoscdasticit (galit de la variance en fonction de y) Test de normalit (test de Kolmogorov) Vrification dabsence de points extrmes Un diagramme des rsidus est souvent trs parlant

Les rsidus standardiss doivent tre rpartis alatoirement autour de 0 et rester dans les bornes [-3 ; +3]
49

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Problme 1 : Autocorrlation des rsidus


rsidus = Y - rsidus positifs

rsidus ngatifs

Corrlation entre i et i+1 les valeurs moyennes de Y sont sur-estimes ; les autres sont sous-estimes
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 50

Problme 2 : Htroscdasticit des rsidus


rsidus = Y - rsidus positifs

rsidus ngatifs

Appliquer le test de Levene en regroupant en classes les valeurs de Y Estimation prcise de Y en fonction de X lorsque Y est petit ; grande incertitude quand Y est grand remplacer Y par son log, son inverse ou sa racine carre
(ou par le carr ou lexponentielle quand la variance diminue)
08/03/2007

ou utiliser la Stphane Tuffry - Datamoindres carrs pondrs mthode des Mining - http://data.mining.free.fr

51

Homoscdasticit et autocorrlation des rsidus

Utiliser un diagramme des rsidus pour vrifier


lhomoscdasticit et labsence dautocorrlation Statistique de Durbin-Watson pour lautocorrlation :


= (i - i-1) / i vaut entre 0 et 4 proche de 2 si pas dautocorrlation (OK entre 1,5 et 2,5) < 2 pour des corrlations positives > 2 pour des corrlations ngatives

R ,983 a
08/03/2007

R-deux ,966

R-deux ajus t ,960

Durbin-Wats on 1,819
52

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Normalit des rsidus

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

53

Utilit des tests sur les rsidus 1/3

Exemple tir de :

Tomassone, Lesquoy, Millier : La Rgression nouveaux regards sur une ancienne mthode statistique, 1986 Anscombe F.J. : Graphs in Statistical Analysis, 1973

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

54

Utilit des tests sur les rsidus 2/3

Dans les 5 rgressions : mmes sommes de carrs, mme


Analyse de variance Source Model Error Corrected Total DF 1 14 15 Somme des carrs 234.6 145.4 380.1 Rsultats estims des paramtres Variable D F Rsultat estim des paramtres Erreur std Valeur du test t Pr > |t| Tolrance Inflation de variance Carr moyen 234.6 10.4 Valeur F 22.6 Pr > F 0.0003 Root MSE Dependent Mean Coeff Var 3.22 12.60 25.60 R-Square Adj R-Sq

variance rsiduelle, mme F-ratio, mmes R, mme droite de rgression, mmes carts-types des coefficients

0.62 0.59

Intercept x

1 0.52 1 0.81

2.67 0.17

0.20 4.75

0.8476 0.0003

. 1.00

0 1.00

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

55

ya 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 7
yc 30

Utilit des tests sur les rsidus 3/3


yb 18 17 16

Et pourtant ! Les situations sont bien diffrentes


8 9 10 11 12 13 14 15 x 16 17 18 19 20 21 22 23

15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 7
yd 20 19

10

11

12

13

14

15 x

16

17

18

19

20

21

22

23

ye 30

18 17 16

20

15 14 13 12

20

10

11 10 9
0 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

10

8
30 31 32 33 34 xe

7 6 5 4

0 7 8 9 10 11 12 13 14 15 x 16 17 18 19 20 21 22 23

3 7 8 9 10 11 12 13 14 15 x 16 17 18 19 20 21 22 23

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

56

Rgression 1 :

Durbin-Watson D Number of Observations 1st Order Autocorrelation

2.538 16 -0.277

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

57

Rgression 2 :

Forte autocorrlation positive !


Durbin-Watson D Number of Observations 1st Order Autocorrelation 0.374 16 0.595

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

58

Rgression 3 :

Durbin-Watson D Number of Observations 1st Order Autocorrelation

1.289 16 -0.015

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

59

Rgression 4 :

Durbin-Watson D Number of Observations 1st Order Autocorrelation

1.821 16 -0.094

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

60

Rgression 5 :

Durbin-Watson D Number of Observations 1st Order Autocorrelation

0.310 16 0.723

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

61

Attention la multicolinarit

Multicolinarit = plusieurs variables explicatives


(fortement) corrles entre elles. Cela entrane :

Mesure par :

des coefficients de rgression trs sensibles aux fluctuations mme faibles des donnes des carts-types levs pour les coefficients de rgression une dgradation de la prcision des prvisions

tolrance Xi = 1 - (coefficient de dtermination de la rgression de Xi sur les autres variables)


doit tre > 0,2

VIF = 1 / tolrance
doit tre < 5
Stphane Tuffry - Data Mining - http://data.mining.free.fr 62

08/03/2007

Attention la multicolinarit

Autre mesure possible : les indices de conditionnement


de la matrice des corrlations

on a multicolinarit modre (resp. forte) si prsence dindices k > 10 (resp. 30) on regarde si on peut relier la valeur propre correspondante une forte contribution (> 50 %) de la composante la variance de 2 ou plusieurs variables

Modle 1

Dimens ion 1 2 3

Valeur propre 2,145 ,766 ,089

Indice de condition nement 1,000 1,673 4,915

Proportions de la variance (cons tante) TEMPERAT ISOLATIO ,03 ,07 ,03 ,02 ,92 ,02 ,95 ,01 ,95

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

63

Effets de la multicolinarit

X1 et X2 presque colinaires => coefficients de la

rgression trs sensibles de petites variations de Y

Petite variation de Y

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

64

Solutions la multicolinarit

Suppression des variables concernes accepter de baisser un peu R pour baisser la multicolinarit Transformation (logarithme) des variables concernes Rgression biaise (ridge) lerreur quadratique de lestimation de la pente de la rgression = variance_estimateur + (biais_estimateur), do une erreur quadratique avec biais < erreur sans biais si le biais est compens par une faible variance Rgression sur composantes principales passer ensuite des coefficients de rgression des composantes principales ceux des variables initiales Rgression PLS (Partial Least Squares) utilisable mme si : nb observations << nb variables on dmontre (De Jong, 1993) que la rgression PLS sur k composantes est toujours plus prdictive que la rgression sur les k premires composantes principales
Stphane Tuffry - Data Mining - http://data.mining.free.fr 65

08/03/2007

Technique de prdiction :

La rgression PLS

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

66

La mthode Partial Least Squares

Cest une mthode qui se juxtapose dautres mthodes

de rgression (linaire, logistique, analyse discriminante) Utile en prsence dun grand nombre de variables prsentant de la colinarit ou des valeurs manquantes Algorithme simple (suite de rgressions simples, sans inversion ni diagonalisation de matrices) efficace sur de grands volumes de donnes Utilisation en chimie, industrie ptrolifre, cosmtique, biologie, mdecine, agroalimentaire

en cosmtique : conserver tous les ingrdients dun produit trs nombreuses variables explicatives en agroalimentaire (analyse sensorielle) : expliquer le classement dun produit par plusieurs dgustateurs (variable Y), en fonction de ses proprits (jusqu plusieurs centaines) physico-chimiques et de saveur
Stphane Tuffry - Data Mining - http://data.mining.free.fr 67

08/03/2007

Principe de la rgression PLS

Rgression PLS invente par Herman et Svante Wold

(1983) On a Y variable expliquer et Xi variables explicatives Le choix des variables transformes rsulte dun compromis entre : maximisation de la variance des Xi (ACP) maximisation de la corrlation entre Xi et Y (rgression) donc : on cherche les combinaisons linaires Tj des Xi maximisant cov(Tj,Y) = r(Tj,Y).var(Tj).var(Y)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

68

Etape 1 de la rgression PLS

On cherche une combinaison T1 = i 1iXi des Xi qui

maximise la variance de T1 et la corrlation entre T1 et Y maximiser cov(T1,Y) = r(T1,Y).var(T1).var(Y) La solution est 1i = cov(Y,Xi) en normant ||(11,, 1p)|| = 1

La rgression de Y sur T1 donne un rsidu Y1 : La rgression de Xi sur T1 donne aussi des rsidus X1i : On ritre en remplaant Y par Y1 et les Xi par les X1i
tape 2
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 69

on a donc T1 = i cov(Y,Xi).Xi

Y = c1T1 + Y1

Xi = c1iT1 + X1i

Etape 2 de la rgression PLS

On rpte la mme opration en remplaant Y par son

rsidu Y1 et les Xi par leurs rsidus X1i On obtient une combinaison T2 = i 2iXi en normant ||(21,, 2p)|| = 1 Puis on rgresse Y1 sur T2 et les X1i sur T2 : on obtient des rsidus Y2 et X2i

On ritre jusqu ce que le nb de composantes Tk donne


un rsultat satisfaisant (vrifi par validation croise) A la fin, on a :

Y1 = c2T2 + Y2 X1i = c2iT2 + X2i

Et on remplace cette expression par une expression de la


rgression de Y en fonction des Xi
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 70

Y = c1T1 + Y1 = c1T1 + c2T2 + Y2 = j cjTj + rsidu

Choix du nombre de composantes 1/2

On procde gnralement par validation croise On se place ltape h et on veut dcider de conserver ou

non la composante h On calcule la somme des carrs rsiduels (REsidual Sum of Squares), comme en rgression linaire : RESSh = k(y(h-1),k- (h-1),k)
o (h-1),k = chth,k = prvision de y(h-1),k calcule pour chaque observation k

Ensuite, les observations sont partages en G groupes, et


on ralise G fois ltape courante de lalgorithme PLS sur Yh-1 et les Xh-1,i en tant chaque fois un groupe

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

71

Choix du nombre de composantes 2/2

Puis on calcule la somme prdite des carrs rsiduels

(Predicted REsidual Sum of Squares) PRESSh Analogue la prcdente mais qui vite le surapprentissage en remplaant la prvision (h-1),k par la prvision (h-1),-k dduite de lanalyse ralise sans le groupe contenant lobservation k PRESSh = k(y(h-1),k - (h-1),-k) On retient la composante h si : PRESSh .RESSh-1 2 en posant RESS0 = ( y i y) Souvent : on fixe = 0,95 si n < 100, et = 1 si n 100

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

72

Nombre de composantes PLS

Cette slection par validation croise permet de retenir


un nombre de composantes :

suffisamment grand pour expliquer lessentiel de la variance des Xi et de Y suffisamment petit pour viter le sur-apprentissage

En pratique le nombre de composantes dpasse


rarement 3 ou 4

Notons galement que la rgression PLS sur k

composantes est toujours plus prdictive que la rgression sur les k premires composantes principales

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

73

Gnralisations de la rgression PLS

Rgression PLS2 dveloppe pour prdire plusieurs Yj


simultanment

Rgression logistique PLS dveloppe par Michel


Tenenhaus (2000)

on peut avoir nb(Yj) >> nb observations

Et rgression logistique sur composantes PLS, quivalente


la rgression logistique PLS mais plus simple :
on commence par une rgression PLS de lindicatrice de Y sur les Xi (ou des indicatrices de Y, si Y a plus de 2 modalits) on obtient k composantes PLS (ventuellement : k = 1) puis on effectue une rgression logistique de Y sur les composantes PLS
Stphane Tuffry - Data Mining - http://data.mining.free.fr 74

algorithme analogue au prcdent

08/03/2007

Technique de prdiction :

La rgression robuste

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

75

Rgression robuste

Mthodes valides quand les rsidus des observations ne


suivent pas une loi normale

Peu sensibles aux outliers De plus en plus rpandues dans les logiciels statistiques

SAS, R, S-PLUS, STATA

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

76

Algorithmes de rgression robuste

Moindres mdianes de carrs Moindres carrs winsoriss (least winsored squares) Moindres carrs crts (least trimmed squares) Moindres carrs pondrs

suppression des x centiles extrmes par linverse de la variance de la variable expliquer, pour compenser lhtroscdasticit, en posant par ex. pi = s/si au voisinage dun point xi

remplacement des x centiles extrmes par Qx

Moindres carrs localement pondrs sur les voisins (LOESS) Doubles moindres carrs Rgression spline Mthode du noyau
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 77

Autres algorithmes de rgression

Moindres valeurs absolues

x x
i

Rgression polynomiale Rgression sur variables qualitatives par codage optimal


(moindres carrs alterns)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

78

Influence des rsidus


100
Moindres carrs

80 Influence 60 40 20 0 -10
08/03/2007

Moindres valeurs absolues Winsoriss

Ecrts

Rsidus

10

20
79

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Principe de la rgression LOESS

Pour chaque point x : on prend les n voisins



le nombre n est choisi pour reprsenter un certain % de lensemble des points ce % est appel paramtre de lissage ( smoothing parameter )
il existe des critres pour le choix de ce paramtre

On pondre chacun de ces n points selon une fonction

dcroissante de leur distance x On calcule la rgression pondre sur les n voisins pour prdire x LOESS utilisable avec plusieurs rgresseurs Initiateur : Cleveland (1979)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 80

08/03/2007

Exemples de rgressions LOESS

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

81

Technique de classement :

Analyse discriminante

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

82

Deux problmatiques

Situation Analyse Analyse

: on a un ensemble dindividus appartenant chacun un groupe, le nb de groupes tant fini et > 1 discriminante descriptive : trouver une reprsentation des individus qui spare le mieux les groupes

discriminante prdictive : trouver des rgles daffectation des individus leur groupe discriminante offre des solutions ces deux problmatiques
Stphane Tuffry - Data Mining - http://data.mining.free.fr 83

Lanalyse
08/03/2007

Autre formulation

Situation : on a un ensemble dindividus caractriss par Analyse

une variable expliquer Y qualitative et des variables explicatives Xi quantitatives discriminante descriptive : trouver reprsentation des liaisons entre Y et les Xi une

Analyse discriminante prdictive : trouver des rgles de


prdiction des modalits de Y partir des valeurs des Xi

Cette formulation est quivalente la prcdente


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 84

Les diffrentes formes danalyse discriminante


Mthode descriptive Mthode prdictive (reprsenter les groupes) (prdire lappartenance un groupe) Approche gomtrique Oui Oui
analyse factorielle discriminante analyse discriminante linaire

Approche probabiliste (baysienne)

Non

Oui

multinormalit homoscdasticit quiprobabilit

analyse discriminante linaire a. d. quadratique a. d. non paramtrique rgression logistique

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

85

Technique de classement :

Analyse discriminante gomtrique

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

86

Lanalyse discriminante gomtrique

Y variable cible qualitative k modalits Xj p variables explicatives continues Principe de lanalyse factorielle discriminante : remplacer

correspondant k groupes Gi

les Xj par des axes discriminants : combinaisons linaires des Xj prenant les valeurs les + diffrentes possibles pour des individus diffrant sur la variable cible Remarquer lanalogie avec lACP On a k-1 axes (si nb individus n > p > k) Exemple historique : les iris de Fisher (3 espces 4 variables, longueur et largeur des ptales et des spales)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 87

08/03/2007

Exemple historique : les iris de Fisher


70

80

60

50

70

40

60
30

20

ESPECE
VIRGINICA

50

ESPECE
VIRGINICA

10

PE_L

0 0 10 20 30

SETOSA

SE_L

VERSICOLOR

VERSICOLOR 40 10 20 30 40 50 SETOSA

PE_W

SE_W

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

88

Illustration de la problmatique descriptive

Dans lexemple suivant :


x diffrencie bien les groupes B et C mais non les groupes A et B laxe y diffrencie bien les groupes A et B mais non les groupes B et C

laxe

z
CCCC CCCC CCCC

BBBB BBBB BBBB AAAA AAAA AAAA

en revanche laxe z
diffrencie groupes. bien les

trois

La droite :

z = + 1 spare les B et C z = - 1 spare les A et B z est une fonction de score


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 89

Les

Double objectif de lanalyse factorielle discriminante

n individus forment un nuage de n points dans Rp, form des k sous-nuages Gi diffrencier Variance interclasse ( between ) = variance des barycentres gi ( centrodes ) des classes Gi
B = 1/n ni(gi - g)(gi - g) = matrice de covariance between

Variance

intraclasse ( within ) = moyenne des variances des classes Gi


W = 1/n niVi = matrice de covariance within

Thorme de Huygens : B + W = variance totale V Impossible de trouver un axe u qui simultanment :


maximise la variance interclasse sur u : max uBu minimise la variance intraclasse sur u : min uWu
Stphane Tuffry - Data Mining - http://data.mining.free.fr 90

08/03/2007

Visualisation du double objectif

Maximum de dispersion interclasse : u parallle au segment joignant les centrodes Minimum de dispersion intraclasse : u perpendiculaire laxe principal des ellipses (on suppose lhomoscdasticit)
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 91

Compromis entre les 2 objectifs

On reformule lobjectif : au lieu de maximiser uBu ou


minimiser uWu, on maximise uBu/uWu maximiser uBu/uVu (Huygens) On montre que :

On dit que les mtriques V-1

la solution u est le vecteur propre de V-1B associ la plus grande valeur propre de V-1B u vecteur propre de V-1B u vecteur propre de W-1B, de valeur propre /1-

et W-1 sont quivalentes

Distance d de 2 points x et y : d(x,y) = (x-y) W-1(x-y)


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 92

la mtrique W-1 (de Mahalanobis) est plus utilise par les Anglo-saxons et les diteurs de logiciels

Autre formulation de la solution

ACP du nuage des centrodes gi avec : Ces mtriques correspondent une projection oblique Sans cette oblicit, il sagirait dune simple ACP mais les
groupes seraient mal spars
mal class sans loblicit

mtrique V-1 ou mtrique W-1 quivalente

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

93

ACP avec mtrique usuelle et avec W-1


3
3

meilleure sparation
Fonction discriminante 2

1 VIRGINICA SETOSA 0 VERSICOLOR -1 Barycentres -2 VIRGINICA VERSICOLOR -3 -20 -10 0 10 SETOSA

avec W-1
ESPECE
VIRGINICA VERSICOLOR

CIBLE

-1

Facteur ACP 2

-2

-3 -2 -1 0 1 2

SETOSA

Facteur ACP 1

Fonction discriminante 1

sparation imparfaite
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 94

ACP avec mtrique usuelle et avec W-1


3,00000

Espce
SETOSA VERSICOLOR VIRGINICA

3,00000

Espce
SETOSA VERSICOLOR VIRGINICA

2,00000

2,00000

1,00000

Fonction discriminante 2

1,00000

Facteur ACP 2

0,00000

0,00000

-1,00000

meilleure avec W-1

-1,00000

-2,00000

sparation

-2,00000

-3,00000 -2,00000 -1,00000 0,00000 1,00000 2,00000

-3,00000 -10,00000 -5,00000 0,00000 5,00000 10,00000

Facteur ACP 1

sparation imparfaite

Fonction discriminante 1

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

95

On classe x dans le groupe Gi pour lequel la distance au Minimiser d(x,gi) maximiser (2gi W-1x - gi W-1gi) gi W-1gi = i est une constante ne dpendant pas de x Pour chacun des k groupes Gi, on a une fonction

Analyse discriminante prdictive et fonctions de Fisher

centre gi est minimale : d(x,gi) = (x-gi)W-1(x-gi) = x W-1x 2gi W-1x + gi W-1gi

discriminante de Fisher : i + i,1X1 + i,2X2 + i,pXp et on classe x dans le groupe pour lequel la fonction est maximale
Stphane Tuffry - Data Mining - http://data.mining.free.fr 96

08/03/2007

Exemple des iris de Fisher


Coefficients des fonctions de classement CIBLE VERSICOLOR VIRGINICA 1,56982 1,24458 ,70725 ,36853 ,52115 1,27665 ,64342 2,10791 -72,85261 -104,36832

SETOSA SE_L 2,35442 SE_W 2,35879 PE_L -1,64306 PE_W -1,73984 (Cons tante) -86,30847

Fonctions discriminantes linaires de Fis her


Class e d'affectation pour analys e 1 SETOSA VERSICOLOR VIRGINICA 50 0 0 0 48 2 0 1 49 50 49 51

CIBLE

SETOSA VERSICOLOR VIRGINICA

Total
08/03/2007

Effectif Effectif Effectif Effectif

Total 50 50 50 150
97

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Laspect descriptif est simple (laxe discriminant joint les 2


centrodes) et on sintresse laspect prdictif

Rgle daffectation dans le cas de 2 groupes

On classe x dans le groupe G1 si : 2g1 W-1x - g1 W-1g1 > 2g2 W-1x g2 W-1g2 (g1-g2) W-1x (g1 W-1g1 - g2 W-1g2) > 0
f(x)

f(x) : fonction de score de Fisher D de Mahalanobis : d(g1,g2) = (g1-g2) W-1(g1-g2) W-1(g1-g2) = axe discriminant proportionnel V-1(g1-g2)
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 98

Limite de la rgle gomtrique daffectation



Rgle gomtrique : affecter chaque individu au groupe dont il est le + proche (distance de lindividu au centrode du groupe) ce nest pas trivial car il faut prendre la mtrique W-1 (faire une projection oblique de x sur laxe discriminant) A viter si les 2 groupes ont des probabilits a priori ou des variances diffrentes
g1 I

g2

Dans ce cas : analyse discriminante quadratique (voir plus loin)


Stphane Tuffry - Data Mining - http://data.mining.free.fr 99

08/03/2007

Technique de classement :

Analyse discriminante probabiliste

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

100

Lapproche probabiliste (baysienne)

Pour tout i k, soient :



P(Gi/x) = proba a posteriori dappartenance Gi sachant x (connaissant les caractristiques de x, son dossier ) pi = P(Gi) = proba a priori dappartenance Gi (proportion de Gi dans la population) fi(x) = P(x/Gi) = densit conditionnelle de la loi de x connaissant son groupe Gi

Daprs le thorme de Bayes :

Rgle de classement baysienne :

08/03/2007

P(Gi ) P ( x / Gi ) P(Gi / x) = P(G j ) P( x / G j )


j

on classe x dans le groupe Gi o P(Gi/x) est maximum


Stphane Tuffry - Data Mining - http://data.mining.free.fr 101

3 possibilits pour estimer P(Gi/x)

En

commenant par calculer P(x/Gi) selon une mthode paramtrique (on suppose la multinormalit de P(x/Gi) avec ventuellement galit des i, donc le nb de paramtres du problme est fini : ADL ou ADQ) En commenant par estimer P(x/Gi) selon une mthode non paramtrique (pas dhypothse sur la densit P(x/Gi) : mthode du noyau ou des plus proches voisins) Directement par une approche semi-paramtrique (rgression logistique) o on crit P(Gi/x) sous la forme :

e P (Gi / x) = 'x+ 1+ e
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 102

'x+

La densit dune loi multinormale N(i,i) est :


f i ( x) = 1 (2 ) p / 2

1e possibilit : Hypothse de multinormalit


1 1 exp ( x i )' i ( x i ) det( i ) 2
maximiser pifi(x) :

Daprs Bayes, maximiser P(Gi/x)

1 1 1 maximum Log ( pi ) ( x i )' i ( x i ) log(det( i )) i 2 2

>On obtient une rgle quadratique en x


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 103

Multinormalit

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

104

Hypothse dhomoscdasticit

Sous cette hypothse, on a : 1 = 2 = = k = On classe x dans le groupe Gi pour avoir :


1 1 1 1 1 maximum Log ( pi ) x' x i ' i + x' i ) i 2 2 Les probabilits a priori Soit, puisque x-1x est indpendant de i : ne changent quune
1 1 1 maximum Log ( pi ) i ' i + x' i ) i 2
constante additive

ai Homoscdasticit (+ multinormalit) => on passe dune

Avec en + lquiprobabilit => on a quivalence des rgles


gomtrique (maximiser la fct de Fisher) et baysienne
Stphane Tuffry - Data Mining - http://data.mining.free.fr 08/03/2007 105

fonction quadratique une fonction linaire

Homoscdasticit

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

106

(hypothses de multinormalit et homoscdasticit)


1 p1 exp ( x 1 )' 1 ( x 1 ) 2 P (G1 / x) = 1 1 p1 exp ( x 1 )' 1 ( x 1 ) + p2 exp ( x 2 )' 1 ( x 2 ) 2 2

Cas de 2 groupes

Probabilit dappartenance au groupe 1 :

1 p 1 1 = 1 + 2 exp ( x 1 )' 1 ( x 1 ) + ( x 2 )' 1 ( x 2 ) P (G1 / x) p1 2 2

On peut crire 1/P(G1/x) = 1 + (p2/p1)e-f(x) On classe x dans G1 si P(G1/x) > 0,5 (p2/p1)e-f(x) < 1 f(x) > log(p2/p1)
08/03/2007

avec f(x) = (x-1)-1(x-1) - (x-2)-1(x-2)

Stphane Tuffry - Data Mining - http://data.mining.free.fr

107

Cas de 2 groupes (suite)

Dveloppons la fonction f(x) : On reconnat la fonction de score de Fisher >La rgle baysienne prcdente quivaut la rgle : qui gnralise la rgle gomtrique f(x) > 0 lorsque les
probabilits a priori p1 et p2 sont diffrentes De plus, la probabilit a posteriori P(G1/x) scrit : 1 e f ( x) = P(G1 / x) = p2 f ( x ) p2 f ( x ) +e 1 + e p p 1 1
Stphane Tuffry - Data Mining - http://data.mining.free.fr

f(x) = (1- 2) -1x - (1-11 - 2-12)

fonction de Fisher > log(p2/p1)

Gnralisation de la fonction logistique !


08/03/2007

108

En rsum :

Avec lhypothse de multinormalit : Avec



La rgle baysienne est quadratique

les hypothses dhomoscdasticit :

de

multinormalit

et

Avec les hypothses de multinormalit, dhomoscdasticit


et dquiprobabilit :

La rgle baysienne est linaire Dans le cas de 2 groupes, elle scrit f(x) > log(p2/p1), o f(x) est la fonction de Fisher obtenue par un raisonnement gomtrique

La rgle baysienne est linaire et quivalente la rgle gomtrique Dans le cas de 2 groupes, elle scrit f(x) > 0 et la probabilit a posteriori P(G1/x) scrit sous la forme logistique P(G1/x) = 1 / (1 + e-f(x))
Stphane Tuffry - Data Mining - http://data.mining.free.fr 109

08/03/2007

Cots de mauvais classement

On peut introduire des cots derreurs



C(i/j) = cot de classement dans Gi au lieu de Gj C(i/i) = 0

Cot moyen de classement en Gi = j C(i/j) P(Gj/x) On classe x dans le Gi qui minimise le cot Cas de 2 groupes :

Cot moyen dun classement en G1 : C(1/2) P(G2/x) Cot moyen dun classement en G2 : C(2/1) P(G1/x) On classe x en G1 si C(1/2) P(G2/x) < C(2/1) P(G1/x)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

110

An. Discriminante non paramtrique

Daprs Bayes :

pi f i ( x) P(Gi / x) = p j f j ( x)
j

Problme destimation de la densit : Mthodes :

x x

x x x

frquence f i ( x) = volume

x x

x x x x x

noyau (on fixe le diamtre) k-plus proches voisins (on fixe le nb de voisins)

Condition : avoir un

chantillon de grande taille


Stphane Tuffry - Data Mining - http://data.mining.free.fr 111

08/03/2007

D de Mahalanobis

Dfinition : D = d(g1,g2) = (g1 - g2) W-1(g1 - g2) Le carr D de la distance de Mahalanobis fournit

une mesure de la distance entre les deux groupes discriminer, et donc de la qualit de la discrimination Analogue au R dune rgression Plus D est grand, mieux cest On peut faire un test de Fisher sur lhypothse nulle que tous les centrodes sont gaux Il peut servir de critre dans une rgression pas pas

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

112

Corrlation canonique = coefficient de corrlation entre


la fonction de score et la moyenne par classe (pour chaque individu : on prend la moyenne de la fonction discriminante dans sa classe)

Carr

de la corrlation canonique R = coefficient de dtermination R = proportion de la variance de la fonction discriminante explique par lappartenance lune ou lautre classe discriminer

Autrement dit R = variance interclasse / variance totale

Le but de lanalyse discriminante est de maximiser ce rapport

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

113

Lambda de Wilks

Lambda de Wilks = variance intraclasse / variance totale Plus est bas, mieux cest Test de Fisher sur le lambda
Lambda de Wilks ,381 ,599 ,059 ,071

varie entre 0 et 1 (var. totale = var. intra + var. inter) = 1 => tous les centrodes sont gaux

de Wilks <=> Test de lhypothse nulle que tous les centrodes sont gaux Il peut servir de critre dans une rgression pas pas
F 119,265 49,160 1180,161 960,007 ddl1 2 2 2 2 ddl2 147 147 147 147 Signification ,000 ,000 ,000 ,000

SE_L SE_W PE_L PE_W

Les groupes diffrent beaucoup sur la longueur des ptales


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 114

Matrice de confusion Validation croise


b,c Matrice de confusion

Original

Effectif

a Valid-crois

Effectif

CIBLE SETOSA VERSICOLOR VIRGINICA SETOSA VERSICOLOR VIRGINICA SETOSA VERSICOLOR VIRGINICA SETOSA VERSICOLOR VIRGINICA

Classe(s) d'affectation prvue(s) SETOSA VERSICOLOR VIRGINICA 50 0 0 0 48 2 0 1 49 100,0 ,0 ,0 ,0 96,0 4,0 ,0 2,0 98,0 50 0 0 0 48 2 0 1 49 100,0 ,0 ,0 ,0 96,0 4,0 ,0 2,0 98,0

Total 50 50 50 100,0 100,0 100,0 50 50 50 100,0 100,0 100,0

a. Dans la validation croise, chaque observation est classe par les fonctions drives de toutes les autres observations. b. 98,0% des observations originales classes correctement. c. 98,0% des observations valides-croises classes correctement.

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

115

Rsum des critres statistiques

D de Mahalanobis : test de Fisher Lambda de Wilks = 1 - R : test de Fisher


Pas 1 2 3 4 Nombre de variables 1 2 3 4 Lambda ,059 ,037 ,025 ,023 Statistique 1180,161 307,105 257,503 199,145 F exact ddl1 ddl2 2 147,000 4 292,000 6 290,000 8 288,000 Signification ,000 ,000 ,000 ,000

Matrice de confusion : test Q de Press Coefficients discriminants standardiss (sur var. centres
rduites)

pour comparer limportance des variables explicatives


Stphane Tuffry - Data Mining - http://data.mining.free.fr 116

08/03/2007

Syntaxe SAS de lanalyse discriminante


ods rtf file="c:\fisher_sas.doc"; proc stepdisc data=matable.ascorer; class cible; var var1 var2 vari; run; proc discrim data=matable.ascorer method=normal pool=yes crossvalidate all canonical out=matable.scoree outstat=matable.destat; class cible; priors proportional; var var1 var2 vari; run; proc discrim data=matable.destat testdata=matable.test testout=tout; class cible; var var1 var2 vari; run; ods rtf close ;
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 117

Fichier en sortie OUTSTAT


Obs cible _TYPE_ _NAME_ nbproduits abonnement1 nbenfants abonnement2 evolconsom nbsorties 1 . N 6385.00 6385.00 6385.00 6385.00 6385.00 6385.00

5306.00

5306.00

5306.00

5306.00

5306.00

5306.00

1079.00

1079.00

1079.00

1079.00

1079.00

1079.00

MEAN

8.94

371.28

1.34

23.11

1.16

6.48

MEAN

8.47

281.68

1.38

19.62

1.14

5.96

MEAN

11.23

811.86

1.15

40.28

1.25

9.05

119

LINEAR

_LINEAR_

0.38

-0.00

1.12

-0.00

8.42

0.05

120

LINEAR

_CONST_

-7.50

-7.50

-7.50

-7.50

-7.50

-7.50

121

LINEAR

_LINEAR_

0.48

0.00

0.83

0.01

9.14

0.09

122

LINEAR

_CONST_

-11.27

-11.27

-11.27

-11.27

-11.27

-11.27

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

118

Avantages de lanalyse discriminante

Problme solution analytique directe (inverser W) Optimale quand les hypothses de non colinarit,
homoscdasticit et multinormalit sont vrifies Les coefficients des combinaisons linaires constituent un rsultat relativement explicite Modlise trs bien les phnomnes linaires Aptitude dtecter les phnomnes globaux Ne ncessite pas un gros ensemble dapprentissage Rapidit de calcul du modle Possibilit de slection pas pas Facilit dintgrer des cots derreur de classement Technique implmente dans de nombreux logiciels
Stphane Tuffry - Data Mining - http://data.mining.free.fr

08/03/2007

119

Inconvnients de lanalyse discriminante

Ne dtecte que les phnomnes linaires Ne sapplique pas tout type de donnes (donnes
numriques sans valeurs manquantes)

Hypothses contraignantes, et pour sen rapprocher :



normaliser les variables slectionner soigneusement les variables les + discriminantes liminer les variables colinaires liminer les individus hors norme sil reste de lhtroscdasticit, mieux vaut avoir des classes de tailles comparables travailler sur des populations homognes
il vaut donc mieux pralablement segmenter
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 120

mais possibilit dutiliser une ACM (mthode DISQUAL)

Technique de classement :

La rgression logistique

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

121

La rgression logistique binaire

Y variable cible binaire Y = 0 / 1 Xj p variables explicatives continues, binaires ou qualitatives Gnralisation : rgression logistique polytomique Pb de rgression : modliser lesprance conditionnelle

la variable cible Y est qualitative k modalits cas particulier : Y ordinale (rgression logistique ordinale)

p = 1 rgression logistique simple p > 1 rgression logistique multiple

E(Y/X=x) = Prob(Y=1/X=x) sous la forme E(Y/X=x) = 0 + 1X1 + 2X2 + + pXp Difficult ! Xi continues => terme de droite non born alors que Prob(Y=1/X=x) [0,1] => il faut le transformer !

en rgression linaire : E(Y/X=x) nest pas borne


Stphane Tuffry - Data Mining - http://data.mining.free.fr 122

08/03/2007

Variable expliquer : discrte ou continue

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

123

Prdiction dune variable binaire

Cas dune variable x multinormale : x N(0,1) sur lensemble des Y=0 et x N(1,1) sur lensemble des Y=1. La courbe thorique E(Y/X=x) est donne par fN(1,1)(x)/(fN(1,1)(x)+fN(0,1)(x)) o fN(,) est la fonction de densit de la loi N(,).

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

124

La rgression logistique binaire

Visiblement

la rgression linaire ne convient pas (distribution des rsidus !) La figure fait pressentir que ce nest pas une fonction linaire de 0 + 1X1 + + pXp quil faut appliquer, mais une courbe en S Les courbes en S sont courantes en biologie et en Probabilit d'une maladie cardiaque pidmiologie
en fonction de l'age
1.0 .8

.6

.4

Prob(Y=1 / X)

.2

0.0 10 20 30 40 50 60 70

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

AGE

125

Age and Coronary Heart Disease (CHD)


(source : Hosmer & Lemeshow - chapitre 1)

CHD = maladie coronarienne (rtrcissement des artres du muscle cardiaque)


ID 1 2 3 4 5 97 98 99 100
08/03/2007

AGRP 1 1 1 1 1 8 8 8 8

AGE 20 23 24 25 25 64 64 65 69

CHD 0 0 0 0 1 0 1 1 1
126

Stphane Tuffry - Data Mining - http://data.mining.free.fr

La rgression logistique binaire

Ici, difficile de calculer (x) := Prob(Y=1/X=x) car trop peu


de valeurs de Y pour une valeur x donne On regroupe les valeurs de X par tranches :

proportion des Y = 1 sachant x : meilleur estimateur de la probabilit que Y = 1 sachant x procdure de regroupement en classes : classique en scoring !
1.0

Tableau des effectifs de CHD par tranches dge


Age Group 20 29 30 34 35 39 40 44 45 49 50 54 55 - 59 60 - 69 Total 08/03/2007 n 10 15 12 15 13 8 17 10 100

Graphique des proportions de CHD par tranches dge

CHD CHD M ean .8 absent present (Proportion) 0.10 1 9 .6 0.13 2 13 0.25 3 9 .4 0.33 5 10 0.46 6 7 .2 0.63 5 3 0.76 13 4 0.0 0.80 8 2 1 2 3 4 5 57 43 0.43 AGEGRP Stphane Tuffry - Data Mining - http://data.mining.free.fr
Proportion (CHD)

127

Fonction de lien

On crit donc (x) = Prob(Y=1/X=x) sous la forme :


0 +

jxj
j

( x) =

e 1+ e

0 +

jxj
j

( x) Log ( ) = 0 + 1 x1 + ... + p x p 1 ( x)
Fonction de lien : Logit((x)) avec la rgle baysienne de lanalyse discriminante et le calcul de la probabilit a posteriori dans le cas gaussien homoscdastique
Stphane Tuffry - Data Mining - http://data.mining.free.fr 128

Cohrent
08/03/2007

Les diffrentes fonctions de lien


Modle Fonction de lien Fonction de transfert

Logit

Log (/ [1 ])

exp(t ) exp( z ) = dz 2 1 + exp(t ) (1 + exp( z ) )

Probit (normit) Log-log

fonction inverse de la fonction de rpartition dune loi normale centre rduite Log [ Log(1)]

s (t ) =

z2 / 2

dz

1 exp[ exp(t)]

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

129

Similarit des fonctions de lien


1,2 1 0,8 0,6 0,4 0,2 0 -4,2 -3,4 -2,6 -1,8 -0,2 0,6 1,4 2,2 3,8 4,6 -5 -1 3 logit loglog probit

coeff (logit)

coeff (probit)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

130

Logit : odds-ratio dun rgresseur Xi

Mesure lvolution du rapport des probas dapparition de


lvnement Y=1 contre Y=0 (odds = cote des parieurs) lorsque Xi passe de x x+1. Dans ce cas, logit((x)) augmente du coefficient i de Xi la cote (x)/[1 - (x)] est multiplie par exp(i) Formule gnrale :

( x + 1) /[1 ( x + 1)] =e OR = ( x) /[1 ( x)]

Si Xi est binaire 0/1, la formule devient :


P (Y = 1 / X i = 1) / P(Y = 0 / X i = 1) OR = = e i P (Y = 1 / X i = 0) / P(Y = 0 / X i = 0)
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 131

Interprtation du odds-ratio OR

Attention : odds-ratio du risque relatif (x+1)/(x) Un seul OR pour X binaire



sauf si (x) est petit (dtection de phnomne rare)

Un seul OR est plus douteux pour X continue

ex : comparer les hommes (x=1) et les femmes (x=0) ex : comparer lge 61 et 60, 60 et 59 avec le mme OR ? Risque de manque de robustesse par manque de donnes (voir CHD ci-dessus). Non dtection de la non-linarit.

OR nutiliser sur des variables qualitatives quaprs


dichotomisation (nb indicatrices = nb modalits - 1, en prenant une modalit comme rfrence)


ex : comparer petites villes et campagne avec un OR1 et comparer grandes villes et campagne avec un OR2, car aucune raison davoir OR1 = OR2 indicatrices cres automatiquement par certains logiciels
Stphane Tuffry - Data Mining - http://data.mining.free.fr 132

08/03/2007

Odds-ratio dune variable qualitative

Exemple : comparaison de la probabilit (x) dapparition

dun vnement dans les grandes villes, les petites villes et la campagne
quand on passe de la modalit de rfrence ( campagne ) la modalit petite ville , la cote (x)/[1 - (x)] est multiplie par lexponentielle 0,573 de la diffrence des coefficients B associs la modalit petite ville (B = 0,558) et la modalit de rfrence (B = 0) autrement dit, la cote (x)/[1 - (x)] de lvnement (diffrent de sa probabilit (x) !) est presque 2 fois plus faible dans une petite ville qu la campagne

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

133

Sparation complte des groupes


a, Historique des itrations b,c,d

Variables dans l'quation

Etape a 1

X Y Constante

B E.S. 13,184 2237,865 -2,726 441,662 -100,184 21856,781

Wald ,000 ,000 ,000

ddl 1 1 1

Signif. ,995 ,995 ,996

Exp(B)a. Mthode : Entre Suprieur Infrieur 531846,3 ,000 . b. La cons tante est incluse dans le modle. ,065 ,000 . c. -2log-vrais emblance initiale : 27,726 ,000

Coefficients -2log-vrais emblance Constante Itration X Etape 1 9,271 -,132 ,182 1 2 5,000 -,750 ,344 3 2,974 -2,082 ,563 4 1,747 -4,940 ,908 5 ,816 -10,239 1,505 6 ,319 -16,448 2,252 7 ,121 -22,508 3,017 8 ,045 -28,505 3,789 9 ,017 -34,483 4,567 10 ,006 -40,456 5,349 11 ,002 -46,429 6,131 12 ,001 -52,401 6,914 13 ,000 -58,374 7,698 14 ,000 -64,346 8,481 15 ,000 -70,319 9,265 16 ,000 -76,292 10,049 17 ,000 -82,265 10,833 18 ,000 -88,238 11,617 19 ,000 -94,211 12,400 IC pour Exp(B) 95,0% -100,184 20 ,000 13,184

Y -,071 -,119 -,172 -,237 -,339 -,478 -,629 -,785 -,944 -1,105 -1,267 -1,429 -1,591 -1,753 -1,915 -2,077 -2,239 -2,401 -2,564 -2,726

a. Variable(s ) entres l'tape 1 : X, Y.

d. L'estimation a t interrompue au numro d'itration 20 parce que le nombre maximal d'itrations a t atteint. Solution finale introuvable.

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

134

Sparation incomplte des groupes


a, Historique des itrations b,c,d

Itration Etape 1 1 2 3 4 5 6 7 8 9 10

-2log-vrais emblance 11,036 7,473 5,973 5,323 5,079 5,020 5,014 5,014 5,014 5,014

Constante -,620 -1,523 -3,054 -5,345 -7,956 -9,952 -10,746 -10,840 -10,841 -10,841

Coefficients X ,204 ,373 ,583 ,840 1,113 1,321 1,406 1,417 1,417 1,417

Y -,062 -,100 -,136 -,172 -,207 -,234 -,245 -,247 -,247 -,247

a. Mthode : Entre b. La cons tante est incluse dans le modle. c. -2log-vrais emblance initiale : 27,526 d. L'es timation a t interrompue au numro d'itration 10 parce que les es timations de paramtres ont chang de moins de ,001.

Variables dans l'quation IC pour Exp(B) 95,0% Infrieur Suprieur ,276 61,535 ,539 1,133

Etape a 1

X Y Constante

B 1,417 -,247 -10,841

E.S. 1,379 ,189 13,949

Wald 1,056 1,696 ,604

ddl 1 1 1

Signif. ,304 ,193 ,437

Exp(B) 4,124 ,781 ,000

a. Variable(s ) entres l'tape 1 : X, Y.

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

135

Illustration du dcoupage en classes

Un mme modle de score avec 4 variables explicatives : Comparaison des performances


Variable(s ) de rsultats tests Var explicatives en clas s es ordinales Var explicatives en clas s es nominales Var explicatives continues Zone ,834 ,836 ,820 Erreur Std. ,008 ,008 ,010
a

continues dcoupes en classes considres comme var. ordinales dcoupes en classes considres comme var. nominales
Aire sous la courbe ROC Intervalle de confiance 95% as ymptotique Borne Borne infrieure s uprieure ,818 ,820 ,801 ,850 ,852 ,839

Signif. b asymptotique ,000 ,000 ,000

a. Dans l'hypothse non-paramtrique

Le dcoupage en classes nominales lemporte


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 136

b. Hypothse nulle /: zone vraie = 0.5

Estimation des paramtres

Les donnes
vecteur X x1 M xi M xn Y y1 M yi M yn

Le modle

( x ) = P(Y = 1 / X = x )
i i

0 +

j xi j
j

e 1+ e

0 +

j xi j
j

yi = 0 ou 1

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

137

Recherche du maximum de vraisemblance

Vraisemblance = probabilit dobtenir les donnes


n i i n i yi

= Prob(Y = y / X = x ) = ( x ) (1 ( x ))
i i =1 i =1

observes [(x1,y1),(x2,y2),,(xn,yn)], exprime en fonction des coefficients i


1 y i

0 +

= (
i =1

j xi j
j

0 +
y
i

j xi j
j

e 1+ e

0 +

j
j

) (1 x j
i

e 1+ e

0 +

j
j

) x j
i

1 y i

= L( 0 , 1 ,..., p )

On cherche les coefficients i maximisant la vraisemblance


et ajustant donc le mieux possible les donnes observes Pas de solution analytique utiliser une mthode numrique itrative (ex : Newton-Raphson)
Stphane Tuffry - Data Mining - http://data.mining.free.fr

08/03/2007

138

Cas de la rgression logistique simple

On cherche 2 coefficients 0 et 1 maximisant la


vraisemblance n 0 + 1 x i 0 + 1 x i e e 1 y i yi L(0,1) = ( ) (1 ) 0 + 1 x i 0 + 1 x i 1+ e i =1 1 + e

Pour ces coefficients, la matrice des covariances


Cov ( 0 , 1 ) V (0 ) V ( ) = Cov ( 0 , 1 ) V ( 1 ) est estime par la matrice
Log L( ) 2 = ( 0 , 1 )
2 1

intervient dans la statistique de Wald (voir + loin)

Il faut inverser la matrice hessienne H = LogL()/

impossible en cas de sparation complte des groupes


Stphane Tuffry - Data Mining - http://data.mining.free.fr 139 08/03/2007

Vraisemblance et dviance dun modle

Soit L(0) = vraisemblance du modle rduit la constante Soit L(n) = vraisemblance du modle satur (avec toutes

les variables explicatives et toutes les interactions pour en avoir autant que dobservations distinctes) = vraisemblance maximale Soit L(k) = vraisemblance du modle avec k variables D(k) = 2 [Log L(k) Log L(n)] = Log [L(n)/ L(k)] = 2 Log L(k) puisque L(n) = 1 pour une cible 0/1 But de la rgression logistique : maximiser la vraisemblance L(k) minimiser la dviance D(k)

On dfinit la dviance :

L(k) petit [0,1] -2 Log L(k) [0,+[ avec un terme 2 pour avoir lanalogie entre dviance et (erreurs)
Stphane Tuffry - Data Mining - http://data.mining.free.fr

08/03/2007

140

Comparaison de modles

Pour savoir sil convient dajouter q variables explicatives


un modle qui en contient dj k On calcule la diffrence des dviances >D(k) - D(k+q) = 2 [Log L(k) - Log L(k+q)] Sous lhypothse H0 de la nullit des l derniers coefficients, D(k) - D(k+q) suit un q d de libert >Sous le seuil critique de la valeur du ( si la probabilit dpasse 0,05) : on rejette les q nouvelles variables

Mthode la plus utilise en rgression pas pas


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 141

Autres indicateurs

Cas particulier >D(0) D(k) = 2 [Log L(0) Log L(k)] suit une loi du k degrs de libert sous lhypothse

H0 de la nullit de tous les coefficients 1, , k. Rejet de H0 si cette diffrence dpasse le seuil critique du . Critre dAkaike AIC = 2 Log L(k) + 2(k+1)
k = nb de ddl = nb de paramtres expliquer n = nb total dindividus pnalise les modles complexes

Critre de Schwartz BIC = 2 Log L(k) + (k+1).log n Ces 2 critres permettent de comparer 2 modles
ils doivent tre le plus bas possible
Stphane Tuffry - Data Mining - http://data.mining.free.fr 142 08/03/2007

Le de Wald

Statistique de Wald = (i / cart-type(i) ) suit un 1 degr de libert sous lhypothse nulle H0 :


le coefficient i = 0 >teste la significativit de chaque coefficient i

Mthode utilise en rgression pas pas NB : viter le de Wald si peu dobservations ou si les

en comparant le sous-modle excluant Xi avec le modle incluant toutes les variables on doit avoir Wald > 4 (plus prcisment 3,84 = 1,96 venant du test de Student)

coefficients i sont grands NB : Pour les variables qualitatives plus de 2 modalits, la significativit du rsultat de ce test dpend du choix de la modalit de rfrence
Stphane Tuffry - Data Mining - http://data.mining.free.fr 143

08/03/2007

Le de Wald (suite)

Wald > 3,84 = 1,96 Intervalle de confiance de


lodds-ratio ne contient pas 1
Variables dans l'quation IC pour Exp(B) 95,0% Infrieur Suprieur 1,066 1,171

Etape a 1

AGE Cons tante

B ,111 -5,309

E.S. ,024 1,134

Wald 21,254 21,935

ddl 1 1

Signif. ,000 ,000

Exp(B) 1,117 ,005

a. Variable(s ) entres l'tape 1: AGE.

> 3,84

odds-ratio

1 IC

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

144

Influence du choix de la modalit de rfrence


Codages des variables nominales Codage des paramtres (1) (2) (3) 1,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 CLASS 0 1 2 3 Frquence 885 325 285 706

Variables dans l'quation B Etape a 1 CLASS CLASS(1) CLASS(2) CLASS(3) Constante -,068 1,596 ,740 -1,087 E.S. ,117 ,144 ,148 ,087 Wald 173,228 ,336 123,520 24,920 157,383 ddl 3 1 1 1 1 Signif. ,000 ,562 ,000 ,000 ,000 Exp(B) ,934 4,936 2,096 ,337

Le choix de la modalit de rfrence influe sur la


significativit des coefficients !
Codages des variables nominales Codage des paramtres (1) (2) (3) 1,000 ,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 Etape ,000 ,000 1,000 a Frquence 885 325 285 706 CLASS 0 1 2 3

a. Variable(s) entres l'tape 1 : CLASS.

Variables dans l'quation B CLASS CLASS(1) CLASS(2) CLASS(3) Constante -1,664 -,856 -1,596 ,509 E.S. ,139 ,166 ,144 ,115 Wald 173,228 143,335 26,593 123,520 19,757 ddl 3 1 1 1 1 Signif. ,000 ,000 ,000 ,000 ,000 Exp(B) ,189 ,425 ,203 1,664

a. Variable(s) entres l'tape 1 : CLASS.

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

145

Test de Hosmer et Lemeshow


Test peu puissant : accepte facilement les modles sur les petits effectifs
Tableau de contingence pour le test de Hosmer-Lemeshow CHD = 0 Obs erv Thorique 9 9,213 9 8,657 8 8,095 8 8,037 7 6,947 5 5,322 5 4,200 3 3,736 2 2,134 1 ,661 CHD = 1 Obs erv Thorique 1 ,787 1 1,343 2 1,905 3 2,963 4 4,053 5 4,678 5 5,800 10 9,264 8 7,866 4 4,339

On dcoupe les observations en g = 10 groupes, ordonns par probabilit croissante (fournie par le modle) On calcule le du tableau gx2 des frquences pour lvnement modlis (ici CHD = 1) et lvnement contraire, que lon compare la loi du (g - 2) degrs de liberts Si le est grand (la proba est faible), les frquences observes et attendues sont significativement diffrentes et le modle ne sajuste pas bien aux donnes
146

Etape 1

1 2 3 4 5 6 7 8 9 10

Total 10 10 10 11 11 10 10 13 10 5

Test de Hosmer-Lemeshow Etape 1 Khi-deux ,890 ddl 8 Signif. ,999

trs bon ajustement


08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Autres tests (sur SPSS)


Rcapitulatif du modle Etape 1 -2log-vrais emblance 107,353 a R-deux de Cox & Snell ,254 R-deux de Nagelkerke ,341

Dviance

quivalent du R de la 2 Log L(k) rgression (est > 0 puisque linaire - ne L(k) [0,1]) peut atteindre 1
08/03/2007

R ajust pour varier entre 0 et 1

Stphane Tuffry - Data Mining - http://data.mining.free.fr

147

Autres tests (sur SAS : proc logistic)


Model Fit Statistics Intercept Intercept and Only Covariates
138.663 141.268 136.663 111.353 116.563 107.353

Criterion AIC SC -2 Log L

dviance R de Nagelkerke

R de Cox & Snell

R-Square 0.2541 Max-rescaled R-Square 0.3410


Testing Global Null Hypothesis: BETA=0 Test Likelihood Ratio Score Wald ChiSquare
29.3099 26.3989 21.2541

DF
1 1 1

Pr > ChiSq
<.0001 <.0001 <.0001
148

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Matrice de confusion (avec SAS)


Table de classification Correct Niveau de prob. 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 vnement
57 57 55 51 50 45 41 32 24 6 0

Incorrect vnement
43 42 36 24 18 16 11 7 1 1 total 0 4

Pourcentages Correct
57.0 58.0 62.0 70.0 75.0 72.0 73.0 68.0 63.0 48.0 43.0

Nonvnement
0 1 7 19 25 27 32 36

Nonvnement
0 0 2 6 7 12 16 25 33 51 57

Sensibilit
100.0 100.0 96.5 89.5 87.7 78.9 71.9 56.1 42.1 10.5 0.0

Spcificit
0.0 2.3 16.3 44.2 58.1 62.8 74.4 83.7 90.7 97.7 100.0

POS fausse
43.0 42.4 39.6 32.0 26.5 26.2 21.2 17.9 14.3 14.3 .

NEG fausse
. 0.0 22.2 24.0 21.9 30.8 33.3 41.0 45.8 54.8 57.0

prdit 0.900 1.000 Observ 0 1 total


08/03/2007

0.800

0 45 16 61

39 42 43

12 27 39

57 43 100

Correct = (45 + 27) / 100 = 72 % Sensibilit = 45 / 57 = 78,9 % Spcificit = 27 / 43 = 62,8 % POS fausse = 16 / 61 = 26,2 % NEG fausse = 12 / 39 = 30,8 %
149

Stphane Tuffry - Data Mining - http://data.mining.free.fr

Syntaxe SAS de la rgression logistique


ods rtf file= c:\logistic_sas.doc ; proc logistic data=matable.ascorer outmodel=mon.modele; class var_quali_1 (ref=A1) var_quali_i (ref=Ai) / param=ref; model cible (ref=0)= Hosmer-Lemeshow var_quali_1 var_quali_i var_quanti_1 var_quanti_j / selection=forward sle=.05 maxiter=25 outroc=roc rsquare lackfit ctable; R output out=matable.scoree predicted=proba resdev=deviance; run; enregistre la probabilit symbol1 i=join v=none c=blue; niv. de signif. en entre prdite pour lvnement proc gplot data=roc; where _step_ in (1 7); matrice de confusion title Courbe ROC; plot _sensit_*_1mspec_=1 / vaxis=0 to 1 by .1 cframe=ligr; run; ods rtf close ; proc logistic inmodel=mon.modele; score data= autretable.ascorer;run;

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

150

Tests de concordance

Soit n1 (resp. n2) le nb dobservations o Y=0 (resp. Y=1) Soit n = n1+ n2 le nb total dobservations On sintresse aux t = n1n2 paires formes dune

observation o Y = 1 et dune observation o Y = 0 Parmi ces t paires : on a concordance si la proba estime que Y = 1 est + grande quand Y = 1 que quand Y = 0 Soient nc = nb de paires concordantes ; nd = nb de paires discordantes ; t - nc - nd = nb dex-quo ( tied ) Association of Predicted Probabilities and Observed Responses D de Somers = (nc - nd) / t = indice Gini Percent Concordant Somers' D Gamma = (nc - nd) / (nc + nd) Percent Discordant Gamma Percent Tied Tau-a Tau-a = 2 (nc - nd) / n(n-1) Pairs c c = (nc + 0,5[t - nc - nd]) / t = aire sous la courbe ROC Plus ces indices sont proches de 1, meilleur est le modle
79.0 19.0 0.600 0.612 0.297 0.800 2.0 2451

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

151

Effet de la multicolinarit

Rgression

logistique avec 2 variables VAR1 et VAR2 VAR1 VAR2 fortement corrles :


VAR1 VAR2 Corrlation de Pears on 1 ,975** N 36841 36300 Corrlation de Pears on ,975** 1 N 36300 36300

On
Etape a 1

**. La corrlation es t s ignificative au niveau 0.01

constate une dgradation du pouvoir prdictif de VAR1 avec lintroduction de VAR2 :


VAR1 Cons tante B ,098 -4,898 E.S. ,004 ,062 Wald 759,291 6290,898 ddl 1 1 Signif. ,000 ,000 Exp(B) 1,103 ,007 IC pour Exp(B) 95,0% Infrieur Suprieur 1,096 1,111

a. Variable(s ) entres l'tape 1: VAR1.

Etape a 2

VAR1 VAR2 Cons tante

B ,020 ,092 -4,993

E.S. ,014 ,015 ,065

Wald 2,125 39,280 5867,055

ddl 1 1 1

Signif. ,145 ,000 ,000

Exp(B) 1,020 1,096 ,007

IC pour Exp(B) 95,0% Infrieur Suprieur ,993 1,048 1,065 1,129

08/03/2007

a. Variable(s ) entres l'tape 2: VAR2.

Stphane Tuffry - Data Mining - http://data.mining.free.fr

152

Rsum des tests

Test du sur indicateur de Wald (> 4) 1 IC 95 % de lodds-ratio = exp(ai 1,96(ai)) Test du sur 2 [Log L(0) Log L(k)] (Test de Hosmer et Lemeshow sur comparaison

08/03/2007

proportions observes et thoriques) R de Cox-Snell et R ajust de Nagelkerke AIC et BIC Multicolinarit (tolrance, VIF, indices de conditionnement) Matrice de confusion, tests de concordance, aire sous la Association of Predicted Probabilities and courbe ROC Observed Responses Percent Concordant 79.0 Somers' D 0.600 Moins de 20 degrs de libert 0.612 Percent Discordant 19.0 Gamma (variables ou modalits) sont 2.0 Tau-a 0.297 Percent Tied 2451 c 0.800 Pairs souvent retenus
Stphane Tuffry - Data Mining - http://data.mining.free.fr 153

des

La

Influence de lchantillonnage 1/2


rgression logistique consiste crire (x) := P(Y=1/X=x) sous la forme

Si lon effectue un chantillonnage E indpendant de X,


alors la probabilit E(x) := P(Y=1/X=x,XE) vrifie

( x) Log ( ) = 0 + 1 x1 + ... + p x p 1 ( x)

avec des coefficients maximisant la vraisemblance

Ceci est vrai de logit mais non de probit !


08/03/2007

avec 0 = 0 + constante (= log(p1,E/p0,E) + log(p0/p1)) pi = proportion de cas Y=i dans la population totale Pi,E = proportion de cas Y=i dans lchantillon E
Stphane Tuffry - Data Mining - http://data.mining.free.fr 154

E ( x) Log ( ) = '0 + 1 x1 + ... + p x p 1 E ( x)

Si

Influence de lchantillonnage 2/2


E est indpendant de X, la mme fonction de score permet de dcider si Y=1 (en changeant seulement le seuil de dcision)

Un

cas particulier : p1,E/p0,E = p1/p0 => 0 = 0

score calcul sur une sous-population E peut sappliquer une sous-population E, si la distribution des variables explicatives est la mme dans E et E, mme si lvnement prdire est plus rare dans E
en appliquant le calcul de P(Y=1/X=x,XE) aux XE et en fixant le mme seuil dacceptation P(Y=1/X=x,XE) > so, on aura le mme % daccepts dans E (puisque les var. explicatives ont mmes distributions dans E et E), mais la frquence de lvnement sera plus faible dans les accepts de E, puisque leur proba P(Y=1/X=x,XE) < P(Y=1/X=x,XE)
Stphane Tuffry - Data Mining - http://data.mining.free.fr

08/03/2007

155

Avantages de la rgression logistique

Permet de traiter les variables explicatives discrtes,

qualitatives ou continues Permet de traiter une variable cible ordinale ou nominale Hypothses + gnrales que lanalyse discriminante (pas de multinormalit ni dhomoscdasticit) Permet de traiter les rponses non monotones Odds-ratios facilement interprtables (pour modle logit) Peut prendre en compte les interactions entre variables Modlise directement une probabilit Fournit des intervalles de confiance sur les rsultats Nombreux tests statistiques disponibles Possibilit de slection pas pas des variables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 156

08/03/2007

Limites de la rgression logistique

Suppose la non-colinarit des variables explicatives Approximation numrique :



calcul itratif moins rapide que le calcul direct de lanalyse discriminante moindre prcision que lanalyse discriminante quand les hypothses de cette dernire sont satisfaites ne converge pas toujours vers une solution optimale inoprant dans le cas de la sparation complte des groupes ! puisque la log-vraisemblance sapproche de 0 (iris de Fisher et sparation des Setosa !)

Ne traite pas les valeurs manquantes de variables


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr

continues (sauf dcoupage en classes) Sensible aux valeurs hors norme de variables continues (sauf dcoupage en classes)

157

La rgression logistique ordinale 1/2

La variable cible Y est ordinale Fonctions de lien :



logit probit log-log : Log [ Log(1)]
utilis quand les valeurs leves de la cible sont plus probables ex : valeurs 3 5 / 5 dans une enqute de satisfaction

Cauchit : tg[( -0,5)]


utilis quand les valeurs extrmes de la cible sont plus probables ex : valeur 5 / 5 dans une enqute de satisfaction

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

158

La rgression logistique ordinale 2/2

Y prend m valeurs ordonnes, notes 1, 2, , m Dans le modle pentes gales : on suppose >Seule la constante dpend de r On parle de proportional odds model car :
i

que le logit des probabilits cumulatives scrit sous la forme

logit (Prob(Y r / X = x) ) = r + i xi , pour 1 r < m

Prob(Y r / X = x) / Prob(Y > r / X = x) i = = exp i ( xi x'i ) Prob(Y r / X = x' ) / Prob(Y > r / X = x' ) exp( r + i x'i ) i

exp( r + i xi )
i

>Les odds-ratios pour un r


08/03/2007

fix sont tous proportionnels entre eux et le rapport ne dpend pas de r Le modle pentes diffrentes : vite trs complexe
Stphane Tuffry - Data Mining - http://data.mining.free.fr 159

La rgression logistique multinomiale

Y prend m valeurs non ordonnes, notes 1, 2, , m On choisit une modalit de rfrence, par exemple m On crit les probabilits sous la forme :
exp j + jk x k k , j = 1, ..., m 1 Prob(Y = j / X = x) = m 1 1 + exp i + ik x k i =1 k 1 Prob(Y = m / X = x) = m 1 1 + exp i + ik x k i =1 k Cest un modle plus complexe que le modle ordinal pentes gales, car les coefficients ij dpendent de j
Stphane Tuffry - Data Mining - http://data.mining.free.fr 160

08/03/2007

Techniques de classement :

Le modle linaire gnral Le modle linaire gnralis Le modle additif gnralis

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

161

Terminologie

Covariables

(quantitatives) Facteurs = (qualitatives)

variables variables

explicatives explicatives

continues catgorielles

niveaux dun facteur = ses modalits

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

162

Effets fixes et alatoires 1/2

Effets fixes des facteurs et covariables



contrls par lexprimentateur en prenant toutes les valeurs dont on veut quantifier leffet sur la variable cible similaire une analyse de rgression but prdictif en prenant un chantillon de valeurs on veut quantifier la proportion de la variance de la variable cible quils expliquent similaire une analyse de corrlation but descriptif et non prdictif Prsence deffets fixes et alatoires
Stphane Tuffry - Data Mining - http://data.mining.free.fr 163

Effets alatoires des facteurs et covariables

Effets mixtes
08/03/2007

Effets fixes et alatoires 2/2

Ex 1 : comparaison de 2 traitements sur plusieurs patients


dans plusieurs hpitaux mettre la variable hpital en effet alatoire

Ex

permet dviter le biais d au lieu o est administr le traitement ne permet pas de prdire le rsultat dans un nouvel hpital

2 : comparaison de 2 conditionnements dun produit sur les achats de plusieurs consommateurs dans plusieurs magasins mettre la variable magasin en effet alatoire
permet dviter le biais d au lieu dachat ne permet pas de prdire les achats dans un nouveau magasin
Stphane Tuffry - Data Mining - http://data.mining.free.fr 164

08/03/2007

Modle mesures rptes 1/2

Les

mesures y1, y2, yk de Y prdire sur plusieurs individus sont corrles (donnes longitudinales) car
il sagit dun mme individu observ k fois (par ex : avant et aprs un traitement mdical) ou de k individus partageant une caractristique commune (mme famille, mme segment)

On sort des hypothses de la rgression linaire et de la


rgression logistique qui supposent labsence de corrlation des mesures sur plusieurs individus Y peut tre continue ou discrte Un modle mesures rptes peut traiter la fois des effets fixes et alatoires
Stphane Tuffry - Data Mining - http://data.mining.free.fr 165

08/03/2007

Modle mesures rptes 2/2

Dans un modle mesures rptes, on a des effets :

intra-individus ( within-subject effects )


influence du temps, du traitement (comparaison du patient avant et aprs traitement) gnralise la comparaison de moyennes sur 2 chantillons apparis

inter-individus ( between-subject effects )


influence des caractristiques du patient, telles que lge, le sexe, la formulation sanguine (comparaison du patient par rapport aux autres)

interactions intra-inter ( within-subject-by-between-subject effects )


interactions du traitement et des caractristiques du patient

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

166

Application aux donnes de survie 1/2

Pour chaque individu, les observations sont rptes dans


le temps des instants t1, t2,, tN On sintresse la survenue dun vnement (par ex : dcs, dpart) un instant ti, modlise par la var cible :
yk = 0 si k < i, yi = 1, pas dobservation si k > i : on connat le dlai de survenue de lvnement on a yk = 0 pour tout k N si lvnement ne survient pas (et si lindividu est observ jusquau bout) : on ne connat que la limite infrieure du dlai de survenue de lvnement (cette donne est censure ) la donne est aussi censure si lindividu est perdu de vue avant la fin et avant la survenance de lvnement

On

cherche expliquer la variable dlai de survie pour mettre en vidence les facteurs favorables
Stphane Tuffry - Data Mining - http://data.mining.free.fr 167

08/03/2007

Application aux donnes de survie 2/2

Un modle courant (de Cox)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

168

Modle de survie de Kaplan-Meier

Modlise

la dure avant lapparition dun vnement (dcs, dpart) Certaines donnes sont censures (encore vivant), mais on doit en tenir compte (les dures de vie + longues tant + censures, par dfinition) On cherche des modles intgrant la fois les donnes censures et non censures Le modle de Kaplan-Meier permet de calculer une estimation non paramtrique de la fonction de survie : S(t) = Prob(dure de vie > t) Il permet de comparer les fonctions de survie (et les courbes de survie) de plusieurs chantillons ( strates )

correspondant par ex. plusieurs traitements mdicaux diffrents et deffectuer des tests
Stphane Tuffry - Data Mining - http://data.mining.free.fr 169

08/03/2007

Modle de survie de Cox 1/3

Mme champ dapplication que le modle de Kaplan-Meier Le modle de rgression de Cox hasards proportionnels

ex : sexe / nb cigarettes fumes par jour

(1972) permet dajouter p variables explicatives et destimer leurs coefficients dans la fonction de survie, donc leur impact sur la dure de vie () pour les effets des var. explicatives, et forme non paramtrique de la fonction de survie) Pour tout individu i de var. explicatives xij, la fonction de p survie sexprime sous la forme : exp( j xij )

Cest un modle semi-paramtrique (forme paramtrique

o xi0 = 1 i et So(t) est la fonction de survie de base ( hasard de base ), et o lon recherche le vecteur suppos indpendant de i.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 170

S (t , xi ) = S 0 (t )

j =0

08/03/2007

Modle de survie de Cox 2/3

On trouve le vecteur des coefficients de rgression par


maximisation dune fonction de vraisemblance (comme la rgression logistique)


plusieurs mthodes de slection des var. explicatives existent (ascendante, descendante, pas pas) interprtation des odds-ratios ninterviennent pas dans le calcul de interviennent dans le calcul de So(t)

Les donnes censures :

Le terme de hasards proportionnels vient de ce que le


rapport hi(t) / hk(t) ne dpend pas de t
sauf si les xij en dpendent

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

171

Modle de survie de Cox 3/3

Les variables explicatives xij peuvent dpendre ou non de t

(fonctionnalits supplmentaires)

On peut faire des analyses stratifies (sur des chantillons


diffrents), en supposant que le vecteur des coefficients de rgression est indpendant de lindividu i et de la strate

soit en tant une fonction de t, soit en prenant une valeur diffrente par valeur de t

en revanche, le hasard de base So(t) dpend de la strate do lutilisation des analyses stratifies sur une strate Xj quand une variable explicative Xj ne satisfait pas lhypothse des hasards proportionnels
Xj nintervient plus dans le terme exp() mais intervient dans So(t)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

172

Modle linaire gnral (GLM)

Gnralise

faons Les variables explicatives peuvent non seulement tre continues, mais :
qualitatives (ANOVA) continues et qualitatives (ANCOVA) MANOVA, MANCOVA

la rgression linaire multiple de plusieurs

Il peut y avoir plusieurs variables continues expliquer Prise en compte des modles effet fixes, alatoires ou
mixtes Prise en compte des modles mesures rptes

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

173

Modle linaire gnralis (GLZ)

Gnralise

le modle linaire gnral quand Y prdire nest plus forcment continue On crit g(E(Y/X=x)) = 0 + iixi g = fonction de lien monotone diffrentiable (g-1 = fonction de transfert) La distribution de Y/X=x peut tre :

normale (continue : rgression) gamma (continue positive) Bernoulli (discrte : oui/non) de Poisson (discrte : comptage) multinomiale, etc.

g() = g() = -1/ g()=log(/1-)


(logit, probit, log-log)

g() = log()

Y = nb de sinistres (assurance) ou effectif dun tableau de contingence (modle log-linaire)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

174

Modle linaire gnralis (GLZ)

Double gnralisation du modle linaire gnral : loi de

Y/X=x non normale et g 1 Estimation du modle : par la mthode du maximum de vraisemblance (analogue des moindres carrs) valuation du modle : par calcul de la dviance des logvraisemblances (analogue de la somme des carrs des rsidus de la rgression) et test du Existence dune rgression logistique mesures rptes (proc GENMOD de SAS) Variable V offset : sert tarer un modle si la variable cible dpend linairement de V

Source : Nelder-Wedderburn (1972)


08/03/2007

le nb de sinistres dans une compagnie dassurance doit tre quilibr par la variable offset nb de contrats

Stphane Tuffry - Data Mining - http://data.mining.free.fr

175

Modle additif gnralis (GAM)

On crit g(E(Y/X=x)) = 0 + ifi(xi) g : fonction de lien (g-1 : fonction de transfert) fi : fonction quelconque (non-paramtrique : on na plus un
simple paramtre comme le coefficient i) de xi

Mais le modle reste additif (cest i qui combine les fi) La distribution de Y peut tre normale, poissonienne
binomiale

par ex : fi = fonction spline

ou

Modlisation puissante mais attention au sur-apprentissage


et linterprtabilit des rsultats Source : Hastie - Tibshirani (1990)

ex : modle logistique additif gnralis si g() = log(/1- )

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

176

Technique de classement ou prdiction :

Arbres de dcision

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

177

Classement par arbre de dcision

Le premier nud de larbre


feuilles

est la racine Les nuds terminaux sont les chaque feuille est lexpression dune rgle

Le chemin entre la racine et

Si chaque nud de larbre a


au plus deux nuds fils, on dit que larbre est binaire
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr

par exemple : les clients dont lge est < x, les revenus < y et le nombre de comptes > z appartiennent dans n % des cas la classe C

178

Arbre de classement
SURV (Echantillon d'apprentissage) Noeud 0 Catgorie % n 1 32,99 511 0 67,01 1038 Total (100,00) 1549 SEX Prob. ajuste - valeur=0,0000, Khi-deux=341,5082, ddl=1

1 Noeud 1 Catgorie % n 1 21,08 253 0 78,92 947 Total (77,47) 1200

0 Noeud 2 Catgorie % n 1 73,93 258 0 26,07 91 Total (22,53) 349 CLASS Prob. ajuste - valeur=0,0000, Khi-deux=95,2936, ddl=2

1 Noeud 5 Catgorie % n 1 96,46 109 0 3,54 4 Total (7,30) 113

2;0 Noeud 6 Catgorie % n 1 87,00 87 0 13,00 13 Total (6,46) 100

3 Noeud 7 Catgorie % n 1 45,59 62 0 54,41 74 Total (8,78) 136

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

179

Prdiction par arbre de dcision

Les arbres peuvent sappliquer la prdiction : la


variable expliquer X est continue

Cest une alternative la rgression linaire multiple Principe :



la variable X doit avoir une variance + faible dans les nuds fils la variable X doit avoir une moyenne la + distincte possible dun nud fils un autre

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

180

Arbre de rgression
Y Noeud 0 Moyenne Ecart-type n % Prdit 60,0731 4,2786 219 100,00 60,0731

X Prob. ajuste - valeur=0,0000, F=21,4218, ddl=3,215

<=36,600000000000001 Noeud 1 Moyenne Ecart-type n % Prdit 54,8770 2,0632 23 10,50 54,8770

(36,600000000000001,37,880000000000003] Noeud 2 Moyenne Ecart-type n % Prdit 58,3590 3,6065 20 9,13 58,3590

(37,880000000000003,44,920000000000002] Noeud 3 Moyenne Ecart-type n % Prdit 60,3507 2,9637 110 50,23 60,3507

>44,920000000000002 Noeud 4 Moyenne Ecart-type n % Prdit 61,9405 5,2246 66 30,14 61,9405

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

181

Classement par arbre de dcision

Pour rpartir les individus dune population en n classes,

on commence par choisir la variable sparant le mieux les individus de chaque classe en fonction de la variable cible, en sous-populations appeles nuds : le critre prcis (C1) de choix de la variable et de sa valeur teste dpend de chaque type darbre donne naissance un ou plusieurs nuds fils. Chaque nud fils donne son tour naissance un ou plusieurs nuds, et ainsi de suite, jusque ce que :

Pour chaque nud, on rpte la mme opration, ce qui



la sparation des individus ne soit plus possible OU un certain critre (C2) darrt dapprofondissement de larbre soit satisfait
Stphane Tuffry - Data Mining - http://data.mining.free.fr

08/03/2007

182

Critre darrt dun arbre (C2)

Le critre darrt (C2) dpend du type et du paramtrage


de larbre. Souvent (C2) combine plusieurs rgles :

Cest bien entendu sur cette dernire rgle que les arbres
diffrent le plus
exemple : dans les arbres CART la qualit se mesure par la puret desStphane Tuffry - Data Mining - http://data.mining.free.fr nuds 08/03/2007 183

la profondeur de larbre a atteint une limite fixe OU le nombre de feuilles (cest--dire de rgles) a atteint un maximum fix OU leffectif de chaque nud est infrieur une valeur fixe en de de laquelle on estime quil ne faut plus diviser un nud (au moins 75 100 pour de bons rsultats) OU la division ultrieure de tout nud provoquerait la naissance dun fils deffectif infrieur une valeur fixe OU la qualit de larbre est suffisante OU la qualit de larbre naugmente plus de faon sensible.

Principaux critres de scission (C1)

Le critre du 2 Lindice de Gini, lindice Twoing et lentropie



lorsque les variables explicatives sont qualitatives utilis dans larbre CHAID pour tous types de variables explicatives lindice de Gini est utilis dans larbre CART lindice Twoing est utilis dans larbre CART lorsque la variable cible a 3 modalits lentropie est utilise dans les arbres C4.5 et C5.0 plus les classes sont uniformment distribues dans un nud, plus lindice de Gini et lentropie sont levs ; plus le nud est pur, plus ils sont bas
Stphane Tuffry - Data Mining - http://data.mining.free.fr 184

08/03/2007

Les principaux arbres de dcision

CHAID (CHi-Square Automation Interaction Detection)


le test du 2 pour dfinir la variable la plus significative et le dcoupage de ses modalits adapt ltude des variables explicatives discrtes CART (Classification and Regression Tree) cherche maximiser la puret des nuds adapt ltude de tout type de variables explicatives C5.0 de J.R. Quinlan cherche maximiser le gain dinformation ralis en affectant chaque individu une branche de larbre adapt ltude de tout type de variables explicatives
Stphane Tuffry - Data Mining - http://data.mining.free.fr 185

utilise

08/03/2007

Arbre CHAID Algorithme 1/2

Cet arbre est de conception plus ancienne (principe : 1975, Hartigan ; algorithme : 1980, Kass) Il discrtise automatiquement les variables explicatives continues La cible est une variable qualitative k modalits Utilise plusieurs fois la statistique du 2 : 1. On construit pour chaque prdicteur Xi, le tableau de contingence Xi x Y et on effectue les tapes 2 et 3 2. On slectionne la paire de modalits de Xi dont le sous-tableau (2 x k) a le plus petit . Si ce nest pas significatif, on fusionne les 2 modalits et on rpte cette tape
Stphane Tuffry - Data Mining - http://data.mining.free.fr 186

08/03/2007

Arbre CHAID Algorithme 2/2


3. Eventuellement, pour chaque modalit compose
de plus de 3 modalits originales, on dtermine la division binaire au le plus grand. Sil est significatif, on effectue cette division 4. On calcule la significativit (probabilit associe au ) de chaque prdicteur Xi dont les modalits ont t prcdemment regroupes et on retient le plus significatif. Si ce est plus significatif que le seuil choisi, on peut diviser le nud en autant de nudsfils quil y a de modalits aprs regroupement. Si ce natteint pas le seuil spcifi, le nud nest pas divis

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

187

Arbre CHAID Ajustement de Bonferroni

Lors du calcul de la

significativit de tous les prdicteurs (tape 4), on peut multiplier la valeur de la probabilit du par le coefficient de Bonferroni, qui est le nombre de possibilits de regrouper les m modalits dun prdicteur en g groupes (1 g m) Ce calcul permet dviter la survaluation de la significativit des variables modalits multiples
Stphane Tuffry - Data Mining - http://data.mining.free.fr 188

08/03/2007

Arbre CHAID Caractristiques

CHAID traite lensemble des valeurs manquantes comme


une seule catgorie (quil fusionne ventuellement avec une autre)

Il

pas dutilisation de variables de substitution

nest pas binaire et produit des arbres souvent plus larges que profonds
utile pour la discrtisation de variables continues

Il

souffre de labsence de dispositif automatique doptimisation par lagage : quand larbre maximum est labor, les critres darrt tant rencontrs, sa construction sachve Il est utile pour discrtiser les variables continues Le nb de classes obtenues dpend des seuils fixs pour le test du
Stphane Tuffry - Data Mining - http://data.mining.free.fr 189

08/03/2007

Discrtisation avec CHAID 1/4

Supposons que nous voulions prdire une variable cible



prise en compte de la non-monotonie ou non-linarit de la rponse en fonction de lge suppression du problme des extrmes modle plus robuste

laide de certaines variables, dont lge, et que nous voulions dcouper lge en classes pour les raisons dj indiques :

Nous allons dcouper lge en 10 tranches (ou plus, si le


nb dindividus est grand) et regarder le % dindividus dans la cible pour chaque classe dge

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

190

Discrtisation avec CHAID 2/4


cible tranche d'ge 18-25 ans 25-29 ans 29-32 ans 32-35 ans 35-38 ans 38-40 ans 40-42 ans 42-45 ans 45-51 ans > 51 ans Total Effectif % dans Effectif % dans Effectif % dans Effectif % dans Effectif % dans Effectif % dans Effectif % dans Effectif % dans Effectif % dans Effectif % dans Effectif % dans non 127 61,1% 104 45,2% 93 47,9% 113 53,3% 93 49,7% 149 54,8% 108 60,0% 116 54,5% 77 40,5% 71 32,9% 1051 50,0% oui 81 38,9% 126 54,8% 101 52,1% 99 46,7% 94 50,3% 123 45,2% 72 40,0% 97 45,5% 113 59,5% 145 67,1% 1051 50,0% Total 208 100,0% 230 100,0% 194 100,0% 212 100,0% 187 100,0% 272 100,0% 180 100,0% 213 100,0% 190 100,0% 216 100,0% 2102 100,0% tranche d'ge tranche d'ge tranche d'ge tranche d'ge tranche d'ge tranche d'ge tranche d'ge tranche d'ge tranche d'ge tranche d'ge tranche d'ge

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

191

Discrtisation avec CHAID 3/4

Nous voyons que certaines classes sont proches du


point du vue du % dans PROPENS : la cible

tranches 2 et 3 tranches 4 8 tranches 9 et 10

Noeud 0 Catgorie % n O 50,00 1051 N 50,00 1051 Total (100,00) 2102

AGE Prob. ajuste - valeur=0,0000, Khi-deux=50,4032, ddl=3

<=24 Noeud 6 Catgorie % n O 38,94 81 N 61,06 127 Total (9,90) 208

(24,32] Noeud 7 Catgorie % n O 53,54 227 N 46,46 197 Total (20,17) 424

(32,45] Noeud 8 Catgorie % n O 45,58 485 N 54,42 579 Total (50,62) 1064

>45 Noeud 9 Catgorie % n O 63,55 258 N 36,45 148 Total (19,31) 406

Nous voyons que CHAID a fait automatiquement ce que


nous avons fait manuellement
Stphane Tuffry - Data Mining - http://data.mining.free.fr

08/03/2007

192

Discrtisation avec CHAID 4/4

Pour la scission de la racine de larbre, la variable AGE


PROPENS Noeud 0 Catgorie % n O 50,00 1051 N 50,00 1051 Total (100,00) 2102

est retenue devant la variable REVENUS car la proba associe au des REVENUS est plus grande que celle associe lAGE

REVENUS Prob. ajuste - valeur=0,0000, Khi-deux=34,0522, ddl=2

<=350 Noeud 10 Catgorie % n O 33,33 70 N 66,67 140 Total (9,99) 210

(350,2667] Noeud 11 Catgorie % n O 53,60 789 N 46,40 683 Total (70,03) 1472

>2667 Noeud 12 Catgorie % n O 45,71 192 N 54,29 228 Total (19,98) 420

NB : si le nb de ddl nest pas le mme pour 2 variables,


il faut comparer les probas et non les eux-mmes
Stphane Tuffry - Data Mining - http://data.mining.free.fr 08/03/2007 193

Indice de Gini

Indice de Gini dun nud = 1 i fi


Plus

o les fi, i = 1 p, sont les frquences relatives dans le nud des p classes prdire (variable cible) = probabilit que 2 individus, choisis alatoirement dans un nud, appartiennent 2 classes diffrentes

les classes sont uniformment distribues dans un nud, plus lindice de Gini est lev ; plus le nud est pur, plus lindice de Gini est bas Dans le cas de 2 classes, lindice va de 0 (nud pur) 0,5
(mlange maximal). Avec 3 classes, lindice va de 0 2/3.

Chaque sparation en k nuds fils (deffectifs n1, n2 nk)

doit provoquer la plus grande hausse de la puret, donc la plus grande baisse de lindice de Gini. Autrement dit, il faut minimiser : k nk Gini (sparation) = Gini (k e noeud )
i =1

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

194

Arbre CART 1/2

Le critre de division est bas sur lindice de Gini Optimal : toutes les scissions possibles sont examines Optimal : lagage suprieur celui de CHAID

Gnral : variable cible quantitative ou qualitative


CART sert la prdiction comme au classement

une fois larbre maximum construit, lalgorithme en dduit plusieurs sous-arbres par lagages successifs, quil compare entre eux, avant de retenir celui pour lequel le taux derreur mesur en test est le plus bas possible

Gnral : CART permet la prise en compte de cots Cij

de mauvaise affectation (dun individu de la classe j dans la classe i) en les intgrant dans le calcul de lindice de Gini Gini (nud) = Cij f i f j
i j
Stphane Tuffry - Data Mining - http://data.mining.free.fr 195

08/03/2007

Arbre CART 2/2

Un nud est considr comme une feuille lorsque


aucune sparation ne conduit une baisse significative de lindice de Gini Une feuille est affecte la classe C :
la mieux reprsente dans la feuille ou la plus probable dans la feuille (si cette probabilit est diffrente de la proportion cela dpend du paramtrage) ou la moins coteuse si des cots de mauvais classement ont t fixs il est moins large que profond, mais parfois trop profond

Dans sa version de base, CART est binaire


quidivisantes ou quirductrices
diffrent de CHAID

Gre les valeurs manquantes en recourant aux variables


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 196

Traitements des valeurs manquantes

Variables quidivisantes :

Variables quirductrices :

celles qui assurent ( peu prs) la mme puret des nuds que la variable optimale celles qui rpartissent les individus ( peu prs) de la mme faon que la variable optimale

Ces variables servent de variables de rechange

Par cohrence, il vaut mieux utiliser les variables quirductrices


Stphane Tuffry - Data Mining - http://data.mining.free.fr

lorsque la variable optimale a une valeur manquante.

08/03/2007

197

Exemple prcdent avec CART

La

scission de la racine se fait par lAGE, comme avec CHAID, mais larbre binaire est moins quilibr :
PROPENS Noeud 0 Catgorie % n O 50,00 1051 N 50,00 1051 Total (100,00) 2102 AGE Taux d'amlioration=0,0088

<=45,5 Noeud 1 Catgorie % n O 46,76 793 N 53,24 903 Total (80,69) 1696

>45,5 Noeud 2 Catgorie % n O 63,55 258 N 36,45 148 Total (19,31) 406

On peut aussi pnaliser les scissions dsquilibres CART est surtout apte dtecter rapidement des profils
trs marqus
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 198

Mcanisme de scission des nuds avec Gini (ex : catalogue avec prix article et achat)
Article 1 2 3 4 5 6 7 8 9 10 Prix 125 100 70 120 95 60 220 85 75 90 Achat N N N N O N N O N O

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

199

Mcanisme de scission des nuds avec Gini


Achat N N N O O O N N N N

Prix

60

70

75

85

90

95

100

120

125

220

Seuil

55

65

72

80

87

92

97

110

122

172

230

>

>

>

>

>

>

>

>

>

>

>

Gini

0,420

0,400

0,375

0,343

0,417

0,400

0,300

0,343

0,375

0,400

0,420

6/10.(1-0,5-0,5)+4/10.(1-0-1)=6/10*0,5=0,3
08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 200

CART et complexit du choix (C1)

Si

une variable explicative qualitative X a un ensemble E de n valeurs possibles x1, , xn, toute condition de sparation sur cette variable sera de la forme X E, o E E - {0} >2n-1 1 conditions de sparation possibles

Pour

une variable explicative continue X, la complexit est lie au tri des valeurs x1, , xn de X, puisquune fois les variables dans lordre x1 xn , il suffit de trouver lindice k tel que la condition X moyenne (xk , xk+1) soit la meilleure (selon le critre choisi, par exemple Gini).
Stphane Tuffry - Data Mining - http://data.mining.free.fr 201

08/03/2007

Entropie

Entropie (ou information ) dun nud = fi.log(fi)

o les fi, i = 1 p, sont comme ci-dessus les frquences relatives dans le nud des p classes prdire

Plus

les classes sont uniformment distribues dans un nud, plus lentropie est leve ; plus le nud est pur, plus lentropie est basse (elle vaut 0 lorsque le nud ne contient quune seule classe) prcdemment, il faut minimiser lentropie dans les nuds-fils

Comme

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

202

Arbre C5.0

C5.0 (successeur de C4.5) est adapt comme CART tout


type de variables Dispositif doptimisation de larbre par construction puis lagage dun arbre maximum

C5.0 cherche minimiser lentropie dans les nuds-fils C5.0 nest pas binaire. Les variables qualitatives, au
niveau dun nud pre, donnent naissance un nud fils par modalit

le procd dlagage est diffrent de celui de CART et il est li lintervalle de confiance du taux derreur donc leffectif du nud

inconvnient : les nuds voient plus rapidement leurs effectifs baisser (moindre fiabilit statistique)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 203

08/03/2007

Pr-lagage et Post-lagage

Certains arbres (CHAID) effectuent un pr-lagage :

si un approfondissement dune branche dgrade la qualit de larbre : on sarrte l

Dautres arbres (CART, C5.0) effectuent un post-lagage :



lapprofondissement de larbre est men son terme AVANT dlaguer larbre >ce qui est + efficace, car parfois le sur-apprentissage a commenc avant dtre dtect par le taux derreur en test >larbre peut ainsi dcouvrir des informations importantes plus profondes que ce que montre un lagage prmatur

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

204

lagage et sur-apprentissage
tau x d 'e rr e ur
d o n n es d e test e t d ' a p p li c a t io n

d o n n e s a p p r e n tis s a g e

pr o fo nd e ur a r br e

Un
Relative Cost

l ag ue r i ci

bon arbre doit tre lagu pour viter la remonte du taux derreur due au sur-apprentissage
0.30 0.28 0.26 0.24 0.22 0.20 0 100 200 300

0.248

Relative Cost vs Number of Nodes

Source : CART (Salford) Stphane Tuffry - Dataof Nodeshttp://data.mining.free.fr Number Mining 400

08/03/2007

205

Validation croise

Lorsque la population est trop petite pour en extraire un


chantillon dapprentissage et un de test (courant en pharmacie) : On a recours la validation croise (leave-one-out)

La population est scinde en, disons, 10 chantillons de tailles gales, ayant chacun la mme distribution pour la classe ou la variable prdire. On utilise les 9 premiers chantillons comme chantillon dapprentissage, et le 1/10e restant comme chantillon de test. On obtient ainsi un taux derreur en test. On rpte ensuite 9 fois la mme opration sur chaque 9/10e possible, en prenant chaque 1/10e restant pour chantillon de test. On combine enfin les 10 taux derreur obtenus.
Stphane Tuffry - Data Mining - http://data.mining.free.fr 206

08/03/2007

Avantages des arbres de dcision 1

Ils fournissent des rgles : Mthode non paramtrique, non perturbe par :

explicites (contrairement aux rseaux de neurones) qui scrivent directement avec les variables dorigine la distribution non linaire ou non monotone des prdicteurs par rapport la variable cible la colinarit des prdicteurs les interactions entre les prdicteurs les individus hors-normes (isols dans des rgles spcifiques) les fluctuations des prdicteurs non discriminants (larbre slectionne les plus discriminantes)

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

207

Avantages des arbres de dcision 2

Beaucoup

traitent (sans recodification) des donnes htrognes (numriques et non numriques, voire manquantes)
CART traite les valeurs manquantes en remplaant les variables concernes par des variables quidivisantes CHAID traite lensemble des valeurs manquantes dune variable comme une modalit part ou pouvant tre associe une autre viter davoir plus de 15 % de valeurs manquantes leur apprentissage peut tre un peu long, mais beaucoup moins que pour les rseaux de neurones leur application est trs rapide dexcution
Stphane Tuffry - Data Mining - http://data.mining.free.fr 208

Dure de traitement

08/03/2007

Inconvnients des arbres de dcision

Les nuds du niveau n+1 dpendent fortement de ceux


du niveau n

Lapprentissage ncessite un nombre suffisant dindividus

un arbre dtecte des optimums locaux et non globaux >la modification dune seule variable, si elle est place prs du sommet de larbre, peut entirement modifier larbre les variables sont testes squentiellement et non simultanment >manque de robustesse

(pour avoir au moins 30 50 individus / nud) Discontinuit de la rponse de la variable cible en fonction des variables explicatives (nb de valeurs du score = nb de feuilles) Valeurs du score non uniformment distribues
Stphane Tuffry - Data Mining - http://data.mining.free.fr 209

08/03/2007

Pour amliorer les rsultats :

Le rchantillonnage

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

210

Rchantillonnage Bootstrap

Pour estimer un paramtre statistique dont on ne connat


pas la loi dans un chantillon de n individus

On

ou quand son calcul exige une distribution normale non vrifie

lapproche par une suite de B (souvent B 100) tirages alatoires de n individus avec remise
en mesurant le paramtre pour chaque chantillon simul puis en tablissant la distribution des frquences des valeurs de ce paramtre puis en calculant lintervalle de confiance du paramtre (2n-1)!/[n!(n-1)!] chantillons bootstrap diffrents

Invent par Bradley Efron (1979)


08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

211

Principe du bootstrap 1/4

Pb : estimation dun paramtre statistique dfini dans une


population globale et fonction dune loi statistique F

Or, la population et la loi F sont gnralement inconnues

ex : la moyenne = E(F)

Quand

dautant que la population peut tre en volution perptuelle ou quil peut exister des erreurs de mesure, de saisie

nous travaillons sur un jeu de donnes, il sagit presque toujours dun chantillon S = {x1, x2, , xn} tir dune population globale inconnue et on cherche approcher le paramtre par un estimateur dfini sur S, cet estimateur tant obtenu en remplaant la loi inconnue F par la loi empirique , qui est la loi discrte donnant une probabilit 1/n chaque xi
Stphane Tuffry - Data Mining - http://data.mining.free.fr 212

08/03/2007

Principe du bootstrap 2/4

Cet estimateur est appel estimateur plug-in On le note = s(x) pour signifier quil dpend de lchantillon

1 n ex : = xi n i =1

est un estimateur plug-in de la moyenne

Si F est la loi normale de moyenne F et de dcart-type F,


on connat la distribution des estimateurs : elle suit la loi normale de moyenne F et de dcart-type F / n
E( ) = on dit que est un estimateur sans biais. ici, de plus, il est donn par une formule explicite, de mme que son cart-type

Plus gnralement se pose la question de la prcision et de


la robustesse dun estimateur, i.e. de son biais et de son cart-type, gnralement non explicites
Stphane Tuffry - Data Mining - http://data.mining.free.fr 213 08/03/2007

Principe du bootstrap 3/4

Pour calculer lcart-type de lestimateur, il faudrait pouvoir

08/03/2007

dterminer lestimateur sur un grand nombre dchantillons S, S Or, souvent un seul chantillon S nous est donn Ide de Bradley Efron (1979) : reproduire le passage de la population lchantillon S tudi, en faisant jouer S = {x1, x2, , xn} le rle dune nouvelle population et en obtenant les chantillons souhaits S, S par des tirages alatoires avec remise des n individus x1, x2, , xn chantillon bootstrap = chantillon obtenu par tirage avec remise de n individus parmi n Chaque xi peut tre tir plusieurs fois ou ne pas tre tir. Sa probabilit dtre tir est p = 1 (1 1/n)n, p 0,632 (n +)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 214

Principe du bootstrap 4/4

Pour

avoir le biais et lcart-type de lestimateur dun paramtre statistique avec et F inconnues On tire B (souvent B 100) chantillons bootstrap
on calcule sur chacun deux lestimateur plug-in on obtient une distribution des estimateurs plug-in B centre autour de la moyenne 1 *b B b =1 on dduit un cart-type qui fournit lapproximation recherche de lcart-type de lestimateur
on peut dduire un intervalle de confiance [Q2,5 ; Q97,5] 95 % de lestimateur en regardant la 25e plus faible valeur Q2,5 et la 25e plus forte valeur Q97,5 de lestimateur bootstrap

le biais = diffrence entre lestimateur calcul sur S et la moyenne des estimateurs bootstrap
Stphane Tuffry - Data Mining - http://data.mining.free.fr 215

08/03/2007

Application aux problmes de scoring

Les paramtres que lon cherche estimer sont :



le taux derreur (ou de bon classement) ou une autre mesure de performance du modle de score (aire sous la courbe ROC, indice de Gini) les coefficients de la fonction de score les prdictions (probabilits a posteriori dappartenance chaque classe prdire)

La population globale sur laquelle devrait tre construit le


modle est inconnue :

on tire B chantillons bootstrap partir de lchantillon initial puis on construit un modle sur chaque chantillon on obtient des intervalles de confiance des indicateurs de performance (ex : aire sous la courbe ROC) du modle
Stphane Tuffry - Data Mining - http://data.mining.free.fr 216

08/03/2007

Rchantillonnage boostrap et bagging

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

217

Biais des estimations

NB

: la moyenne des taux derreur sur les chantillons bootstrap est une estimation biaise par optimisme Une variante consiste calculer les erreurs sur les seuls individus nappartenant pas lchantillon bootstrap : cest lestimation out-of-bag Comme cette estimation est cette fois-ci biaise par pessimisme, Efron et Tibshirani ont propos de pallier simultanment le biais optimiste de lestimation de la resubstitution et le biais pessimiste du bootstrap out-ofbag par la formule magique du .632-bootstrap : Estimation.632 = 0,368 x estimation(resubstitution) + 0,632 x estimation(bootstrap-oob)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 218

08/03/2007

Rchantillonnage boostrap avec estimation out-of-bag

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

219

Agrgation de modles : le bagging

BAGGING : bootstrap aggregating, Breiman, 1996 Construction dune famille de modles sur n chantillons Ensuite
bootstrap (tirages avec remise)
agrgs par un vote ou une moyenne des estimations (ou une moyenne des probabilits en rgression logistique)

FORETS ALEATOIRES, Breiman, 2001 = Bagging pour les arbres de dcision

contrairement au simple bagging

en ajoutant un tirage alatoire parmi les variables explicatives vite de voir apparatre toujours les mmes variables Efficace sur les souches ( stumps ), arbres 2 feuilles

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

220

Agrgation de modles : le boosting

BOOSTING, Freund et Shapire, 1996 Version adaptative et gnralement


Bagging :

dterministe du

on travaille sur toute la population et chaque itration, on augmente le poids des individus mal classs dans les itrations prcdentes
tandis que le poids des bien classs naugmente pas

Plusieurs algorithmes : Discrete AdaBoost, Real AdaBoost,


LogitBoost, Gentle AdaBoost et ARCING (Adaptative Resampling and Combining) Avec CART, le nb de feuilles est prendre dans [4,8] ou = p, o p = nb de variables explicatives
Stphane Tuffry - Data Mining - http://data.mining.free.fr 221

08/03/2007

Diffrence entre bagging et boosting

En boosting :

Mais :

on construit un ensemble de modles dont on agrge ensuite les prdictions on nutilise pas ncessairement des chantillons bootstrap mais plus souvent lchantillon initial complet chaque itration (sauf dans quelques versions des algorithmes AdaBoost et Arcing) chaque modle est une version adaptative du prcdent, ladaptation consistant augmenter le poids des individus prcdemment mal classs tandis que le poids des bien classs naugmente pas lagrgation finale des modles est ralise par une moyenne de tous les modles dans laquelle chacun est gnralement (sauf dans lalgorithme Arcing) pondr par sa qualit dajustement
Stphane Tuffry - Data Mining - http://data.mining.free.fr 222

08/03/2007

BAGGING Caractristiques Le bagging est alatoire On utilise des chantillons bootstrap Chaque modle produit doit tre performant sur lensemble des observations Dans lagrgation, tous les modles ont le mme poids Technique de rduction moyenne de modles de la variance par

BOOSTING Le boosting est adaptatif et gnralement dterministe On utilise gnralement lchantillon initial complet Chaque modle produit doit tre performant sur certaines observations ; un modle performant sur certains outliers sera moins performant sur les autres individus Dans lagrgation, les modles sont gnralement pondrs selon leur qualit dajustement (sauf lArcing) Peut diminuer la variance et le biais du classifieur de base. Mais la variance peut augmenter avec un classifieur stable Perte de lisibilit quand le classifieur de base est un arbre de dcision Efficace sur les stumps Algorithme squentiel ne pouvant tre paralllis Risque de sur-apprentissage mais globalement suprieur au bagging sur des donnes non bruites (lArcing est moins sensible au bruit) mais quand le boosting fonctionne, il fonctionne mieux

Avantages et inconvnients

Perte de lisibilit quand le classifieur de base est un arbre de dcision Inoprant sur les stumps Possibilit de parallliser lalgorithme Pas de sur-apprentissage : suprieur au boosting en prsence de bruit Le bagging fonctionne souvent mieux que le boosting 08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

223

Questions sur le boosting

Utiliser des chantillons bootstrap ou lchantillon initial

complet ? Quelle fonction derreur pour pondrer les individus (rsidu de la dviance pour un modle linaire gnralis) ? Faut-il chaque itration nutiliser que lerreur de litration prcdente, ou la multiplier par lerreur de toutes les itrations antrieures (risque : zoomer excessivement sur les individus outliers mal classs) ? Que faire des individus trs mal classs litration i : borner leur erreur (ex : limiter 2 le rsidu de la dviance), leur interdire de participer litration i+1, ou ne rien faire ? Comment raliser lagrgation finale ? Prendre en compte tous les modles ou carter ceux qui sajustent trop mal ?
Stphane Tuffry - Data Mining - http://data.mining.free.fr 224

08/03/2007

Rsultat dun boosting (arbre)

Arbre boost

Arbre simple

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

225

Agrgation de modles : Conclusion

Ces

techniques permettent damliorer parfois trs nettement la qualit (tx de biens classs) et la robustesse (sur un autre chantillon) des prdictions
mme avec seulement une centaine ditrations mais surtout sur les arbres de dcision ! et non sur les classifieurs forts (analyse discriminante ou rgression logistique) pour lesquels le gain est faible bonne rsistance au bruit bonne rsistance au sur-apprentissage perte de lisibilit importance du temps machine de traitement

AVANTAGES

INCONVNIENTS

Objet de nombreux travaux thoriques en cours


08/03/2007 Stphane Tuffry - Data Mining - http://data.mining.free.fr 226

Combinaison et agrgation de modles

Sur : Appliquer : La mme technique Quoi : Des techniques diffrentes Le mme chantillon Modle simple Combinaison de modles Des chantillons diffrents Agrgation de modles Mlange (*)

(*) Il pourrait sagir dune suite dchantillons bootstrap auxquels seraient chaque fois appliqus un arbre de dcision et un rseau de neurones.

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

227

Choix dune mthode de modlisation

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

228

Qualits attendues dune mthode 1/2

La prcision

La robustesse

le taux derreur doit tre le plus bas possible, et laire sous la courbe ROC la plus proche possible de 1 tre le moins sensible possible aux fluctuations alatoires de certaines variables et aux valeurs manquantes ne pas dpendre de lchantillon dapprentissage utilis et bien se gnraliser dautres chantillons les rgles du modle doivent tre les plus simples et les moins nombreuses possible

La concision

08/03/2007

Stphane Tuffry - Data Mining - http://data.mining.free.fr

229

Qualits attendues dune mthode 2/2

Des rsultats explicites


La diversit des types de donnes manipules La rapidit de calcul du modle

les rgles du modle doivent tre accessibles et comprhensibles tous les algorithmes ne sont pas aptes manipuler les donnes qualitatives, discrtes, continues et manquantes un apprentissage trop long limite le nombre dessais possibles dans un classement, il est parfois intressant de pouvoir pondrer les erreurs de classement, pour signifier, par exemple, quil est plus grave de classer un patient malade en non-malade que linverse
Stphane Tuffry - Data Mining - http://data.mining.free.fr 230

Les possibilits de paramtrage

08/03/2007

Choix dune mthode : nature des donnes

La rgression linaire traite les variables continues Lanalyse discriminante traite les variables expliquer

08/03/2007

nominales et les variables explicatives continues Lanalyse discriminante DISQUAL traite les variables expliquer nominales et les variables explicatives qualitatives La rgression logistique traite les variables expliquer qualitatives (nominales ou ordinales) et les variables explicatives continues ou qualitatives Les rseaux de neurones traitent les variables continues dans [0,1] et transforment les autres Certains arbres de dcision (CHAID) traitent nativement les variables discrtes et qualitatives (et transforment les autres) CART, C5.0 peuvent aussi traiter les variables continues
Stphane Tuffry - Data Mining - http://data.mining.free.fr

231

Choix dune mthode : prcision, robustesse, concision, lisibilit


Prcision : privilgier la rgression linaire, lanalyse discriminante et la rgression logistique, et parfois les rseaux de neurones en prenant garde au surapprentissage (ne pas avoir trop de neurones dans la ou les couches caches) Robustesse : viter les arbres de dcision et se mfier des rseaux de neurones, prfrer une rgression robuste une rgression linaire par les moindres carrs Concision : privilgier la rgression linaire, lanalyse discriminante et la rgression logistique, ainsi que les arbres sans trop de feuilles Lisibilit : prfrer les arbres de dcision et prohiber les rseaux de neurones. La rgression logistique, DISQUAL, lanalyse discriminante linaire et la rgression linaire fournissent aussi des modles faciles interprter
Stphane Tuffry - Data Mining - http://data.mining.free.fr 232

08/03/2007

Choix dune mthode : autres critres

Peu de donnes : viter les arbres de dcision et les rseaux de neurones Donnes avec des valeurs manquantes : essayer de recourir un arbre, une rgression PLS, ou une rgression logistique en codant les valeurs manquantes comme une classe particulire Les valeurs extrmes de variables continues naffectent pas les arbres de dcision, ni la rgression logistique et DISQUAL quand les variables continues sont dcoupes en classes et les extrmes placs dans 1 ou 2 classes Variables explicatives trs nombreuses ou trs corrles : utiliser les arbres de dcision ou la rgression PLS Mauvaise comprhension de la structure des donnes : rseaux de neurones (sinon exploiter la comprhension des donnes par dautres types de modles)
Stphane Tuffry - Data Mining - http://data.mining.free.fr 233

08/03/2007

Choix dune mthode : topographie des classes discriminer


0 0 0 1 0 1 0 1 0 0 1 1 ? 0 1 1 0 1 ? est class en "1" Analyse discriminante 1 0 0 0 0 0 1 10 1 0 1 1 1 1 ? 00 0 0 1 + 1 + ? 00 1 + 1 0 0 1 1 ? est class en "0" Rseau de neurones 1 0 0 0 0 1 10 1 0 1 1 1 1 ? 00 0 0 1 + 1 + ? 00 + 1 1 0 0 1 1 ? est class en "0" Arbre de dcision 1

Toutes les mthodes inductives de classement dcoupent

lespace des variables en rgions, dont chacune est associe une des classes La forme de ces rgions dpend de la mthode employe
Stphane Tuffry - Data Mining - http://data.mining.free.fr 234

08/03/2007