Vous êtes sur la page 1sur 95

Régression logistique et

analyse discriminante :
comparaisons théoriques et
pratiques

Gilbert Saporta
Conservatoire National des Arts et Métiers
saporta@cnam.fr
http://cedric.cnam.fr/~saporta

1
Bibliographie
 Bardos: « Analyse discriminante », Dunod, 2001
 Celeux, Nakache :« Analyse discriminante sur variables
qualitatives» Polytechnica ,1994
 Droesbeke, Lejeune, Saporta (éditeurs): « Modèles
statistiques pour données qualitatives » Technip, 2005
 Hastie, Tibshirani, Friedman : « The Elements of Statistical
Learning », Springer-Verlag, 2001
 Hosmer, Lemeshow : «Applied logistic regression», Wiley,
2000
 Nakache, Confais: « Statistique explicative appliquée »,
Technip, 2003
 Thomas, Edelman,Crook: «  Credit scoring and its
applications », SIAM, 2002

2
Plan

I L’analyse discriminante
 II La régression logistique
 III Prédicteurs qualitatifs et scoring
 IV Comparaison

3
Objet d’étude
 Observations multidimensionnelles réparties en k
groupes définis a priori. K=2 le plus souvent
 Exemples d’application :
 Pronostic des infarctus (J.P. Nakache)
• 2 groupes : décès, survie (variables médicales)
 Iris de Fisher :
• 3 espèces : 4 variables (longueur et largeur des pétales et sépales)
 Risque des demandeurs de crédit
• 2 groupes : bons, mauvais (variables qualitatives)
 Autres :
• Publipostage, reclassement dans une typologie.

4
Quelques dates :

 Analyse discriminante
 Mahalanobis (crâniologie) 1927
 Fisher (biométrie) 1936
 Régression logistique
 Berkson (biostatistique) 1944
 Cox 1958
 Mc Fadden (économétrie) 1973

5
I : L’analyse discriminante

1. Aspect géomètrique:
- Réduction de dimension, axes et
variables discriminantes.
- Cas de 2 groupes.
- Méthodes géométriques de classement.
2. AD probabiliste

6
Représentation des données

1 2 ... k 1 2 j p

1 0 1 ... 0 X 11 X 12 X 1j X 1p
2 1 0 ... 0
...
i 0 0 ... 1 X i1 X i2 X ij X ip

n 1 0 ... 0 X n1 X n2 X nj X np
indicatrices des groupes variables explicatives

 n points dans p appartenant à k groupes.

7
Réduction de dimension. Recherche d’axes et
de variables discriminantes.

 Dispersion intergroupe W = matrice variance intra


et dispersion intra  W = 1/n ni Vi
groupe.
V1 V2
B = matrice variance inter
g1 g2
 B = 1/n ni (gi - g) (gi - g)’

gk

Vk
V = W + B variance totale

8
Axes discriminants : deux
objectifs

 Dispersion intraclasse minimale : min u’Wu

 Dispersion interclasse maximale : max u’Bu


gk
g1

g2 9
 Simultanéité impossible
min u 'Wu  Wu   u  min i
max u ' Bu  Bu   u  max i
V  W B
 Compromis : u V u  u W u  u B u
min max
 u B u   u B u 
max    ou   
u V u  u W u 
V -1 Bu   u W -1 Bu  u
10
a) V 1 Bu   u
Bu  Vu
Bu   (W  B)u
 1-  Bu   Wu

b) W Bu 
-1
u u
1-
 ACP du nuage des gi avec :
 Métrique V-1
 Métrique W-1 Mahalanobis

11
Nombre d’axes discriminants

 ACP des groupes : dimension de l’espace contenant


les groupes gi

 Si n>p>k (cas usuel), k-1 axes discriminants


Exemple célèbre : Iris de Fisher
• K = 3 Setosa, Versicolor, Virginica
• P=4 longueur pétale, longueur sépale, largeur pétale, largeur sépale
• n1=n2=n3 =50
Donc deux axes

12
Iris setosa Iris versicolor Iris virginica

13
14
15
Cas de deux groupes
 g1 et g2 sont sur une une droite : 1 seul axe discriminant :
e
a   ( g1  g2 )

 RAPPEL : en ACP axe a, facteur u = M a a


d   e, a  M
 e  Ma  e u

 Combinaison discriminante proportionnelle à


M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)
 X 12  X 11 
 
 FONCTION DE FISHER : 1 1
W ( g 2  g1 )  W  
 p 
 X 2  X 1p 
 
16
Historique
p
Historiquement : d=  u jx j =X u
j=1

d1 -d2
Test (de Student) de comparaison de 2 moyennes : T=
sd
Fisher (1936)
Trouver u1, , u 2 , ..., u p tel que T maximal.
Solution : u proportionnel à W -1  g1 -g 2 
n1n 2
Nota : W -1
 g1 -g2  =α V -1
 g1 -g 2  avec : α=1+ D 2p
n  n-2 

17
Distance de MAHALANOBIS
Dp
g2
g1

Distance au sens de la métrique W-1.


D p2   g1  g 2  ' W 1  g1  g2 
2
1. pour p=1 : x x 
D12   1 2  ~ F  1, n-2 
  

2. p quelconque : D p2   g1  g 2  'W 1  g1  g 2 

D p2   g1  g 2   W 1/ 2 W 1/ 2  g1  g 2 
     
W 1/2 X
 Standardisation de chaque composante xj
 Décorrélation...
18
Équivalence régression

 a si G1
Y 
 b si G 2
Régression : y  X   e ˆ   X ' X  1 X ' y
2
D
n
Si a= et b= -
n1
n
n2
 
y  0 alors ˆ  V 1  g1  g 2  R2  p

n  n  2
 D p2
n1n2
n(n  2) R 2
D 2
p
n1n2 1  R 2
19
Équivalence régression
MAIS : Modèle linéaire usuel non valide :
y / x ~N  x  ;  2 I 
en discriminante c’est l’inverse que l’on suppose :
x / y ~N  i ;  

20
Conséquences

Pas de test,
pas d’erreurs standard sur les
coefficients
MAIS possibilité d’utiliser les méthodes de
pas à pas en régression.
Aussi une source de malentendus…

21
Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
 
1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 912
2 1 DECES 90 1.68 18.7 24 31.0 14.0 1476
3 1 DECES 120 1.40 11.7 23 29.0 8.0 1657
4 2 SURVIE 82 1.79 21.8 14 17.5 10.0 782
5 1 DECES 80 1.58 19.7 21 28.0 18.5 1418
6 1 DECES 80 1.13 14.1 18 23.5 9.0 1664
7 2 SURVIE 94 2.04 21.7 23 27.0 10.0 1059
8 2 SURVIE 80 1.19 14.9 16 21.0 16.5 1412
9 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759
10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 807
11 2 SURVIE 90 2.79 31.0 16 25.0 8.0 717
12 2 SURVIE 86 2.70 31.4 15 23.0 9.5 681
13 2 SURVIE 80 2.61 32.6 8 15.0 1.0 460
14 2 SURVIE 61 2.84 47.3 11 17.0 12.0 479
15 2 SURVIE 99 3.12 31.8 15 20.0 11.0 513
16 2 SURVIE 92 2.47 26.8 12 19.0 11.0 615
17 2 SURVIE 96 1.88 19.6 12 19.0 3.0 809
18 2 SURVIE 86 1.70 19.8 10 14.0 10.5 659
19 2 SURVIE 125 3.37 26.9 18 28.0 6.0 665
20 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796

22
SPAD

FONCTION LINEAIRE DISCRIMINANTE


 
VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA
........ VARIABLES FONCTION REGRESSION TYPES STUDENT
NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)
(SEUIL= 0.20)
..............................................................................................
3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154
4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006
5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317
6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897
7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173
8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549
9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849
CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958
..............................................................................................
R2 = 0.55759 F = 16.74489 PROBA = 0.000
D2 = 4.94213 T2 = 124.77643 PROBA = 0.000
..............................................................................................

23
Méthodes géométriques de
y
1 classement
x' . . . xp

1
2  Échantillon d’apprentissage
.
.
.

e  e observation de groupe inconnu


?

e
g1  e classé dans le groupe i tel que:
G1
g2
G2 d(e ; gi) minimal
g3 G3
24
pour deux groupes

 On classe dans G1 si:

2 g1'W 1e  g1'W 1 g1  2 g 2' W 1e  g 2' W 1 g 2


( g1  g 2 ) 'W 1e  12 ( g1'W 1 g1  g 2' W 1 g 2 )

 Fonction de Fisher >c


1 1 1
 Score de Fisher: ( g1  g 2 ) ' W e  1
2 ( g1
'
W g1  g '
2 W g2 )

25
Interprétation géométrique
 Projection sur la droite des centres avec la
métrique W-1
 Dualité axe-frontière plane
frontière

axe discriminant

26
Analyse discriminante
probabiliste.

p j p ro b a b ilité a p r io r i d ’a p p a rte n ir a u g ro u p e j
f j ( x ) lo i d e s x i d a n s le g ro u p e j
p j f j (x)
F o rm u le d e B a y e s : P ( G j / x )  k
 p j f j (x)
j 1

P ro b lè m e : e s tim e r le s f j (x )

27
La règle bayésienne
naïve dans le cadre normal

f j  x  densité d'une N   j ;  j

1  1 
f j  x  exp  -  x   j    j 1  x   j  
 2   j
1/ 2
p/2
 2 
max p j f j  x   attribuer x au groupe le plus
probable a posteriori
 1  1 
max  Ln p j   x   j   j  x   j   Ln
1
 j 
 2 2
règle quadratique
28
La règle bayésienne
Hypothèse simplificatrice : 1   2 ... =
On attribue x au groupe j tel que :
 
 
1 1
max  Ln p j  x  1 x   j 1  j  x  1  j 
 2   2 
 indépendant 
 du groupe 
 
 1 
donc : max  Ln p j   j   j  x   j 
1 1

     2   
 a j 
Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation
de  j par g j et de  par W.

29
Analyse discriminante probabiliste:
cas de deux groupes

Affecter au groupe 1 si : p1 f1  x   p2 f 2  x 

fi  x  

1/ 2
1
 2 
p/2
exp  1/ 
2 x   
i
'  
-1
x  i 
-1 x  1/ 2  1 -1  1  Log p1   2 -1 x  1/ 2  2 -1  2  Log p 2
 1

   '


1 2  
-1 x  Log  p2 / p1   1/ 2  1   2 ' 1  1   2
 
 
fonction de Fisher

30
Fonction de score et probabilité

 Fonction de score S(x) :


p2 1
S ( x )  ( 1  2 ) '  x  ln( )  ( 1  2 ) '  1 ( 1  2 )
1

p1 2
Règle :affecter au groupe 1 si S(x)>0
 Probabilité d’appartenance au groupe 1 :
p1e
 
1/ 2 x  1 1 x  1  
P  G1 / x  
p1e
 
1/ 2 x  1 1 x  1    p e1/ 2 x 2   1 x 2 
2

  
     
1
1/2 x  1 1 x  1 1/2 x   2 1 x   2
1/ p  1  p2 / p1e 31
Probabilité a posteriori

Log  1/p-1   S  x 
-S x 
1/p=1+e
S x
1 e
p S x
 S x
Fonction logistique du score
e 1 1 e

32
S(x)

• Probabilité d’erreur de classement de G2 en G1 :


On classe en G1 si S(x)>0
  p 1  p2  
P( S ( x)  0)  P  U   ln   
 2   p  
 p 1 
33
Posterior Probability of Membership in PRONO

From Classified
Obs PRONO into PRONO DECES SURVIE

1 SURVIE SURVIE 0.4515 0.5485


2 DECES DECES 0.8140 0.1860
3 DECES DECES 0.9597 0.0403
4 SURVIE SURVIE 0.2250 0.7750
5 DECES DECES 0.8112 0.1888
6 DECES DECES 0.8928 0.1072
7 SURVIE SURVIE 0.3202 0.6798
8 SURVIE DECES * 0.8711 0.1289
Proc discrim 9
10
SURVIE
SURVIE
SURVIE
SURVIE
0.0984
0.0797
0.9016
0.9203
SAS 11
12
SURVIE
SURVIE
SURVIE
SURVIE
0.0138
0.0160
0.9862
0.9840
13 SURVIE SURVIE 0.0052 0.9948
14 SURVIE SURVIE 0.0105 0.9895
15 SURVIE SURVIE 0.0019 0.9981
16 SURVIE SURVIE 0.0258 0.9742
17 SURVIE SURVIE 0.2011 0.7989
18 SURVIE SURVIE 0.2260 0.7740
19 SURVIE SURVIE 0.0022 0.9978
20 SURVIE SURVIE 0.1222 0.8778
21 SURVIE SURVIE 0.0014 0.9986
22 DECES DECES 0.8629 0.1371
23 DECES SURVIE * 0.4804 0.5196
24 DECES DECES 0.9900 0.0100
25 DECES DECES 0.5845 0.4155
26 DECES DECES 0.7447 0.2553
27 DECES DECES 0.7067 0.2933
28 DECES SURVIE * 0.4303 0.5697
29 SURVIE SURVIE 0.1118 0.8882
30 SURVIE DECES * 0.5734 0.4266
31 SURVIE SURVIE 0.2124 0.7876
34
II: La régression logistique

II.1 Le modèle logistique simple


II.2 Odds ratios
II.3 Interprétation économètrique
II.4 Estimation
II.5 Tests

35
II.1 Le modèle logistique simple
 Réponse dichotomique : Y = 0 / 1
 Variable explicative : X
 Objectif : Modéliser

(x) = Prob(Y = 1/X = x)

• Le modèle linéaire (x) = 0 + 1x


convient mal lorsque X est continue.
• Le modèle logistique est plus naturel
36
Le modèle logistique simple

0 1x
e Probabilité d'une maladie cardiaque

( x )  0 1x
en fonction de l'age

1 e
1.0

.8

ou .6

.4

Prob(Y=1 / X)
( x ) .2

Log( )  0  1x
1  ( x )
0.0
10 20 30 40 50 60 70

AGE

Fonction de lien : Logit


37
 Il s’agit bien d’un probléme de régression:
 Modélisation de l’espérance conditionnelle
 E(Y/X=x)=f(x)

 Choix de la forme logistique en épidémiologie:


 S’ajuste bien
 Interprétation de 1 en termes d’odds-ratio

38
II.2 Odds-Ratio
Si X binaire (sujet exposé X=1, non exposé
X=0)
e 0  1 e 0
P (Y  1 / X  1)  P (Y  1 / X  0) 
1  e 0  1 1  e 0

P (Y  1/ X  1) / P(Y  0 / X  1)
OR   e 1
P(Y  1/ X  0) / P(Y  0 / X  0)

39
Odds-Ratio
 Mesure l’évolution du rapport des chances
d’apparition de l’événement Y=1 contre Y=0
(la cote des parieurs) lorsque X passe de x à
x+1.
 Formule générale:

 ( x  1) /(1   ( x  1))
OR   e 1
 ( x) /(1   ( x))

40
II.3Interprétation économètrique

 Y possession d’un bien durable par un


ménage: manifestation visible d’une variable
latente Z inobservable continue.
 Z est l’« intensité du désir » de posséder le
bien
 Si Z<seuil Y=0, sinon Y=1
 Le seuil peut être choisi égal à 0

41
Modèle d’utilité
 pour le ménage i de caractéristiques xi (âge, sexe,
revenu, CSP...), la possession du bien procure un
niveau d’utilité U(1,xi), la non possession U(0,xi).

Yi = 1  U(1,xi) > U(0,xi)


Yi = 0  U(0,xi) > U(1,xi)

 Variable latente Zi = U(1,xi) – U(0,xi).

42
Modèle d’utilité (suite)

Zi = xi  + i
πi = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)
F fonction de répartition de -i
 Choix de F:
 Logistique :modèle logit, régression logistique
 Normal: modèle probit

43
II.4 Estimation des paramètres

Les données Le modèle

X Y
x
1y1 ( x i )  P ( Y  1 / X  xi )
 
x
i y
i e0 1x i
   0 1x i
x
nyn 1 e

yi = 1 si caractère présent,
0 sinon

44
Vraisemblance (conditionnelle!)
Probabilité d’observer les données
[(x1,y1), …, (xi,yi), …, (xn,yn)]
n n
1 yi
  Prob( Y  y i / X  x i )   ( x i ) (1  ( x i ))yi

i 1 i 1

n e0 1x i yi e0 1x i 1 yi


 ( 0 1x i
) (1  0 1x i
)  L(0 , 1 )
i 1 1  e 1 e

45
maximum de vraisemblance
 ˆ et maximisent
ˆ L(  0 , 1 )  L(β)
0 1
 Maximisation de la log-vraisemblance

n
(  )  log L(β)    yi log  i ( x)  (1  yi ) log(1   i ( x)) 
i 1
 (  ) n
    ( yi   i ( x))  0
 0 i 1

 (  ) n

 Estimateurs obtenus
 1par 
 des
i 1
( yi   i ( x))  numériques:
xi procédures 0 pas
d’expression analytique

46
Précision (asymptotique) des estimateurs

 La matrice
 V (ˆ ) Cov (ˆ , ˆ )
V(ˆ )   0 0 1

ˆ ˆ ˆ
Cov(0 , 1 ) V(1 ) 

1
  Log L() 
2
est estimée par la matrice 
 2 
 ˆ

47
1
ˆ   (  ) 
2
V ( )   
  2
   ˆ
1
 n n

  ˆi (1  ˆ i )  xiˆi (1  ˆi ) 
 n 
i 1 i 1

 n

  xiˆi (1  ˆi )  xi ˆi (1  ˆi ) 
2

 i 1 i 1 
1
 1 x  
1   1 (1   1 )
ˆ ˆ
 0  1 x1  
           
 

 1 xn   0 ˆ n (1  ˆ n )  1 xn  
 
 ( X VX ) 1.
48
Régression logistique
multiple
 Généralisation à p variables explicatives X1,
…, Xp.
 0  1 x1 ...  p x p
e
 ( x )  P(Y  1/ X  x )   0  1 x1 ...  p x p
1 e

49
The LOGISTIC Procedure

Analysis of Maximum Likelihood Estimates

Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 2.9331 1.7855 2.6985 0.1004


INCAR 1 -4.5491 0.9402 23.4083 <.0001
PAPUL 1 0.2015 0.0622 10.4937 0.0012

Odds Ratio Estimates

Point 95% Wald


Effect Estimate Confidence Limits

INCAR 0.011 0.002 0.067


PAPUL 1.223 1.083 1.382

50
II.5 Tests sur les paramètres

 Trois méthodes sont disponibles pour tester


l’apport de la variable X au modèle :
H0 : j = 0
1. Le test de Wald H1 : j  0

2. La méthode du rapport de vraisemblance


3. Le test du score 

51
Test de Wald

 analogue à un test de Student en régression usuelle, si


l’on considère la statistique w définie par :
ˆ1
w
sˆ( ˆ1 )
 sˆ( ˆ1 ) représente l’estimation de l’écart-type de
l’estimateur de 1.
 Sous l’hypothèse H0, w2 suit approximativement une loi
du khi-deux à un degré de liberté .
 Rejet de H0 si w2  12 (1)
52
Test du rapport des vraisemblances

 L’apport de la variable X est mesuré à l’aide de la


statistique :
Vraisemblance sans la variable
 G = -2 log [ ]
Vraisemblance avec la variable
 
sous l’hypothèse H0 G suit asymptotiquement une loi du
khi-deux à un degré de liberté.
 Vraisemblance sans la variable:
n1 n0
 n1   n0 
   
n  n
53
Test du score
1
score  U (  )ˆ  J ( ˆ H )  U (  ) ˆ
H0  0   H0

 U vecteur des dérivées partielles de la log-


vraisemblance estimées
 Le score suit également asymptotiquement
sous H0 une loi du khi-deux à un degré de
liberté
 En régression logistique simple, le score est
égal à nr2 , où r est le coefficient de corrélation
linéaire (abusif!) entre Y et X
54
Comparaison des 3 tests

55
Tests

 Tests d’absence d’effet de toutes les


variables: H0 : 1 = …… = p = 0
 Rapport de vraisemblance G
 Score test U
 Sous H0, suivent tous deux asymptotiquement une
loi du 2 à p ddl

56
III Discrimination sur variables
qualitatives et scoring
Y variable de groupe
X1 , X 2 , ... , X p Variables explicatives à m1 , m 2 , ... , m p modalités
Exemples
 Solvabilité d'emprunteurs auprès de banques
bon payeur
Y:
mauvais payeur
X1: sexe, X 2 : catégorie professionnelle etc.
 Risque en assurance automobile
bon conducteur (pas d'accidents)
Y:
mauvais conducteur
X1: sexe, X 2 : tranche d'âge, X 3: véhicule sportif ou non ...
 Reclassement dans une typologie
Y numéro de groupe

57
Un peu de (pré)histoire

 Fisher (1940)
 Un seul prédicteur
 Equations de l’AFC
 « Scores » were introduced

58
59
60
Cas général p prédicteurs
 Quantification optimale:
 Donner des scores partiels aux catégories pour
maximiser la distance de Mahalanobis dans Rp
 Une analyse discriminante où les variables
qualitatives sont remplacées par des
indicatrices 0 1 0 1 0 
 
1 0 0 0 1 
0 0 1 1 0 
=X  
 
 
 
 
 
 
61
 X n’est pas de plein rang: rank(X)=mi-p
 Solution classique: éliminer une indicatrice par
prédicteur
 Disqual (Saporta, 1975):
• ADL effectuée sur une sélection de facteurs de l’ACM
de X. Analogue de la régression sur composantes
principales

62
DISQUAL
1ère étape
 Analyse des correspondances du tableau des prédicteurs.

Profession Logement z1 . . . zk
P1 P2 P3 P4 Prop. Loc.
1  
11 0 0 0 0 1
2  
  
20 1 0 0 1 0
.  
 . . Z=  
 .  
X   . . ...

.  
. .  
  
 . .
n  
 k variables
n  numériques : garder les coordonnées factorielles

les plusvariables
discriminantes
indicatrices

63
2ème étape :
k
 Analyse discriminante linéaire (Fisher). Score s  dj z j
j 1

 Score = combinaison linéaire des coordonnées factorielles=


combinaison linéaire des indicatrices des catégories
 Coefficients = grille de notation

 z j = Xu j u j: coordonnées des catégories sur l'axe n°j


 . 
k k  .   j 
s   d j Xu j  X   j
d u j
  z z
j d
 j  V 1
 g1  g 2   1 j2 
j 1  V (z ) 
j 1   . 
   
grille de score
 . 
64
Sélection des axes

 Selon l’ordre de  l’ACM


 % d’inertie
 Selon le pouvoir discriminant
 Student sur 2 groupes,F sur k groupes

65
Example assurance (SPAD)

 1106 contrats automobile belges:


 2 groupes: « 1 bons», « 2 mauvais »
 9 prédicteurs: 20 catégories
 Usage (2), sexe (3), langue (2), age (3), région
(2), bonus-malus (2), puissance (2), durée (2),
age du véhicule (2)

66
ACM

67
ADL de Fisher sur les composantes
 FACTEURS CORRELATIONS COEFFICIENTS
..............................................................................
1 F 1 0.719 6.9064
2 F 2 0.055 0.7149
3 F 3 -0.078 -0.8211
4 F 4 -0.030 -0.4615
5 F 5 0.083 1.2581
6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169
8 F 8 0.090 1.3133
9 F 9 -0.074 -1.1383
10 F 10 -0.150 -3.3193
11 F 11 -0.056 -1.4830
CONSTANTE 0.093575
..............................................................................
R2 = 0.57923 F = 91.35686
D2 = 5.49176 T2 = 1018.69159
..............................................................................

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

68
 scores normalisés
 Echelle de 0 à 1000
 Transformation linéaire du score et du seuil

69
Grille de score
+---------------------------------------------------------------------------- +
| | COEFFICIENTS | TRANSFORMED |
| CATEGORIES | DISCRIMINANT | COEFFICIENTS |
| | FUNCTION | (SCORE) |
+----------------------------------------------------------------------------+
| 2 . Use type |
| USE1 - Profess. | -4.577 | 0.00 |
| USE2 - private | 0.919 | 53.93 |
+---------------------------------------------------------------------------- +
| 4 . Gender |
| MALE - male | 0.220 | 24.10 |
| FEMA - female | -0.065 | 21.30 |
| OTHE - companies | -2.236 | 0.00 |
+---------------------------------------------------------------------------- +
| 5 . Language |
| FREN – French | -0.955 | 0.00 |
| FLEM - flemish | 2.789 | 36.73 |
+------------------------------------------------------ ----------------------+
| 24 . Birth date |
| BD1 - 1890-1949 BD | 0.285 | 116.78 |
| BD2 - 1950-1973 BD | -11.616 | 0.00 |
| BD? - ???BD | 7.064 | 183.30 |
+---------------------------------------------------------------------------- +
| 25 . Region |
| REG1 - Brussels | -6.785 | 0.00 |
| REG2 – Other regions | 3.369 | 99.64 |
+------------------------------------------------------------ ----------------+
| 26 . Level of bonus-malus |
| BM01 - B-M 1 (-1) | 17.522 | 341.41 |
| BM02 - Others B-M (-1) | -17.271 | 0.00 |
+---------------------------------------------------------------------------- +
| 27 . Duration of contract |
| C<86 - <86 contracts | 2.209 | 50.27 |
| C>87 - others contracts | -2.913 | 0.00 |
+---------------------------------------------------------------------------- +
| 28 . Horsepower |
| HP1 - 10-39 HP | 6.211 | 75.83 |
| HP2 - >40 HP | -1.516 | 0.00 |
+---------------------------------------------------------------------------- +
| 29 . year of vehicle construction |
| YVC1 - 1933-1989 YVC | 3.515 | 134.80 |
| YVC2 - 1990-1991 YVC | -10.222 | 0.00 |
+---------------------------------------------------------------------------- +

70
Scoring et régression logistique

 Inclusion aisée de prédicteurs qualitatifs en


introduisant mi-1 indicatrices
 Modalité omise= modalité de référence.
Attention à l’interprétation
 Standard de l’industrie bancaire (sauf Banque
de France)

71
CATEGORIES COEFFICIENTS LOGISTIC
REGRESSION
use type
profess 0.00
private 0.7060
Insuree type
male 0.4797
female 0.4868
companies 0.00
language
french -0.1236
flemish 0.00
birth cohort
1890-1949 -0.3596
1950-1973 -1.6155
unknown 0.00
region
Brussels -0.8585
Other regions 0.00
level of bonus-malus
B-M + 0.00
other B-M (-1) -2.4313
year of subscription
<86 contracts 0.4932
others 0.00
horsepower
10-39 HP 0.7305
40-349 HP 0.00
year of vehicle construction
1933-1989 1.3362
1990-1991 0.00
Intercept -0.2498

72
IV Comparaison logistique-
discriminante
 Avantages proclamés de la logistique:
 Interprétabilité des coefficients (odds-ratios)
 Erreurs standard calculables
 Modélisation des probabilités
 Hypothèses plus générales qu’en AD gaussienne
 Maximum de vraisemblance au lieu de moindres
carrés (régression linéaire de Y sur les Xj)
 Prise en charge facile des X qualitatifs (logiciels)

73
 Mais:
 Erreurs standard asymptotiques , bootstrap en AD
 Non convergence en cas de séparation parfaite.
Fisher existe toujours

 Maximum de vraisemblance conditionnel:non


optimal dans le cas gaussien standard
 L’AD peut aussi traiter les variables qualitatives, et
de manière plus robuste grâce aux contraintes de
sous-espace (Disqual)

74
 Querelle largement idéologique (modélisation
versus analyse des données)
 L’AD est aussi un modèle, mais sur les lois des X/Y,
la logistique sur les lois de Y/X
 En pratique différences peu nettes: fonctions
de score souvent très proches
 «  It is generally felt that logistic regression is a safer,
more robust bet than the LDA model, relying on fewer
assumptions . It is our experience that the models give
very similar results , even when LDA is used in
inappropriately, such as with qualitative variables. »
Hastie and al.(2001)

75
 
Variable N Mean Std Dev Sum Minimum Maximum
 
scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377
scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074
 

scorfish scorlog
 
scorfish 1.00000 0.99881

scorlog 0.99881 1.00000

76
 Usages souvent différents: AD pour classer, logistique
pour modéliser (facteurs de risque)
 Logistique aussi utilisée en scoring
 Si l’objectif est de classer:
 On ne fait plus de la science mais de l’aide à la décision
 Mieux vaut essayer les deux méthodes.
 Mais comment les comparer?
 Le vrai critère de choix est la performance en généralisation

77
Qualité d’une règle de
classement

 Tableau de classement :
 On classe des observations dont le groupe est connu :
groupe prédit
1 2
groupe 1 n11 n12
réel 2 n 21 n 22
n11  n 22
 Pourcentage de bien classés :
n

 Taux d’erreur de classement : n12  n 21


n
78
Sur quel échantillon faire ce
tableau ?

 Échantillon test d’individus supplémentaires.


 Si on reclasse l’échantillon ayant servi à construire la
règle (estimation des coefficients) : «méthode de
resubstitution»  BIAIS
 surestimation du pourcentage de bien classés.
 Solutions pour des échantillons de petite taille :
Validation croisée ou bootstrap

79
Seuil et probabilités a posteriori

 P(G1/x) dépend des probas a priori p1 et p2


 Problèmes de l’échantillonnage stratifié
 poser priors = en discrim ou pevent= en Logistic
 sinon probas a posteriori fausses
 seul le terme constant 0 est modifié: on ajoute
ln(p2/p1)
 Sans importance pour un score

80
Qualité d’un score
 Qu’il soit obtenu par Fisher ou logistique:
 Comparaison des distributions du score sur les
deux groupes
 fonctions de répartition

81
Courbe ROC

 Groupe à détecter G1: scores élevés


 Sensibilité 1-= P(S>s/G1):% de vrais positifs
 Spécificité 1-=P(S<s/G2) :% de vrais négatifs

82
Courbe ROC

83
Courbe ROC

 Evolution de 1- puissance du test en fonction


de , risque de première espèce lorsque le
seuil varie
 Proportion de vrais positifs en fonction de la
proportion de faux positifs
 Un site: http://www.anaesthetist.com/mnm/stats/roc/

84
 Courbe ROC invariante pour toute transformation
monotone croissante
 Surface sous la courbe: mesure de performance
permettant de comparer (partiellement) des modèles
 s 
AUC   (1   ( s )) d ( s )  P ( X 1  X 2 )
s 

On tire une obs de G1 et une de G2


 AUC estimée par la proportion de paires concordantes

c  nc n1n2

 nc statistique de Wilcoxon-Mann-Whitney
U+W= n1n2+0.5n1(n1+1) AUC=U/n1n2
85
Exemple infarctus proc logistic

Association des probabilités prédites et des réponses observées

Pairs 2550
Percent Concordant 94.3
Percent Discordant 5.7
Percent Tied 0.0

Somers' D 0.886
Gamma 0.886
Tau-a 0.447
c 0.943

86
Infarctus: comparaison
Fisher et logistique

Courbe ROC
1.00

.75

.50

.25 Source de la courbe


Sensitivité

SCORLOG

0.00 SCORFISH
0.00 .25 .50 .75 1.00

1 - Spécificité

87
Assurance

88
Zone sous la courbe
Variable(s) de Zone
résultats
SCDISQUA tests .934
SCLOGIST .933

89
Lift chart

% of the target

90
Surface sous la courbe de lift

 Proportion des unités ayant un score>s


p1 (1   )  (1  p1 )

 Surface:
L   (1   )d  p1 (1   )  (1  p1 )  
 p1 (1   ) d (1   )   (1  p1 ) (1   ) d 
     
p1
  (1  p1 ) AUC
2

91
Coefficient Ki (Kxen)

 Ki=(aire entre courbe


lift et diagonale) / (aire
entre courbe lift et
courbe idéale)

1
L
2 p1  2(1  p1 ) AUC  1
Ki    2 AUC  1
1  p1 1  p1
2

Ki=Somers’ D ou Accuracy Ratio AR


92
 Optimiser AUC ou Ki: mêmes résultats.
 Ne prend pas en compte les coûts
 Ne pas comparer sur données
d’apprentissage…

93
Les 3 échantillons
 Apprentissage: pour estimer les paramètres
des modèles
 Test : pour choisir le meilleur modèle
 Validation : pour estimer la performance sur
des données futures
 Nécessité de faire plusieurs tirages

 Modèle final: avec toutes les observations


94
Conclusion

 ADL et régression logistique: fondements également


solides mais différents
 Un faux débat s’il s’agit seulement de prédire.
 Convergence des pratiques :
 validation en logistique
 Courbe ROC en discriminante
 Prudence quand on calcule des probabilités:
 Vraies probas ou simples scores

95

Vous aimerez peut-être aussi