Atelier SAS11 Janvier 2007

Régression logistique et
analyse discriminante :
comparaisons théoriques et
pratiques
Gilbert Saporta
Conservatoire National des Arts et Métiers
saporta@cnam.fr
http://cedric.cnam.fr/~saporta
1
Bibliographie
 Bardos: « Analyse discriminante », Dunod, 2001
 Celeux, Nakache :« Analyse discriminante sur variables
qualitatives» Polytechnica ,1994
 Droesbeke, Lejeune, Saporta (éditeurs): « Modèles
statistiques pour données qualitatives » Technip, 2005
 Hastie, Tibshirani, Friedman : « The Elements of Statistical
Learning », Springer-Verlag, 2001
 Hosmer, Lemeshow : «Applied logistic regression», Wiley,
2000
 Nakache, Confais: « Statistique explicative appliquée »,
Technip, 2003
 Thomas, Edelman,Crook: « Credit scoring and its
applications », SIAM, 2002
2
Plan
I L’analyse discriminante
 II La régression logistique
 III Prédicteurs qualitatifs et scoring
 IV Comparaison
3
Objet d’étude
 Observations multidimensionnelles réparties en k
groupes définis a priori. K=2 le plus souvent
 Exemples d’application :
 Pronostic des infarctus (J.P. Nakache)
• 2 groupes : décès, survie (variables médicales)
 Iris de Fisher :
• 3 espèces : 4 variables (longueur et largeur des pétales et sépales)
 Risque des demandeurs de crédit
• 2 groupes : bons, mauvais (variables qualitatives)
 Autres :
• Publipostage, reclassement dans une typologie.
4
Quelques dates :
 Analyse discriminante
 Mahalanobis (crâniologie) 1927
 Fisher (biométrie) 1936
 Régression logistique
 Berkson (biostatistique) 1944
 Cox 1958
 Mc Fadden (économétrie) 1973
5
I : L’analyse discriminante
1. Aspect géomètrique:
- Réduction de dimension, axes et
variables discriminantes.
- Cas de 2 groupes.
- Méthodes géométriques de classement.
2. AD probabiliste
6
Représentation des données
1 2 ... k 1 2 j p
1 0 1 ... 0 X 11 X 12 X 1j X 1p
2 1 0 ... 0
...
i 0 0 ... 1 X i1 X i2 X ij X ip
n 1 0 ... 0 X n1 X n2 X nj X np
indicatrices des groupes variables explicatives
 n points dans p appartenant à k groupes.
7
Réduction de dimension. Recherche d’axes et
de variables discriminantes.
 Dispersion intergroupe W = matrice variance intra

et dispersion intra  W = 1/n ni Vi
groupe.
V1 V2
B = matrice variance inter
g1 g2
 B = 1/n ni (gi - g) (gi - g)’
gk
Vk
V = W + B variance totale
8
Axes discriminants : deux
objectifs
 Dispersion intraclasse minimale : min u’Wu
 Dispersion interclasse maximale : max u’Bu

gk
g1
g2 9
 Simultanéité impossible
min u 'Wu  Wu   u  min i
max u ' Bu  Bu   u  max i
V  W B
 Compromis : u V u  u W u  u B u
min max
 u B u   u B u 
max    ou   
u V u  u W u 
V -1 Bu   u W -1 Bu  u
10
a) V 1 Bu   u
Bu  Vu
Bu   (W  B)u
 1-  Bu   Wu

b) W Bu 
-1
u u
1-
 ACP du nuage des gi avec :
 Métrique V-1
 Métrique W-1 Mahalanobis
11
Nombre d’axes discriminants
 ACP des groupes : dimension de l’espace contenant

les groupes gi
 Si n>p>k (cas usuel), k-1 axes discriminants

Exemple célèbre : Iris de Fisher
• K = 3 Setosa, Versicolor, Virginica
• P=4 longueur pétale, longueur sépale, largeur pétale, largeur sépale
• n1=n2=n3 =50
Donc deux axes
12
Iris setosa Iris versicolor Iris virginica
13
14
15
Cas de deux groupes
 g1 et g2 sont sur une une droite : 1 seul axe discriminant :
e
a   ( g1  g2 )
 RAPPEL : en ACP axe a, facteur u = M a a

d   e, a  M
 e  Ma  e u
 Combinaison discriminante proportionnelle à

M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)
 X 12  X 11 
 
 FONCTION DE FISHER : 1 1
W ( g 2  g1 )  W  
 p 
 X 2  X 1p 
 
16
Historique
p
Historiquement : d=  u jx j =X u
j=1
d1 -d2
Test (de Student) de comparaison de 2 moyennes : T=
sd
Fisher (1936)
Trouver u1, , u 2 , ..., u p tel que T maximal.
Solution : u proportionnel à W -1  g1 -g 2 
n1n 2
Nota : W -1
 g1 -g2  =α V -1
 g1 -g 2  avec : α=1+ D 2p
n  n-2 
17
Distance de MAHALANOBIS
Dp
g2
g1
Distance au sens de la métrique W-1.

D p2   g1  g 2  ' W 1  g1  g2 
2
1. pour p=1 : x x 
D12   1 2  ~ F  1, n-2 
  
2. p quelconque : D p2   g1  g 2  'W 1  g1  g 2 
D p2   g1  g 2   W 1/ 2 W 1/ 2  g1  g 2 
     
W 1/2 X
 Standardisation de chaque composante xj
 Décorrélation...
18
Équivalence régression
 a si G1
Y 
 b si G 2
Régression : y  X   e ˆ   X ' X  1 X ' y
2
D
n
Si a= et b= -
n1
n
n2
 
y  0 alors ˆ  V 1  g1  g 2  R2  p
n  n  2
 D p2
n1n2
n(n  2) R 2
D 2
p
n1n2 1  R 2
19
Équivalence régression
MAIS : Modèle linéaire usuel non valide :
y / x ~N  x  ;  2 I 
en discriminante c’est l’inverse que l’on suppose :
x / y ~N  i ;  
20
Conséquences
Pas de test,
pas d’erreurs standard sur les
coefficients
MAIS possibilité d’utiliser les méthodes de
pas à pas en régression.
Aussi une source de malentendus…
21
Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL

1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 912
2 1 DECES 90 1.68 18.7 24 31.0 14.0 1476
3 1 DECES 120 1.40 11.7 23 29.0 8.0 1657
4 2 SURVIE 82 1.79 21.8 14 17.5 10.0 782
5 1 DECES 80 1.58 19.7 21 28.0 18.5 1418
6 1 DECES 80 1.13 14.1 18 23.5 9.0 1664
7 2 SURVIE 94 2.04 21.7 23 27.0 10.0 1059
8 2 SURVIE 80 1.19 14.9 16 21.0 16.5 1412
9 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759
10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 807
11 2 SURVIE 90 2.79 31.0 16 25.0 8.0 717
12 2 SURVIE 86 2.70 31.4 15 23.0 9.5 681
13 2 SURVIE 80 2.61 32.6 8 15.0 1.0 460
14 2 SURVIE 61 2.84 47.3 11 17.0 12.0 479
15 2 SURVIE 99 3.12 31.8 15 20.0 11.0 513
16 2 SURVIE 92 2.47 26.8 12 19.0 11.0 615
17 2 SURVIE 96 1.88 19.6 12 19.0 3.0 809
18 2 SURVIE 86 1.70 19.8 10 14.0 10.5 659
19 2 SURVIE 125 3.37 26.9 18 28.0 6.0 665
20 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796
22
SPAD
FONCTION LINEAIRE DISCRIMINANTE

VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA
........ VARIABLES FONCTION REGRESSION TYPES STUDENT
NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)
(SEUIL= 0.20)
..............................................................................................
3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154
4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006
5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317
6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897
7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173
8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549
9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849
CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958
..............................................................................................
R2 = 0.55759 F = 16.74489 PROBA = 0.000
D2 = 4.94213 T2 = 124.77643 PROBA = 0.000
..............................................................................................
23
Méthodes géométriques de
y
1 classement
x' . . . xp
1
2  Échantillon d’apprentissage
.
.
.
e  e observation de groupe inconnu

?
e
g1  e classé dans le groupe i tel que:
G1
g2
G2 d(e ; gi) minimal
g3 G3
24
pour deux groupes
 On classe dans G1 si:
2 g1'W 1e  g1'W 1 g1  2 g 2' W 1e  g 2' W 1 g 2

( g1  g 2 ) 'W 1e  12 ( g1'W 1 g1  g 2' W 1 g 2 )
 Fonction de Fisher >c

1 1 1
 Score de Fisher: ( g1  g 2 ) ' W e  1
2 ( g1
'
W g1  g '
2 W g2 )
25
Interprétation géométrique
 Projection sur la droite des centres avec la
métrique W-1
 Dualité axe-frontière plane
frontière
axe discriminant
26
Analyse discriminante
probabiliste.
p j p ro b a b ilité a p r io r i d ’a p p a rte n ir a u g ro u p e j
f j ( x ) lo i d e s x i d a n s le g ro u p e j
p j f j (x)
F o rm u le d e B a y e s : P ( G j / x )  k
 p j f j (x)
j 1
P ro b lè m e : e s tim e r le s f j (x )
27
La règle bayésienne
naïve dans le cadre normal
f j  x  densité d'une N   j ;  j
1  1 
f j  x  exp  -  x   j    j 1  x   j  
 2   j
1/ 2
p/2
 2 
max p j f j  x   attribuer x au groupe le plus
probable a posteriori
 1  1 
max  Ln p j   x   j   j  x   j   Ln
1
 j 
 2 2
règle quadratique
28
La règle bayésienne
Hypothèse simplificatrice : 1   2 ... =
On attribue x au groupe j tel que :
 
 
1 1
max  Ln p j  x  1 x   j 1  j  x  1  j 
 2   2 
 indépendant 
 du groupe 
 
 1 
donc : max  Ln p j   j   j  x   j 
1 1
     2   
 a j 
Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation
de  j par g j et de  par W.
29
Analyse discriminante probabiliste:
cas de deux groupes
Affecter au groupe 1 si : p1 f1  x   p2 f 2  x 
fi  x  

1/ 2
1
 2 
p/2
exp  1/ 
2 x   
i
'  
-1
x  i 
-1 x  1/ 2  1 -1  1  Log p1   2 -1 x  1/ 2  2 -1  2  Log p 2
 1
   '

1 2  
-1 x  Log  p2 / p1   1/ 2  1   2 ' 1  1   2
 
 
fonction de Fisher
30
Fonction de score et probabilité
 Fonction de score S(x) :

p2 1
S ( x )  ( 1  2 ) '  x  ln( )  ( 1  2 ) '  1 ( 1  2 )
1
p1 2
Règle :affecter au groupe 1 si S(x)>0
 Probabilité d’appartenance au groupe 1 :
p1e
 
1/ 2 x  1 1 x  1  
P  G1 / x  
p1e
 
1/ 2 x  1 1 x  1    p e1/ 2 x 2   1 x 2 
2
  
     
1
1/2 x  1 1 x  1 1/2 x   2 1 x   2
1/ p  1  p2 / p1e 31
Probabilité a posteriori
Log  1/p-1   S  x 
-S x 
1/p=1+e
S x
1 e
p S x
 S x
Fonction logistique du score
e 1 1 e
32
S(x)
• Probabilité d’erreur de classement de G2 en G1 :

On classe en G1 si S(x)>0
  p 1  p2  
P( S ( x)  0)  P  U   ln   
 2   p  
 p 1 
33
Posterior Probability of Membership in PRONO
From Classified
Obs PRONO into PRONO DECES SURVIE
1 SURVIE SURVIE 0.4515 0.5485

2 DECES DECES 0.8140 0.1860
3 DECES DECES 0.9597 0.0403
5 DECES DECES 0.8112 0.1888
6 DECES DECES 0.8928 0.1072
8 SURVIE DECES * 0.8711 0.1289
Proc discrim 9
10
SURVIE
SURVIE
SURVIE
SURVIE
0.0984
0.0797
0.9016
0.9203
SAS 11
12
SURVIE
SURVIE
SURVIE
SURVIE
0.0138
0.0160
0.9862
0.9840
22 DECES DECES 0.8629 0.1371
23 DECES SURVIE * 0.4804 0.5196
24 DECES DECES 0.9900 0.0100
25 DECES DECES 0.5845 0.4155
26 DECES DECES 0.7447 0.2553
27 DECES DECES 0.7067 0.2933
28 DECES SURVIE * 0.4303 0.5697
30 SURVIE DECES * 0.5734 0.4266
34
II: La régression logistique
II.1 Le modèle logistique simple

II.2 Odds ratios
II.3 Interprétation économètrique
II.4 Estimation
II.5 Tests
35
II.1 Le modèle logistique simple
 Réponse dichotomique : Y = 0 / 1
 Variable explicative : X
 Objectif : Modéliser
(x) = Prob(Y = 1/X = x)
• Le modèle linéaire (x) = 0 + 1x

convient mal lorsque X est continue.
• Le modèle logistique est plus naturel
36
Le modèle logistique simple
0 1x
e Probabilité d'une maladie cardiaque
( x )  0 1x
en fonction de l'age
1 e
1.0
.8
ou .6
.4
Prob(Y=1 / X)
( x ) .2
Log( )  0  1x
1  ( x )
0.0
10 20 30 40 50 60 70
AGE
Fonction de lien : Logit

37
 Il s’agit bien d’un probléme de régression:
 Modélisation de l’espérance conditionnelle
 E(Y/X=x)=f(x)
 Choix de la forme logistique en épidémiologie:

 S’ajuste bien
 Interprétation de 1 en termes d’odds-ratio
38
II.2 Odds-Ratio
Si X binaire (sujet exposé X=1, non exposé
X=0)
e 0  1 e 0
P (Y  1 / X  1)  P (Y  1 / X  0) 
1  e 0  1 1  e 0
P (Y  1/ X  1) / P(Y  0 / X  1)
OR   e 1
P(Y  1/ X  0) / P(Y  0 / X  0)
39
Odds-Ratio
 Mesure l’évolution du rapport des chances
d’apparition de l’événement Y=1 contre Y=0
(la cote des parieurs) lorsque X passe de x à
x+1.
 Formule générale:
 ( x  1) /(1   ( x  1))
OR   e 1
 ( x) /(1   ( x))
40
II.3Interprétation économètrique
 Y possession d’un bien durable par un

ménage: manifestation visible d’une variable
latente Z inobservable continue.
 Z est l’« intensité du désir » de posséder le
bien
 Si Z<seuil Y=0, sinon Y=1
 Le seuil peut être choisi égal à 0
41
Modèle d’utilité
 pour le ménage i de caractéristiques xi (âge, sexe,
revenu, CSP...), la possession du bien procure un
niveau d’utilité U(1,xi), la non possession U(0,xi).
Yi = 1  U(1,xi) > U(0,xi)

Yi = 0  U(0,xi) > U(1,xi)
 Variable latente Zi = U(1,xi) – U(0,xi).
42
Modèle d’utilité (suite)
Zi = xi  + i
πi = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)
F fonction de répartition de -i
 Choix de F:
 Logistique :modèle logit, régression logistique
 Normal: modèle probit
43
II.4 Estimation des paramètres
Les données Le modèle
X Y
x
1y1 ( x i )  P ( Y  1 / X  xi )
 
x
i y
i e0 1x i
   0 1x i
x
nyn 1 e
yi = 1 si caractère présent,
0 sinon
44
Vraisemblance (conditionnelle!)
Probabilité d’observer les données
[(x1,y1), …, (xi,yi), …, (xn,yn)]
n n
1 yi
  Prob( Y  y i / X  x i )   ( x i ) (1  ( x i ))yi
i 1 i 1
n e0 1x i yi e0 1x i 1 yi

 ( 0 1x i
) (1  0 1x i
)  L(0 , 1 )
i 1 1  e 1 e
45
maximum de vraisemblance
 ˆ et maximisent
ˆ L(  0 , 1 )  L(β)
0 1
 Maximisation de la log-vraisemblance
n
(  )  log L(β)    yi log  i ( x)  (1  yi ) log(1   i ( x)) 
i 1
 (  ) n
    ( yi   i ( x))  0
 0 i 1

 (  ) n
 Estimateurs obtenus
 1par 
 des
i 1
( yi   i ( x))  numériques:
xi procédures 0 pas
d’expression analytique
46
Précision (asymptotique) des estimateurs
 La matrice
 V (ˆ ) Cov (ˆ , ˆ )
V(ˆ )   0 0 1

ˆ ˆ ˆ
Cov(0 , 1 ) V(1 ) 
1
  Log L() 
2
est estimée par la matrice 
 2 
 ˆ
47
1
ˆ   (  ) 
2
V ( )   
  2
   ˆ
1
 n n

  î (1  ˆ i )  xiî (1  î ) 
 n 
i 1 i 1
 n

  xiî (1  î )  xi î (1  î ) 
2
 i 1 i 1 
1
 1 x  
1   1 (1   1 )
ˆ ˆ
 0  1 x1  
           
 

 1 xn   0 ˆ n (1  ˆ n )  1 xn  
 
 ( X VX ) 1.
48
Régression logistique
multiple
 Généralisation à p variables explicatives X1,
…, Xp.
 0  1 x1 ...  p x p
e
 ( x )  P(Y  1/ X  x )   0  1 x1 ...  p x p
1 e
49
The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 2.9331 1.7855 2.6985 0.1004

INCAR 1 -4.5491 0.9402 23.4083 <.0001
PAPUL 1 0.2015 0.0622 10.4937 0.0012
Odds Ratio Estimates
Point 95% Wald

Effect Estimate Confidence Limits
INCAR 0.011 0.002 0.067

PAPUL 1.223 1.083 1.382
50
II.5 Tests sur les paramètres
 Trois méthodes sont disponibles pour tester

l’apport de la variable X au modèle :
H0 : j = 0
1. Le test de Wald H1 : j  0
2. La méthode du rapport de vraisemblance

3. Le test du score
51
Test de Wald
 analogue à un test de Student en régression usuelle, si

l’on considère la statistique w définie par :
ˆ1
w
sˆ( ˆ1 )
 sˆ( ˆ1 ) représente l’estimation de l’écart-type de
l’estimateur de 1.
 Sous l’hypothèse H0, w2 suit approximativement une loi
du khi-deux à un degré de liberté .
 Rejet de H0 si w2  12 (1)
52
Test du rapport des vraisemblances
 L’apport de la variable X est mesuré à l’aide de la

statistique :
Vraisemblance sans la variable
G = -2 log [ ]
Vraisemblance avec la variable

sous l’hypothèse H0 G suit asymptotiquement une loi du
khi-deux à un degré de liberté.
 Vraisemblance sans la variable:
n1 n0
 n1   n0 
   
n  n
53
Test du score
1
score  U (  )ˆ  J ( ˆ H )  U (  ) ˆ
H0  0   H0
 U vecteur des dérivées partielles de la log-

vraisemblance estimées
 Le score suit également asymptotiquement
sous H0 une loi du khi-deux à un degré de
liberté
 En régression logistique simple, le score est
égal à nr2 , où r est le coefficient de corrélation
linéaire (abusif!) entre Y et X
54
Comparaison des 3 tests
55
Tests
 Tests d’absence d’effet de toutes les

variables: H0 : 1 = …… = p = 0
 Rapport de vraisemblance G
 Score test U
 Sous H0, suivent tous deux asymptotiquement une
loi du 2 à p ddl
56
III Discrimination sur variables
qualitatives et scoring
Y variable de groupe
X1 , X 2 , ... , X p Variables explicatives à m1 , m 2 , ... , m p modalités
Exemples
 Solvabilité d'emprunteurs auprès de banques
bon payeur
Y:
mauvais payeur
X1: sexe, X 2 : catégorie professionnelle etc.
 Risque en assurance automobile
bon conducteur (pas d'accidents)
Y:
mauvais conducteur
X1: sexe, X 2 : tranche d'âge, X 3: véhicule sportif ou non ...
 Reclassement dans une typologie
Y numéro de groupe
57
Un peu de (pré)histoire
 Fisher (1940)
 Un seul prédicteur
 Equations de l’AFC
 « Scores » were introduced
58
59
60
Cas général p prédicteurs
 Quantification optimale:
 Donner des scores partiels aux catégories pour
maximiser la distance de Mahalanobis dans Rp
 Une analyse discriminante où les variables
qualitatives sont remplacées par des
indicatrices 0 1 0 1 0 
 
1 0 0 0 1 
0 0 1 1 0 
=X  
 
 
 
 
 
 
61
 X n’est pas de plein rang: rank(X)=mi-p
 Solution classique: éliminer une indicatrice par
prédicteur
 Disqual (Saporta, 1975):
• ADL effectuée sur une sélection de facteurs de l’ACM
de X. Analogue de la régression sur composantes
principales
62
DISQUAL
1ère étape
 Analyse des correspondances du tableau des prédicteurs.
Profession Logement z1 . . . zk
P1 P2 P3 P4 Prop. Loc.
1  
11 0 0 0 0 1
2  
  
20 1 0 0 1 0
.  
 . . Z=  
 .  
X   . . ...

.  
. .  
  
 . .
n  
 k variables
n  numériques : garder les coordonnées factorielles

les plusvariables
discriminantes
indicatrices
63
2ème étape :
k
 Analyse discriminante linéaire (Fisher). Score s  dj z j
j 1
 Score = combinaison linéaire des coordonnées factorielles=

combinaison linéaire des indicatrices des catégories
 Coefficients = grille de notation
 z j = Xu j u j: coordonnées des catégories sur l'axe n°j

 . 
k k  .   j 
s   d j Xu j  X   j
d u j
  z z
j d
 j  V 1
 g1  g 2   1 j2 
j 1  V (z ) 
j 1   . 
   
grille de score
 . 
64
Sélection des axes
 Selon l’ordre de l’ACM

 % d’inertie
 Selon le pouvoir discriminant
 Student sur 2 groupes,F sur k groupes
65
Example assurance (SPAD)
 1106 contrats automobile belges:

 2 groupes: « 1 bons», « 2 mauvais »
 9 prédicteurs: 20 catégories
 Usage (2), sexe (3), langue (2), age (3), région
(2), bonus-malus (2), puissance (2), durée (2),
age du véhicule (2)
66
ACM
67
ADL de Fisher sur les composantes
FACTEURS CORRELATIONS COEFFICIENTS
..............................................................................
1 F 1 0.719 6.9064
2 F 2 0.055 0.7149
3 F 3 -0.078 -0.8211
4 F 4 -0.030 -0.4615
5 F 5 0.083 1.2581
6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169
8 F 8 0.090 1.3133
9 F 9 -0.074 -1.1383
10 F 10 -0.150 -3.3193
11 F 11 -0.056 -1.4830
CONSTANTE 0.093575
..............................................................................
R2 = 0.57923 F = 91.35686
D2 = 5.49176 T2 = 1018.69159
..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
68
 scores normalisés
 Echelle de 0 à 1000
 Transformation linéaire du score et du seuil
69
Grille de score
+---------------------------------------------------------------------------- +
| | COEFFICIENTS | TRANSFORMED |
| CATEGORIES | DISCRIMINANT | COEFFICIENTS |
| | FUNCTION | (SCORE) |
+----------------------------------------------------------------------------+
| 2 . Use type |
| USE1 - Profess. | -4.577 | 0.00 |
| USE2 - private | 0.919 | 53.93 |
+---------------------------------------------------------------------------- +
| 4 . Gender |
| MALE - male | 0.220 | 24.10 |
| FEMA - female | -0.065 | 21.30 |
| OTHE - companies | -2.236 | 0.00 |
+---------------------------------------------------------------------------- +
| 5 . Language |
| FREN – French | -0.955 | 0.00 |
| FLEM - flemish | 2.789 | 36.73 |
+------------------------------------------------------ ----------------------+
| 24 . Birth date |
| BD1 - 1890-1949 BD | 0.285 | 116.78 |
| BD2 - 1950-1973 BD | -11.616 | 0.00 |
| BD? - ???BD | 7.064 | 183.30 |
+---------------------------------------------------------------------------- +
| 25 . Region |
| REG1 - Brussels | -6.785 | 0.00 |
| REG2 – Other regions | 3.369 | 99.64 |
+------------------------------------------------------------ ----------------+
| 26 . Level of bonus-malus |
| BM01 - B-M 1 (-1) | 17.522 | 341.41 |
| BM02 - Others B-M (-1) | -17.271 | 0.00 |
+---------------------------------------------------------------------------- +
| 27 . Duration of contract |
| C<86 - <86 contracts | 2.209 | 50.27 |
| C>87 - others contracts | -2.913 | 0.00 |
+---------------------------------------------------------------------------- +
| 28 . Horsepower |
| HP1 - 10-39 HP | 6.211 | 75.83 |
| HP2 - >40 HP | -1.516 | 0.00 |
+---------------------------------------------------------------------------- +
| 29 . year of vehicle construction |
| YVC1 - 1933-1989 YVC | 3.515 | 134.80 |
| YVC2 - 1990-1991 YVC | -10.222 | 0.00 |
+---------------------------------------------------------------------------- +
70
Scoring et régression logistique
 Inclusion aisée de prédicteurs qualitatifs en

introduisant mi-1 indicatrices
 Modalité omise= modalité de référence.
Attention à l’interprétation
 Standard de l’industrie bancaire (sauf Banque
de France)
71
CATEGORIES COEFFICIENTS LOGISTIC
REGRESSION
use type
profess 0.00
private 0.7060
Insuree type
male 0.4797
female 0.4868
companies 0.00
language
french -0.1236
flemish 0.00
birth cohort
1890-1949 -0.3596
1950-1973 -1.6155
unknown 0.00
region
Brussels -0.8585
Other regions 0.00
level of bonus-malus
B-M + 0.00
other B-M (-1) -2.4313
year of subscription
<86 contracts 0.4932
others 0.00
horsepower
10-39 HP 0.7305
40-349 HP 0.00
year of vehicle construction
1933-1989 1.3362
1990-1991 0.00
Intercept -0.2498
72
IV Comparaison logistique-
discriminante
 Avantages proclamés de la logistique:
 Interprétabilité des coefficients (odds-ratios)
 Erreurs standard calculables
 Modélisation des probabilités
 Hypothèses plus générales qu’en AD gaussienne
 Maximum de vraisemblance au lieu de moindres
carrés (régression linéaire de Y sur les Xj)
 Prise en charge facile des X qualitatifs (logiciels)
73
 Mais:
 Erreurs standard asymptotiques , bootstrap en AD
 Non convergence en cas de séparation parfaite.
Fisher existe toujours
 Maximum de vraisemblance conditionnel:non

optimal dans le cas gaussien standard
 L’AD peut aussi traiter les variables qualitatives, et
de manière plus robuste grâce aux contraintes de
sous-espace (Disqual)
74
 Querelle largement idéologique (modélisation
versus analyse des données)
 L’AD est aussi un modèle, mais sur les lois des X/Y,
la logistique sur les lois de Y/X
 En pratique différences peu nettes: fonctions
de score souvent très proches
 « It is generally felt that logistic regression is a safer,
more robust bet than the LDA model, relying on fewer
assumptions . It is our experience that the models give
very similar results , even when LDA is used in
inappropriately, such as with qualitative variables. »
Hastie and al.(2001)
75

Variable N Mean Std Dev Sum Minimum Maximum

scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377
scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074

scorfish scorlog

scorfish 1.00000 0.99881
scorlog 0.99881 1.00000
76
 Usages souvent différents: AD pour classer, logistique
pour modéliser (facteurs de risque)
 Logistique aussi utilisée en scoring
 Si l’objectif est de classer:
 On ne fait plus de la science mais de l’aide à la décision
 Mieux vaut essayer les deux méthodes.
 Mais comment les comparer?
 Le vrai critère de choix est la performance en généralisation
77
Qualité d’une règle de
classement
 Tableau de classement :
 On classe des observations dont le groupe est connu :
groupe prédit
1 2
groupe 1 n11 n12
réel 2 n 21 n 22
n11  n 22
 Pourcentage de bien classés :
n
 Taux d’erreur de classement : n12  n 21

n
78
Sur quel échantillon faire ce
tableau ?
 Échantillon test d’individus supplémentaires.

 Si on reclasse l’échantillon ayant servi à construire la
règle (estimation des coefficients) : «méthode de
resubstitution»  BIAIS
 surestimation du pourcentage de bien classés.
 Solutions pour des échantillons de petite taille :
Validation croisée ou bootstrap
79
Seuil et probabilités a posteriori
 P(G1/x) dépend des probas a priori p1 et p2

 Problèmes de l’échantillonnage stratifié
 poser priors = en discrim ou pevent= en Logistic
 sinon probas a posteriori fausses
 seul le terme constant 0 est modifié: on ajoute
ln(p2/p1)
 Sans importance pour un score
80
Qualité d’un score
 Qu’il soit obtenu par Fisher ou logistique:
 Comparaison des distributions du score sur les
deux groupes
 fonctions de répartition
81
Courbe ROC
 Groupe à détecter G1: scores élevés

 Sensibilité 1-= P(S>s/G1):% de vrais positifs
 Spécificité 1-=P(S<s/G2) :% de vrais négatifs
82
Courbe ROC
83
Courbe ROC
 Evolution de 1- puissance du test en fonction

de , risque de première espèce lorsque le
seuil varie
 Proportion de vrais positifs en fonction de la
proportion de faux positifs
 Un site: http://www.anaesthetist.com/mnm/stats/roc/
84
 Courbe ROC invariante pour toute transformation
monotone croissante
 Surface sous la courbe: mesure de performance
permettant de comparer (partiellement) des modèles
 s 
AUC   (1   ( s )) d ( s )  P ( X 1  X 2 )
s 
On tire une obs de G1 et une de G2

 AUC estimée par la proportion de paires concordantes
c  nc n1n2
 nc statistique de Wilcoxon-Mann-Whitney
U+W= n1n2+0.5n1(n1+1) AUC=U/n1n2
85
Exemple infarctus proc logistic
Association des probabilités prédites et des réponses observées
Pairs 2550
Percent Concordant 94.3
Percent Discordant 5.7
Percent Tied 0.0
Somers' D 0.886
Gamma 0.886
Tau-a 0.447
c 0.943
86
Infarctus: comparaison
Fisher et logistique
Courbe ROC
1.00
.75
.50
.25 Source de la courbe

Sensitivité
SCORLOG
0.00 SCORFISH
0.00 .25 .50 .75 1.00
1 - Spécificité
87
Assurance
88
Zone sous la courbe
Variable(s) de Zone
résultats
SCDISQUA tests .934
SCLOGIST .933
89
Lift chart
% of the target
90
Surface sous la courbe de lift
 Proportion des unités ayant un score>s

p1 (1   )  (1  p1 )
 Surface:
L   (1   )d  p1 (1   )  (1  p1 )  
 p1 (1   ) d (1   )   (1  p1 ) (1   ) d 
     
p1
  (1  p1 ) AUC
2
91
Coefficient Ki (Kxen)
 Ki=(aire entre courbe

lift et diagonale) / (aire
entre courbe lift et
courbe idéale)
1
L
2 p1  2(1  p1 ) AUC  1
Ki    2 AUC  1
1  p1 1  p1
2
Ki=Somers’ D ou Accuracy Ratio AR

92
 Optimiser AUC ou Ki: mêmes résultats.
 Ne prend pas en compte les coûts
 Ne pas comparer sur données
d’apprentissage…
93
Les 3 échantillons
 Apprentissage: pour estimer les paramètres
des modèles
 Test : pour choisir le meilleur modèle
 Validation : pour estimer la performance sur
des données futures
 Nécessité de faire plusieurs tirages
 Modèle final: avec toutes les observations

94
Conclusion
 ADL et régression logistique: fondements également

solides mais différents
 Un faux débat s’il s’agit seulement de prédire.
 Convergence des pratiques :
 validation en logistique
 Courbe ROC en discriminante
 Prudence quand on calcule des probabilités:
 Vraies probas ou simples scores
95

Atelier SAS11 Janvier 2007

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Atelier SAS11 Janvier 2007

Transféré par

Droits d'auteur :

Formats disponibles

Régression logistique et

 n points dans p appartenant à k groupes.

 Dispersion intergroupe W = matrice variance intra

 Dispersion intraclasse minimale : min u’Wu

 Dispersion interclasse maximale : max u’Bu

 ACP des groupes : dimension de l’espace contenant

 Si n>p>k (cas usuel), k-1 axes discriminants

 RAPPEL : en ACP axe a, facteur u = M a a

 Combinaison discriminante proportionnelle à

Distance au sens de la métrique W-1.

FONCTION LINEAIRE DISCRIMINANTE

e  e observation de groupe inconnu

 On classe dans G1 si:

2 g1'W 1e  g1'W 1 g1  2 g 2' W 1e  g 2' W 1 g 2

 Fonction de Fisher >c

   '

 Fonction de score S(x) :

• Probabilité d’erreur de classement de G2 en G1 :

1 SURVIE SURVIE 0.4515 0.5485

II.1 Le modèle logistique simple

(x) = Prob(Y = 1/X = x)

• Le modèle linéaire (x) = 0 + 1x

Fonction de lien : Logit

 Choix de la forme logistique en épidémiologie:

 Y possession d’un bien durable par un

Yi = 1  U(1,xi) > U(0,xi)

 Variable latente Zi = U(1,xi) – U(0,xi).

Les données Le modèle

n e0 1x i yi e0 1x i 1 yi

Analysis of Maximum Likelihood Estimates

Intercept 1 2.9331 1.7855 2.6985 0.1004

Odds Ratio Estimates

Point 95% Wald

INCAR 0.011 0.002 0.067

 Trois méthodes sont disponibles pour tester

2. La méthode du rapport de vraisemblance

 analogue à un test de Student en régression usuelle, si

 L’apport de la variable X est mesuré à l’aide de la

 U vecteur des dérivées partielles de la log-

 Tests d’absence d’effet de toutes les

 Score = combinaison linéaire des coordonnées factorielles=

 z j = Xu j u j: coordonnées des catégories sur l'axe n°j

 Selon l’ordre de l’ACM

 1106 contrats automobile belges:

Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

 Inclusion aisée de prédicteurs qualitatifs en

 Maximum de vraisemblance conditionnel:non

scorlog 0.99881 1.00000

 Taux d’erreur de classement : n12  n 21

 Échantillon test d’individus supplémentaires.

 P(G1/x) dépend des probas a priori p1 et p2

 Groupe à détecter G1: scores élevés

 Evolution de 1- puissance du test en fonction

On tire une obs de G1 et une de G2

Association des probabilités prédites et des réponses observées

.25 Source de la courbe

 Proportion des unités ayant un score>s

 Ki=(aire entre courbe

Ki=Somers’ D ou Accuracy Ratio AR

 Modèle final: avec toutes les observations

 ADL et régression logistique: fondements également

Vous aimerez peut-être aussi