Vous êtes sur la page 1sur 95

Régression logistique et

analyse discriminante :
comparaisons théoriques et
pratiques

Gilbert Saporta
Conservatoire National des Arts et Métiers
saporta@cnam.fr
http://cedric.cnam.fr/~saporta

m
jibliographie
î j  
      
î 
   
       


    
   !!"
î    # $  % & '(  ) *+

    & ( 
    ,  &-
î .  ,   /   , 0
 1%   

#  2%& 2 34 
2
î . #  5&&

2   2   6


î     1 %     &
    &&
( 
,  &7
î , 0
     2  
&&
    %8*


½lan

î 8#9
     
î88 # (2   
2  
î888 (  
  1  2
î84 &   

D
˜bjet d·étude

î ˜    
    

(&   
2& (1  &  :;<
&
 
î 0 &
9 &&
   
î     1 '=: :   )
> 2& (+ '  
( 
)
î 8  /  
> 7 &+ "  
'
 2  
2  &(
 (&
)
î ?       ( 
> 2&    '  

   )
î  
> 
& 2  
     &
2 :

ë
ruelques dates :

î
     
î * 
  '@ 
2 )!A
î /   ' ( ) !7B
î?(2   
2   
î j  '     ) !""
î  !-C
î */  '( ( ) !A7

Œ
[ : L·analyse discriminante

: & 2(+  
3 ?(          
  
    :
3   2& :
3 *( 2((   
  :
: & 


A
Représentation des données

m  k m j p

m  m   X mm Xm X mj X mp
m   
 
i    m X im Xi X ij X ip

n m    X nm Xn X nj X np

  
 
   

î &  A& &&  D2& :

*
Réduction de dimension. Recherche d·axes et
de variables discriminantes.

î  &     2&  6<       


 &      î 6<E * 4
2& :
ÿm ÿ
j<        
m
 î j<E * '2 3 2)'2 3 2)9


4<6Fj   

ÿ

X
Axes discriminants : deux
objectifs

î &     
  
 96

î &     
   
  9j

m

Ô

î% 
 ( ( & 

      Ñ  Ñ 
           i
ÿ   
î&  
ÿ    
    
 
   
        
        
  ÿ   
 
ÿ èm    ½  èm      
m
ÿ m   ½ 
  ½ÿ
  ½   
 omè½   ½ 
½
   
èm
  
mè½
î   2  2   
î *(  43
î *(  63 * 
 
mm
Nombre d·axes discriminants

î   2&      
9 &    

2& 2

î %  G&G' 
)3     
0 &
(
+ 8  /  
> ;<7%  4  
4 2 
> <"
 2 &(

 2 (&

2 &(

2 
(&

> < < 7 <-
    

m
8   8   
 8  2 

mD


Cas de deux groupes

î 2 2       


     

      


î ? 0#    1  <* „  
 
  
  
?

î       && 

D
*'2 3 2)<63 '2 3 2)43 '2 3 2)
 m ß mm 
 
î /H,8H0/8%.0? ßm
  ß m   ßm
 
 p 
  ß  mp 

mA
£istorique

 
         
m

m è
  !    
   "  

# $
m%&'


m      
! 

 ( èm o m è
 m
)  èm o m è *+ èm o m è  *m, -
 oè

m*
aistance de MA£ALAN˜j[S


m

      
(  63:
ßm
D p  om ß   om ß 
: &&<  m ß  
Dm    .# omè
 -
m
p  om   om  
: &
  
 p  om    m/
 m/
 o  
m 0 0 0m 0 &
m/ X

î %         &  $


î ((
  ::: mX
‰quivalence régression

 1m
Y 
 1
m
34
y  X º  eº2  oX X X y
  p
i
m
  è

o 2 m
"   
º ÿ om    
non 
 p
nn
m

nn ß  R
Dp 
nmn m ß R

‰quivalence régression
*8%*+

(  
  
 
y/ o º 5  
    9 
9    
9 && 
 / y .N o i 5  


Conséquences

î½   
î 9    

 11  
î
 (  (   
 D  (2  :
î
       

m
˜ ˜˜  

   


 
 

 


 
 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 




˜ ˜  


  

 
˜ ˜
˜  

˜
 
˜ ˜

˜ 

 
  
 
 
 !

 "!


 ###
 

#
 ##
 

 #
˜
##

""˜"
""˜"


D
Méthodes géométriques de

m
classement
 

m
 î ‰ 

 9 &&   2


î      2&   

m î 
( 
2&  
 

m
 ' I2 ) 



D
D

pour deux groupes

îH 
  J  
ßm ßm ßm ßm
 
m eß  
m m  
eß  

ßm ßm ßm
 m ß    e m  m m ß    

î/    /  G
ßm ßm ßm
î%  /    m ß    e ß m  m m ß    


[nterprétation géométrique
î $   
       

(  63
î 
(  31  + &

—  

 
 

A
Analyse discriminante
probabiliste.


 4V priri


 
j   
 
p j  j  
#
   "   j /    k
 p j  j   
j m

6
7  
 j

*
La règle bayésienne
naïve dans le cadre normal

 j  o    4    o j 5

m  m  
 j o     è o 
o 
m


m/ j j j
o
p/
j

   8   o  


   

 


m  m 3
 9   o 

j
m
j o  j  n 
 
rè eq
r
iqe
X
La règle bayésienne
yp èse   
  m   
:
 
   
3

m m 
   ß  ßm  ß
  
j 
m
 ßm
 
m0 0&
j j

indépendVn 
 d rpe 
3
m ßm ßm

dnc    ß 
j  j   
 j
m 0 0 0 0& 
 V j 
7  4
4  (
7   44
  4
 4
7   
   
      



Analyse discriminante probabiliste:
cas de deux groupes

  ? ? m pm m o  p  o


m
 i o 

m/
o 
p/
ß m/ o ß i o
  èm  ß i

 èm  ß m/    èm
      èm
 ß m/   èm
   
 m m m
m

om 0 ß0
m
  èm    o / pm  m/
0 0&
o m
ß   ßm o m

  # $

D
ºonction de score et probabilité

î/     %')


m p m
     m         m   m  m  
pm
?+2
 11   2&  %')G
î  
(9 &&    2& 

ßm/  ß m  ßm  ß m
o o
pme
6o m /    ßm
ßm/  ß m ßm  ß m
o o o
ßm/  ß  oß
pme pe
 m
ßm/  ß m ßm  ß m m/  ß
o o o  ßm  ß
o
m/ p  m  p / pme
Dm
½robabilité a posteriori

è!o
  om/èm  ß  o  m/m,
 o
m e
p ß  o
  o
#     

e m m e

D
S(x)

«  
(9   
    J J 
H 
  J %')G
 p m  p 
P       P  U     
   p 
 p m
DD
½  ½  
   ½ 

    
½ ½ 

 !!! "! 
#" "$ 
%&!&' % 
 ##!''! 
!"#"""
$"&#"'# 
'%##$'&" 
"("'#"& 
 „ 
&&" &$ 
'&'&#% 

%"&"$# 
# $&" 
%!#&& " 
 !&"&! 
!&&&" 
$#!"&' # 
'#'&"& 
"##$''  
& ##&&'"
####"''" 
# &&"$ 
##"$#&%' 
#%( " !&$ 
# && 
#!!" ! !! 
#$ ' '#!!%
#''$'#&%% 
#"( %%!$&' 
#&""""# 
%(!'%  #$$ 
%## '"'$ 

[[: La régression logistique

88:# +

2    &

88:H  
88:78  &(   ( + 
88:"0   
88:-, 


[[   
  
î?(&     K<E
î4  
 &
   L
îH$  1 *(
 

6
;m/ 

> # +

(  ')< F
  

 L    
> # +

2    &
 

DA
Le modèle logistique simple

 m ½          



     m 
      

m







½ 

  

      m  
m ß          



ºnc in de ien  i


D*
î8
9 2  9 &
(  (2   
î*(
    
9 &(     


î 0'KEL<)<1')

î  
1 
2    (& ( 
2 
î %9 $ 
î 8  &(       93  

DX
[[.2 ˜dds-Ratio
% L  '$  &(L<   &(
L<)
e º   ºm e º
P Y  m / X  m  º   ºm
 P Y  m / X   
m e m  e º

 Y  m/   m /  Y   /   m
R  e m

 Y  m/    /  Y   /   


˜dds-Ratio
î *  
9(
   &&   
9 &&     
9((  K<  K<
'
  &  )
 L&   D
F:
î /
2( (


   m /m     m
   e ºm
  /m   

ë
[[.3[nterprétation économètrique

îK&   9   


&  
( 2  1      
9   


  M   
   :
î M 
9   ((   &( 

 
î% MN 
K<  K<
î#  
& O   (2
D

ëm
Modèle d·utilité
î &
( 2     (   '@2    
   % :::)
&    & 
  9
( P')
 &  P'):

K < P'GP'
 < P'GP'

î 4  

  M < P' ) Q P' ):

ë
Modèle d·utilité (suite)

î <  F
îL < 'K <R )< 'Â G)< ' G3 )</' )
î/1    (&     3
î  /
î #2   +

2 (2   
2  
î 
+
& 

ëD
[[.4 Estimation des paramètres

 4  7

Ë 
         m/   

º ºm 
 



  m  º ºm 


" m 


 7

4  
 

ëë
ÿraisemblance (conditionnelle!)

 
(9  
 ( 
S' )'  )'  )T
 
 ‘ 6
  ;  "  /      ‘      "  m ß      mß " 
 m  m

  m  "  m  mß "


 ‘   m 
 m ß  m 
    m 
 m m  m

ëŒ
maximum de vraisemblance
î 2   2 m        º   º m    <

î *       

23  

n
  º     Ö 
yi  i    m  yi   m  i   
i m
   n
    yi ß  i    
  i m

    n
  i  yi ß  i    

 m i m

î 0    &  &( 


(  & 9 &   
 

ëA
½récision (asymptotique) des estimateurs

î#   
º2  = º2  º2 3
º2     m

2 2 2
=º  ºm  ºm  

ßm
  º 3
  ( & 
    ß


 ºº2

ë*
ßm
ß    3
ÿ  2  
   2
ßm
n n
3
 2i m ß 2i    2
i i m ß 2 
i 

  n
i m i m

n

 i2 i m ß 2 i   i 2 i m ß 2 i  
 i m i m 
ßm
 m  3 2m m ß 2m   3 m m 3 
 m

   > > :  > > 


 

 m n    2 n m ß 2 n   m n  

   Ë Ë  ßm
ëX
Régression logistique
multiple
î J( (
   D&  
 &
   
LL&:
º   ºm m    º p  p
e
    P Y  m / X     º   º m m    º p  p
m e

ëÔ
$%˜
 &'(%)*&%

+,-./'0,1/2*2/3%-/$'')4/2,4% 


4,+),&)
,&,2%4%& 4/2,4%&&'&$/ #
5*,&%&6$/
5

 +4%&(%74 
  #8 
  


˜)),4/'4/2,4% 

'/+49:,-) 
00%(44/2,4%'+0/)%+(%/2/4 

 
  

Œ
[[.5 Tests sur les paramètres

î , (   & 


&  

9 && 
  
L +

£ º 
: #   6
 £ º

: # (  &&   



7: #  

Œm
Test de Wald

î
2 D     %  (2   



9   +
    5 (1 &  
º2m

s2 º2m 
2
s  2
î m  &( 
9     
9( 3 & 

9      m:
î %
9 &+ . 5   &&      

   3  D   2( 
 ( :
î ? $   .  5  mß Ñ m
Œ
Test du rapport des vraisemblances

î #9 && 
  
L   ( D
9  

    
ÿ
    

J <3
2ST
ÿ
   



9 &+ . J    &    
 
 3  D   2( 
 (:
î 4  
  
  

nm n
 nm   n 
   
n  n
ŒD
Test du score
m
scre  U  º  J  º2 £  3 U  º  2
2
º 
£   º £

îP    ( ( & 

 

23
  
   ( 
î#    (2
   &   
.  
  3 D  2( 

 (
î0 (2   
2    &

  
(2
D  U 
 11   (
  

(  '  1V)  K L
Α
Comparaison des 3 tests

ŒŒ
Tests

î, 9   9 11   



  
.  <<& <
î ? &&   
 J
î %  P
î %.     &   
 
  D&

ŒA
[[[ aiscrimination sur variables
qualitatives et scoring
Y 
    
 
m    ÿ 
         (  m        4 
Ñ     
m  u               
    " 

   
       " 

m      4 
 
8      
m  6           
       
        
  
          

m    
   $  ?  & 4 $      
8  
m  6              
    4
 
 

Œ*
ün peu de (pré)histoire

î/  '!")
î P  
&(  
î 0    
9/
î  %  5    

ŒX
ŒÔ
A
Cas général p prédicteurs
îr  1    & 

î    & 
  (2 &
    
    * 
  ?&
îP 
     U
  


     &
( &  
      m  m  
 
m    m 
  m m  
·  
   
 
 
 
 

Am
îL 9 &  &
 2 'L)<* 3&
î %
  
  (
       & 
&(  
î  
'% & !A-)
> # 11 (  (
   1   
9*
 L:
2  
(2   &  
&  &


A
a[SrüAL
1ère étape
î 
   &    
 
&(  :
6
    zm    zk
 6m 6 6& 60  6
 
m  
mm     m  
  
 m   m 
  
   Z   
    
        

  
   
  
  
  
n  

 


î   
 (  2  
 ( 
1 


&
     AD
2ème étape :
k
î 
     
(  '/  ): !
Õ  dj j

j m

î % <  
(    ( 1 

<
  
(          (2 
î  11  <2

    
  
î  Ë  
4   4 
  
  @
  
k k     j 
s   d j  j      j

j m
 d j  j

 j  ÿ m
o m 
zm
 ÿ j
z 

mj0m 0&   
  

   

 

Sélection des axes

î%
 
9  
9*
î W9 
î%
 
&    
î % 2& /2& 


Example assurance (S½Aa)

îB   



2 
î 2&       
î!&(   (2 
î P 2 ')  '7)
2 ') 2 '7)(2  
') 3
')&   ')( ')
2 ( 
')

AA
ACM

A*
@  
   
 
˜ ˜
˜  



    
##
   
  

   
     

##
##
    

˜


""
 ""


u     
    
      

AX
îÕ Õ Õ
Õ
î 0

 D
î , 1   
(     



Grille de score
############################################################################
;;˜  
;
˜ ;
;˜ 
;
  ;˜  
;
;;  ˜;
˜!;
############################################################################
; %4.7%;
;
#&'0%;#;;
;
#7&/<,4%;;;
############################################################################
;%+)%&;
;#2,-%;;;
;#0%2,-%;#;;
;˜=#('27,+/%;#;;
############################################################################
;,+>*,>%;
;?&%+($;#;;
;#0-%2/$;;;
############################################################################
;/&4$),4%;
; ## ;;;
; ## ;#;;
; @#@@@ ;;;
############################################################################
;%>/'+;
;#&*%-;#;;
;?˜4$%&&%>/'+;;;
############################################################################
;%<%-'0 '+*#2,-*;
;## #!;;;
;#˜4$%&# #!;#;;
############################################################################
; *&,4/'+'0('+4&,(4;
;8#8('+4&,(4;;;
;6#'4$%&('+4&,(4;#;;
############################################################################
;='&%7'A%&;
;=##=;;;
;=#6=;#;;
############################################################################
;.%,&'0<%$/(-%('+4&*(4/'+;
; ## ;;;
; ## ;#;;
############################################################################

*
Scoring et régression logistique

î8 
   (  &(  
  1 
   3     
î*
(  <
( (1(  :
   D
9  &(  
î%   
9     ' 1j  
 /  )

*m
  6u u! u
66uu
    
  " ""
   " *"#"
     
   " **
   " #$
   " ""
    
  % &"  #
 % " ""
% %  
$"&  &" #
 "&*  & #''
  " ""
   
(   &" $'$'
%    " ""
     &   
(& ) " ""
% (& & & *
     
+$#   " *
%  " ""
%     
"&*,- " **"'
."&*.,- " ""
  %      
**&$  **#
"& " ""
   &" .$

*
[ÿ Comparaison logistique-
discriminante
î  2 &
( 

2   
î 8  &( 
(  11  '3  )
î 0   



î *(
    & 
(
î . &+ &
2( (
9 2 
î *     
  
   
 ('(2   
(   K
L$)
î     2 1 
 L
  1'
2 
)

*D
î* 
î 0     &   & 
î    2     (&    & 1  :
/     $

î *     
    
  
& 
 
 2    
î #9&     
  

    
  + &
 2@      
3 &  ' 
)


îr 


2   (
2  '(
   
 
   ( )
î #9    +
 

  LEK


2   

  KEL
î0 &    11(  &   1   
   +& 
î   
  —  
  

 

— 
  
         —


 
  
       

 
  

    

 
  
  
   
 

   !!"#


,&/, -%%,+
4) %<
*2/+/2*2,1/2*2

('&0/$#
('&-'>###

('&0/$('&-'>

('&0/$

('&-'>

*A
î ü 2   11( &
 
2   
&(
 '1     )
î #2     
(   2
î % 
9$  1  
 
î H  1 &
 
    
9  D
(  
î *    
 ( :
î *  
&  X
î #   +    
& 1   2( (
  

**
rualité d·une règle de
classement

î , 
 
  
î H 
       
2&   
?  „

?    
    
  
î   2   
(


î , 9   
      

*X
Sur quel échantillon faire ce
tableau ?

î‰ 

  9   &&
(   :
î %   
 
9( 

    D   



+2
'       11  )(  
     j88%
î            (:
î%    (       
4    (    


Seuil et probabilités a posteriori

î 'JE)(&  &  & & &


î 
+  
9( 

 2  1(
î & &< &  < 
#2
î   &  &  1  
î  

      1 (  $ 

'&E&)
î %  &  & 
X
rualité d·un score
î r9
  & /  
2   
î &         

 2& 
î 1    (&   

Xm
Courbe R˜C

îJ& D(  J (


(
î%  
(3· '%GEJ)W  &  1
î%&( 1  (3Ñ· '%NEJ)W   (2  1

X
Courbe R˜C

XD
Courbe R˜C

î0
   3 &     1   
 Ñ   &  +  &+ 
 

 
 
î &    &  1 1    

&&   1 &  1
îü   &EE555:   :E E EE


î  ?H    &  1   
    
î %1  
    & 1  
&    &  '& 

 ) +

î s  
AUC   m  º  s     s   P  X m X 
s  

H     J   J


î ü  ( & 
&&   &     

c  nc nm n

î nc      6
 3* 36 
üF6·  F:- ' F) ü·üE  


Ñ      


  „     „  „       

ŒŒ
  / „ Ôë D
   „ Œ *
   „ 

  XXA



 XXA
?& ëë*
 ÔëD

XA
[nfarctus: comparaison
ºisher et logistique

 01
 ""

*'

'"

' 2     


2 

2 10!13

" "" 2 1042


" "" ' '" *'  ""

 2  

X*
Assurance

XX
   

6    ! '
 "# "
$%" " 5Ô
& # 5Ô


Lift chart

z    

Ô
Surface sous la courbe de lift

î &    (   G


pm m  º   m  pm 

î%1  
   m  º   pm m  º   m  pm   
pm m  º  m  º  3  m  pm  m  º   3
     
pm
  m  pm  AUC

Ôm
Coefficient Ki (Kxen)

î  ·'     

1  2
)E'  
  
1 
  (
)

m

pm  m  pm  AUC  m
Ki    AUC  m
m  pm m  pm

 i!
D A
"   R
Ô
îH&   ü  O (
 :
î & &  & 
Y
î & &   ( 
9 &&   2 

ÔD
Õ 
 Õ
î@  ÕÕ&   
&  + 
 +

îuÕ  &  


+

îÿ    &   
& 1  
  ( 1 
î(  ( 1  &
   2 

îá    


    
Ôë
Conclusion

î # (2   
2   1   
(2
 
   11( 
î ü 1 ( 9
9 2  
  &(  :
î   2   &   
î 
    
2  
î  ?H     
î     

 & 
(
î 4 &  &
 

Ԍ