Vous êtes sur la page 1sur 63

La rgression logistique

Par Sonia NEJI et Anne-Hlne JIGOREL


Introduction
La rgression logistique sapplique au cas o:
Y est qualitative 2 modalits
Xk qualitatives ou quantitatives

Le plus souvent applique la sant:
Identification des facteurs lis une maladie
Recherche des causes de dcs ou de survie de
patients
Plan
I. Spcification du modle

II. Interprtation des coefficients

III. Estimations et tests des paramtres

IV. Adquation du modle

V. Application

I. Spcification du modle


Contexte
Y est une variable binaire
0 en cas de non occurrence de lvnement.
1 si occurrence.
Y alatoire et Xi non alatoires
On cherche expliquer la survenue dun
vnement
On cherche la probabilit de succs
On travaille en terme desprance
I. Spcification du modle
Notations
On note:

(Y,X1,X2,,Xk) les variables de la population dont
on extrait un chantillon de n individus i.

(yi,xi) est le vecteur des ralisations de (Yi,Xi)

K variables explicatives
I. Spcification du modle
Contexte


f ne peut tre une fonction linaire car Y ne prend que deux valeurs:

I. Spcification du modle
=
1
,
2
, ,


Contexte
Afin que lesprance de Y ne prenne que 2 valeurs, une
utilise la fonction logistique :



Ainsi:
0<f(x)<1
et E(Y) =0 ou 1

I. Spcification du modle
=
exp()
1 +exp()
=
Loi de Y
Y suit une loi de Bernoulli de paramtre p

Application de la transformation logit permet de
travailler sur des valeurs entre [-;+]:


I. Spcification du modle
= ln(

1
)
=
0
+
1

1
+
2

2
++



II. Interprtation des
coefficients



Cas dune seule variable exogne binaire
LOdds (ou cote )
Soit P une probabilit. Son odds est dfini par:



Par exemple, si un tudiant a 3 chances sur 4
dtre reu, contre 1 chance sur 4 dtre coll, sa
cote est de 3 contre 1 , soit


II. Interprtation des coefficients

1

=
3
4

1
4

= 3
Cas dune seule variable exogne binaire
Odds ratio (ou rapport des cotes )
Cest le rapport des cotes des probabilits davoir
la maladie pour ceux qui ont un symptme X
dune part et de ceux qui ne lont pas dautre part.

OR=1, la maladie est indpendante du symptme
OR>1, la maladie est plus frquente pour les
individus qui ont le symptme.
OR<1, la maladie est plus frquente pour les
individus qui nont pas le symptme.


II. Interprtation des coefficients
Cas dune seule variable exogne binaire



II. Interprtation des coefficients
=

= 1 | = 1
1

= 1 | = 1

= 1 | = 0
1

= 1 | = 0

=
exp(
0
+
1
)
exp
0

= exp(
1
)
Cas dune seule variable exogne binaire
X=0 : symptme absent
X=1 : symptme prsent
Y=0: la maladie est absente
Y=1: la maladie est prsente

On a donc:


II. Interprtation des coefficients
[

= 1 | = ] =
0
+
1

Cas dune seule variable exogne binaire
Avec lestimateur de 1: RC=exp(1), permet
de comparer les individus qui possdent le
symptme X avec ceux qui ne le possde pas. Pour
cela, on compare le RC 1.

Avec lestimateur de 0: On peut calculer


Cest--dire la proportion observe de malades
nayant pas le symptme.


II. Interprtation des coefficients

= 1 | = 0 =
exp(
0
)
1 + exp(
0
)

Cas dune seule variable exogne
quantitative

X une variable quantitative (ex: ge)
Y=0: la maladie est absente
Y=1: la maladie est prsente

On a encore:




II. Interprtation des coefficients
[

= 1 | = ] =
0
+
1

Cas dune seule variable exogne
quantitative

Avec lestimateur de 1: permet davoir le
lodds ratio quand X1 augmente dune unit:






II. Interprtation des coefficients
= exp(
1
)
Cas dune seule variable exogne
quantitative

Avec lestimateur de 0: permet de connaitre
la proportion de malades dont la valeur de X est
0.

Attention linterprtation de 0 qui
na pas de sens pour certaines variables
X comme lge!




II. Interprtation des coefficients
Synthse: Modle logistique multiple
Linterprtation est semblable celle des
modles une variable explicative.

Exemple:





II. Interprtation des coefficients

= 1 |, =
0
+
1
. +
2
.

= 1,3982 ,
1

= 0,4118
2

= 0,6708
Synthse: Modle logistique multiple



Linterprtation de 0 na pas de sens

RC=exp(1)=1,5068 >1
Si lge augmente dune unit, le risque de contracter
la maladie augmente.

RC=exp(2)=1,9558 >1
Le risque de contracter la maladie est plus lev si
lindividu est fumeur.
II. Interprtation des coefficients

= 1 |, =
0
+
1
. +
2
.

= 1,3982 ,
1

= 0,4118
2

= 0,6708

III. Estimation et test du
modle



Maximum de vraisemblance
Estimateurs des paramtres sans biais et de
faible variance.

n variables alatoires Yi iid qui suivent une loi de
B().

La vraisemblance dun n-chantillon y1,y2,,yn
est dfinie comme la probabilit dobserver cet
chantillon.
III. Estimation et test du modle
Maximum de vraisemblance



Les variables Yi tant indpendantes:

L(,y1,yn ) =



III. Estimation et test du modle

. (1 )
1

=1

. (1

)
1


Maximum de vraisemblance
Avec s(j) tel que s(j) soient les variances des
estimateurs telles que la matrice de variance
covariance soit de la forme :


III. Estimation et test du modle
Maximum de vraisemblance
Intervalles de confiance

Ce test permet de savoir sil y a une relation
entre la variable Xj et Y.



Si 1 IC pas de relation
Si 1 IC relation entre Xj et Y


III. Estimation et test du modle
= exp[

. (

]
Test du rapport de vraisemblance
Compare 2 modles emboits:
M1: k paramtres
M2: p paramtres (p>k)

Les hypothses de test sont:



La statistique de test est:
(-2.ln(vraisemblance au maximum de M1)] -
(-2.ln(vraisemblance au maximum deM2)]
Elle suit une loi du Khi-deux p-k degrs de liberts.
III. Estimation et test du modle

0
: 1 ( 2 )

1
: 2


Test de significativit globale

Les variables explicatives influencent-elles
simultanment le risque de survenue de
lvnement?

On va effectuer un test du rapport de
vraisemblance




III. Estimation et test du modle
Test de significativit globale
M1: Modle sans variables
M2: Modle avec toutes les variables

On teste:



Est-ce que M1 est meilleur que M2 (qualits
prdictives)?

III. Estimation et test du modle

0
: 1 = 1 =
0

1
: 2 = 1 =
0
+
1

1
++



Test de significativit globale
La statistique de test est:
RV= (-2.ln(vraisemblance au maximum de M1)] -
(-2.ln(vraisemblance au maximum deM2)]
Et suit un Khi-deux p degrs de libert

Si RV > (p) On rejette H0, le modle 2
est meilleur que le 1, les variables explicatives
ont simultanment une influence sur la
probabilit dapparition de lvnement tudi.

III. Estimation et test du modle
Test de significativit pour une variable
M1: Modle sans la variable teste j
M2: Modle avec la variable teste j

On teste:







III. Estimation et test du modle

0
: 1 = 1 =
0
+
1

1
++

1
: 2 = 1 =
0
+
1

1
++

++



Cest--dire :

0
:

= 0

1
:

0


Test de significativit pour une variable
Il y a 2 manires dcrire la statistique de test
Sous une loi Normale:



Sous une loi du Khi-deux:




III. Estimation et test du modle
=

~ (0,1) sous H0
=

= ~ (1) sous H0
Test de significativit pour une variable
Conclusion
Sous une loi Normale:
Si |U| > N(0,1) (=1,96 95%)
Sous une loi du Khi-deux:
Si U > (1)

On rejette HO, le modle 2 est meilleur que le 1,
le paramtre j est significatif, la variable j a
une influence sur la probabilit dapparition de
lvnement, sachant les autres variables du
modle.


III. Estimation et test du modle
Modification deffet ou interaction
On considre le modle M2:



Si 3 est significative, alors X2 modifie leffet de
X1. En effet, dans ce cas:
Si X2=0 -> leffet de X1 est 1
Si X2=1 -> leffet de X1 est 1+3


III. Estimation et test du modle
= 1
1
,
2
=
0
+
1
.
1
+
2
.
2
+
3
.
1
.
2

Modification deffet ou interaction
On teste par le test du rapport de vraisemblance:



Si on rejette HO Il y a modification deffet
On laisse linteraction dans
le modle.

Si on accepte HO On retire linteraction.

III. Estimation et test du modle




Confusion
On considre 2 modles a et b:




Effet brut de X1: RCa=exp(1) de Ma
Effet de X1 ajust X2: RCb=exp(1) de Mb

Il y a confusion si RCaRCb


III. Estimation et test du modle

= 1
1

=
0
+
1
.
1

= 1
1
,
2

=
0
+
1
.
1
+
2
.
2

Confusion
Variation relative:



10%<k<20%

Si VR>k X2 est un facteur de confusion
Si VRk on vrifie 2 =0. Si oui, on retire X2
de ltude.

III. Estimation et test du modle
=



IV. Adquation du modle



Principe

Dterminer la qualit dajustement du modle
aux donnes.

Si lajustement est correct, les valeurs prdites
seront proches des valeurs observes.

IV. Adquation du modle
Test de Hosmer et Lemeshow
Regroupement des probabilits prdites par le
modle en dix groupes (dciles).

Pour chaque groupe, on observe lcart entre les
valeurs prdites et observes. Limportance de la
distance entre ces valeurs est value grce une
statistique du Khi-deux 8 ddl qui teste:


IV. Adquation du modle

0
:
1:


Tableau de contingence





Ce tableau permet de connaitre le nombre de bonnes et de mauvaises
prdictions par rapport un seuil s (fix gnralement 50%)

IV. Adquation du modle
Malade
(yi=1)
Non Malade
(yi=0)
Total
Prdit malade (

= 1) a c a+c
Prdit non malade (

= 0) b d b+d
Total a+b c+d n

=
+

=
+


Tableau de contingence





Nbb: 93+257/431=81,2%
Nbm: 50+31/431= 18,8%

Sensibilit: Se: 93/143 = 65%
Sp: 257/288 = 89,2%



IV. Adquation du modle
Malade
(yi=1)
Non Malade
(yi=0)
Total
Prdit malade (

= 1) 93 31 124
Prdit non malade (

= 0) 50 257 307
Total 143 288 431

Courbe ROC
Se en
fonction de 1-Sp







Laire sous la courbe:




IV. Adquation du modle
=0,5 Aucune discrimination
]0,5;0,7[ Discrimination faible
[0,7;0,8[ Discrimination acceptable
[0,8;0,9[ Discrimination excellente
[0,9;1] Discrimination parfaite

V. Application



Description des donnes
REPRISE : reprise de consommation de drogues avant la fin
prvue du programme de traitement
(0=non ; 1=oui)
SITE : site du programme (0=A, 1=B)
AGE : ge linclusion
BECK : score de dpression de BECK linclusion
(de 0.0 (normal) 54.0 (dpression)
IVHX : histoire dutilisation de drogues par voie
intraveineuse linclusion
(1=jamais ; 2=ancienne ; 3=rcente)
NBTRAIT : nombre de traitements anti-drogue
prcdemment suivis (de 0 40)
RACE : race (0=blanche, 1=autre)
DUREE : dure du traitement attribue par tirage au sort
linclusion
(0=courte ; 1=longue)

IV. Application
Description des donnes
IV. Application
Variables moyenne (cart-type)

Age l'inclusion
32,38 (6,19)
Score de dpression de Beck l'inclusion 17,37 (9,33)
Nombre de traitements anti-drogue
prcdemment suivis
4,54 (5,48)
Variables n (%)

Histoire d'utilisation de drogues par voie
intraveineuse l'inclusion

jamais 223 (38,78)
ancienne 109 (18,96)
rcente 243 (42,26)
Race
blanche 430 (74,78)
autre 145 (25,22)
Dure du traitement
courte 289 (50,26)
longue 286 (49,74)
Site du programme de traitement
A 400 (69,57)
B 175 (30,43)
Reprise de consommation de drogues avant la fin
prvue du programme de traitement
oui 428 (74,43)
non 147 (25,57)
Rgression logistique multiple
IV. Application




Hypothse de linarit du logit : il existe une relation linaire entre le Logit
du risque et la variable X.


Estimation du 1
er
modle :

M1 : logit P [REPRISE=1|AGE]=0+1*AGE
Rgression logistique multiple
IV. Application




Estimation du 2
me
modle :

M2 : logit P [REPRISE=1|AGE]=0+1*AGE(2) + 2*AGE(3) + 4*AGE(4)
Aucune tendance la diminution

Hypothse de linarit du logit non vrifie Utilisation de la variable AGE
en catgorielle
Rgression logistique multiple
IV. Application
proc logistic data=TP2.donnees descending;
class IVHX (ref='1') / param=ref;
class age1 (ref='1') / param=ref;
model REPRISE = SITE RACE AGE1 BECK IVHX NBTRAIT DUREE;
run;


Option descending : elle inverse lordre daffichage des modalits de la variable
dpendante.

La commande class IVHX(ref='1) / param=ref;
demande SAS de crer des variables indicatrices pour les variables catgorielles
IVHX et AGE en prenant comme classe de rfrence le groupe IVHX=1 et AGE=1.

MODEL var_dep = var_indep </ options>;
IV. Application
IV. Application
Rgression logistique multiple
IV. Application
Slection des variables : Procdure descendante manuelle

On limine la variable avec la p-value la plus lev

1. On enlve la variable BECK (p-value=0.8748 qui est la plus leve)
Rgression logistique multiple
IV. Application

2. On r-estime le modle sans cette variable et on limine la variable avec une p-
value > 0.05 etc
Rgression logistique multiple
IV. Application
RC (Age 2 VS 1) = 1.152 Avoir entre 28 et 33 ans augmente la probabilit de
reprise de drogue par rapport un individu ayant un ge infrieur 28 ans.

RC (DUREE) = 0.625 Un individu qui a une dure de traitement longue
diminue sa probabilit de reprise de drogue, ajust sur les autres variables
explicatives.


Etude de linteraction entre deux variables
IV. Application
La variable AGE modifie-t-elle leffet de la variable NBTRAIT sur la variable
dpendante REPRISE ?
proc logistic data=TP2.donnees descending;
class age1 (ref='1') / param=ref;
model REPRISE = NBTRAIT AGE1 NBTRAIT*AGE1;
run;
Etude de linteraction entre deux variables
IV. Application
On rejette H0, linteraction entre AGE et NBTRAIT est significative.
AGE modifie donc la variable NBTRAIT sur la variable dpendante REPRISE

On garde le terme dinteraction. Il y a modification deffet
Facteur de confusion
IV. Application
On souhaite dterminer si la dure du traitement (variable DUREE) modifie leffet
du nombre de traitement anti-drogue suivis (variable NBTRAIT) sur le risque
de reprise de drogue (variable REPRISE).


1. On vrifie que la variable DUREE ne modifie pas leffet de NBTRAIT sur la
variable dpendante REPRISE.
Facteur de confusion
IV. Application
2. On considre un 1
er
modle M1 :
logit P [REPRISE | NBTRAIT, DUREE] = 0 + 1*NBTRAIT + 2*DUREE

Et un 2
me
modle M2 :
logit P [REPRISE|NBTRAIT]=0+1*NBTRAIT
Facteur de confusion
IV. Application
3. On calcule la variation relative (1.077 1.078) / (1.077) = 0.0009


La dure du traitement nest pas un facteur de confusion. Il ne faut pas en tenir
compte dans la mesure dassociation entre le nombre de traitement anti-drogue suivis
et la reprise ou non de drogues.

On retient le modle M2 :

logit P [REPRISE=1 | NBTRAIT] = 0 + 1*NBTRAIT



Adquation du modle
IV. Application
proc logistic data=TP2.donnees descending;
/* attention aux valeurs manquantes*/
class IVHX (ref='1') / param=ref ;
class AGE1 (ref='1') / param=ref ;
/*cration de 2 variables indicatrices pour la variable IVHX*/
model REPRISE=IVHX NBTRAIT DUREE AGE1 / lackfit
outroc=croc;
run;
Adquation du modle
IV. Application
On accepte H0 Le modle est adquat
Pouvoir discriminant du modle
IV. Application
/* trac de la courbe ROC*/
proc gplot data=croc; /*on utilise la table cre
prcdemment*/
plot _sensit_*_1mspec_=1 / vaxis=0 to 1 by 0.05;
run;
Pouvoir discriminant du modle
IV. Application
Conclusion
Variable endogne Y binaire.
Variable exogne X quantitative ou qualitative
Si quantitative, vrifier lhypothse de linarit.
Les paramtres ne sont pas interprtables
Il faut calculer les RC=exp(k) et les comparer 1
Les tests sont tous bass sur la test du rapport de
vraisemblance.
Adquation du modle: On mesure lcart entre les
valeurs prdites et observes.