La Régression Logistique

La rgression logistique
Par Sonia NEJI et Anne-Hlne JIGOREL

Introduction
La rgression logistique sapplique au cas o:
Y est qualitative 2 modalits
Xk qualitatives ou quantitatives

Le plus souvent applique la sant:
Identification des facteurs lis une maladie
Recherche des causes de dcs ou de survie de
patients
Plan
I. Spcification du modle

II. Interprtation des coefficients

III. Estimations et tests des paramtres

IV. Adquation du modle

V. Application


Contexte
Y est une variable binaire
0 en cas de non occurrence de lvnement.
1 si occurrence.
Y alatoire et Xi non alatoires
On cherche expliquer la survenue dun
vnement
On cherche la probabilit de succs
On travaille en terme desprance
Notations
On note:

(Y,X1,X2,,Xk) les variables de la population dont
on extrait un chantillon de n individus i.

(yi,xi) est le vecteur des ralisations de (Yi,Xi)

K variables explicatives
Contexte

f ne peut tre une fonction linaire car Y ne prend que deux valeurs:

=
1
,
2
, ,

Contexte
Afin que lesprance de Y ne prenne que 2 valeurs, une
utilise la fonction logistique :

Ainsi:
0<f(x)<1
et E(Y) =0 ou 1

=
exp()
1 +exp()
=
Loi de Y
Y suit une loi de Bernoulli de paramtre p

Application de la transformation logit permet de
travailler sur des valeurs entre [-;+]:

= ln(
1
)
=
0
+
1
1
+
2
2
++

II. Interprtation des
coefficients

Cas dune seule variable exogne binaire
LOdds (ou cote )
Soit P une probabilit. Son odds est dfini par:

Par exemple, si un tudiant a 3 chances sur 4
dtre reu, contre 1 chance sur 4 dtre coll, sa
cote est de 3 contre 1 , soit

1

=
3
4
1
4
= 3
Odds ratio (ou rapport des cotes )
Cest le rapport des cotes des probabilits davoir
la maladie pour ceux qui ont un symptme X
dune part et de ceux qui ne lont pas dautre part.

OR=1, la maladie est indpendante du symptme
OR>1, la maladie est plus frquente pour les
individus qui ont le symptme.
OR<1, la maladie est plus frquente pour les
individus qui nont pas le symptme.


=
= 1 | = 1
1
= 1 | = 1
= 1 | = 0
1
= 1 | = 0

=
exp(
0
+
1
)
exp
0
= exp(
1
)
X=0 : symptme absent
X=1 : symptme prsent
Y=0: la maladie est absente
Y=1: la maladie est prsente

On a donc:

[
= 1 | = ] =
0
+
1

Avec lestimateur de 1: RC=exp(1), permet
de comparer les individus qui possdent le
symptme X avec ceux qui ne le possde pas. Pour
cela, on compare le RC 1.

Avec lestimateur de 0: On peut calculer

Cest--dire la proportion observe de malades
nayant pas le symptme.

= 1 | = 0 =
exp(
0
)
1 + exp(
0
)

Cas dune seule variable exogne
quantitative

X une variable quantitative (ex: ge)
Y=0: la maladie est absente
Y=1: la maladie est prsente

On a encore:

[
= 1 | = ] =
0
+
1

quantitative

Avec lestimateur de 1: permet davoir le
lodds ratio quand X1 augmente dune unit:

= exp(
1
)
quantitative

Avec lestimateur de 0: permet de connaitre
la proportion de malades dont la valeur de X est
0.

Attention linterprtation de 0 qui
na pas de sens pour certaines variables
X comme lge!

Synthse: Modle logistique multiple
Linterprtation est semblable celle des
modles une variable explicative.

Exemple:

= 1 |, =
0
+
1
. +
2
.
= 1,3982 ,
1
= 0,4118
2
= 0,6708
Synthse: Modle logistique multiple

Linterprtation de 0 na pas de sens

RC=exp(1)=1,5068 >1
Si lge augmente dune unit, le risque de contracter
la maladie augmente.

RC=exp(2)=1,9558 >1
Le risque de contracter la maladie est plus lev si
lindividu est fumeur.
= 1 |, =
0
+
1
. +
2
.
= 1,3982 ,
1
= 0,4118
2
= 0,6708

III. Estimation et test du
modle

Maximum de vraisemblance
Estimateurs des paramtres sans biais et de
faible variance.

n variables alatoires Yi iid qui suivent une loi de
B().

La vraisemblance dun n-chantillon y1,y2,,yn
est dfinie comme la probabilit dobserver cet
chantillon.
III. Estimation et test du modle

Les variables Yi tant indpendantes:

L(,y1,yn ) =

. (1 )
1
=1

. (1
)
1

Avec s(j) tel que s(j) soient les variances des
estimateurs telles que la matrice de variance
covariance soit de la forme :

Intervalles de confiance

Ce test permet de savoir sil y a une relation
entre la variable Xj et Y.

Si 1 IC pas de relation
Si 1 IC relation entre Xj et Y

= exp[
. (
]
Test du rapport de vraisemblance
Compare 2 modles emboits:
M1: k paramtres
M2: p paramtres (p>k)

Les hypothses de test sont:

La statistique de test est:
(-2.ln(vraisemblance au maximum de M1)] -
(-2.ln(vraisemblance au maximum deM2)]
Elle suit une loi du Khi-deux p-k degrs de liberts.
0
: 1 ( 2 )
1
: 2

Test de significativit globale

Les variables explicatives influencent-elles
simultanment le risque de survenue de
lvnement?

On va effectuer un test du rapport de
vraisemblance

M1: Modle sans variables
M2: Modle avec toutes les variables

On teste:

Est-ce que M1 est meilleur que M2 (qualits
prdictives)?

0
: 1 = 1 =
0

1
: 2 = 1 =
0
+
1
1
++

La statistique de test est:
RV= (-2.ln(vraisemblance au maximum de M1)] -
(-2.ln(vraisemblance au maximum deM2)]
Et suit un Khi-deux p degrs de libert

Si RV > (p) On rejette H0, le modle 2
est meilleur que le 1, les variables explicatives
ont simultanment une influence sur la
probabilit dapparition de lvnement tudi.

Test de significativit pour une variable
M1: Modle sans la variable teste j
M2: Modle avec la variable teste j

On teste:

0
: 1 = 1 =
0
+
1
1
++
1
: 2 = 1 =
0
+
1
1
++
++

Cest--dire :
0
:
= 0
1
:
0

Il y a 2 manires dcrire la statistique de test
Sous une loi Normale:

Sous une loi du Khi-deux:

=
~ (0,1) sous H0
=
= ~ (1) sous H0
Conclusion
Sous une loi Normale:
Si |U| > N(0,1) (=1,96 95%)
Sous une loi du Khi-deux:
Si U > (1)

On rejette HO, le modle 2 est meilleur que le 1,
le paramtre j est significatif, la variable j a
une influence sur la probabilit dapparition de
lvnement, sachant les autres variables du
modle.

Modification deffet ou interaction
On considre le modle M2:

Si 3 est significative, alors X2 modifie leffet de
X1. En effet, dans ce cas:
Si X2=0 -> leffet de X1 est 1
Si X2=1 -> leffet de X1 est 1+3

= 1
1
,
2
=
0
+
1
.
1
+
2
.
2
+
3
.
1
.
2

Modification deffet ou interaction
On teste par le test du rapport de vraisemblance:

Si on rejette HO Il y a modification deffet
On laisse linteraction dans
le modle.

Si on accepte HO On retire linteraction.


Confusion
On considre 2 modles a et b:

Effet brut de X1: RCa=exp(1) de Ma
Effet de X1 ajust X2: RCb=exp(1) de Mb

Il y a confusion si RCaRCb

= 1
1
=
0
+
1
.
1

= 1
1
,
2
=
0
+
1
.
1
+
2
.
2

Confusion
Variation relative:

10%<k<20%

Si VR>k X2 est un facteur de confusion
Si VRk on vrifie 2 =0. Si oui, on retire X2
de ltude.

=


Principe

Dterminer la qualit dajustement du modle
aux donnes.

Si lajustement est correct, les valeurs prdites
seront proches des valeurs observes.

Test de Hosmer et Lemeshow
Regroupement des probabilits prdites par le
modle en dix groupes (dciles).

Pour chaque groupe, on observe lcart entre les
valeurs prdites et observes. Limportance de la
distance entre ces valeurs est value grce une
statistique du Khi-deux 8 ddl qui teste:

0
:
1:

Tableau de contingence

Ce tableau permet de connaitre le nombre de bonnes et de mauvaises
prdictions par rapport un seuil s (fix gnralement 50%)

Malade
(yi=1)
Non Malade
(yi=0)
Total
Prdit malade (
= 1) a c a+c
Prdit non malade (
= 0) b d b+d
Total a+b c+d n

=
+
=
+

Tableau de contingence

Nbb: 93+257/431=81,2%
Nbm: 50+31/431= 18,8%

Sensibilit: Se: 93/143 = 65%
Sp: 257/288 = 89,2%

Malade
(yi=1)
Non Malade
(yi=0)
Total
Prdit malade (
= 1) 93 31 124
Prdit non malade (
= 0) 50 257 307
Total 143 288 431

Courbe ROC
Se en
fonction de 1-Sp

Laire sous la courbe:

=0,5 Aucune discrimination
]0,5;0,7[ Discrimination faible
[0,7;0,8[ Discrimination acceptable
[0,8;0,9[ Discrimination excellente
[0,9;1] Discrimination parfaite

V. Application

Description des donnes
REPRISE : reprise de consommation de drogues avant la fin
prvue du programme de traitement
(0=non ; 1=oui)
SITE : site du programme (0=A, 1=B)
AGE : ge linclusion
BECK : score de dpression de BECK linclusion
(de 0.0 (normal) 54.0 (dpression)
IVHX : histoire dutilisation de drogues par voie
intraveineuse linclusion
(1=jamais ; 2=ancienne ; 3=rcente)
NBTRAIT : nombre de traitements anti-drogue
prcdemment suivis (de 0 40)
RACE : race (0=blanche, 1=autre)
DUREE : dure du traitement attribue par tirage au sort
linclusion
(0=courte ; 1=longue)

IV. Application
Description des donnes
IV. Application
Variables moyenne (cart-type)

Age l'inclusion
32,38 (6,19)
Score de dpression de Beck l'inclusion 17,37 (9,33)
Nombre de traitements anti-drogue
prcdemment suivis
4,54 (5,48)
Variables n (%)

Histoire d'utilisation de drogues par voie
intraveineuse l'inclusion

jamais 223 (38,78)
ancienne 109 (18,96)
rcente 243 (42,26)
Race
blanche 430 (74,78)
autre 145 (25,22)
Dure du traitement
courte 289 (50,26)
longue 286 (49,74)
Site du programme de traitement
A 400 (69,57)
B 175 (30,43)
Reprise de consommation de drogues avant la fin
prvue du programme de traitement
oui 428 (74,43)
non 147 (25,57)
Rgression logistique multiple
IV. Application

Hypothse de linarit du logit : il existe une relation linaire entre le Logit
du risque et la variable X.

Estimation du 1
er
modle :

M1 : logit P [REPRISE=1|AGE]=0+1*AGE
IV. Application

Estimation du 2
me
modle :

M2 : logit P [REPRISE=1|AGE]=0+1*AGE(2) + 2*AGE(3) + 4*AGE(4)
Aucune tendance la diminution

Hypothse de linarit du logit non vrifie Utilisation de la variable AGE
en catgorielle
IV. Application
proc logistic data=TP2.donnees descending;
class IVHX (ref='1') / param=ref;
class age1 (ref='1') / param=ref;
model REPRISE = SITE RACE AGE1 BECK IVHX NBTRAIT DUREE;
run;

Option descending : elle inverse lordre daffichage des modalits de la variable
dpendante.

La commande class IVHX(ref='1) / param=ref;
demande SAS de crer des variables indicatrices pour les variables catgorielles
IVHX et AGE en prenant comme classe de rfrence le groupe IVHX=1 et AGE=1.

MODEL var_dep = var_indep </ options>;
IV. Application
IV. Application
IV. Application
Slection des variables : Procdure descendante manuelle

On limine la variable avec la p-value la plus lev

1. On enlve la variable BECK (p-value=0.8748 qui est la plus leve)
IV. Application

2. On r-estime le modle sans cette variable et on limine la variable avec une p-
value > 0.05 etc
IV. Application
RC (Age 2 VS 1) = 1.152 Avoir entre 28 et 33 ans augmente la probabilit de
reprise de drogue par rapport un individu ayant un ge infrieur 28 ans.

RC (DUREE) = 0.625 Un individu qui a une dure de traitement longue
diminue sa probabilit de reprise de drogue, ajust sur les autres variables
explicatives.

Etude de linteraction entre deux variables
IV. Application
La variable AGE modifie-t-elle leffet de la variable NBTRAIT sur la variable
dpendante REPRISE ?
class age1 (ref='1') / param=ref;
model REPRISE = NBTRAIT AGE1 NBTRAIT*AGE1;
run;
Etude de linteraction entre deux variables
IV. Application
On rejette H0, linteraction entre AGE et NBTRAIT est significative.
AGE modifie donc la variable NBTRAIT sur la variable dpendante REPRISE

On garde le terme dinteraction. Il y a modification deffet
Facteur de confusion
IV. Application
On souhaite dterminer si la dure du traitement (variable DUREE) modifie leffet
du nombre de traitement anti-drogue suivis (variable NBTRAIT) sur le risque
de reprise de drogue (variable REPRISE).

1. On vrifie que la variable DUREE ne modifie pas leffet de NBTRAIT sur la
variable dpendante REPRISE.
IV. Application
2. On considre un 1
er
modle M1 :
logit P [REPRISE | NBTRAIT, DUREE] = 0 + 1*NBTRAIT + 2*DUREE

Et un 2
me
modle M2 :
logit P [REPRISE|NBTRAIT]=0+1*NBTRAIT
IV. Application
3. On calcule la variation relative (1.077 1.078) / (1.077) = 0.0009

La dure du traitement nest pas un facteur de confusion. Il ne faut pas en tenir
compte dans la mesure dassociation entre le nombre de traitement anti-drogue suivis
et la reprise ou non de drogues.

On retient le modle M2 :

logit P [REPRISE=1 | NBTRAIT] = 0 + 1*NBTRAIT

Adquation du modle
IV. Application
/* attention aux valeurs manquantes*/
class IVHX (ref='1') / param=ref ;
class AGE1 (ref='1') / param=ref ;
/*cration de 2 variables indicatrices pour la variable IVHX*/
model REPRISE=IVHX NBTRAIT DUREE AGE1 / lackfit
outroc=croc;
run;
Adquation du modle
IV. Application
On accepte H0 Le modle est adquat
Pouvoir discriminant du modle
IV. Application
/* trac de la courbe ROC*/
proc gplot data=croc; /*on utilise la table cre
prcdemment*/
plot _sensit_*_1mspec_=1 / vaxis=0 to 1 by 0.05;
run;
Pouvoir discriminant du modle
IV. Application
Conclusion
Variable endogne Y binaire.
Variable exogne X quantitative ou qualitative
Si quantitative, vrifier lhypothse de linarit.
Les paramtres ne sont pas interprtables
Il faut calculer les RC=exp(k) et les comparer 1
Les tests sont tous bass sur la test du rapport de
vraisemblance.
Adquation du modle: On mesure lcart entre les
valeurs prdites et observes.

La Régression Logistique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

La Régression Logistique

Transféré par

Droits d'auteur :

Formats disponibles

La rgression logistique

Par Sonia NEJI et Anne-Hlne JIGOREL

Vous aimerez peut-être aussi