Académique Documents
Professionnel Documents
Culture Documents
Contexte
Afin que lesprance de Y ne prenne que 2 valeurs, une
utilise la fonction logistique :
Ainsi:
0<f(x)<1
et E(Y) =0 ou 1
I. Spcification du modle
=
exp()
1 +exp()
=
Loi de Y
Y suit une loi de Bernoulli de paramtre p
Application de la transformation logit permet de
travailler sur des valeurs entre [-;+]:
I. Spcification du modle
= ln(
1
)
=
0
+
1
1
+
2
2
++
II. Interprtation des
coefficients
Cas dune seule variable exogne binaire
LOdds (ou cote )
Soit P une probabilit. Son odds est dfini par:
Par exemple, si un tudiant a 3 chances sur 4
dtre reu, contre 1 chance sur 4 dtre coll, sa
cote est de 3 contre 1 , soit
II. Interprtation des coefficients
1
=
3
4
1
4
= 3
Cas dune seule variable exogne binaire
Odds ratio (ou rapport des cotes )
Cest le rapport des cotes des probabilits davoir
la maladie pour ceux qui ont un symptme X
dune part et de ceux qui ne lont pas dautre part.
OR=1, la maladie est indpendante du symptme
OR>1, la maladie est plus frquente pour les
individus qui ont le symptme.
OR<1, la maladie est plus frquente pour les
individus qui nont pas le symptme.
II. Interprtation des coefficients
Cas dune seule variable exogne binaire
II. Interprtation des coefficients
=
= 1 | = 1
1
= 1 | = 1
= 1 | = 0
1
= 1 | = 0
=
exp(
0
+
1
)
exp
0
= exp(
1
)
Cas dune seule variable exogne binaire
X=0 : symptme absent
X=1 : symptme prsent
Y=0: la maladie est absente
Y=1: la maladie est prsente
On a donc:
II. Interprtation des coefficients
[
= 1 | = ] =
0
+
1
Cas dune seule variable exogne binaire
Avec lestimateur de 1: RC=exp(1), permet
de comparer les individus qui possdent le
symptme X avec ceux qui ne le possde pas. Pour
cela, on compare le RC 1.
Avec lestimateur de 0: On peut calculer
Cest--dire la proportion observe de malades
nayant pas le symptme.
II. Interprtation des coefficients
= 1 | = 0 =
exp(
0
)
1 + exp(
0
)
Cas dune seule variable exogne
quantitative
X une variable quantitative (ex: ge)
Y=0: la maladie est absente
Y=1: la maladie est prsente
On a encore:
II. Interprtation des coefficients
[
= 1 | = ] =
0
+
1
Cas dune seule variable exogne
quantitative
Avec lestimateur de 1: permet davoir le
lodds ratio quand X1 augmente dune unit:
II. Interprtation des coefficients
= exp(
1
)
Cas dune seule variable exogne
quantitative
Avec lestimateur de 0: permet de connaitre
la proportion de malades dont la valeur de X est
0.
Attention linterprtation de 0 qui
na pas de sens pour certaines variables
X comme lge!
II. Interprtation des coefficients
Synthse: Modle logistique multiple
Linterprtation est semblable celle des
modles une variable explicative.
Exemple:
II. Interprtation des coefficients
= 1 |, =
0
+
1
. +
2
.
= 1,3982 ,
1
= 0,4118
2
= 0,6708
Synthse: Modle logistique multiple
Linterprtation de 0 na pas de sens
RC=exp(1)=1,5068 >1
Si lge augmente dune unit, le risque de contracter
la maladie augmente.
RC=exp(2)=1,9558 >1
Le risque de contracter la maladie est plus lev si
lindividu est fumeur.
II. Interprtation des coefficients
= 1 |, =
0
+
1
. +
2
.
= 1,3982 ,
1
= 0,4118
2
= 0,6708
III. Estimation et test du
modle
Maximum de vraisemblance
Estimateurs des paramtres sans biais et de
faible variance.
n variables alatoires Yi iid qui suivent une loi de
B().
La vraisemblance dun n-chantillon y1,y2,,yn
est dfinie comme la probabilit dobserver cet
chantillon.
III. Estimation et test du modle
Maximum de vraisemblance
Les variables Yi tant indpendantes:
L(,y1,yn ) =
III. Estimation et test du modle
. (1 )
1
=1
. (1
)
1
Maximum de vraisemblance
Avec s(j) tel que s(j) soient les variances des
estimateurs telles que la matrice de variance
covariance soit de la forme :
III. Estimation et test du modle
Maximum de vraisemblance
Intervalles de confiance
Ce test permet de savoir sil y a une relation
entre la variable Xj et Y.
Si 1 IC pas de relation
Si 1 IC relation entre Xj et Y
III. Estimation et test du modle
= exp[
. (
]
Test du rapport de vraisemblance
Compare 2 modles emboits:
M1: k paramtres
M2: p paramtres (p>k)
Les hypothses de test sont:
La statistique de test est:
(-2.ln(vraisemblance au maximum de M1)] -
(-2.ln(vraisemblance au maximum deM2)]
Elle suit une loi du Khi-deux p-k degrs de liberts.
III. Estimation et test du modle
0
: 1 ( 2 )
1
: 2
Test de significativit globale
Les variables explicatives influencent-elles
simultanment le risque de survenue de
lvnement?
On va effectuer un test du rapport de
vraisemblance
III. Estimation et test du modle
Test de significativit globale
M1: Modle sans variables
M2: Modle avec toutes les variables
On teste:
Est-ce que M1 est meilleur que M2 (qualits
prdictives)?
III. Estimation et test du modle
0
: 1 = 1 =
0
1
: 2 = 1 =
0
+
1
1
++
Test de significativit globale
La statistique de test est:
RV= (-2.ln(vraisemblance au maximum de M1)] -
(-2.ln(vraisemblance au maximum deM2)]
Et suit un Khi-deux p degrs de libert
Si RV > (p) On rejette H0, le modle 2
est meilleur que le 1, les variables explicatives
ont simultanment une influence sur la
probabilit dapparition de lvnement tudi.
III. Estimation et test du modle
Test de significativit pour une variable
M1: Modle sans la variable teste j
M2: Modle avec la variable teste j
On teste:
III. Estimation et test du modle
0
: 1 = 1 =
0
+
1
1
++
1
: 2 = 1 =
0
+
1
1
++
++
Cest--dire :
0
:
= 0
1
:
0
Test de significativit pour une variable
Il y a 2 manires dcrire la statistique de test
Sous une loi Normale:
Sous une loi du Khi-deux:
III. Estimation et test du modle
=
~ (0,1) sous H0
=
= ~ (1) sous H0
Test de significativit pour une variable
Conclusion
Sous une loi Normale:
Si |U| > N(0,1) (=1,96 95%)
Sous une loi du Khi-deux:
Si U > (1)
On rejette HO, le modle 2 est meilleur que le 1,
le paramtre j est significatif, la variable j a
une influence sur la probabilit dapparition de
lvnement, sachant les autres variables du
modle.
III. Estimation et test du modle
Modification deffet ou interaction
On considre le modle M2:
Si 3 est significative, alors X2 modifie leffet de
X1. En effet, dans ce cas:
Si X2=0 -> leffet de X1 est 1
Si X2=1 -> leffet de X1 est 1+3
III. Estimation et test du modle
= 1
1
,
2
=
0
+
1
.
1
+
2
.
2
+
3
.
1
.
2
Modification deffet ou interaction
On teste par le test du rapport de vraisemblance:
Si on rejette HO Il y a modification deffet
On laisse linteraction dans
le modle.
Si on accepte HO On retire linteraction.
III. Estimation et test du modle
Confusion
On considre 2 modles a et b:
Effet brut de X1: RCa=exp(1) de Ma
Effet de X1 ajust X2: RCb=exp(1) de Mb
Il y a confusion si RCaRCb
III. Estimation et test du modle
= 1
1
=
0
+
1
.
1
= 1
1
,
2
=
0
+
1
.
1
+
2
.
2
Confusion
Variation relative:
10%<k<20%
Si VR>k X2 est un facteur de confusion
Si VRk on vrifie 2 =0. Si oui, on retire X2
de ltude.
III. Estimation et test du modle
=
IV. Adquation du modle
Principe
Dterminer la qualit dajustement du modle
aux donnes.
Si lajustement est correct, les valeurs prdites
seront proches des valeurs observes.
IV. Adquation du modle
Test de Hosmer et Lemeshow
Regroupement des probabilits prdites par le
modle en dix groupes (dciles).
Pour chaque groupe, on observe lcart entre les
valeurs prdites et observes. Limportance de la
distance entre ces valeurs est value grce une
statistique du Khi-deux 8 ddl qui teste:
IV. Adquation du modle
0
:
1:
Tableau de contingence
Ce tableau permet de connaitre le nombre de bonnes et de mauvaises
prdictions par rapport un seuil s (fix gnralement 50%)
IV. Adquation du modle
Malade
(yi=1)
Non Malade
(yi=0)
Total
Prdit malade (
= 1) a c a+c
Prdit non malade (
= 0) b d b+d
Total a+b c+d n
=
+
=
+
Tableau de contingence
Nbb: 93+257/431=81,2%
Nbm: 50+31/431= 18,8%
Sensibilit: Se: 93/143 = 65%
Sp: 257/288 = 89,2%
IV. Adquation du modle
Malade
(yi=1)
Non Malade
(yi=0)
Total
Prdit malade (
= 1) 93 31 124
Prdit non malade (
= 0) 50 257 307
Total 143 288 431
Courbe ROC
Se en
fonction de 1-Sp
Laire sous la courbe:
IV. Adquation du modle
=0,5 Aucune discrimination
]0,5;0,7[ Discrimination faible
[0,7;0,8[ Discrimination acceptable
[0,8;0,9[ Discrimination excellente
[0,9;1] Discrimination parfaite
V. Application
Description des donnes
REPRISE : reprise de consommation de drogues avant la fin
prvue du programme de traitement
(0=non ; 1=oui)
SITE : site du programme (0=A, 1=B)
AGE : ge linclusion
BECK : score de dpression de BECK linclusion
(de 0.0 (normal) 54.0 (dpression)
IVHX : histoire dutilisation de drogues par voie
intraveineuse linclusion
(1=jamais ; 2=ancienne ; 3=rcente)
NBTRAIT : nombre de traitements anti-drogue
prcdemment suivis (de 0 40)
RACE : race (0=blanche, 1=autre)
DUREE : dure du traitement attribue par tirage au sort
linclusion
(0=courte ; 1=longue)
IV. Application
Description des donnes
IV. Application
Variables moyenne (cart-type)
Age l'inclusion
32,38 (6,19)
Score de dpression de Beck l'inclusion 17,37 (9,33)
Nombre de traitements anti-drogue
prcdemment suivis
4,54 (5,48)
Variables n (%)
Histoire d'utilisation de drogues par voie
intraveineuse l'inclusion
jamais 223 (38,78)
ancienne 109 (18,96)
rcente 243 (42,26)
Race
blanche 430 (74,78)
autre 145 (25,22)
Dure du traitement
courte 289 (50,26)
longue 286 (49,74)
Site du programme de traitement
A 400 (69,57)
B 175 (30,43)
Reprise de consommation de drogues avant la fin
prvue du programme de traitement
oui 428 (74,43)
non 147 (25,57)
Rgression logistique multiple
IV. Application
Hypothse de linarit du logit : il existe une relation linaire entre le Logit
du risque et la variable X.
Estimation du 1
er
modle :
M1 : logit P [REPRISE=1|AGE]=0+1*AGE
Rgression logistique multiple
IV. Application
Estimation du 2
me
modle :
M2 : logit P [REPRISE=1|AGE]=0+1*AGE(2) + 2*AGE(3) + 4*AGE(4)
Aucune tendance la diminution
Hypothse de linarit du logit non vrifie Utilisation de la variable AGE
en catgorielle
Rgression logistique multiple
IV. Application
proc logistic data=TP2.donnees descending;
class IVHX (ref='1') / param=ref;
class age1 (ref='1') / param=ref;
model REPRISE = SITE RACE AGE1 BECK IVHX NBTRAIT DUREE;
run;
Option descending : elle inverse lordre daffichage des modalits de la variable
dpendante.
La commande class IVHX(ref='1) / param=ref;
demande SAS de crer des variables indicatrices pour les variables catgorielles
IVHX et AGE en prenant comme classe de rfrence le groupe IVHX=1 et AGE=1.
MODEL var_dep = var_indep </ options>;
IV. Application
IV. Application
Rgression logistique multiple
IV. Application
Slection des variables : Procdure descendante manuelle
On limine la variable avec la p-value la plus lev
1. On enlve la variable BECK (p-value=0.8748 qui est la plus leve)
Rgression logistique multiple
IV. Application
2. On r-estime le modle sans cette variable et on limine la variable avec une p-
value > 0.05 etc
Rgression logistique multiple
IV. Application
RC (Age 2 VS 1) = 1.152 Avoir entre 28 et 33 ans augmente la probabilit de
reprise de drogue par rapport un individu ayant un ge infrieur 28 ans.
RC (DUREE) = 0.625 Un individu qui a une dure de traitement longue
diminue sa probabilit de reprise de drogue, ajust sur les autres variables
explicatives.
Etude de linteraction entre deux variables
IV. Application
La variable AGE modifie-t-elle leffet de la variable NBTRAIT sur la variable
dpendante REPRISE ?
proc logistic data=TP2.donnees descending;
class age1 (ref='1') / param=ref;
model REPRISE = NBTRAIT AGE1 NBTRAIT*AGE1;
run;
Etude de linteraction entre deux variables
IV. Application
On rejette H0, linteraction entre AGE et NBTRAIT est significative.
AGE modifie donc la variable NBTRAIT sur la variable dpendante REPRISE
On garde le terme dinteraction. Il y a modification deffet
Facteur de confusion
IV. Application
On souhaite dterminer si la dure du traitement (variable DUREE) modifie leffet
du nombre de traitement anti-drogue suivis (variable NBTRAIT) sur le risque
de reprise de drogue (variable REPRISE).
1. On vrifie que la variable DUREE ne modifie pas leffet de NBTRAIT sur la
variable dpendante REPRISE.
Facteur de confusion
IV. Application
2. On considre un 1
er
modle M1 :
logit P [REPRISE | NBTRAIT, DUREE] = 0 + 1*NBTRAIT + 2*DUREE
Et un 2
me
modle M2 :
logit P [REPRISE|NBTRAIT]=0+1*NBTRAIT
Facteur de confusion
IV. Application
3. On calcule la variation relative (1.077 1.078) / (1.077) = 0.0009
La dure du traitement nest pas un facteur de confusion. Il ne faut pas en tenir
compte dans la mesure dassociation entre le nombre de traitement anti-drogue suivis
et la reprise ou non de drogues.
On retient le modle M2 :
logit P [REPRISE=1 | NBTRAIT] = 0 + 1*NBTRAIT
Adquation du modle
IV. Application
proc logistic data=TP2.donnees descending;
/* attention aux valeurs manquantes*/
class IVHX (ref='1') / param=ref ;
class AGE1 (ref='1') / param=ref ;
/*cration de 2 variables indicatrices pour la variable IVHX*/
model REPRISE=IVHX NBTRAIT DUREE AGE1 / lackfit
outroc=croc;
run;
Adquation du modle
IV. Application
On accepte H0 Le modle est adquat
Pouvoir discriminant du modle
IV. Application
/* trac de la courbe ROC*/
proc gplot data=croc; /*on utilise la table cre
prcdemment*/
plot _sensit_*_1mspec_=1 / vaxis=0 to 1 by 0.05;
run;
Pouvoir discriminant du modle
IV. Application
Conclusion
Variable endogne Y binaire.
Variable exogne X quantitative ou qualitative
Si quantitative, vrifier lhypothse de linarit.
Les paramtres ne sont pas interprtables
Il faut calculer les RC=exp(k) et les comparer 1
Les tests sont tous bass sur la test du rapport de
vraisemblance.
Adquation du modle: On mesure lcart entre les
valeurs prdites et observes.