Académique Documents
Professionnel Documents
Culture Documents
Appliquée
i
Table des matières
Introduction .............................................................................................................. 1
Pourquoi la statistique ? .......................................................................................... 1
Pourquoi la régression logistique ? ......................................................................... 1
1) La modélisation d’une variable qualitative dichotomique................................ 3
Exercice 1................................................................................................................ 5
2) Formulation mathématique du modèle de régression logistique (*) ............... 7
2.1) Le modèle de régression linéaire Normal......................................................... 7
2.2) Le modèle de régression logistique.................................................................. 8
2.3) Y-a-t’il d’autres modèles !? ............................................................................... 9
Exercice 2.............................................................................................................. 10
3) Estimation et tests (*)......................................................................................... 13
3.1) L’estimation du modèle .................................................................................. 13
3.2) Test de significativité des coefficients ............................................................ 13
Exercice 3.............................................................................................................. 14
4) La transformation logit ...................................................................................... 17
Exercice 4.............................................................................................................. 18
5) Le succès du modèle Logit : l’Odds Ratio ....................................................... 21
5.1) L’Odds Ratio comme mesure d’association ................................................... 21
5.2) L’Odds Ratio comme mesure du risque relatif (RR)....................................... 22
Exercice 5.............................................................................................................. 24
6) L’interprétation des coefficients ....................................................................... 27
6.1) Le cas d’un modèle additif, i.e. sans interactions ........................................... 27
a) La constante du modèle ................................................................................. 28
b) Coefficient d’une variable explicative dichotomique ....................................... 29
c) Coefficient d’une variable explicative polytomique ......................................... 30
d) Coefficient d’une variable explicative continue............................................... 31
e) L’Odds ratio associé à la variation de plusieurs co-variables.......................... 32
6.2) Le cas d’un modèle non additif, i.e. avec interactions .................................... 32
Exercice 6.............................................................................................................. 34
7) Stratégie de modélisation.................................................................................. 39
Pourquoi construire un modèle ?........................................................................... 39
Existe-t-il une stratégie de modélisation conduisant à un « bon » modèle ?.......... 39
ii
7.1) Le choix des co-variables............................................................................... 40
7.2) Le choix de la forme fonctionnelle des co-variables ...................................... 40
7.3) L’adéquation du modèle aux données « Goodness of fit » (*) ....................... 41
a) La notion de « covariate pattern » ................................................................. 42
b) Evaluation de la calibration du modèle : le test de Hosmer et Lemeshow ..... 42
c) L’analyse des résidus..................................................................................... 43
c.1) Le résidu de Pearson............................................................................................... 44
c.2) Le résidu de déviance ............................................................................................. 46
d) Détection des « covariate patterns » mal ajustés .......................................... 47
e) Détection des points influants (effet de levier) ............................................... 48
f) Evaluation du pouvoir discriminant du modèle : sensibilité, spécificité et courbe
ROC ................................................................................................................... 49
g) La validation du modèle ................................................................................. 51
7.4) Limitations et biais (*)..................................................................................... 52
a) Le problème de la séparabilité ou quasi-séparabilité (*) ................................ 52
b) Le problème de « l’overfitting » ...................................................................... 53
c) Le biais de sélection....................................................................................... 53
d) Le problème de surdispersion « overdispersion ».......................................... 54
e) Extensions ..................................................................................................... 54
e.1) Le cas de données répétées..................................................................................... 54
e.2) Le cas de données agrégées « cluster » .................................................................. 54
Exercice 7 ............................................................................................................. 54
8) Le logiciel statistique STATA............................................................................ 55
Bibliographie .......................................................................................................... 59
Livres :................................................................................................................... 59
Articles: ................................................................................................................. 59
Pour l’utilisation de STATA se référer aux manuels suivants :.............................. 60
iii
Avant propos
Ce cours a pour but d’introduire le lecteur à la problématique de la modélisation des variables
qualitatives dichotomiques (i.e. comportant deux catégories comme « sain » et « malade ») au
moyen de la régression logistique.
L’analyse de régression logistique est plus complexe que celle de régression linéaire, car le
modèle logistique est non-linéaire. Nous allons, autant que possible, faire un parallèle entre les
deux types d’analyses et illustrer les différences fondamentales.
Il s’agit d’un cours de régression logistique appliquée de sorte que nous n’insisterons pas sur
les détails mathématiques, mais plutôt sur les concepts fondamentaux. Néanmoins, la
statistique est avant tout une discipline faisant appel aux mathématiques et même si le
programme statistique prend en charge tous les aspects formels, un minimum de formalisme
est nécessaire pour bien illustrer les concepts. Nous avons donc décidé de ne pas occulter
complètement les mathématiques de ce cours et les sections d’un caractère plus technique
seront indiquées par un astérisque « * ».
Les données pour les exercices peuvent être téléchargées depuis le web aux adresses :
ftp://ftp.wiley.com/public/sci_tech_med/logistic/
http://www.ats.ucla.edu/stat/stata/examples/alr2/default.htm
iv
Introduction
Le but de ce cours est d’exposer les fondements de la régression logistique de manière
intuitive et aussi peu formelle que possible, et d’illustrer les étapes de la modélisation des
variables qualitatives binaires.
Pourquoi la statistique ?
En général, le but de la plupart des recherches est de déterminer des relations entre un
ensemble de variables. Les techniques « multivariables » ont été développées à cette fin.
Souvent on considère une variable dépendante que l’on veut prédire et des variables
indépendantes ou explicatives.
Remarquons que bien souvent le terme « multivarié » est confondu avec « multivariables », ce
qui peut porter à confusion étant donné que le premier se réfère à la situation où l’on considère
plusieurs variables dépendantes à la fois, tandis que le deuxième plus vague correspond peut-
être mieux à la situation la plus fréquente en épidémiologie où l’on considère une seule
variable dépendante et plusieurs variables explicatives.
Il est difficile de donner une définition consensuelle de la statistique, mais certainement cette
discipline traite de l’incertitude, de la variabilité, de l’inférence (test d’hypothèses, intervalles
de confiance, prédiction, …). On retiendra qu’elle a pour but de quantifier un phénomène
d’intérêt et d’apporter une information concernant la précision avec laquelle les résultats ont
été établis. Par exemple, pour estimer la taille moyenne des jeunes de 15 ans en Suisse on
considère un échantillon d’élèves dans une école et l’on calcule leur taille moyenne. Cette
estimation ne sera certainement pas parfaite puisqu’elle repose sur un petit collectif dont on
espère qu’il soit suffisamment représentatif de l’ensemble de cette population en Suisse. Un
intervalle de confiance nous permettra d’apprécier le degré d’incertitude de notre évaluation.
L’analyse de régression est une technique statistique permettant d’établir une relation entre une
variable dépendante et des variables explicatives, afin d’étudier les associations et de faire des
prévisions. On peut, par exemple, s’intéresser à quantifier la relation entre le risque de décès et
la quantité de cigarettes fumées quotidiennement, tout en ajustant pour l’âge, le sexe, et
éventuellement d’autres facteurs de risque.
1
Dans le modèle de régression linéaire la variable dépendante est, en revanche, quantitative, car
elle admet une échelle de mesure naturelle : par exemple la pression systolique 50-200 mmHg,
le poids 30-200 kg, la taille 1-2 m, le niveau de CD4 0-2000 cell/ìL, etc.
Lorsque la variable dépendante est quantitative l’hypothèse de normalité de la distribution de
cette variable ou d’une transformation est généralement plausible, tandis que lorsqu’elle est
qualitative elle n’admet pas de valeur numérique naturelle (puisqu’elle ne peut prendre que des
attributs) et le modèle normal n’est pas approprié. Une variable aléatoire qualitative est décrite
par les probabilités des différents attributs qu’elle peut prendre et pour évaluer l’influence de
différents facteurs sur cette variable il est d’usage de modéliser les probabilités des différents
attributs.
Un modèle décrivant la probabilité avec laquelle la variable qualitative dichotomique sexe
prend les attributs « femelle » ou « mâle » est le modèle « binomial » (avec n = 11). Lorsque le
nombre d’attributs que peu prendre cette variable est supérieur à deux on a une variable
polytomique et un modèle décrivant cette situation est le modèle « multinomial ».
On a représenté, ci-dessous, différents graphes illustrant les différences fondamentales entre
variable qualitative et variable quantitative. Dans le premier graphe la variable dépendante est
la maladie coronarienne. Cette variable peut prendre les attributs « oui » ou « non » de sorte
qu’il n’est pas possible d’écrire une relation directement entre la maladie coronarienne et l’âge.
Dans le second graphe la variable dépendante est quantitative, il s’agit de la taille, de sorte
qu’il est possible d’établir directement une relation (linéaire ou pas) entre la taille et l’âge. Le
troisième graphe illustre l’hypothèse de Normalité souvent adoptée lorsque la variable
dépendante est quantitative.
taille
oui
non
âge âge
taille
âge
figures 1 à 3
1
Lorsque n=1 le modèle binomial se réduit au modèle de Bernoulli.
2
1) La modélisation d’une variable qualitative dichotomique
Nous avons vu que lorsque la variable dépendante était qualitative elle n’admettait pas
d’échelle de mesure naturelle et que l’on modélisait, par conséquent, sa probabilité de prendre
tel ou tel attribut. Voyons comment cela s’applique dans notre exemple de maladie
coronarienne en fonction de l’âge.
Dans le graphique suivant l’on a regroupé les données concernant l’âge en catégories et calculé
dans chacune de ces catégories le pourcentage de personnes souffrant d’une maladie
coronarienne :
0.5
âge
figure 4
On constate que l’on a une relation sigmoïdale, i.e. en forme de S, entre la proportion de
maladie coronarienne et l’âge. On en déduit, ainsi, que pour modéliser la probabilité de
maladie coronarienne en fonction de l’âge il faudra utiliser une relation sigmoïdale.
En effet, une probabilité étant par définition comprise entre 0 et 1 le modèle linéaire n’est bien
entendu pas approprié (puisqu’il ne limite pas les valeurs de notre probabilité au domaine
compris entre 0 et 1) et la relation est forcément non-linéaire :
Pourcentage de personnes souffrant d’une maladie coronarienne Pourcentage de personnes souffrant d’une maladie coronarienne
par catégorie d’âge: relation linéaire par catégorie d’âge: relation non linéaire (sigmoïdale)
>1
1 1
0.5 0.5
0 0
figures 5 & 6
3
Remarquons qu’une probabilité est une caractéristique d’une population, tandis qu’une
proportion est calculée à partir d’un échantillon. Cette dernière s’approche d’autant plus de la
probabilité (inconnue en général) que l’échantillon est grand.
Un choix intuitif pour modéliser une probabilité est d’utiliser une fonction de répartition ou
fonction cumulative.
Illustrons ce point avec l’exemple des fonctions de répartition des lois Normale et Logistique.
Pour rappeler la différence, nous illustrons aussi les fonctions de densité correspondantes :
Fonctions cumulatives de diverses lois Normales Fonctions de densité de diverses lois Normales
.4
1
.8
.3
.6
.2
.4
.1
.2
0
-10 -5 0 5 10 -10 -5 0 5 10
x x
Fonctions cumulatives de diverses lois Logistiques Fonctions de densité de diverses lois Logistiques
.5
1
.8
.4
.6
.3
.4
.2
.2
.1
0
-10 -5 0 5 10 -10 -5 0 5 10
x x
figures 7 à 10
On constate qu’en fonction de la moyenne (1er paramètre) les courbes se déplacent le long de
l’abscisse et qu’en fonction de la variance (2e paramètre) la pente de la fonction de répartition
change.
On peut déjà anticiper que se seront ces deux paramètres qu’il faudra estimer (au moyen d’une
technique statistique) pour obtenir un bon ajustement de notre courbe aux données.
Remarque (*)
La fonction cumulative d’une loi Normale de moyenne µ et de variance σ 2 , i.e. N µ ,σ 2 , ( )
s’écrit :
x 1 1 t − µ 2
F ( x) = ∫ exp − dt
−∞
2π σ 2 σ
4
tandis que celle d’une loi Logistique de moyenne µ et de variance σ 2 s’écrit :
π x−µ
exp
3 σ
F ( x) =
π x−µ
1 + exp
3 σ
En résumé, nous avons donc dit que lorsque la variable dépendante était qualitative l’on
modélisait la probabilité de ses attributs, qu’un modèle mathématique adéquat avait une forme
sigmoïdale comme une fonction de répartition et que la forme de cette sigmoïde changeait en
fonction des paramètres caractérisant cette fonction de répartition.
Il s’agit, ensuite, d’établir un lien entre ces paramètres (donc la forme et la position de notre
courbe sigmoïdale), la probabilité de maladie coronarienne (la variable dépendante d’intérêt)
et l’âge (la variable explicative). Pour cela, dans le prochain chapitre, nous allons formuler un
modèle de régression (non-linéaire). Un modèle très utilisé en épidémiologie est le modèle
Logistique.
Exercice 1
Le but de cet exercice est d’illustrer la différence fondamentale entre variable qualitative et
variable quantitative. Nous allons montrer, en particulier, qu’il n’est pas approprié de traiter
une variable qualitative comme si elle était quantitative : par exemple de régresser directement
une variable dépendante qualitative codée « 0 » et « 1 » en fonction d’une variable explicative,
comme on le fait en régression linéaire. A cette fin, nous allons utiliser des données rapportant
la présence ou l’absence d’une maladie coronarienne.
On constate que plus on est âgé plus le risque d’avoir un problème coronarien semble élevé.
* régression linéaire
5
regress chd age
tab pct_age
sort pct_age
6
2) Formulation mathématique du modèle de régression logistique (*)
Dans « modèle de régression logistique » nous avons les termes « régression » et
« logistique ». Dans cette section, nous allons en illustrer la raison. Ceci nous permettra de
bien comprendre les différences fondamentales entre les modèles de régression linéaire et
logistique.
Néanmoins, d’emblée on peut remarquer que le terme « régression » impliquera qu’on
considérera un ensemble de variables explicatives et que le terme « logistique » fera référence
à une hypothèse de distribution (du même nom).
E ( y | x, β 0 , β 1 ) = β 0 + β 1 x
et le modèle s’écrit :
y = β 0 + β1 x + ε
Souvent, on fait aussi l’hypothèse de normalité du résidu å, on dit que l’on adopte le modèle
« Normal » ou « Gaussien », afin de procéder à des tests sur les paramètres β 0 et β 1 :
(
ε ≅ N 0, σ 2 . )
7
2.2) Le modèle de régression logistique
Nous allons voir qu’en régression logistique l’on modélise aussi l’espérance mathématique de
y conditionnelle à x, mais cette fois la relation est non-linéaire et les résidus ne peuvent pas être
distribués « Normalement ».
Rappelons que lorsque la variable dépendante était qualitative elle n’admettait pas de valeur
numérique naturelle. On peut, néanmoins, introduire un codage quantitatif permettant de
représenter les différents attributs. Par exemple, on codera « 1 » si l’attribut est « sain » et
« 0 » sinon.
A partir de ce codage quantitatif, on établit un lien entre l’espérance mathématique de y
conditionnelle à x et la probabilité de y :
E ( y | x, β 0 , β 1 ) = 1 × P + 0 × (1 − P) = P = F ( x, β 0 , β 1 )
Remarques :
1) Le codage en 0/1 est arbitraire mais n’a aucune influence sur les résultats des estimations,
car la vraisemblance s’exprime en fonction des probabilités P et pas de l’espérance
conditionnelle E ( y | x, β 0 , β 1 ) .
2) On peut écrire le modèle de régression logistique sous la même forme que le modèle de
régression linéaire :
y = F ( x, β 0 , β 1 ) + ε
Cependant, cette fois le modèle est non-linéaire et le résidu å ne peut pas être distribué selon
une loi Normale.
8
En effet, il ne peut prendre que deux valeurs ε = 1 − F ( x, β 0 , β 1 ) si y = 1 ou
ε = − F ( x, β 0 , β 1 ) si y = 0 . De plus, sa variance n’est pas σ 2 mais
V (ε ) = F ( x, β 0 , β 1 ) [1 − F ( x, β 0 , β 1 )] . On constate que la variance dépend de la variable x et,
par conséquent, elle n’est pas constante mais hétéroscédastique.
exp( β 0 + β 1 âge)
P(maladie coronarienne | âge) = F (âge β 0 , β 1 ) =
1 + exp( β 0 + β 1âge)
En définitive
En définitive on notera que le modèle de régression logistique se distingue du modèle de
régression linéaire de part 1) la distribution de la variable dépendante n’est pas Normale mais
Binomiale 2) le modèle de régression est non-linéaire 3) la variance est hétéroscédastique.
Ainsi, si l’on choisi la fonction de répartition de la loi Normale pour modéliser notre
probabilité l’on obtient le modèle Probit :
β 0 + β1âge 1 t
P(maladie coronarienne | âge) = F (âge β 0 , β 1 ) = ∫ exp(− 2 ) dt
−∞
2π 2
9
Les lois Normale et Logistique se distinguent, en particulier, en fonction de l’épaisseur de la
queue de probabilité de la fonction de densité correspondante, ce qui a une influence sur la
« vitesse » avec laquelle la fonction de répartition s’éloigne de 0 ou s’approche de 1 :
Fonctions cumulatives des lois Normale(0,1) et Logistique(0,1) Fonctions de densité des lois Normale(0,1) et Logistique(0,1)
.5
1
.8
.4
.6
.3
.4
.2
.2
.1
0
0
-5 0 5 -5 0 5
x x
figures 11 & 12
Néanmoins, comme on le constate sur ces figures, la différence entre les deux modèles est
infime de sorte qu’en pratique l’on peut choisir indifféremment l’une ou l’autre des lois.
Toutefois le modèle Logit permet une interprétation plus habituelle en épidémiologie car elle
fait intervenir des Odds Ratio.
Remarquons que ce résultats est valable uniquement dans le cas de la modélisation d’une
variable qualitative dichotomique et que dans le cas polytomique la différence est importante.
Exercice 2
Dans cet exercice nous allons estimer une relation sigmoïdale entre les variables chd et age au
moyen d’un modèle de régression logistique. Nous comparerons cette estimation avec celle
fournie par un modèle Probit. On en conclura que la différence entre les deux modèles est, ici,
infime. Le modèle de régression logistique est très utilisé, surtout en épidémiologie,
principalement à cause de l’interprétation du coefficient d’une co-variable comme le
logarithme de son Odds Ratio. Autrement dit, l’exponentiel du coefficient d’une co-variable
correspond à un Odds Ratio.
cap drop p
predict p
10
* graphe de la relation sigmoïdale entre chd et age
On vérifie sur ces graphes que le modèle logistique fournit une probabilité estimée de maladie
coronarienne comprise entre 0 et 1, tandis que la régression linéaire fournit des valeurs
aberrantes de la variable chd.
En conclure que, dans le cas dichotomique, la différence entre les modèles de régression
logistique et probit est infime.
11
12
3) Estimation et tests (*)
L( β 0 , β 1 ) = ∏ [P( y = 1 x, β 0 , β 1 )] i [1 − P( y = 1 x, β 0 , β 1 )]
n
y 1− yi
i =1
Ensuite, on maximise cette vraisemblance par rapport aux paramètres β 0 , β 1 au moyen d’un
algorithme numérique (par ex. une méthode de gradient).
Remarques :
1) Quand on fait l’hypothèse d’indépendance des observations on entend qu’elles sont
conditionnellement indépendantes. C’est-à-dire que les probabilités individuelles sont
supposées indépendantes après ajustement pour les facteurs de risques. Ainsi, deux individus
présentant les mêmes facteurs de risque ne sont pas indépendants, mais conditionnellement à
ces facteurs on suppose qu’il le sont. Autrement dit, une fois que l’on a ajusté pour l’effet des
différents facteurs de risque les observations peuvent être considérées comme indépendantes
(mathématiquement ε | x ≈ iid (0, σ 2 ) ).
2) Lorsqu’on est en présence de mesures répétées pour chaque individu ou que les données
présentent une « structure hiérarchiques », comme c’est le cas lorsqu’on échantillonne des
familles et que l’on s’intéresse aux caractéristiques des membres de ces familles, l’hypothèse
d’indépendance des données n’est pas plausible. En effet, les mesures répétées d’un même
individu ou des membres d’une même famille sont plus semblables qu’entre individus ou
familles. Dans ce cas, il faut utiliser d’autres méthodes qui prennent en compte la corrélation
des données (ex : modèle marginal avec GEE, modèle logistique conditionnel, modèle mixte).
βˆ k
W= → N (0,1)
SEˆ ( βˆ k )
13
Lc
LR = −2 log ( ) → χ 2 (1)
Lc
tandis que si l’on veut tester la significativité de plusieurs coefficients, par ex. Ho :
β 1 = β 2 = L = β M = 0 , alors elles s’écrivent :
(
W = βˆ ′ Vˆ ( βˆ ) )
−1
βˆ → χ 2 (M )
Lc
LR = −2 log ( ) → χ 2 (M )
Lc
1 x11 L x1 p
Pˆ1 (1 − Pˆ1 ) L M M
0
ˆ ˆ ( ˆ −1
ˆ
V ( β ) = X ′V X , V = ) M O M
et X =
0 L ˆ (1 − Pˆ )
P
n n 1 x n1 L x np
Exercice 3
Dans cet exercice nous allons introduire un nouveau jeu de données qui nous servira jusqu’à la
fin de ce cours afin d’illustrer les propos.
Il s’agit des données « Low birth weight » issues d’une étude des facteurs de risque liés à la
mise au monde d’un bébé de petit poids de naissance, i.e.< 2500g. L’échantillon concerne 189
femmes dont 59 ont eu un bébé pesant < 2500g. Les facteurs de risque potentiels évalués sont
l’âge de la mère age (en années), son poids lors de ses dernières règles lwt (en livres), la race
race (blanc, noir, autre), la fumée durant la grossesse smoke (oui/non), le nombre d’épisodes
de contractions importantes avant terme ptl (0,1,2, etc), un antécédent de problème
d’hypertension ht (oui/non), la présence d’une irritation utérine ui (oui/non) et le nombre de
visites au médecin durant les trois premiers mois de grossesse ftv (0,1,2,etc.).
Remarquons qu’on pourrait aussi étudier la relation entre le poids de naissance bwt (en
grammes) et ces facteurs au moyen, cette fois, d’une régression linéaire puisque bwt est une
variable continue. Eventuellement, il faudra au préalable transformer cette variable pour rendre
sa distribution plus symétrique et sa variance plus stable.
14
1) Description des données
Nous allons commencer par décrire nos données : fréquences, données manquantes, etc.
Describe
tab low
summarize age
summarize lwt
tab race, missing
tab smoke, missing
tab ptl, missing
tab ht, missing
tab ui, missing
tab ftv, missing
2) Analyse bivariable
Avant d’analyser nos données au moyen d’un modèle de régression logistique multivariables il
est d’usage de procéder à des analyses bivariables, en particulier lorsque le nombre de
variables candidates à introduire dans le modèle est élevé. Ces analyses bivariables nous
permettront d’appréhender les facteurs de risque potentiellement associés avec l’outcome. Sur
la base de ces résultats, on procédera à un tri préalable de ces facteurs selon leur degré
d’évidence (p-value) et nos connaissances théoriques, afin de ne pas tous les introduire dans le
modèle (risque de multicolinéarité, difficulté d’interprétation des résultats, overfitting, etc.).
Lorsque la variable explicative est continue on peut former des catégories afin de représenter
graphiquement sa relation avec la variable dépendante.
Lorsqu’une variable explicative catégorielle comporte des catégories n’ayant pas assez
d’observations (e.g. <5) on procède à leur regroupement, afin d’obtenir des fréquences
suffisamment élevées.
15
cap drop pct_lwt
xtile pct_lwt=lwt, nquantiles(9)
sort pct_lwt
Sur la base de ces résultats l’on pourra pré-selectionner les variables candidates pour l’analyse
multivariables. Les variables ayant une p-value supérieure à 0.2 auront peu de chance d’être
retenues dans le modèle multivariables. S’il y a beaucoup de co-variables et que l’on ne peut
pas toutes les introduire à la fois dans le modèle, on donnera une préférence à celles dont la p-
value est la plus petite.
Il faudra, néanmoins, ultérieurement ré-introduire une à une ces variables dans le modèle
multivariables pour ré-évaluer leur association.
16
4) La transformation logit
Une transformation centrale dans l’analyse de régression logistique est la transformation
« logit ». En effet, cette transformation permet d’établir une relation entre la probabilité de
l’outcome et le prédicteur linéaire β 0 + β 1 x :
P ( y = 1 | x)
logit [P( y = 1 | x)] = log = β 0 + β1 x
1 − P( y = 1 | x)
e log it [P ( y =1| x ) ]
P ( y = 1 x) =
1 + e log it [P ( y =1| x ) ]
Le « logit » peut prendre des valeurs entre -inf et +inf, mais la zone d’intérêt se situe entre -5
et +5, car au delà de ces limites la probabilité est soit 0 soit 1 :
-5 -4 -3 -2 -1 0 1 2 3 4 5
logit
figure 13
Par exemple, lorsque le logit vaut 0 la probabilité de y est de 0.5, tandis que lorsqu’il vaut +5
elle est de 0.993 et lorsqu’il vaut -5 de 0.007.
Ainsi, à partir des résultats de l’estimation des coefficients il est facile de calculer le « logit » et
d’évaluer approximativement la probabilité de l’outcome. Considérons l’exemple fictif suivant
du résultat de l’estimation d’une régression logistique comportant les variables âge et sexe :
17
logit [P( y = 1 | âge, sexe)] = −5 + 0.1 × âge + 2 × sexe
où la variable sexe prend la valeur 0 pour les femmes et 1 pour les hommes.
Pour une femme d’âge 50 ans le « logit » est égal à 0 et, en se référant à la figure 13, on évalue
la probabilité de l’outcome à 0.5 . Pour un homme, par contre, le « logit » prendrait la valeur 2
et la probabilité serait pratiquement de 0.9 . On constate, d’autre part, que l’effet du
veillissement d’une année est vingt fois moins important (en terme d’augmentation du risque)
que le changement de catégorie pour le genre.
On remarque que, d’une part, plus le coefficient d’une co-variable est grand plus l’effet d’une
variation unitaire de cette variable est important sur la probabilité de y, d’autre part, que
lorsqu’on se situe sur l’échelle « logit » proche de 0 cette variation aura un effet plus marqué
que lorsqu’on est proche de 3 ou -3.
On peut se poser la question : à partir de quelle amplitude d’un coefficient un changement
unitaire de la co-variable a un effet sensible sur la probabilité. D’après la figure 13 on sait que
cet effet sera maximum lorsque le « logit » est proche de 0. Ainsi, un coefficient d’amplitude
0.2 engendrera au plus un changement de 5% de la probabilité, tandis que si il vaut 0.5 alors le
changement est au plus de 12%.
Un autre intérêt du « logit », comme on le verra dans le prochain chapitre, est sa relation avec
une mesure d’association très utilisée en épidémiologie entre un facteur explicatif et
l’outcome : l’Odds Ratio.
Exercice 4
Dans cet exercice, nous allons apprendre à raisonner sur l’échelle « logit ». Autrement dit, à
évaluer directement le niveau de la probabilité associée à une combinaison des co-variables,
ainsi que l’impact d’un accroissement unitaire d’une de ces co-variables. Pour cela, il est utile
de bien avoir en tête la figure 13, en particulier les niveaux de probabilités associées à différent
points entre -5 et +5 sur l’échelle « logit ».
Afin de donner un sens à la constante du modèle, nous allons voir qu’il est utile de centrer les
co-variables continues.
Pour estimer les coefficients du modèle nous utiliserons la commande « logit ». La commande
« logistic » permet aussi d’estimer le modèle mais fournit les résultats sous forme d’Odds
Ratios).
Remarque : les variables smoke, ht et ui ont été codées 0/1 de sorte qu’on peut directement les
utiliser dans le modèle sans les préfixer par « i. ». La variable race, en revanche, a été codée 1,
2 et 3 et il faut créer des variables binaires 0/1 pour représenter les différentes catégories. Pour
cela, STATA possède une commande automatique « xi : » qui créera les variables binaires
nécessaires pour toutes les co-variables catégorielles préfixées par « i. ».
Cette fois, nous allons considérer un modèle multivariables afin d’étudier l’effet conjoint de
plusieurs co-variables sur la probabilité de petit poids de naissance.
18
1) Analyse multivariables
Dans cet exercice nous allons illustrer l’effet du centrage des co-variables continue.
egen mean_age=mean(age)
gen age_c=age-mean_age
egen mean_lwt=mean(lwt)
gen lwt_c=lwt-mean_lwt
En comparant ces deux estimations l’on peut constater que seule la constante change. Dans le
premier cas, i.e. sans centrage, la constante n’a pas de sens puisqu’elle correspond à une
femme d’âge 0 et de poids 0 kg aux dernières règles…
Dans, le 2ième modèle, en revanche, la constante a l’honorable rôle de représenter une femme
d’âge moyen et de poids moyen.
gen lwt_kg_c=lwt_c/2
gen lwt_10kg_c=lwt_c/20
On constate que sur l’échelle « logit » le changement d’unités affecte le coefficient estimé de
manière proportionnelle. Remarquons que la probabilité estimée, par contre, change de
manière non proportionnelle puisque la relation entre le « logit » et la probabilité de l’outcome
est non linéaire.
19
4) Test de « significativité » des coefficients (test de Wald)
Pour les variables explicatives dichotomiques ou continues STATA nous fournit directement
la p-value du test de « significativité » du coefficient, tandis que pour les variables explicatives
polytomiques il faut invoquer le test de Wald au moyen de la commande « test ».
Nous allons tester si les variables race et ftv_g sont significatives. Rappelons que dans
l’exercice précédent nous avions regroupé les catégories de la variable ftv en créant la nouvelle
variable ftv_g afin d’augmenter les effectifs dans les cellules :
disp "prob="exp(0)/(1+exp(0))
disp "prob="exp(0+0.2)/(1+exp(0+0.2))
disp "prob="exp(0+0.5)/(1+exp(0+0.5))
disp "prob="exp(-2)/(1+exp(-2))
disp "prob="exp(-2+0.2)/(1+exp(-2+0.2))
disp "prob="exp(-2+0.5)/(1+exp(-2+0.5))
En conclure que pour avoir un effet unitaire suffisamment sensible il faut que le coefficient
d’une co-variable soit au moins d’amplitude 0.5 . Remarquer que le choix des unités de mesure
est primordial pour cette interprétation.
Dans le prochain chapitre nous introduirons la notion d’Odds Ratio qui est intimement liée à la
transformation « logit ».
20
5) Le succès du modèle Logit : l’Odds Ratio
Si le modèle Logit est très utilisé en épidémiologie c’est avant tout à cause de l’interprétation
de l’exponentielle du coefficient d’une co-variable comme un Odds Ratio.
Pour comprendre ce que représente un Odds Ratio voyons comment il est défini. Pour cela,
considérons un modèle avec une seule variable explicative dichotomique comme le sexe (le
cas plus général du modèle de régression multiple incorporant plusieurs co-variables ainsi que
des interactions sera abordé dans la section suivante) et adoptons le codage suivant : « 0 » pour
les femmes et « 1 » pour les hommes, de sorte qu’on écrira la probabilité P(y = 1) = p0 pour les
femmes et P(y = 1) = p1 pour les hommes.
p
Odds =
1− p
p1
1 − p1
OR =
p0
1 − p0
Si p0 représente la probabilité d’être malade pour une femme et p1 celle pour un homme, alors
un Odds Ratio de 1 signifie que la probabilité d’être malade est la même chez les hommes et
chez les femmes. Autrement dit, le risque de maladie n’est pas associé au sexe.
En revanche, un Odds Ratio différent de 1 signifie qu’il y a une association entre la maladie et
le genre. Si cet Odds Ratio est >1 cela signifie que le numérateur est plus grand que le
dénominateur et, par conséquent, que les hommes ont un plus grand risque d’être malade que
les femmes. C’est le contraire s’il est <1.
Revenons à notre modèle Logit comportant comme variable explicative uniquement le sexe :
21
logit [P( y = 1 sexe = 1)] = β 0 + β 1
p1
1 − p1 e log it [P ( y =1 sexe=1) ] e β 0 + β1
OR = = log it [P ( y =1 sexe=0 ) ] = β 0 = e β1
p0 e e
1 − p0
p1
RR =
p0
Cette grandeur a une interprétation intuitive claire, ce qui n’est pas le cas de l’Odds Ratio.
Lorsque la prévalence de l’événement à expliquer est faible, i.e. p0 et p1 sont petites, l’Odds
Ratio fournit une approximation du risque relatif :
p1 (1 − p 0 ) ≅ 1 p1
OR = × ≅ = RR
p 0 (1 − p1 ) ≅ 1 p 0
22
p1 (1 − p 0 ) (1 − p 0 )
OR = × = RR ×
p 0 (1 − p1 ) (1 − p1 )
Afin d’illustrer ce dernier point, considérons un exemple issu d’une étude transversale portant
sur 170 enfants âgés de 24 à 36 mois d’une région rurale africaine où l’on s’intéressait à
l’association entre le retard de croissance staturale et le petit poids de naissance (< 2500g). Les
données sont récapitulées dans le tableau suivant :
Dans cet exemple, le risque de retard de croissance staturale chez les petits poids de naissance
est 18/31=0.58, tandis qu’il est de 30/139=0.22 chez les autres, des sorte que :
18
P(retard croissance | < 2500 g ) 31 = 2.69
RR = =
P(retard croissance | ≥ 2500 g ) 30
139
On constate, ici, que l’Odds Ratio sur-estime le risque relatif de façon importante, ce qui n’est
pas surprenant puisque les prévalences p0=0.22 et p1=0.58 ne sont pas petites.
23
Exercice 5
Dans cet exercice, nous allons reconsidérer l’estimation du modèle de l’exercice 4 avec les
données « Low birth weight » et interpréter les coefficients estimés en terme d’Odds Ratios.
L’Odds Ratio a une interprétation claire et intuitive uniquement lorsqu’il fournit une « bonne »
approximation du risque relatif, ce qui est le cas lorsque la prévalence de l’outcome est petite
dans les deux catégories considérées. Autrement, il fournit une mesure d’association qui, ma
fois, n’est pas interprétable clairement : que signifie concrètement le ratio de deux autres
ratios ?!.
Pour obtenir les résultats de l’estimation du modèle Logistique en terme d’Odds Ratios on
utilisera la commande « logistic » de STATA.
Remarquons que, cette fois, cela n’a pas d’importance si les variables continues ont été
centrées ou pas, car le calcul de l’Odds Ratio ne fait pas intervenir la constante du modèle.
Aussi, dans l’exercice 4 on testait la « significativité » d’une covariable en testant si son
coefficient était significativement différent de 0. Lorsqu’on travaille avec les Odds Ratios, le
test porte alors sur la valeur 1. Autrement dit, une variable sera « significativement » associée à
l’outcome si son Odds Ratio est « significativement » différent de 1.
On vérifie que le centrage des co-variables continue n’affecte pas les Odds Ratios.
xi: logit low age lwt i.race smoke ptl_g ht ui i.ftv_g
xi: logistic low age lwt i.race smoke ptl_g ht ui i.ftv_g
On vérifie que les p-values des paramètres estimés avec la commande « logit » sont bien les
mêmes que celles estimées avec la commande « logistic » .
2) Interprétation des OR
Pour commencer, nous allons estimer un modèle avec uniquement la variable explicative
smoke :
L’ OR s’interprète comme une mesure d’association. S’il est supérieur à 1 la relation est
croissante, et décroissante s’il est inférieur à 1. Lorsqu’il est égal à 1 il n’y a pas d’association.
Afin de d’anticiper si l’on peut espérer que l’OR associé à la variable smoke fournit, ici, une
« bonne » approximation du RR nous allons calculer la prévalence du risque de petit poids de
naissance dans les deux catégories de la variable d’exposition.
24
disp "p0=" exp(_b[_cons])/(1+exp(_b[_cons]))
disp "p1=" exp(_b[_cons]+_b[smoke])/(1+exp(_b[_cons]+_b[smoke]))
En conclure que les prévalences sont élevées et que l’approximation du RR par l’OR est
susceptible d’être très imprécise.
* calcul du RR associé à la variable smoke et comparaison avec son OR
En conclure que l’approximation du RR associé à la variable smoke par son OR conduit, ici, à
une surestimation.
Les OR et RR que nous venons d’estimer sont non ajustés puisque le modèle comporte
uniquement la variable d’exposition. Comparez l’OR non ajusté avec l’OR ajusté et en
conclure, qu’ici, ils diffèrent peu.
* OR non ajusté/ajusté
Le calcul du RR ajusté est plus complexe et sera abordé dans le prochain chapitre.
25
26
6) L’interprétation des coefficients
Nous avons vu dans la section précédente que dans le cas d’un modèle comportant une seule
variable explicative dichotomique l’exponentielle du coefficient de cette variable s’interprétait
comme un Odds Ratio.
Voyons ce qui se passe lorsque la variable explicative admet plusieurs catégories, i.e. elle est
polytomique, ou qu’elle est continue, ou encore que le modèle incorpore d’autres co-variables
ainsi que des interactions.
[ ]
logit P( y = 1 | x1 , L , x p ) = β 0 + β 1 x1 + β 2 x 2 + ... + β p x p
où les variables explicatives sont l’âge et le sexe. Il s’agit d’un modèle additif car il n’y a pas
d’interaction (de produit) entre les variables âge et sexe. Autrement dit, dans ce modèle on
postule que l’effet de l’âge et du sexe sont indépendants (sur l’échelle logit).
Graphiquement, cette hypothèse implique que la droite représentant l’effet de l’âge est
simplement translatée sur une distance β 2 lorsqu’on passe d’un genre à l’autre.
2
femmes
hommes
logit
0
β2
-2
âge
figure 14
2
Dans le cas de la régression logistique, le modèle est additif sur l’échelle « logit », mais multiplicatif lorsqu’on
considère la probabilité.
27
Dans cet exemple, le vieillissement a le même effet chez les hommes et chez les femmes, mais
le niveau absolu du risque est différent (les deux droites ne sont pas superposées). Autrement
dit, un accroissement unitaire de l’âge augmentera le logit du même montant quel que soit le
genre, et l’ Odds Ratio associé à la variable âge sera le même pour les hommes et les femmes.
Remarques (*)
1) Même si dans ce cas l’Odds Ratio associé à la variable âge est le même pour les femmes et
les hommes, le risque relatif est différent si β 2 ≠ 0 . En effet, cela est dû au fait que le niveau
absolu du risque est plus bas, dans cet exemple, chez les hommes et l’effet de l’accroissement
d’une année d’âge n’augmente pas la probabilité P(y = 1) du même montant (même si le logit
change de la même quantité). La raison provient de la relation non linéaire entre le logit et la
probabilité P(y). Par exemple, si le logit passe de 1 à 2, la probabilité passe de 0.73 à 0.88,
tandis que si le logit passe de 3 à 4, alors la probabilité passe de 0.95 à 0.98.
2) Dans les modèles non-linéaires, comme le modèle Logit, même si l’on introduit pas de
terme produit croisé de deux co-variables celles-ci présentent, en général, une interaction (1).
Soit le modèle de régression non linéaire :
∂ 2 f (.)
= f ′′(.) × ( β 2 + β 12 âge) × ( β 1 + β 12 sexe) + f ′(.) × β 12
∂ âge ∂ sexe
de sorte que même si β 12 = 0 cette expression ne s’annule pas. Ce phénomène est propre aux
modèles de régression non-linéaire.
3) La définition que nous avons adoptée d’une interaction est justifiée si l’on travaille sur
l’échelle logit et que l’on s’intéresse à l’effet conjoint de deux co-variables sur l’Odds Ratio et
non pas sur le Risque Relatif.
a) La constante du modèle
La constante du modèle s’interprète comme « l’effet » de la catégorie de référence. Autrement
dit, β 0 permet de calculer la probabilité de y lorsque toutes les co-variables x1, x2, …, xp sont
nulles.
Si l’on revient à notre exemple d’un modèle contenant l’âge et le sexe comme variables
explicatives :
28
Nous avons arbitrairement choisi de coder les valeurs de la variable sexe = 0 pour les femmes
et sexe = 1 pour les hommes, de sorte que β 0 s’interprète comme le logit de la probabilité
d’une femme d’âge 0.
En effet, la probabilité P(y = 1| âge et sexe), e.g. d’être malade en fonction de son âge et sexe,
s’écrit :
e β 0 + β1 âge + β 2 sexe
P( y = 1 | âge, sexe) =
1 + e β 0 + β1 âge + β 2 sexe
e β 0 + β1 × 0 + β 2 × 0 e β0
P( y = 1 | âge = 0, sexe = 0) = =
1 + e β 0 + β1 × 0 + β 2 × 0 1 + e β 0
e β 0 + β1 ×0+ β 2 ×1 e β 0 + β1
P( y = 1 | âge = 0, sexe = 1) = =
1 + e β 0 + β1 ×0+ β 2 ×1 1 + e β 0 + β1
Remarque
Pour que la constante du modèle admette une interprétation plus honorable que le logit pour
une femme d’âge 0, il est préférable de centrer la variable âge, âge_c = âge-moyenne(âge).
Dans ce cas, la constante s’interprète comme le logit d’une femme d’âge égal à l’âge moyen
dans l’échantillon.
29
Il s’agit d’un Odds Ratio ajusté puisque modèle comporte en plus de la variable d’exposition
sexe la variable explicative âge. Remarquons que l’Odds Ratio ajusté est en général différent
de celui non ajusté, même si son calcul ne fait pas intervenir directement la variable âge, car
l’estimation de β 2 dépend de celle de β 1 .
Remarque
Le calcul du Risque Relatif (RR) est plus complexe et fait intervenir toutes les co-variables du
modèle :
p1 (1 − p1 ) β2 1 − e β 0 + β1 âge + β 2 (1 + e β 0 + β1 âge + β 2 )
RR = = OR × =e ×
p0 (1 − p 0 ) 1 − e β 0 + β1 âge (1 + e β 0 + β1 âge )
1 + e β 0 + β1 âge
= e β2 ×
1 + e β 0 + β1 âge + β 2
Il s’agit d’un RR ajusté puisque modèle comporte en plus de la variable d’exposition sexe la
variable explicative âge. Remarquons que le RR ajusté est non seulement différent de l’OR
ajusté, mais qu’en plus il n’est pas constant, il dépend des valeurs de la co-variable âge.
1 si apprentissage
D1 =
0 sinon
1 si études supérieures
D2 =
0 sinon
et le logit s’écrit :
30
log it [P ( y =1 éducation = 2 ) ]
e e β 0 + β1
OR = log it [P ( y =1 éducation =1) ]
= β 0 = e β1
e e
log it [P ( y =1 éducation =3 ) ]
e e β0 + β2
OR = log it [P ( y =1 éducation =1) ]
= = e β2
e e β0
log it [P ( y =1 éducation = 3) ]
e e β0 + β2
OR = log it [P ( y =1 éducation = 2 ) ]
= β 0 + β1
= e β 2 − β1
e e
Remarques
1) On notera que cet Odds Ratio dépend des unités et si l’on avait mesuré l’âge en décades on
aurait obtenu un Odds Ratio plus élevé :
e e
Ainsi, pour calculer un Odds Ratio associé à un accroissement de « z » années il suffit d’élever
à la puissance « z » l’Odds Ratio calculé pour une année.
31
2) L’Odds Ratio ne fait pas intervenir la valeur x prise par la variable âge, tandis que c’est le
cas du Risque Relatif :
p1 (1 − p1 ) 1 − e β 0 + β1 ( x +1) (1 + e β 0 + β1 ( x +1) ) 1 + e β 0 + β1 ( x )
RR = = OR × = e β1 × = e β1
×
p0 (1 − p0 ) 1 − e β 0 + β1 ( x ) (1 + e β 0 + β1 ( x ) ) 1 + e β 0 + β1 ( x +1)
OR
RRmoyen ≅
(1 − p 0 ) + ( p 0 × OR)
où, comme avant, sexe prend la valeur 0 pour les femmes et 1 pour les hommes. L’Odds Ratio
associé au passage de la catégorie 0 à 1 pour le genre et à l’augmentation de l’âge de ∆ unités
s’écrit :
[ ]
logit P( y = 1 | x1 , L , x p ) = β 0 + β 1 x1 + β 2 x 2 + ... + β p x p + β p +1 x1 x 2 + β p + 2 x1 x3 + ...
32
Pour illustrer, considérons le modèle suivant :
où les variables explicatives sont l’âge et le sexe, et où l’on postule qu’il peut exister une
interaction entre les variables âge et sexe. Concrètement, cela signifie que sur l’échelle logit ou
en terme d’Odds ratio l’effet de l’âge n’est pas indépendant de celui du sexe (i.e. l’Odds Ratio
des femmes n’est pas le même que celui des hommes). Autrement dit, pour étudier l’effet de
l’âge il faut aussi spécifier pour quelle niveau de la variable sexe, puisque cet effet est différent
pour les deux sexes.
Graphiquement, l’existence d’une interaction implique que la droite représentant l’effet de
l’âge pour les femmes n’a pas la même pente que pour les hommes.
2 hommes
femmes
logit
-2
âge
figure 15
Le calcul d’un Odds Ratio dans un modèle non additif se traite de la même manière que
lorsqu’on considère le calcul d’un Odds Ratio pour la variation simultanée de plusieurs co-
variables.
Pour illustrer, considérons toujours notre exemple d’un modèle contenant les co-variables âge
et sexe, ainsi que l’interaction âge × sexe . Alors, l’Odds Ratio associé à l’incrément d’une
unité de la variable âge s’écrit :
On constate que s’il s’agit d’une femme on a sexe = 0 et OR = e β1 + β12 ×0 = e β1 , tandis que s’il
s’agit d’un homme on a sexe = 1 et OR = e β1 + β12 ×1 = e β1 + β12 .
En ce qui concerne le Risque Relatif associé à l’accroissement unitaire de l’âge on a :
33
1 − p1 1 + e β 0 + β1âge + β 2 sexe+ β12 âge × sexe
RR = OR × = e β1 + β12 sexe ×
1 − p0 1 + e β 0 + β1 ( âge +1) + β 2 sexe+ β12 ( âge +1) ×sexe
Remarque
On distingue les interactions d’ordre 1 de celles d’ordre supérieures. Lorsque l’interaction fait
intervenir uniquement le produit de deux co-variables elle est d’ordre 1, tandis que si elle
définie comme le produit de trois co-variables il s’agit d’une interaction à l’ordre 2, etc. En
général, pour des questions d’interprétation on se limite à des interactions d’ordre 1.
Exercice 6
Dans cet exercice nous allons calculer et comparer les Odds Ratios et les Risques Relatifs afin
d'évaluer empiriquement la différence entre ces deux mesures d’association. Nous continuons
notre présentation avec les données « Low birth weight ».
1) Modèle additif
Pour commencer, nous allons considérer un modèle additif comportant les variables
explicatives age et smoke.
gen logit1=_b[_cons]+_b[age]*age+_b[smoke]*1
gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0
gen p0=exp(logit0)/(1+exp(logit0))
gen p1=exp(logit1)/(1+exp(logit1))
gen RR=p1/p0
summarize RR
34
On constate que le RR associé à la cigarette dépend de l’âge, tandis que ce n’est pas le cas de
l’OR. Conclure que dans notre cas l’OR sur-estime le RR.
On peut obtenir une approximation du RR moyen à partir de la prévalence p0 :
gen logit1=_b[_cons]+_b[age]*(age+1)+_b[smoke]*0
gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0
gen p0=exp(logit0)/(1+exp(logit0))
gen p1=exp(logit1)/(1+exp(logit1))
gen RR_non_f=p1/p0
summarize RR_non_f
gen logit1f=_b[_cons]+_b[age]*(age+1)+_b[smoke]*1
gen logit0f=_b[_cons]+_b[age]*age+_b[smoke]*1
gen p0f=exp(logit0f)/(1+exp(logit0f))
gen p1f=exp(logit1f)/(1+exp(logit1f))
gen RR_f=p1f/p0f
summarize RR_f
gen OR=exp(_b[age])
Remarquer que le RR associé à l’accroissement unitaire de la variable continue age dépend non
seulement des autres co-variables, mais aussi du niveau de l’âge.
35
xi:logistic low age smoke i.race
gen logit1=_b[_cons]+_b[age]*age+_b[smoke]*1+_b[age_smoke]*age*1
gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0+_b[age_smoke]*age*0
gen p0=exp(logit0)/(1+exp(logit0))
gen p1=exp(logit1)/(1+exp(logit1))
gen RR=p1/p0
summarize RR
gen OR=exp(_b[smoke]*1+_b[age_smoke]*age*1)
summarize OR
gen logit1=_b[_cons]+_b[age]*(age+1)+_b[smoke]*0+_b[age_smoke]*(age+1)*0
gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0+_b[age_smoke]*age*0
gen OR_non_f=exp(_b[age]*1+_b[age_smoke]*1*0)
36
gen p0=exp(logit0)/(1+exp(logit0))
gen p1=exp(logit1)/(1+exp(logit1))
gen RR_non_f=p1/p0
summarize RR_non_f
gen logit1f=_b[_cons]+_b[age]*(age+1)+_b[smoke]*1+_b[age_smoke]*(age+1)*1
gen logit0f=_b[_cons]+_b[age]*age+_b[smoke]*1+_b[age_smoke]*age*1
gen OR_f=exp(_b[age]*1+_b[age_smoke]*1*1)
gen p0f=exp(logit0f)/(1+exp(logit0f))
gen p1f=exp(logit1f)/(1+exp(logit1f))
gen RR_f=p1f/p0f
summarize RR_f
Remarquer que le RR associé à l’âge est pratiquement constant chez les fumeurs. Ceci provient
du fait que le coefficient associé à la variable age est très petit et que lorsqu’il s’agit d’un
fumeur l’effet total est encore plus petit.
La figure comportant les 4 graphes est instructive et permet de comparer les OR et RR estimés
dans un modèle additif avec ceux estimés dans un modèle avec interaction.
Le but de cet exercice était d’illustrer la différence entre OR et RR. On constate que la
différence est parfois importante, mais que les deux mesures d’association vont dans le même
sens lorsqu’il y a augmentation ou diminution du risque. On retiendra, donc, que l’OR qui est
plus simple à calculer que le RR fournit une « bonne » approximation du RR pour autant que la
prévalence de l’outcome soit faible (<10%). Si cette prévalence est élevée il peut y avoir une
grande différence entre les deux mesures d’association et il faudra être prudent dans
l’interprétation de l’OR. Il sera raisonnable de dire « il y a une association croissante… » si
l’OR>1, mais il ne faudra pas considérer qu’il s’agit d’une « bonne » approximation du RR.
37
38
7) Stratégie de modélisation
Sous le vocable de « stratégie de modélisation » on entend la problématique de choisir un
modèle mathématique/statistique, choisir les co-variables, estimer les paramètres du modèle,
analyser l’adéquation du modèle aux données et le valider. Il s’agit d’un processus complexe
nécessitant de l’expérience.
2. S’assurer que le modèle décrive « bien » les données et qu’il n’y a pas de biais
systématique.
Si ces deux conditions sont vérifiées ont considère qu’il est raisonnable d’inférer les résultats
des analyses à l’ensemble de la population d’intérêt.
Un modèle est par définition une représentation simplifiée de la réalité. Par conséquent, il est
forcément, dans un certain sens, approximatif et incorrect. Néanmoins, sous les deux
conditions que nous avons évoquées ci-dessus il permet d’étudier les relations entre des
variables et de tirer des conclusions valables pour la population.
39
• Sur la base de ses connaissances théoriques et de la littérature on choisira les variables
explicatives.
• Le nombre de modèles que l’on peut formuler à partir d’un ensemble de k co-variables
est quasiment infini, même pour k = 3 ou 4. En effet, avec k co-variables on peut
formuler 2 k − 1 modèles contenant les variables x1 à xk. Ensuite, ce nombre est décuplé
lorsqu’on introduit les interactions possibles entre les co-variables, et finalement on
obtient un nombre incalculable de modèles en variant la forme fonctionnelle de la
régression et de chacune des co-variables (4).
Dans ce chapitre, nous allons présenter des outils d’aide permettant au modélisateur de
sélectionner un modèle et d’évaluer sa qualité.
40
En effet, il se peut que la transformation appropriée pour la variable « âge » par exemple soit
le logarithme ou qu’il faille introduire un terme quadratique.
Pour ce qui est des variables catégorielles le problème ne se pose pas puisqu’elles sont codées
au moyen de variables dichotomiques 0/1.
On recherchera donc la transformation la plus appropriée soit en comparant les modèles avec
la variable « âge » versus « âge+âge2 » ou « âge » versus « log(âge) », soit en utilisant une
méthode plus générale comme l’approche par les polynômes fractionnels ou la méthode des
splines (12-14).
Une méthode pour obtenir une indication sur la forme fonctionnelle à utiliser peut aussi être
basée sur la définition de catégories d’âges, par exemple des quintiles, et l’estimation des
coefficients associés à chacune de ces catégories. Ensuite, on représente ces coefficients en
fonction du milieu des catégories d’âge sur un graphe.
Remarque
La méthode qui consiste à utiliser les catégories plutôt que la variable continue est utile pour
rechercher la transformation adéquate, mais il ne faudrait pas remplacer la variable continue
dans le modèle final par les catégories, car l’on perd non seulement de la puissance statistique,
mais aussi on introduit un biais de « confounding résiduel » dans l’estimation de chacun des
coefficients.
1. La distance entre l’outcome observé y et l’outcome prédit par le modèle ŷ est petite.
2. Le modèle est bien « calibré », i.e. les fréquences prédites sont proches de celles
observées.
3. Le modèle permet de bien discriminer entre les valeurs de y = 0 et y = 1 en fonction des
variables explicatives x1, x2, …, xp, i.e. on obtient de bonnes sensibilités et spécificités.
Pour nous aider dans cette tâche, nous allons nous appuyer sur des tests de « Goodness of fit »
comme, le test de Hosmer et Lemeshow, la statistique de Pearson et la déviance, sur l’analyse
des résidus comme, les résidus de déviance et de Pearson, ainsi que sur l’évaluation de la
capacité à discriminer les outcomes positifs y = 1 des outcomes négatifs y = 0 par l’inspection
des courbes de sensibilité et spécificité, et la courbe ROC.
La démarche que nous allons adopter consiste à évaluer, d’abord, globalement l’adéquation du
modèle au moyen des différents tests de « Goodness of fit », puis, en principe lorsqu’on est
41
satisfait de la qualité de l’ajustement global, à déterminer s’il n’y a pas localement des
observations très mal ajustées et ayant possiblement un effet important sur l’estimation des
coefficients. Le but des ces évaluations globale et locale est de s’assurer que l’ajustement du
modèle soit satisfaisant pour toutes les valeurs observées dans l’échantillon des variables
explicatives. Finalement, l’évaluation du pouvoir discriminant du modèle nous permettra
d’appréhender si nous avons choisi les « bonnes » variables explicatives ou s’il manque
d’importants régresseurs pour arriver à prédire avec suffisamment de précision l’outcome.
Avant de procéder, il nous faut définir la notion de « covariate pattern » qui est essentielle
dans l’analyse du « Goodness of fit » du modèle logistique.
Remarque
Lorsque le modèle contient une ou plusieurs variables continue, en général, J ≅ n .
42
| 7 | 0.3872 | 6 | 6.5 | 13 | 12.5 | 19 |
| 8 | 0.4828 | 7 | 8.2 | 12 | 10.8 | 19 |
| 9 | 0.5941 | 10 | 10.3 | 9 | 8.7 | 19 |
| 10 | 0.8391 | 13 | 12.8 | 5 | 5.2 | 18 |
+--------------------------------------------------------+
On constate que dans notre exemple le test de Hosmer et Lemeshow est passé et que, par
conséquent, l’ajustement global du modèle aux données est satisfaisant. Néanmoins, ce test est
basé sur un regroupement des données en catégories et certains « covariate patterns » très mal
ajustés peuvent avoir échappé. Avant d’accepter ce modèle il faut analyser les résidus pour
confirmer que l’ajustement est « bon » pour tous les « covariate patterns ».
Remarque
La statistique de Hosmer et Lemeshow est calculée à partir de la table de contingence (g x 2)
(lorsqu’on forme g groupes) des fréquences observées et espérées. Hosmer et Lemeshow ont
montré que leur statistique suivait approximativement une loi du Chi2 à g-2 degrés de liberté,
mais cette approximation est bonne pour autant que les fréquences espérées soient ≥ 5 , hormis
une. La puissance du test est relativement faible lorsque la taille de l’échantillon est ≤ 400 .
43
Outliers ayant un fort effet de levier Outliers n’ayant pas un effet de levier important
Droite de régression
avec outliers
y y Droite de régression
avec outliers
x x
figure 16 & 17
Ainsi, le nombre de réponses y = 1 au sein d’un « covariate pattern » prédites par le modèle
s’exprime par :
yˆ j = m j Pˆ j , j = 1, …, J
( y j − yˆ j )
r ( y j , yˆ j ) = r j = .
m j Pˆ j (1 − Pˆ j )
Ce résidu sera d’autant plus grand que le nombre de cas positifs prédit est différent du nombre
observé et que le dénominateur est petit.
Remarque
Remarquons que V ( y j | x j ) = m j Pj (1 − Pj ) , mais V ( y j − yˆ j | x j ) ≠ m j Pj (1 − Pj ) de sorte que
le résidu de Pearson n’est pas standardisé (i.e. de variance constante égale à 1). La difficulté
avec des résidus non standardisés est que leur amplitude dépend non seulement de la
44
différence y j − yˆ j mais aussi de sa variance, ce qui complique leur interprétation. Pour cela,
on a défini le résidu de Pearson standardisé.
Le résidu de Pearson standardisé est défini comme :
rj
rs ( y j , yˆ j ) = rs j =
1− hj
X 2 = ∑ j =1 rs ( y j , yˆ j ) 2
J
45
3
Résidus standardisés de Pearson
-1 0 -2 1 2
10 20 30 40 50
age of mother
figure 18
On ne constate pas de gros déséquilibre dans la distribution des résidus pour les mamans
jeunes et les moins jeunes, ni de valeurs très grandes des résidus de sorte que l’on est satisfait
de la qualité de l’ajustement pour cette co-variable.
Remarque
Si les « covariate patterns » contiennent assez d’observations les résidus sont distribués
approximativement Normalement et l’on s’attend à trouver environ le 95% des points dans
l’intervalle -2 à +2.
1/ 2
yj m j − y j
d ( y j , yˆ j ) = ± 2 y j log + (m j − y j ) log ,
m j Pˆ j m j (1 − Pˆ j )
et la déviance :
D = ∑ j =1 d ( y j , yˆ j ) 2 .
J
Tout comme la statistique de Pearson, la déviance est une mesure globale résumant la distance
entre y et ŷ . Si le nombre d’observations mj , j = 1, …, J, dans chacun des « covariate
patterns » est assez grand la déviance suit approximativement une loi du Chi2 à J-p degrés de
liberté (p est le nombre de paramètres estimés dans le modèle).
46
Remarque
En régression logistique, maximiser la vraisemblance revient à minimiser la déviance, soit
minimiser la somme des carrés des résidus de déviance. Dans ce sens, les résidus de déviance
sont équivalent aux résidus du modèle linéaire.
Comme avec les résidus de Pearson, pour déterminer si une co-variable est mal ajustée par le
modèle on peut représenter les résidus de déviance en fonction de cette celle-ci. En reprenant
l’exemple d’avant concernant la probabilité de mettre au monde en enfant de petit poids en
fonction de l’âge de la maman :
2 1
Deviance Residual
0 -1
-2
10 20 30 40 50
age of mother
figure 19
∆X 2j = rs2j ,
d 2j
∆D j = .
(1 − h j )
47
logistics regression dioagnostic logistics regression dioagnostic
10
5
36
36
77
77
188
8
4
133
132
16
57
3310
27
49
28 98
d_deviance
6
3
188
22
63
29
24
25
65
16
dx2
57
33 68 59
10 47
54
79
76 144
3045 154
26 117
116
27
49 71
81
35 119
4
2
56
101
100 46 18 43
31
69 137
28 98 52 99 172
162
63
24
22
29
25 133
132 621789
34
197
65 138180 15
88
148
147 118
102
164 20
42
68
4759 167
189 160104 8260
40
54
79
76
3045 144 5132
26 154 166
111
155 61 19
199
2
1
71
81
35 56 193
192 202 216
115 75
8411
46
119
137
187
8587
143
181
1469396
128
161
117
116 31
6918 43 163
121
130
141 7883
52 99 172
162 67 201
140
10795
156
103
149
113
205
170
142
224
208
150 4 5037
101
100 34
62
197
138 1789 15
180
88 127
124
125
139
206
94
109
186 91
176
177
179
105
135 442313
148
147 118
164
160104 102 208260
42 106
209
210
214
97
212
67189
140167 166
111
155 40
5132
61 19 211 123
193
192 202
128
161 115
96 216199 75
8411 7883 86
92
213
225
136145
218
200
196
219
187
163
130
141
142
113
205
170
224
150
208 85
87
143
181
146
121 93 4 5037 442313 168
185
222
169 203
215
184
220
174
182
221
159
94
106
209
210
214
97
212 125
124
206
186
109
139 107
91
105
135 201
95
103
156
149
127
176
177
179 120
226
114
191
126
204
112 190
195
151
134
223
217
131
159
151
226
114
120134
190
131
223
126
204
191 213
225
136
203
220
168
185
222
221
169
217
195 92
86
215
184
182
174 211 123
145
218
196
219
200 108129
175
173
183
207
0
175
129
207
183112
173
0
108
0 .2 .4 .6 .8 0 .2 .4 .6 .8
P(Y=1) P(Y=1)
figures 20 & 21
Les « covariate patterns » mal ajustés sont généralement représentés par des points soit en haut
à droite, soit à gauche, et qui en plus se détachent sensiblement de la masse des points. Pour
repérer plus facilement quels sont les sujets correspondant on a fait apparaître leur numéro
d’identification.
On constate sur ces figures que seuls deux « covariate patterns » sont éloignés de la masse des
points et donc pas bien ajustés. Cependant, si le nombre d’observations dans les « covariate
patterns » est suffisamment grand on peut montrer que ∆X 2j et ∆D j sont distribués
approximativement selon une loi du Chi2 à 1 degré de liberté dont le percentile 95 est
χ 02.95 (1) = 3.84 . On considérera, donc, que d’une part un « covariate pattern » est mal ajusté si
la valeur de ∆X 2j ou ∆D j est plus grande que 4, d’autre part que le modèle est bien ajusté si
pas plus de 5% des « covariate patterns » sont supérieurs à 4.
rs2j h j
∆βˆ j = .
(1 − h j )
On remarque que cette grandeur augmente avec la magnitude du résidu standardisé de Pearson,
ainsi qu’avec l’augmentation du levier.
Les « covariate patterns » associés à un résidu élevé et ayant une forte influence sur
l’estimation des paramètres sont a scruter attentivement.
48
Typiquement, un graphe de ∆β̂ j versus la probabilité prédite a l’allure suivante :
188
.8
Pregibon dbeta
.6
133
132
98
28
.4
154
77 10 119
117
116
57 59
144
.2
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
P(Y=1)
figure 22
Dans ce graphe on constate qu’un « covariate pattern » (le no d’identification 188) a plus
d’influence que les autres et est à analyser pour déterminer la raison. Néanmoins, Hosmer et
Lemeshow (voir bibliographie) estiment que pour qu’un « covariate pattern » aie une influence
sensible sur l’estimation des coefficients il faut que cette grandeur soit supérieure à 1, ce qui
n’est pas le cas dans notre exemple et, par conséquent, nous n’en ferons pas cas.
Un autre graphe résumant à la fois les « covariates patterns » mal ajustés et influants est donné
par :
77
8
188
6
16
57
33
dx2
10
27
49
4
28 98
63
22
24
29
25 133
132
65
68
4759
54
79
76
3045 144
26 154
81
71
35 56 119
2
46
117
116 31
6918 43 137
101
100 52 99172
162
34
62
197
138 1789 15
180
88
118
164 208260
42
140167 147
67189 148 160104102
166
111
155
199 40
5132
61 19
193
192 202
187
16385 9396
128
161
87
181
146
143
121 216
115 75
8411 7883
124
206 107
105
135
109
139
125 201
149
103
127
176
91
179
177 95
156 130
141
113
205
170
224
142
150
208 45037 442313
211
200
145
218
86
196
219
213
225
136
92 210
214
212
97
123 186
106
20994
173
175
129
207
183
108 134
217
126
204
191195
151
226
114
120
112 203
185
222
221
190
169
131
223 215
184
182
174
159220
168
0
0 .2 .4 .6 .8
P(Y=1)
figure 23
49
Il est intéressant de déterminer la performance du classement et comment celui-ci dépend du
seuil (ou de la règle) choisi. Pour cela nous allons considérer les notions de sensibilité et
spécificité.
La sensibilité est définie comme la probabilité de classer l’individu dans la catégorie y = 1 (on
dit que le test est positif) étant donné qu’il est effectivement observé dans celle-ci :
Sensibilité = P(test + | y = 1)
La spécificité est définie comme la probabilité de classer l’individu dans la catégorie y = 0 (on
dit que le test est négatif) étant donné qu’il est effectivement observé dans celle-ci :
Spécificité = P(test - | y = 0)
Voici un exemple fictif de classement obtenu pour un seuil choisi à priori où l’on a calculé la
sensibilité et la spécificité :
Lorsqu’on varie le seuil (en anglais « cutoff ») la sensibilité et la spécificité changent, puisque
la règle de classement est modifiée. Afin de représenter les valeurs pour toutes les possibilités
de seuils on dessine sur un graphe des courbes de sensibilités et spécificités :
1.00 0.75
Sensitivity/Specificity
0.25 0.50
0.00
Sensitivity Specificity
figure 24
50
On constate que, dans cet exemple, en fixant le seuil à 0.3 on obtient un classement avec une
sensibilité et spécificité d’environ 70%.
Comme indicateur de la capacité du modèle à discriminer on utilisera la courbe ROC :
1.00
0.75
Sensitivity
0.50
0.25
0.00
La surface sous cette courbe nous permet d’évaluer la précision du modèle pour discriminer les
outcomes positifs y = 1 des outcomes négatifs y = 0.
On retiendra comme règle du pouce :
Remarque
Un modèle mal ajusté, i.e. mal calibré, peut très bien fournir une bonne discrimination. Pour
s’en convaincre, il suffit de penser à la situation où l’on ajoute 0.15 à toutes les probabilités
estimées. Le modèle sera alors mal calibré, mais en déplaçant le seuil de 0.15 on obtiendra la
même discrimination.
Un bon modèle doit être bien calibré et permettre une bonne discrimination.
g) La validation du modèle
Les paramètres de notre modèle de régression logistique sont estimés à partir de l’échantillon
de données dont on dispose. On peut se poser la question de la validité de la transposition de
nos résultats à l’ensemble de la population d’intérêt.
Pour que l’on puisse inférer des caractéristiques de la population à partir de notre échantillon il
faut, bien entendu, qu’il soit représentatif de celle-ci. Cette représentativité s’obtient en
particulier lorsqu’il y a eu tirage aléatoire.
51
Maintenant, nos estimations sont sensibles à la taille de notre échantillon et il est légitime de se
poser la question de la reproductibilité de nos résultats. En particulier, est-ce qu’on obtiendra a
peu près les mêmes estimations si l’on analyse un autre échantillon de même taille et issu de la
même population ?
Comme en général l’on ne dispose pas d’un deuxième échantillon de la population, pour tenter
de répondre à cette dernière question des techniques de validation basées sur le re-
échantillonnage ou la partition de l’échantillon ont été développées.
Pour ne pas trop allonger le texte, nous n’allons pas rentrer dans la description de ces
techniques, ici, mais l’on retiendra que l’évaluation de l’ajustement de notre modèle sur un
autre échantillon provenant de la même population fournira très probablement des résultats
moins optimistes.
En définitive, on retiendra que plus l’échantillon de données disponibles sera grand plus les
estimations seront fiables et reproductibles. Règle du pouce que nous avions énoncée
auparavant dans le texte de « dix outcomes positifs par co-variable introduite dans le modèle »
va dans le sens d’une meilleure reproductibilité des résultats.
Outcome 1 2 3 total
1 7 12 20 39
0 13 8 0 21
total 20 20 20 60
Odds ratio 1 2.79 inf
52
Dans ce cas, tous les individus dans la catégorie 3 de la variable explicative ont l’outcome 1 et
l’Odds ratio associé est infini. Dans ce cas, ces 20 individus sont éliminés de l’estimation et
l’on rapportera simplement que les individus de cette catégories ont probabilié 1 d’avoir
l’oucome positif.
La situation impliquant une variable continue peut être représentée dans les graphes suivants :
oui oui
non non
50 50
age age
figures 26 & 27
Si l’on n’observait dans notre échantillon pas de patient sain âgé de plus de 50, on aurait un
problème de séparabilité complète. Autrement dit, les patients de plus de 50 ans auraient une
probabilité 1 d’avoir un outcome positif et la discrimination en fonction de l’âge serait alors
parfaite. On a séparabilité est quasi-complète si le seul chevauchement observé est exactement
pour l’âge de 50 ans.
La situation de séparabilité ou quasi-séparabilité impliquant plusieurs co-variables
catégorielles ou continue est plus complexe et nous renvoyons le lecteur intéressé à la
littérature (15).
b) Le problème de « l’overfitting »
Le problème de « l’overfitting » intervient lorsqu’on a sélectionné beaucoup de co-variables
dans le modèle ou lorsqu’on n’a pas assez d’outcomes positifs par rapport au nombre de co-
variables retenues. Dans ce cas, les résultats ne sont pas reproductibles et les associations
fortuites.
Le risque « d’overfitting » augmente, en particulier, lorsqu’on introduit plusieurs termes
d’interaction dans le modèle. Le problème est d’autant plus délicat que les variables
explicatives sont catégorielles polytomiques, dans quel cas il y a foison de termes d’interaction
à estimer. Dans ce cas, il vaut mieux se limiter aux interaction faisant intervenir un assez grand
nombre de patients.
c) Le biais de sélection
Un biais de sélection se produit lorsque l’échantillon de données n’est pas tiré aléatoirement
ou qu’il n’y a pas eu randomisation. Dans ce cas, il se peut que les patients exposés au
53
traitement diffèrent systématiquement de ceux n’ayant pas été exposés et l’analyse de l’effet de
l’exposition est biaisé par la sélection.
Pour corriger le biais de sélection on peut recourir aux modèles de sélection et la littérature sur
le thème est vaste et assez complexe.
On distingue aussi d’autres biais potentiels, comme le biais de classement qui résulte des
erreurs de mesures et le biais de confusion provenant de la non-inclusion dans le modèle d’un
facteur confondant.
e) Extensions
e.1) Le cas de données répétées
Lorsque les données sont répétées, comme lorsqu’on suit une cohorte de patients au fil du
temps, elles ne sont pas indépendantes et il faut utiliser des techniques statistiques appropriées
comme des modèles marginaux (e.g. GEE) ou mixte (à coefficients aléatoires).
Exercice 7
Dans cet exercice nous vous proposons de considérer les données « Low birth weight » et
d’appliquer les notions que nous venons de voir pour ajuster un modèle logistique à ces
données.
54
8) Le logiciel statistique STATA
Nous proposons ci-dessous une liste de commandes STATA utiles pour la régression
logistique. Pour se fixer les idées, nous prendrons comme exemple de variables celles utilisées
par Hosmer et Lemeshow dans le fichier de données « Low birth weight data » disponible sur
le web (http://www.stata-press.com/data/r8/lbw).
Pour représenter les données, ainsi que la forme de la relation « non ajustée » entre la
probabilité de « low birth weight » et l’âge on utilisera la commande :
twoway scatter low age, ylabel(0(0.2)1) ytitle(P(low)) title(Relation entre low birth weight et
l'âge) || lowess low age, sort
Pour déterminer et représenter la relation fonctionnelle entre l’âge et « low birth weight » on
peut utiliser les polynômes fractionnels :
xi: fracpoly logistic low age lwt i.race smoke ptl ht ui
fracplot age
On obtient toutes sortes de mesures d’adéquation du modèle aux données avec les commandes:
fitstat
lfit
lsens
55
predict p
Pour calculer la réduction de la statistique du Chi2 de Pearson, après avoir enlevé les sujets de
covariate pattern xj :
predict dx2, dx2
Pour calculer la réduction de la déviance, après avoir enlevé les sujets de covariate pattern xj :
predict dd, ddeviance
Pour calculer la statistique d’influence d’un covariate pattern sur l’estimation des parameters:
predict cook, dbeta
label var cook "Pregibon dbeta"
56
graph twoway (scatter cook p, msymbol(smcircle) msize(small) mcolor("0 0 255") mlabel(id)
mlabsize(vsmall) mlabposition(12)), ///
ytitle(Pregibon dbeta, size(medsmall)) yscale(titlegap(2) outergap(3)) xtitle(P(Y=1),
size(small)) ///
xscale(titlegap(2) range(0 1) outergap(3)) xlabel(0(0.1)1, labgap(2) labsize(vsmall)) ///
title(logistics regression dioagnostic, size(small)) xline(0.5)
57
58
Bibliographie
Livres :
• Hosmer DW and Lemeshow S. Applied logistic regression. John Wiley & Son 1989.
• Amemiya T. Advanced Econometrics. Harvard University Press 1985.
• Maddala GS. Limited dependent and qualitative variables in econometrics. Cambrige
University Press 1983.
Articles:
1. Chunrong A. and Norton EC. Interaction terms in logit and probit models. Economic
letters 2003;80:123-129.
2. Zhang J and Yu KF. What’s the relative risk. JAMA 1998;280:1690-1691.
3. Peduzzi P, Concato J, Kemper E et al. A simulation study of the number of events per
variable in logistic regression analysis. Journal of Clinical Epidemiology
1996;49:1373-1379.
4. Greenland Sr. Modeling and variable selection in epidemiologic analysis. American
Journal of Public Health 1989;79:340-349.
5. Concato J, Feinstein AR and Holford T. The risk of determining risk with
multivariable models. Annals of Internal Medicine 1993;118:201-210.
6. Greenland S and Neutra R. Control of confounding in the assessment of medical
technology. International Journal of Epidemiology 1980;9:361-367.
7. Katz MH. Multivariable analysis: a primer for readers of medical research. Annals of
Internal Medicine 2003;138:644-650.
8. Bagley SC, White H and Golomb BA. Logistic regression in the medical literature:
standards for use and reporting, with particular attention to one medical domain.
Journal of Clinical Epidemiology 2001;54:979-985.
9. Traissac P, Martin-Prével Y, Delpeuch F et al. Régression logistique vs autres modèles
linéaires généralisés pour l’estimation de rapports de prévalences. Revue
d’Epidémiologie et de Santé publique 1999 ;47 :593-604.
10. Hernan MA, Hernadez-Diaz S, Werler MM et al. Causal knowledge as a prerequisite
for confounding evaluation : an application to birth defects epidemiology. American
Journal of Epidemiology 2002;155;176-184.
11. Greenland S, Pearl J and Robins J. Causal diagrams for epidemiologic research.
Epidemiology 1999;10:37-48.
12. Greenland S. Dose-response and trend analysis in epidemiology: alternatives to
categorical analysis. Epidemiology 1995;6:356-365.
13. Royston P, Altman DG: Regression using fractional polynomials of continuous
covariates: parsimonious parametric modelling. Appl.Stat. 1994;43:429-467.
59
14. Royston P, Ambler G, Sauerbrei W: The use of fractional polynomials to model
continuous risk variables in epidemiology. Int.J.Epidemiol. 1999;28:964-974.
15. Albert A and Anderson JA. On the existence of maximum likelihood estimates in
logistic regression models. Biometrika 1984;71:1-10.
• Stata Graphics
60