Vous êtes sur la page 1sur 64

Cours de Régression Logistique Appliquée

Patrick Taffé, PhD

Institut Universitaire de Médecine Sociale et Préventive (IUMSP) et Centre d’épidémiologie Clinique (CepiC)

Lausanne, Août 2004

Table des matières

Introduction

1

Pourquoi la statistique ?

1

Pourquoi la régression logistique ?

1

1) La modélisation d’une variable qualitative dichotomique

3

Exercice 1

5

2) Formulation mathématique du modèle de régression logistique (*)

7

2.1) Le modèle de régression linéaire Normal

7

2.2) Le modèle de régression logistique

8

2.3) Y-a-t’il d’autres modèles !?

9

Exercice 2

10

3) Estimation et tests (*)

13

3.1) L’estimation du modèle

13

3.2) Test de significativité des coefficients

13

Exercice 3

14

4) La transformation logit

17

Exercice 4

18

5) Le succès du modèle Logit : l’Odds Ratio

21

5.1) L’Odds Ratio comme mesure d’association

21

5.2) L’Odds Ratio comme mesure du risque relatif (RR)

22

Exercice 5

24

6) L’interprétation des coefficients

27

6.1) Le cas d’un modèle additif, i.e. sans interactions

27

a) La constante du modèle

28

b) Coefficient d’une variable explicative dichotomique

29

c) Coefficient d’une variable explicative polytomique

30

d) Coefficient d’une variable explicative continue

31

e) L’Odds ratio associé àla variation de plusieurs co-variables

32

6.2) Le cas d’un modèle non additif, i.e. avec interactions

32

Exercice 6

34

7) Stratégie de modélisation

39

Pourquoi construire un modèle ?

39

Existe-t-il une stratégie de modélisation conduisant àun « bon » modèle ?

39

7.1) Le choix des co-variables

40

7.2) Le choix de la forme fonctionnelle des co-variables

40

7.3) L’adéquation du modèle aux données « Goodness of fit » (*)

41

a) La notion de « covariate pattern »

42

b) Evaluation de la calibration du modèle : le test de Hosmer et Lemeshow

42

c) L’analyse des résidus

43

c.1) Le résidu de Pearson

44

c.2) Le résidu de déviance

46

d) Détection des « covariate patterns » mal ajustés

47

e) Détection des points influants (effet de levier)

48

f) Evaluation du pouvoir discriminant du modèle : sensibilité, spécificité et courbe

ROC

49

g)

La validation du modèle

51

7.4) Limitations et biais (*)

52

a) Le problème de la séparabilité ou quasi-séparabilité (*)

52

b) Le problème de « l’overfitting »

53

c) Le biais de sélection

53

d) Le problème de surdispersion « overdispersion »

54

e) Extensions

54

e.1) Le cas de données répétées

54

e.2) Le cas de données agrégées « cluster »

54

Exercice 7

54

8) Le logiciel statistique STATA

55

Bibliographie

59

Livres :

59

Articles:

59

Pour l’utilisation de STATA se référer aux manuels suivants :

60

Avant propos

Ce cours a pour but d’introduire le lecteur à la problématique de la modélisation des variables qualitatives dichotomiques (i.e. comportant deux catégories comme « sain » et « malade ») au moyen de la régression logistique.

L’analyse de régression logistique est plus complexe que celle de régression linéaire, car le modèle logistique est non-linéaire. Nous allons, autant que possible, faire un parallèle entre les deux types d’analyses et illustrer les différences fondamentales.

Il s’agit d’un cours de régression logistique appliquée de sorte que nous n’insisterons pas sur les détails mathématiques, mais plutôt sur les concepts fondamentaux. Néanmoins, la statistique est avant tout une discipline faisant appel aux mathématiques et même si le programme statistique prend en charge tous les aspects formels, un minimum de formalisme est nécessaire pour bien illustrer les concepts. Nous avons donc décidé de ne pas occulter complètement les mathématiques de ce cours et les sections d’un caractère plus technique seront indiquées par un astérisque « * ».

Les données pour les exercices peuvent être téléchargées depuis le web aux adresses :

ftp://ftp.wiley.com/public/sci_tech_med/logistic/

http://www.ats.ucla.edu/stat/stata/examples/alr2/default.htm

Introduction

Le but de ce cours est d’exposer les fondements de la régression logistique de manière intuitive et aussi peu formelle que possible, et d’illustrer les étapes de la modélisation des variables qualitatives binaires.

Pourquoi la statistique ?

En général, le but de la plupart des recherches est de déterminer des relations entre un ensemble de variables. Les techniques « multivariables » ont été développées à cette fin. Souvent on considère une variable dépendante que l’on veut prédire et des variables indépendantes ou explicatives.

Remarquons que bien souvent le terme « multivarié » est confondu avec « multivariables », ce qui peut porter à confusion étant donné que le premier se réfère à la situation où l’on considère plusieurs variables dépendantes à la fois, tandis que le deuxième plus vague correspond peut- être mieux à la situation la plus fréquente en épidémiologie où l’on considère une seule variable dépendante et plusieurs variables explicatives.

Il est difficile de donner une définition consensuelle de la statistique, mais certainement cette discipline traite de l’incertitude, de la variabilité, de l’inférence (test d’hypothèses, intervalles de confiance, prédiction, …). On retiendra qu’elle a pour but de quantifier un phénomène d’intérêt et d’apporter une information concernant la précision avec laquelle les résultats ont été établis. Par exemple, pour estimer la taille moyenne des jeunes de 15 ans en Suisse on considère un échantillon d’élèves dans une école et l’on calcule leur taille moyenne. Cette estimation ne sera certainement pas parfaite puisqu’elle repose sur un petit collectif dont on espère qu’il soit suffisamment représentatif de l’ensemble de cette population en Suisse. Un intervalle de confiance nous permettra d’apprécier le degré d’incertitude de notre évaluation.

L’analyse de régression est une technique statistique permettant d’établir une relation entre une variable dépendante et des variables explicatives, afin d’étudier les associations et de faire des prévisions. On peut, par exemple, s’intéresser à quantifier la relation entre le risque de décès et la quantité de cigarettes fumées quotidiennement, tout en ajustant pour l’âge, le sexe, et éventuellement d’autres facteurs de risque.

Pourquoi la régression logistique ?

Lorsque la variable dépendante n’est pas quantitative mais qualitative ou catégorielle le modèle de régression linéaire n’est pas approprié.

Ce qui distingue le modèle de régression logistique du modèle de régression linéaire est que dans le premier la variable dépendante est qualitative, i.e. cette variable prend comme valeur un attribut et non pas une valeur numérique : par exemple la variable état de santé prend les attributs « sain » ou « malade », la variable sexe « mâle » ou « femelle », une autre variable les attributs « rouge » ou « noir », etc.

Lorsque le nombre d’attributs est deux l’on parle de variable dichotomique, e.g. le sexe « mâle » ou « femelle », tandis que s’il est supérieur à deux l’on a une variable polytomique, e.g. une pression « haute », « normale » ou « basse ».

Dans le modèle de régression linéaire la variable dépendante est, en revanche, quantitative, car elle admet une échelle de mesure naturelle : par exemple la pression systolique 50-200 mmHg, le poids 30-200 kg, la taille 1-2 m, le niveau de CD4 0-2000 cell/ìL, etc.

Lorsque la variable dépendante est quantitative l’hypothèse de normalité de la distribution de cette variable ou d’une transformation est généralement plausible, tandis que lorsqu’elle est qualitative elle n’admet pas de valeur numérique naturelle (puisqu’elle ne peut prendre que des attributs) et le modèle normal n’est pas approprié. Une variable aléatoire qualitative est décrite par les probabilités des différents attributs qu’elle peut prendre et pour évaluer l’influence de différents facteurs sur cette variable il est d’usage de modéliser les probabilités des différents attributs.

Un modèle décrivant la probabilité avec laquelle la variable qualitative dichotomique sexe prend les attributs « femelle » ou « mâle » est le modèle « binomial » (avec n = 1 1 ). Lorsque le nombre d’attributs que peu prendre cette variable est supérieur à deux on a une variable polytomique et un modèle décrivant cette situation est le modèle « multinomial ».

On a représenté, ci-dessous, différents graphes illustrant les différences fondamentales entre variable qualitative et variable quantitative. Dans le premier graphe la variable dépendante est la maladie coronarienne. Cette variable peut prendre les attributs « oui » ou « non » de sorte qu’il n’est pas possible d’écrire une relation directement entre la maladie coronarienne et l’âge. Dans le second graphe la variable dépendante est quantitative, il s’agit de la taille, de sorte qu’il est possible d’établir directement une relation (linéaire ou pas) entre la taille et l’âge. Le troisième graphe illustre l’hypothèse de Normalité souvent adoptée lorsque la variable dépendante est quantitative.

Maladie coronarienne

taille oui non âge Relation entre taille et âge chez les enfants: hypothèse de Normalité
taille
oui
non
âge
Relation entre taille et âge chez les enfants:
hypothèse de Normalité
taille

âge

figures 1 à 3

Relation entre taille et âge chez les enfants

1 à 3 Relation entre taille et âge chez les enfants âge 1 Lorsque n=1 le

âge

1 Lorsque n=1 le modèle binomial se réduit au modèle de Bernoulli.

1) La modélisation d’une variable qualitative dichotomique

Nous avons vu que lorsque la variable dépendante était qualitative elle n’admettait pas d’échelle de mesure naturelle et que l’on modélisait, par conséquent, sa probabilité de prendre tel ou tel attribut. Voyons comment cela s’applique dans notre exemple de maladie coronarienne en fonction de l’âge.

Dans le graphique suivant l’on a regroupé les données concernant l’âge en catégories et calculé dans chacune de ces catégories le pourcentage de personnes souffrant d’une maladie coronarienne :

Pourcentage de personnes souffrant d’une maladie coronarienne par catégorie d’âge 1 0.5 0
Pourcentage de personnes souffrant d’une maladie coronarienne
par catégorie d’âge
1
0.5
0

âge

figure 4

On constate que l’on a une relation sigmoïdale, i.e. en forme de S, entre la proportion de maladie coronarienne et l’âge. On en déduit, ainsi, que pour modéliser la probabilité de maladie coronarienne en fonction de l’âge il faudra utiliser une relation sigmoïdale.

En effet, une probabilité étant par définition comprise entre 0 et 1 le modèle linéaire n’est bien entendu pas approprié (puisqu’il ne limite pas les valeurs de notre probabilité au domaine compris entre 0 et 1) et la relation est forcément non-linéaire :

Pourcentage de personnes souffrant d’une maladie coronarienne par catégorie d’âge: relation linéaire >1 1
Pourcentage de personnes souffrant d’une maladie coronarienne
par catégorie d’âge: relation linéaire
>1
1
0.5
0
< 0
âge

figures 5 & 6

Pourcentage de personnes souffrant d’une maladie coronarienne par catégorie d’âge: relation non linéaire
Pourcentage de personnes souffrant d’une maladie coronarienne
par catégorie d’âge: relation non linéaire (sigmoïdale)
1
0.5
0

âge

Remarquons qu’une probabilité est une caractéristique d’une population, tandis qu’une proportion est calculée à partir d’un échantillon. Cette dernière s’approche d’autant plus de la probabilité (inconnue en général) que l’échantillon est grand.

Un choix intuitif pour modéliser une probabilité est d’utiliser une fonction de répartition ou fonction cumulative.

Illustrons ce point avec l’exemple des fonctions de répartition des lois Normale et Logistique. Pour rappeler la différence, nous illustrons aussi les fonctions de densité correspondantes :

1

.8

.6

.4

.2

0

Fonctions cumulatives de diverses lois Normales

-10 -5 0 5 10
-10
-5
0
5
10

x

N(0,1)

N(2,3)

N(0,3)

.4

.3

.2

.1

0

Fonctions de densité de diverses lois Normales

-10 -5 0 5 10
-10
-5
0
5
10

x

N(0,1)

N(2,3)

N(0,3)

 

Fonctions cumulatives de diverses lois Logistiques

 

Fonctions de densité de diverses lois Logistiques

1

.5

.8

.4

.6

.6 .3

.3

.6 .3

.4

.2

.2

.1

0

0

-10

-5

0

5

10

-10

-5

0

5

10

 

x

 

x

   

Logistique(0,1)

Logistique(0,3)

     

Logistique(0,1)

Logistique(0,3)

 
 

Logistique(2,3)

 

Logistique(2,3)

figures 7 à 10

On constate qu’en fonction de la moyenne (1 er paramètre) les courbes se déplacent le long de l’abscisse et qu’en fonction de la variance (2 e paramètre) la pente de la fonction de répartition change.

On peut déjà anticiper que se seront ces deux paramètres qu’il faudra estimer (au moyen d’une technique statistique) pour obtenir un bon ajustement de notre courbe aux données.

Remarque (*)

La fonction cumulative d’une loi Normale de moyenne m et de variance s’écrit :

F

(

x

) =

x 1 Ú -• 2 p s
x 1
Ú -•
2 p s

Á Ê

exp

Á Ë

-

1 Ê t -

Á

Ë

m
˜

ˆ

2

s ¯

2

ˆ

˜

˜

¯

dt

s

2

, i.e.

(

N m,s

2

)

,

tandis que celle d’une loi Logistique de moyenne m et de variance s

F

(

x

) =

Ê p x - m ˆ exp Á ˜ ˜ 3 s Á Ë ¯
Ê
p
x -
m
ˆ
exp Á
˜
˜
3
s
Á Ë
¯
Ê
p
x -
m
ˆ
1
+ exp Á
˜
˜
Á Ë
3
s
¯

2 s’écrit :

En résumé, nous avons donc dit que lorsque la variable dépendante était qualitative l’on modélisait la probabilité de ses attributs, qu’un modèle mathématique adéquat avait une forme sigmoïdale comme une fonction de répartition et que la forme de cette sigmoïde changeait en fonction des paramètres caractérisant cette fonction de répartition.

Il s’agit, ensuite, d’établir un lien entre ces paramètres (donc la forme et la position de notre courbe sigmoïdale), la probabilité de maladie coronarienne (la variable dépendante d’intérêt) et l’âge (la variable explicative). Pour cela, dans le prochain chapitre, nous allons formuler un modèle de régression (non-linéaire). Un modèle très utilisé en épidémiologie est le modèle Logistique.

Exercice 1

Le but de cet exercice est d’illustrer la différence fondamentale entre variable qualitative et variable quantitative. Nous allons montrer, en particulier, qu’il n’est pas approprié de traiter une variable qualitative comme si elle était quantitative : par exemple de régresser directement une variable dépendante qualitative codée « 0 » et « 1 » en fonction d’une variable explicative, comme on le fait en régression linéaire. A cette fin, nous allons utiliser des données rapportant la présence ou l’absence d’une maladie coronarienne.

1) Représentation graphique des données Dans ce fichier de données nous avons une seule variable explicative l’âge. Afin de « visualiser » la relation entre la présence ou l’absence d’une maladie coronarienne en fonction de l’âge nous allons représenter les données sur un graphe. Pour cela l’option « jitter(2) » de STATA s’avère utile. Essayez la commande suivante avec et sans cette option :

scatter chd age, jitter(2) ylabel(0(1)1) ytitle(chd 0/1) title(Maladie coronarienne en fonction de l'âge)

On constate que plus on est âgé plus le risque d’avoir un problème coronarien semble élevé.

2) Un exemple à ne pas suivre : estimation d'une relation linéaire entre la variable dépendante dichotomique chd et l’age La régression linéaire de la variable chd en fonction de la variable age fournit une droite n’ayant pas de sens, car chd ne peut prendre que deux valeurs 0 ou 1 tandis que la droite de régression linéaire prédit des valeurs impossibles.

* régression linéaire

regress chd age

cap drop fit predict fit, xb

* graphe de la relation linéaire entre les variables chd et age

scatter chd age, jitter(2) ylabel(0(1)1) ytitle(chd 0/1) title(Maladie coronarienne en fonction de l'âge , size(medium)) subtitle(régression linéaire) || scatter fit age, c(l) sort saving(g1, replace)

3) Relation fonctionnelle entre la probabilité de maladie coronarienne et l'âge Pour représenter la relation fonctionnelle entre la probabilité de maladie coronarienne et l'âge nous allons définir des catégories d’âge et calculer le pourcentage de maladie coronarienne dans chacune de ces catégories :

* calcul des percentiles de la variable age

centile age, centile(10 20 30 40 50 60 70 80 90)

* génération des percentiles de la variable age

cap drop pct_age xtile pct_age=age, nquantiles(9)

tab pct_age

* calcul des proportions de maladie coronarienne dans les catégories d'âge

sort pct_age

cap drop p_chd by pct_age: egen p_chd=mean(chd)

* graphe de la relation entre les catégories d'âge et la proportion de maladie coronarienne

scatter p_chd pct_age, ylabel(0(0.2)1) ytitle(P(chd)) title(Proportion de maladie coronarienne en fonction de la catégorie d'âge, size(medium)) saving(g2, replace)

* un graphe plus joli en utilisant une régression non paramétrique

twoway scatter chd age, jitter(2) ylabel(0(0.2)1) ytitle(P(chd)) title(Proportion de maladie coronarienne en fonction de l'âge, size(medium)) || lowess chd age, sort legend(off) saving(g3, replace)

graph combine g2.gph g3.gph, iscale(.55)

2) Formulation mathématique du modèle de régression logistique (*)

Dans « modèle de régression logistique » nous avons les termes « régression » et « logistique ». Dans cette section, nous allons en illustrer la raison. Ceci nous permettra de bien comprendre les différences fondamentales entre les modèles de régression linéaire et logistique.

Néanmoins, d’emblée on peut remarquer que le terme « régression » impliquera qu’on considérera un ensemble de variables explicatives et que le terme « logistique » fera référence à une hypothèse de distribution (du même nom).

2.1) Le modèle de régression linéaire Normal

En statistique, le terme de « régression » de « y » par rapport à « x » fait référence à l’espérance mathématique de y conditionnelle à x, E(y | x). Concrètement, cette espérance mathématique établit une relation entre x et y : connaissant la valeur prise par la variable x on prédira que y prendra en moyenne la valeur E(y | x). Par exemple, E(y | x = 5) = 33 veut dire que lorsque x vaut 5 la valeur espérée (attendue, moyenne) de y vaut 33.

En régression linéaire l’on modélise l’espérance mathématique de y conditionnelle à x au moyen d’une équation linéaire :

E(y

|

x

, b

0

, b

1

)

= b

0

+ b

1

x

et le modèle s’écrit :

y = b

0

+ b x + e

1

å est un résidu que l’on suppose d’espérance nulle E(e ) = 0 et de variance constante ou

homoscédastique ( )

V

e

= s

2

.

Souvent, on fait aussi l’hypothèse de normalité du résidu å, on dit que l’on adopte le modèle

« Normal » ou « Gaussien », afin de procéder à des tests sur les paramètres

b

0

et

b

1

:

(

e @ N 0,s

2

)

.

On parle, alors, du modèle linéaire classique.

2.2) Le modèle de régression logistique

Nous allons voir qu’en régression logistique l’on modélise aussi l’espérance mathématique de y conditionnelle à x, mais cette fois la relation est non-linéaire et les résidus ne peuvent pas être distribués « Normalement ».

Rappelons que lorsque la variable dépendante était qualitative elle n’admettait pas de valeur numérique naturelle. On peut, néanmoins, introduire un codage quantitatif permettant de représenter les différents attributs. Par exemple, on codera « 1 » si l’attribut est « sain » et « 0 » sinon.

A partir de ce codage quantitatif, on établit un lien entre l’espérance mathématique de y conditionnelle à x et la probabilité de y :

y =

Ï 1

Ì

Ó

0

(

i e

.

."

sain

")

avec probabilité

P

(

i e

.

."

malade

")

avec probabilité

=

1

(

F x

-

P

,

b

=

0

1

,

-

b

1

)

(

F x

,

b

0

,

b

1

)

L’espérance mathématique de y conditionnelle à x (i.e. la régression de y par rapport à x), s’écrit :

(

E y

|

x b

,

0

,

b

1

)

=

1

¥ P +

0

¥

(1

- P

)

= P = F

(

x

,

b

0

,

b

1

)

En ayant adopté le codage 0/1 la probabilité de y correspond à son espérance conditionnelle. Cette relation justifie l’utilisation du terme « régression » logistique.

Il nous reste à expliquer la raison du terme « logistique ». Nous avons vu qu’un choix intuitif pour modéliser une probabilité était d’utiliser une fonction de répartition. Lorsque cette fonction de répartition est celle de la loi Logistique on obtient le modèle de régression logistique ou plus simplement le modèle Logit.

Remarques :

1) Le codage en 0/1 est arbitraire mais n’a aucune influence sur les résultats des estimations, car la vraisemblance s’exprime en fonction des probabilités P et pas de l’espérance

conditionnelle

2) On peut écrire le modèle de régression logistique sous la même forme que le modèle de régression linéaire :

E

(

y | x, b

0

, b

1

)

.

y

=

F

(

x

, b

0

, b

1

) + e

Cependant, cette fois le modèle est non-linéaire et le résidu å ne peut pas être distribué selon une loi Normale.

En

effet,

e

V

= -F x

(

e

)

,

(

b

= F x

(

il

0

,

b

,

ne

)

,

1

b

0

b

1

peut

si

) [1

- F

prendre

y = 0 . x

b

(

0

,

b

,

1

que

deux

valeurs

e

=

1

- F

(

De

plus,

sa

variance

)]

x

,

b

0

n’est

,

b

1

)

pas

ou

2 mais

. On constate que la variance dépend de la variable x et,

si

y = 1

s

par conséquent, elle n’est pas constante mais hétéroscédastique.

Formellement, appliqué à notre exemple de la maladie coronarienne le modèle Logit s’écrit :

P(maladie coronarienne | âge) =

F âge

(

b

0

,

b

1

) =

 

exp(

b

0

+

b

1

âge

)

1

+

exp(

b

0

+

b

1

âge

)

Remarque : Dans cette expression la probabilité de maladie coronarienne est modélisée au

m = -b / b et d’écart-

moyen de la fonction de répartition d’une loi Logistique d’espérance

0

1

type s = p /( 3 b En définitive
type s = p
/(
3
b
En définitive

1 )

.

En définitive on notera que le modèle de régression logistique se distingue du modèle de régression linéaire de part 1) la distribution de la variable dépendante n’est pas Normale mais Binomiale 2) le modèle de régression est non-linéaire 3) la variance est hétéroscédastique.

2.3) Y-a-t’il d’autres modèles !?

Nous avons vu qu’un choix intuitif pour modéliser une probabilité était d’utiliser une fonction de répartition. Il en existe, bien évidemment, un choix quasiment infini.

) ce choix s’est porté

Pour des raisons historiques (existence d’une tabulation, simplicité,

souvent sur les fonctions de répartition des lois Normale et Logistique, la première conduisant à un modèle appelé Probit et la deuxième comme on l’a vu au modèle Logit.

Ainsi, si l’on choisi la fonction de répartition de la loi Normale pour modéliser notre probabilité l’on obtient le modèle Probit :

P(maladie coronarienne | âge) =

F âge

(

b

0

,

b

1

) =

b + b âge 1 0 1 Ú -• 2 p
b
+
b
âge
1
0
1
Ú
-•
2 p

exp(

-

t

2

2

) dt

Remarque : Dans cette expression la probabilité de maladie coronarienne est modélisée au

m = -b / b et d’écart-type

moyen de la fonction de répartition d’une loi Normale d’espérance

0

1

s = 1/ b

1 .

Les lois Normale et Logistique se distinguent, en particulier, en fonction de l’épaisseur de la queue de probabilité de la fonction de densité correspondante, ce qui a une influence sur la « vitesse » avec laquelle la fonction de répartition s’éloigne de 0 ou s’approche de 1 :

Fonctions cumulatives des lois Normale(0,1) et Logistique(0,1) Fonctions de densité des lois Normale(0,1) et
Fonctions cumulatives des lois Normale(0,1) et Logistique(0,1)
Fonctions de densité des lois Normale(0,1) et Logistique(0,1)
-5
0
5
-5
0
5
x
x
N(0,1)
Logistique(0,1)
N(0,1)
Logistique(0,1)
0
.2
.4
.6
.8
1
0
.1
.2
.3
.4
.5

figures 11 & 12

Néanmoins, comme on le constate sur ces figures, la différence entre les deux modèles est infime de sorte qu’en pratique l’on peut choisir indifféremment l’une ou l’autre des lois. Toutefois le modèle Logit permet une interprétation plus habituelle en épidémiologie car elle fait intervenir des Odds Ratio.

Remarquons que ce résultats est valable uniquement dans le cas de la modélisation d’une variable qualitative dichotomique et que dans le cas polytomique la différence est importante.

Exercice 2

Dans cet exercice nous allons estimer une relation sigmoïdale entre les variables chd et age au moyen d’un modèle de régression logistique. Nous comparerons cette estimation avec celle fournie par un modèle Probit. On en conclura que la différence entre les deux modèles est, ici, infime. Le modèle de régression logistique est très utilisé, surtout en épidémiologie, principalement à cause de l’interprétation du coefficient d’une co-variable comme le logarithme de son Odds Ratio. Autrement dit, l’exponentiel du coefficient d’une co-variable correspond à un Odds Ratio.

1) Estimation d'une relation sigmoïdale entre les variables chd et age Pour cela nous allons utiliser la commande « logistic » de STATA.

* régression logistique

logistic chd age

* calcul des probabilités estimées

cap drop p predict p

* graphe de la relation sigmoïdale entre chd et age

scatter chd age, jitter(2) ylabel(0(1)1) ytitle(P(chd)) title(Maladie coronarienne en fonction /// de l'âge, size(medium)) subtitle(régression logistique) || scatter p age, c(l) sort saving(g4, replace)

2) Comparaison des modèles linéaire et logistique

graph combine g1.gph g4.gph, iscale(.75)

On vérifie sur ces graphes que le modèle logistique fournit une probabilité estimée de maladie coronarienne comprise entre 0 et 1, tandis que la régression linéaire fournit des valeurs aberrantes de la variable chd.

3) Estimation d'un modèle probit de la relation entre chd et age

probit chd age

cap drop p_probit predict p_probit

* graphe de la relation entre chd et age

scatter chd age, jitter(2) ylabel(0(1)1) ytitle(P(chd)) title(Maladie coronarienne en fonction /// de l'âge, size(medium)) subtitle(régression probit) || scatter p age, c(l) sort saving(g5, replace)

* comparaison des modèles logit et probit

graph combine g4.gph g5.gph, iscale(.75)

En conclure que, dans le cas dichotomique, la différence entre les modèles de régression logistique et probit est infime.

3) Estimation et tests (*)

3.1) L’estimation du modèle

L’estimation du modèle de régression logistique se fait généralement par la méthode du maximum de vraisemblance. Pour cela on écrit la vraisemblance de l’échantillon. Lorsque les observations individuelles y i , i=1,…,n, sont supposées indépendantes, cette vraisemblance s’écrit comme le produit des probabilités :

L (

b

0

,

b

1

)

=

n

i = 1

[

P

(

y

=

1

x

,

b

0

,

b

1

)

]

y

i

[

1

-

P

(

y

=

1

x ,

b

0

,

b

1

)

]

1 - y

i

Ensuite, on maximise cette vraisemblance par rapport aux paramètres algorithme numérique (par ex. une méthode de gradient).

b

0

, b

1

au moyen d’un

Remarques :

1) Quand on fait l’hypothèse d’indépendance des observations on entend qu’elles sont conditionnellement indépendantes. C’est-à-dire que les probabilités individuelles sont supposées indépendantes après ajustement pour les facteurs de risques. Ainsi, deux individus présentant les mêmes facteurs de risque ne sont pas indépendants, mais conditionnellement à ces facteurs on suppose qu’il le sont. Autrement dit, une fois que l’on a ajusté pour l’effet des différents facteurs de risque les observations peuvent être considérées comme indépendantes

(mathématiquement

2) Lorsqu’on est en présence de mesures répétées pour chaque individu ou que les données présentent une « structure hiérarchiques », comme c’est le cas lorsqu’on échantillonne des familles et que l’on s’intéresse aux caractéristiques des membres de ces familles, l’hypothèse d’indépendance des données n’est pas plausible. En effet, les mesures répétées d’un même individu ou des membres d’une même famille sont plus semblables qu’entre individus ou familles. Dans ce cas, il faut utiliser d’autres méthodes qui prennent en compte la corrélation des données (ex : modèle marginal avec GEE, modèle logistique conditionnel, modèle mixte).

e

|

x ª iid

(0,

s

2

)

).

3.2) Test de significativité des coefficients

Pour tester la significativité d’un ou plusieurs coefficients, par ex. Ho :

versus Ha :

, on utilisera soit le test de Wald W, soit le test du rapport de vraisemblance LR. Dans

b

k

= 0

b

k

0

le cas où l’on veut tester la significativité d’un seul coefficient ces statistiques s’écrivent :

W =

ˆ

b

k

ˆ

SE ( b

ˆ

k )

Æ

N (0,1)

LR

= -

2 log (

L

c

L

c

)

Æ

c

2

(1)

tandis que si l’on veut tester la significativité de plusieurs coefficients, par ex. Ho :

b b

1

=

=

2

W

LR

L

=

b

M

=

(

ˆ

ˆ

ˆ

b ¢ V ( b

= 0

)

)

-

1

, alors elles s’écrivent :

ˆ

b

Æ

c

2

(

M

)

= -

2 log (

L

c

L

c

)

Æ

c

2

(

M

)

contrainte.

L

c

est la vraisemblance évaluée sous la contrainte Ho et

L

c la vraisemblance non

NB : La statistique de Wald fait intervenir les expressions matricielles suivantes :

ˆ

V

ˆ

( b ) =

(

ˆ

X ¢V X

)

-

1

,

ˆ

V =

È

Í

Í

Í

Î

ˆ

P

1

(1 -

M

0

ˆ

P )

1

L

O

L

ˆ

P

n

0

M

(1 -

ˆ

P )

n

È

˘

˙

˙

˙ Í

Í

Í

et

X =

˚

Í

Í

Î

1

M

1

x

11

x

n

1

L

L

x

x

1 p

M

np

˘

˙

˙

˙

˙

˙

˚

Exercice 3

Dans cet exercice nous allons introduire un nouveau jeu de données qui nous servira jusqu’à la fin de ce cours afin d’illustrer les propos.

Il s’agit des données « Low birth weight » issues d’une étude des facteurs de risque liés à la mise au monde d’un bébé de petit poids de naissance, i.e.< 2500g. L’échantillon concerne 189 femmes dont 59 ont eu un bébé pesant < 2500g. Les facteurs de risque potentiels évalués sont l’âge de la mère age (en années), son poids lors de ses dernières règles lwt (en livres), la race race (blanc, noir, autre), la fumée durant la grossesse smoke (oui/non), le nombre d’épisodes de contractions importantes avant terme ptl (0,1,2, etc), un antécédent de problème d’hypertension ht (oui/non), la présence d’une irritation utérine ui (oui/non) et le nombre de visites au médecin durant les trois premiers mois de grossesse ftv (0,1,2,etc.).

Remarquons qu’on pourrait aussi étudier la relation entre le poids de naissance bwt (en grammes) et ces facteurs au moyen, cette fois, d’une régression linéaire puisque bwt est une variable continue. Eventuellement, il faudra au préalable transformer cette variable pour rendre sa distribution plus symétrique et sa variance plus stable.

1) Description des données Nous allons commencer par décrire nos données : fréquences, données manquantes, etc.

Describe

tab low

summarize age summarize lwt tab race, missing tab smoke, missing tab ptl, missing tab ht, missing tab ui, missing tab ftv, missing

2) Analyse bivariable Avant d’analyser nos données au moyen d’un modèle de régression logistique multivariables il est d’usage de procéder à des analyses bivariables, en particulier lorsque le nombre de variables candidates à introduire dans le modèle est élevé. Ces analyses bivariables nous permettront d’appréhender les facteurs de risque potentiellement associés avec l’outcome. Sur la base de ces résultats, on procédera à un tri préalable de ces facteurs selon leur degré d’évidence (p-value) et nos connaissances théoriques, afin de ne pas tous les introduire dans le modèle (risque de multicolinéarité, difficulté d’interprétation des résultats, overfitting, etc.). Lorsque la variable explicative est continue on peut former des catégories afin de représenter graphiquement sa relation avec la variable dépendante. Lorsqu’une variable explicative catégorielle comporte des catégories n’ayant pas assez d’observations (e.g. <5) on procède à leur regroupement, afin d’obtenir des fréquences suffisamment élevées.

2.1) lorsque la variable explicative est continue

* génération des percentiles de la variable age

cap drop pct_age xtile pct_age=age, nquantiles(9) sort pct_age tab pct_age

* calcul de la proportion de petits poids dans les catégories d'âge

by pct_age: egen p_low=mean(low)

* graphe de la relation entre les catégories d'age et la proportion de petits poids

scatter p_low pct_age, ylabel(0(0.2)1) ytitle(P(low)) title(Proportion de petits poids /// en fonction de l'âge) saving(g6, replace)

* une autre représentation

scatter low age, jitter(2) ylabel(0(1)1) title(Petit poids de naissance en fonction de l'âge) /// || lowess low age, sort bwidth(1)

* génération des percentiles de la variable lwt

cap drop pct_lwt xtile pct_lwt=lwt, nquantiles(9) sort pct_lwt

* calcul de la proportion de petits poids dans les catégories de lwt

cap drop p_low by pct_lwt: egen p_low=mean(low) tab pct_lwt

* graphe de la relation entre les catégories d'lwt et la proportion de petits poids

scatter p_low pct_lwt, ylabel(0(0.2)1) ytitle(P(low)) title(Proportion de petits poids /// en fonction du poids de la mère) saving(g7, replace)

* une autre représentation

scatter low lwt, jitter(2) ylabel(0(1)1) title(Petit poids de naissance en fonction du poids de la mère) /// || lowess low lwt, sort bwidth(1)

2.2) lorsque la variable explicative est catégorielle

tab low race, chi2 row col tab low smoke, chi2 row col tab low ptl, chi2 row col

* Lorsqu’il y a des catégories qui sont très peu représentées on procède à un regroupement

recode ptl (0=0) (1 2 3=1), gen(ptl_g) tab low ptl_g, chi2 row col

tab low ht, chi2 row col tab low ui, chi2 row col tab low ftv, chi2 row col

recode ftv (0=0) (1=1) (2=2) (*=3), gen(ftv_g) tab low ftv_g, chi2 row col

Sur la base de ces résultats l’on pourra pré-selectionner les variables candidates pour l’analyse multivariables. Les variables ayant une p-value supérieure à 0.2 auront peu de chance d’être retenues dans le modèle multivariables. S’il y a beaucoup de co-variables et que l’on ne peut pas toutes les introduire à la fois dans le modèle, on donnera une préférence à celles dont la p- value est la plus petite. Il faudra, néanmoins, ultérieurement ré-introduire une à une ces variables dans le modèle multivariables pour ré-évaluer leur association.

4) La transformation logit

Une transformation centrale dans l’analyse de régression logistique est la transformation « logit ». En effet, cette transformation permet d’établir une relation entre la probabilité de

l’outcome et le prédicteur linéaire

b

0

+ b

1

x

:

logit [ P

(

y

=

1 |

x

)

]

=

log

È

Í

Î

P

(

y

=

1|

x

)

1

-

P

(

y

=

1|

x

)

˘

˙

˚

= b

0

+ b

1

x

Elle s’interprète comme le logarithme du rapport des cotes p/(1-p).

La transformation « logit » ou plus simplement le « logit » permet d’interpréter les résultats d’une estimation sur l’échelle « logit ». L’intérêt de raisonner sur l’échelle « logit » réside avant tout dans la possibilité d’évaluer approximativement d’un coup d’oeil la probabilité associée à une combinaison des co-variables, ainsi que l’importance relative de celles-ci.

Voyons cela : la probabilité de y s’exprime à partir du « logit » comme suit :

P

(

y =

1

x ) =

e log

it

[

P

(

y

1|

=

x

)

]

1 + e

log

it

[

P

(

y

1|

=

x

)]

Le « logit » peut prendre des valeurs entre -inf et +inf, mais la zone d’intérêt se situe entre -5 et +5, car au delà de ces limites la probabilité est soit 0 soit 1 :

Probabilité de y en fonction du logit

-5 -4 -3 -2 -1 0 1 2 3 4 5 logit 0 .1 .2
-5
-4
-3
-2
-1
0
1
2
3
4
5
logit
0
.1
.2
.3
.4 P(y=1)
.5
.6
.7
.8
.9
1

figure 13

Par exemple, lorsque le logit vaut 0 la probabilité de y est de 0.5, tandis que lorsqu’il vaut +5 elle est de 0.993 et lorsqu’il vaut -5 de 0.007.

Ainsi, à partir des résultats de l’estimation des coefficients il est facile de calculer le « logit » et d’évaluer approximativement la probabilité de l’outcome. Considérons l’exemple fictif suivant du résultat de l’estimation d’une régression logistique comportant les variables âge et sexe :

logit [P( y = 1 | âge, sexe)]= -5 + 0.1¥ âge + 2 ¥ sexe

où la variable sexe prend la valeur 0 pour les femmes et 1 pour les hommes.

Pour une femme d’âge 50 ans le « logit » est égal à 0 et, en se référant à la figure 13, on évalue la probabilité de l’outcome à 0.5 . Pour un homme, par contre, le « logit » prendrait la valeur 2 et la probabilité serait pratiquement de 0.9 . On constate, d’autre part, que l’effet du veillissement d’une année est vingt fois moins important (en terme d’augmentation du risque) que le changement de catégorie pour le genre.

On remarque que, d’une part, plus le coefficient d’une co-variable est grand plus l’effet d’une variation unitaire de cette variable est important sur la probabilité de y, d’autre part, que lorsqu’on se situe sur l’échelle « logit » proche de 0 cette variation aura un effet plus marqué que lorsqu’on est proche de 3 ou -3.

On peut se poser la question : à partir de quelle amplitude d’un coefficient un changement unitaire de la co-variable a un effet sensible sur la probabilité. D’après la figure 13 on sait que cet effet sera maximum lorsque le « logit » est proche de 0. Ainsi, un coefficient d’amplitude 0.2 engendrera au plus un changement de 5% de la probabilité, tandis que si il vaut 0.5 alors le changement est au plus de 12%.

Un autre intérêt du « logit », comme on le verra dans le prochain chapitre, est sa relation avec une mesure d’association très utilisée en épidémiologie entre un facteur explicatif et l’outcome : l’Odds Ratio.

Exercice 4

Dans cet exercice, nous allons apprendre à raisonner sur l’échelle « logit ». Autrement dit, à évaluer directement le niveau de la probabilité associée à une combinaison des co-variables, ainsi que l’impact d’un accroissement unitaire d’une de ces co-variables. Pour cela, il est utile de bien avoir en tête la figure 13, en particulier les niveaux de probabilités associées à différent points entre -5 et +5 sur l’échelle « logit ».

Afin de donner un sens à la constante du modèle, nous allons voir qu’il est utile de centrer les co-variables continues.

Pour estimer les coefficients du modèle nous utiliserons la commande « logit ». La commande « logistic » permet aussi d’estimer le modèle mais fournit les résultats sous forme d’Odds Ratios).

Remarque : les variables smoke, ht et ui ont été codées 0/1 de sorte qu’on peut directement les utiliser dans le modèle sans les préfixer par « i. ». La variable race, en revanche, a été codée 1, 2 et 3 et il faut créer des variables binaires 0/1 pour représenter les différentes catégories. Pour cela, STATA possède une commande automatique « xi : » qui créera les variables binaires nécessaires pour toutes les co-variables catégorielles préfixées par « i. ».

Cette fois, nous allons considérer un modèle multivariables afin d’étudier l’effet conjoint de plusieurs co-variables sur la probabilité de petit poids de naissance.

1) Analyse multivariables Dans cet exercice nous allons illustrer l’effet du centrage des co-variables continue.

* estimation sans centrage des covariables continues

xi: logit low age lwt i.race smoke ptl_g ht ui i.ftv_g

* estimation avec centrage des covariables continues

egen mean_age=mean(age) gen age_c=age-mean_age

egen mean_lwt=mean(lwt) gen lwt_c=lwt-mean_lwt

xi: logit low age_c lwt_c i.race smoke ptl_g ht ui i.ftv_g

En comparant ces deux estimations l’on peut constater que seule la constante change. Dans le premier cas, i.e. sans centrage, la constante n’a pas de sens puisqu’elle correspond à une femme d’âge 0 et de poids 0 kg aux dernières règles…

Dans, le 2 ième modèle, en revanche, la constante a l’honorable rôle de représenter une femme d’âge moyen et de poids moyen.

2) Déterminez une combinaison de co-variables de sorte que la probabilité prédite de poids de naissance <2500 kg soit d’au moins 0.5

Pour cela, il vous faut calculer la valeur du « logit » pour différents niveaux des co-variables. A vous de proposer des valeurs…

3) Effet du changement d’unités de mesure

Le poids des femmes aux dernières règles est mesuré en [livres]. Afin d’interpréter les résultats en [kilogrammes] nous allons recoder lwt et ré-estimer le modèle.

* recodage du poids aux dernières règles en kg

gen lwt_kg_c=lwt_c/2

xi: logit low age_c lwt_kg_c i.race smoke ptl_g ht ui i.ftv_g

* recodage du poids aux dernières règles en 10 kg

gen lwt_10kg_c=lwt_c/20

xi: logit low age_c lwt_10kg_c i.race smoke ptl_g ht ui i.ftv_g

On constate que sur l’échelle « logit » le changement d’unités affecte le coefficient estimé de manière proportionnelle. Remarquons que la probabilité estimée, par contre, change de manière non proportionnelle puisque la relation entre le « logit » et la probabilité de l’outcome est non linéaire.

4) Test de « significativité » des coefficients (test de Wald)

Pour les variables explicatives dichotomiques ou continues STATA nous fournit directement la p-value du test de « significativité » du coefficient, tandis que pour les variables explicatives polytomiques il faut invoquer le test de Wald au moyen de la commande « test ».

Nous allons tester si les variables race et ftv_g sont significatives. Rappelons que dans l’exercice précédent nous avions regroupé les catégories de la variable ftv en créant la nouvelle variable ftv_g afin d’augmenter les effectifs dans les cellules :

* test de significativité de la variable ftv_g

test _Iftv_g_1 _Iftv_g_2 _Iftv_g_3

* test de significativité de la variable race

test _Irace_2 _Irace_3

5) Sensibilité de la probabilité à un changement unitaire d’une co-variable

Nous allons évaluer l’impact sur la probabilité d’un changement unitaire d’une co-variable en fonction de la position sur l’échelle « logit ». Pour illustrer ceci, nous allons calculer la probabilité pour différents accroissements et valeurs du « logit » :

* lorsque le logit est proche de 0

disp "prob="exp(0)/(1+exp(0)) disp "prob="exp(0+0.2)/(1+exp(0+0.2)) disp "prob="exp(0+0.5)/(1+exp(0+0.5))

* lorsque le logit est proche de -2

disp "prob="exp(-2)/(1+exp(-2)) disp "prob="exp(-2+0.2)/(1+exp(-2+0.2)) disp "prob="exp(-2+0.5)/(1+exp(-2+0.5))

En conclure que pour avoir un effet unitaire suffisamment sensible il faut que le coefficient d’une co-variable soit au moins d’amplitude 0.5 . Remarquer que le choix des unités de mesure est primordial pour cette interprétation.

Dans le prochain chapitre nous introduirons la notion d’Odds Ratio qui est intimement liée à la transformation « logit ».

5) Le succès du modèle Logit : l’Odds Ratio

Si le modèle Logit est très utilisé en épidémiologie c’est avant tout à cause de l’interprétation de l’exponentielle du coefficient d’une co-variable comme un Odds Ratio.

Pour comprendre ce que représente un Odds Ratio voyons comment il est défini. Pour cela, considérons un modèle avec une seule variable explicative dichotomique comme le sexe (le cas plus général du modèle de régression multiple incorporant plusieurs co-variables ainsi que des interactions sera abordé dans la section suivante) et adoptons le codage suivant : « 0 » pour les femmes et « 1 » pour les hommes, de sorte qu’on écrira la probabilité P(y = 1) = p 0 pour les femmes et P(y = 1) = p 1 pour les hommes.

5.1) L’Odds Ratio comme mesure d’association

Un Odds est défini comme le rapport des cotes :

Odds =

p

1-

p

p est par exemple la probabilité de gagner.

On définit l’Odds Ratio (OR) associé à la variable sexe comme suit :

OR =

p 1

1

-

p

1

p

0

1

-

p

0

Si p 0 représente la probabilité d’être malade pour une femme et p 1 celle pour un homme, alors un Odds Ratio de 1 signifie que la probabilité d’être malade est la même chez les hommes et chez les femmes. Autrement dit, le risque de maladie n’est pas associé au sexe.

En revanche, un Odds Ratio différent de 1 signifie qu’il y a une association entre la maladie et le genre. Si cet Odds Ratio est >1 cela signifie que le numérateur est plus grand que le dénominateur et, par conséquent, que les hommes ont un plus grand risque d’être malade que les femmes. C’est le contraire s’il est <1.

Revenons à notre modèle Logit comportant comme variable explicative uniquement le sexe :

logit [P y

(

= 1|

sexe ]

)

= b

0

Pour les hommes on a :

+ b

1

sexe

logit [

P

(

y =

1

sexe

et pour les femmes :

logit [

P

(

y =

1

sexe

=

=

1)

]

0)

]

= b

= b

0

0

+ b

1

En utilisant la relation entre la probabilité de y et le « logit » vue dans la section précédente on obtient :

p 1 [ ] log it P ( y = 1 sexe = 1) b
p
1
[
]
log
it
P
(
y = 1
sexe = 1)
b
+ b
1 -
p
e
e 0
1
1
b
OR =
=
=
= e
1
[
]
p
log
it
P
(
y = 1
sexe = 0)
b
0 e
e
0
1 -
p
0

de sorte que dans un modèle Logistique l’exponentielle du coefficient d’une variable explicative s’interprète comme son Odds Ratio.

5.2) L’Odds Ratio comme mesure du risque relatif (RR)

De façon analogue à la définition de l’Odds Ratio dans la section précédente, on définit le Risque Relatif (RR) associé à la variable sexe comme :

RR =

p

1

p

0

Cette grandeur a une interprétation intuitive claire, ce qui n’est pas le cas de l’Odds Ratio.

Lorsque la prévalence de l’événement à expliquer est faible, i.e. p 0 et p 1 sont petites, l’Odds Ratio fournit une approximation du risque relatif :

OR =

p

1

¥

(1

p

- )

@

1

@ p 1

p

0

(1

- p

1 )

@

1

p

0

0 = RR

Cependant, lorsque ces prévalences ne sont pas tout petites on a, en général , OR RR :

OR =

p

1

¥

(1

-

p

0

)

p

0

(1

-

p

1

)

=

RR

¥

(1

-

p

0

)

(1

-

p

1

)

Afin d’illustrer ce dernier point, considérons un exemple issu d’une étude transversale portant sur 170 enfants âgés de 24 à 36 mois d’une région rurale africaine où l’on s’intéressait à l’association entre le retard de croissance staturale et le petit poids de naissance (< 2500g). Les données sont récapitulées dans le tableau suivant :

| retard de croissance staturale

Total

-----------+----------------------+----------

row |

1

0

|

<2500g

|

18

13 |

31

|

58.06

41.94 |

100.00

|

37.50

10.66 |

18.24

-----------+----------------------+----------

=2500g

|

30

109 |

139

|

21.58

78.42 |

100.00

|

62.50

89.34 |

81.76

-----------+----------------------+----------

Total |

48

122 |

170

|

28.24

71.76 |

100.00

|

100.00

100.00 |

100.00

Dans cet exemple, le risque de retard de croissance staturale chez les petits poids de naissance est 18/31=0.58, tandis qu’il est de 30/139=0.22 chez les autres, des sorte que :

RR =

OR =

18 31 30 139
18
31
30
139

P

(retard croissance |

<

2500

g

) =

= 2.69

 
 

P

(retard croissance |

2500

g

)

P

(retardcroissance |

<

2500 g )

1 -
1
-

P

(retardcroissance |

<

2500 g )

P

(retardcroissance |

2500 g )

1 -
1
-

P

(retardcroissance |

2500 g )

=

18 13 30 109
18
13
30
109

= 5.03

On constate, ici, que l’Odds Ratio sur-estime le risque relatif de façon importante, ce qui n’est pas surprenant puisque les prévalences p 0 =0.22 et p 1 =0.58 ne sont pas petites.

Exercice 5

Dans cet exercice, nous allons reconsidérer l’estimation du modèle de l’exercice 4 avec les données « Low birth weight » et interpréter les coefficients estimés en terme d’Odds Ratios.

L’Odds Ratio a une interprétation claire et intuitive uniquement lorsqu’il fournit une « bonne » approximation du risque relatif, ce qui est le cas lorsque la prévalence de l’outcome est petite dans les deux catégories considérées. Autrement, il fournit une mesure d’association qui, ma fois, n’est pas interprétable clairement : que signifie concrètement le ratio de deux autres ratios ?!.

Pour obtenir les résultats de l’estimation du modèle Logistique en terme d’Odds Ratios on utilisera la commande « logistic » de STATA.

Remarquons que, cette fois, cela n’a pas d’importance si les variables continues ont été centrées ou pas, car le calcul de l’Odds Ratio ne fait pas intervenir la constante du modèle. Aussi, dans l’exercice 4 on testait la « significativité » d’une covariable en testant si son coefficient était significativement différent de 0. Lorsqu’on travaille avec les Odds Ratios, le test porte alors sur la valeur 1. Autrement dit, une variable sera « significativement » associée à l’outcome si son Odds Ratio est « significativement » différent de 1.

1) Comparaison des p-values et OR avec et sans centrage

xi: logistic low age_c lwt_c i.race smoke ptl_g ht ui i.ftv_g xi: logistic low age lwt i.race smoke ptl_g ht ui i.ftv_g

On vérifie que le centrage des co-variables continue n’affecte pas les Odds Ratios.

xi: logit low age lwt i.race smoke ptl_g ht ui i.ftv_g xi: logistic low age lwt i.race smoke ptl_g ht ui i.ftv_g

On vérifie que les p-values des paramètres estimés avec la commande « logit » sont bien les mêmes que celles estimées avec la commande « logistic » .

2) Interprétation des OR

Pour commencer, nous allons estimer un modèle avec uniquement la variable explicative smoke :

logistic low smoke

L’ OR s’interprète comme une mesure d’association. S’il est supérieur à 1 la relation est croissante, et décroissante s’il est inférieur à 1. Lorsqu’il est égal à 1 il n’y a pas d’association.

Afin de d’anticiper si l’on peut espérer que l’OR associé à la variable smoke fournit, ici, une « bonne » approximation du RR nous allons calculer la prévalence du risque de petit poids de naissance dans les deux catégories de la variable d’exposition.

* prévalences de l'outcome dans les 2 catégories de smoke

tab low smoke, row col

alternativement en utilisant les résultats fournis par la commande logistic

*

disp "p0=" exp(_b[_cons])/(1+exp(_b[_cons])) disp "p1=" exp(_b[_cons]+_b[smoke])/(1+exp(_b[_cons]+_b[smoke]))

En conclure que les prévalences sont élevées et que l’approximation du RR par l’OR est susceptible d’être très imprécise.

* calcul du RR associé à la variable smoke et comparaison avec son OR

disp "RR=" exp(_b[smoke])*(1+exp(_b[_cons]))/(1+exp(_b[_cons]+_b[smoke])) disp "OR=" exp(_b[smoke])

En conclure que l’approximation du RR associé à la variable smoke par son OR conduit, ici, à une surestimation.

Les OR et RR que nous venons d’estimer sont non ajustés puisque le modèle comporte uniquement la variable d’exposition. Comparez l’OR non ajusté avec l’OR ajusté et en conclure, qu’ici, ils diffèrent peu.

* OR non ajusté/ajusté

logistic low smoke xi: logistic low age lwt i.race smoke ptl_g ht ui i.ftv_g

Le calcul du RR ajusté est plus complexe et sera abordé dans le prochain chapitre.

6) L’interprétation des coefficients

Nous avons vu dans la section précédente que dans le cas d’un modèle comportant une seule variable explicative dichotomique l’exponentielle du coefficient de cette variable s’interprétait comme un Odds Ratio.

Voyons ce qui se passe lorsque la variable explicative admet plusieurs catégories, i.e. elle est polytomique, ou qu’elle est continue, ou encore que le modèle incorpore d’autres co-variables ainsi que des interactions.

6.1) Le cas d’un modèle additif, i.e. sans interactions

Un modèle est additif 2 lorsque les co-variables x 1 , x 2 , …, x p entrent dans le modèle de manière additive sans faire intervenir le produit d’une variable avec une autre :

logit [

P( y = 1 | x ,

1

L

, x

p

)

]

= b

0

+ b x

1

1

+ b

2

Pour illustrer, considérons le modèle suivant :

b

0

est la constante du modèle.

logit [P y

(

= 1|

âge sexe ]

,

)

= b

0

+ b

1

âge

+ b

x

2

2

+

+ b

sexe

p

x

p

où les variables explicatives sont l’âge et le sexe. Il s’agit d’un modèle additif car il n’y a pas d’interaction (de produit) entre les variables âge et sexe. Autrement dit, dans ce modèle on postule que l’effet de l’âge et du sexe sont indépendants (sur l’échelle logit).

Graphiquement, cette hypothèse implique que la droite représentant l’effet de l’âge est

simplement translatée sur une distance

b

2 lorsqu’on passe d’un genre à l’autre.

Relation entre le logit et l’âge chez les femmes et les hommes dans un modèle
Relation entre le logit et l’âge chez les femmes et les hommes
dans un modèle additif
2
femmes
hommes
0
b
2
-2
logit

âge

figure 14

2 Dans le cas de la régression logistique, le modèle est additif sur l’échelle « logit », mais multiplicatif lorsqu’on considère la probabilité.

Dans cet exemple, le vieillissement a le même effet chez les hommes et chez les femmes, mais le niveau absolu du risque est différent (les deux droites ne sont pas superposées). Autrement dit, un accroissement unitaire de l’âge augmentera le logit du même montant quel que soit le genre, et l’ Odds Ratio associé à la variable âge sera le même pour les hommes et les femmes.

Remarques (*)

1) Même si dans ce cas l’Odds Ratio associé à la variable âge est le même pour les femmes et

les hommes, le risque relatif est différent si

absolu du risque est plus bas, dans cet exemple, chez les hommes et l’effet de l’accroissement d’une année d’âge n’augmente pas la probabilité P(y = 1) du même montant (même si le logit change de la même quantité). La raison provient de la relation non linéaire entre le logit et la probabilité P(y). Par exemple, si le logit passe de 1 à 2, la probabilité passe de 0.73 à 0.88, tandis que si le logit passe de 3 à 4, alors la probabilité passe de 0.95 à 0.98.

0 . En effet, cela est dû au fait que le niveau

b

2

2) Dans les modèles non-linéaires, comme le modèle Logit, même si l’on introduit pas de terme produit croisé de deux co-variables celles-ci présentent, en général, une interaction (1).

Soit le modèle de régression non linéaire :

E

(

y =

1|

âge sexe = f

,

)

(

b

0

+

b

1

âge +

b

2

sexe +

b

12

âge ¥ sexe)

L’effet de l’interaction entre âge et sexe se calcule comme :

2

f (.)

âge

sexe

= f

¢¢ (.)

¥

(

b

2

+ b

12

âge

)

¥

(

b

1

+ b

12

sexe

)

+

f ¢ (.) ¥ b

12

de sorte que même si

modèles de régression non-linéaire.

3) La définition que nous avons adoptée d’une interaction est justifiée si l’on travaille sur l’échelle logit et que l’on s’intéresse à l’effet conjoint de deux co-variables sur l’Odds Ratio et non pas sur le Risque Relatif.

cette expression ne s’annule pas. Ce phénomène est propre aux

b

12

=

0

a) La constante du modèle

La constante du modèle s’interprète comme « l’effet » de la catégorie de référence. Autrement

0 permet de calculer la probabilité de y lorsque toutes les co-variables x 1 , x 2 , …, x p sont

nulles.

Si l’on revient à notre exemple d’un modèle contenant l’âge et le sexe comme variables explicatives :

dit,

b

logit [P y

(

= 1|

âge sexe ]

,

)

= b

0

+ b

1

âge

+ b

2

sexe

Nous avons arbitrairement choisi de coder les valeurs de la variable sexe = 0 pour les femmes

et sexe = 1 pour les hommes, de sorte que d’une femme d’âge 0.

En effet, la probabilité P(y = 1| âge et sexe), e.g. d’être malade en fonction de son âge et sexe, s’écrit :

0 s’interprète comme le logit de la probabilité

b

P

( 1|

y

=

âge , sexe

)

=

b

e 0

+

b

1

âge

+

b

2

sexe

1 + e

b

0

+

b

1

âge

+

b

2

sexe

de sorte que pour une femme d’âge 0 on obtient :

=

 

e

b

0

+

b

1

¥

0

+

b

2

¥

0

e

b

0

0)

=

 

=

1

+ e

b

0

+

b

1

¥

0

+

b

2

¥

0

1 + e

b

0

b

0

.

P

( 1|

y

= =

âge

0,

sexe

sa probabilité ne dépend que de

Pour un homme d’âge 0, en revanche, la probabilité dépend aussi de

P

( 1|

y

=

âge

=

0,

sexe

=

1)

=

 

e

b

0

+

b

1

¥

0

+

b

2

¥

1

e

b

0

+

b

1

 

=

1

+ e

b

0

+

b

1

¥

0

+

b

2

¥

1

1 + e

b

0

+

b

1

b

1 :

Remarque

Pour que la constante du modèle admette une interprétation plus honorable que le logit pour une femme d’âge 0, il est préférable de centrer la variable âge, âge_c = âge-moyenne(âge). Dans ce cas, la constante s’interprète comme le logit d’une femme d’âge égal à l’âge moyen dans l’échantillon.

b) Coefficient d’une variable explicative dichotomique

Lorsque la variable explicative est dichotomique l’exponentielle du coefficient de cette variable s’interprète comme l’Odds Ratio (OR) associé au passage de la catégorie de référence 0 à la catégorie 1.

Ainsi, dans notre exemple, lorsque la variable sexe passe de 0 à 1, on a :

OR =

e

log

it

[

P

(

y = 1

âge sexe =

,

1)

]

e log

it

P

(

y = 1

âge

,

0)

sexe =

[

]

=

b

e

0

+

b

1

âge

+

b

2

b

e

0

+

b

1

âge

b

= e

2

Il s’agit d’un Odds Ratio ajusté puisque modèle comporte en plus de la variable d’exposition sexe la variable explicative âge. Remarquons que l’Odds Ratio ajusté est en général différent de celui non ajusté, même si son calcul ne fait pas intervenir directement la variable âge, car

l’estimation de

b

Remarque

2 dépend de celle de

b

1 .

Le calcul du Risque Relatif (RR) est plus complexe et fait intervenir toutes les co-variables du modèle :

RR =

=

p

1

p

b

e

0

2

=

OR

¥

(1

b

2

¥

1

b

e

0

+

b

1

âge

+

b

2

02 (1 + b e

(1

+

b

e

+

b

1

âge

+

b

2

)

 

-

e

b

0

+

b

1

âge

(1âge

+

e

b

0

+

b

1

âge

)

- -

e

- 1

p

1

)

(1

p

0

)

=

¥

1 + e 1 + e

b

0

0

b

+

b

1

âge

+

b

1

âge

+

b

2

Il s’agit d’un RR ajusté puisque modèle comporte en plus de la variable d’exposition sexe la variable explicative âge. Remarquons que le RR ajusté est non seulement différent de l’OR ajusté, mais qu’en plus il n’est pas constant, il dépend des valeurs de la co-variable âge.

c) Coefficient d’une variable explicative polytomique

Lorsque la variable explicative est polytomique, i.e. elle admet plus de deux catégories, on choisi l’une des catégories comme référence et l’on calcule des Odds Ratios pour les autres catégories par rapport à cette référence.

Considérons par exemple la variable éducation comportant 3 niveaux : 1 pour niveau « fin de

scolarité », 2 pour « apprentissage » et 3 pour « études supérieures ». Pour représenter une telle variable l’on considérera un modèle avec, en plus de la constante, deux variables

« indicatrice » ou « dummy » prenant la valeur 1 si l‘individu possède l’attribut et 0 sinon :

D

D

1

2

=

=

Ï 1

Ì

Ó

0

Ï 1

Ì

Ó

0

si apprentissage

sinon

si études supérieures sinon

et le logit s’écrit :

logit [

]

P( y = 1| éducation) = b

0

+ b

1

D

1

+ b

2

D

2

L’Odds Ratio associé au passage de la catégorie 1 « fin de scolarité » à la catégorie 2

« apprentissage » est :

OR =

e

log

it

P

(

y = 1

[

[

éducation = 2)

]

]

e

log

it

P

(

y = 1

éducation = 1)

=

b

e

0

+

b

1

b

e

0

b

= e

1

Tandis que celui associé au passage de la catégorie 1 « fin de scolarité » à la catégorie 3 « études supérieures » est :

OR =

e

log

it

[

P

(

y = 1

éducation = 3)

]

=

e

log

it

[

P

(

y = 1

éducation = 1)

]

b

e 0

+

b

2

b

e 0

b

= e

2

Ces 2 Odds Ratio sont directement fournis par le programme.

Si, en revanche, l’on désire l’Odds Ratio associé au passage de la catégorie 2 « apprentissage »

à la catégorie 3 « études supérieures » il faut calculer :

OR =

e

log

it

[

P

(

1

y =

éducation = 3)

]

=

e

log

it

[

P

(

1

y =

éducation = 2)

]

b

e

0

+

b

2

b

e

0

+

b

1

b