Vous êtes sur la page 1sur 84

Partie IV

Méthodes de régression

17. Inférence classique pour la régression simple


18. Régression multiple: introduction
19. Ajustement du modèle de régression multiple
20. Inférence classique pour la régression multiple
21. Inférence par bootstrap pour la régression
22. Introduction à la régression logistique
23. Introduction à l’analyse de survie
17.1

Chapitre 17
Inférence classique pour la régression simple
Dans le Chapitre 3, le modèle de régression simple a été introduit. Ce modèle décrit la
relation entre deux variables X et Y à l’aide d’une droite. X est la variable explicative et
Y la réponse. Les coefficients a (intercept) et b (pente) de la droite sont déterminés à l’aide
d’un échantillon (x1 , y1 ), . . . , (xn , yn ): le critère des moindres carrés fournit les estimations
â et b̂. Les méthodes d’inférence permettent de tester des hypothèses telles que “b (ou a)
est égal à une valeur spécifiée” et de déterminer des intervalles de confiance pour a et b.
Dans ce chapitre, nous utilisons les notations introduites au Chapitre 3.

17.1 Modèle classique pour l’inférence


Selon l’approche introduite au Chapitre 8, Section 8.3, nous décrivons les réponses à l’aide
de variables aléatoires Y1 , . . . , Yn . Il n’est pas nécessaire de supposer que les xi sont obtenus
de façon aléatoire. Les xi pourraient être, par exemple, les doses d’un médicament, fixées
arbitrairement lors d’une expérience où les Yi représentent une mesure d’amélioration;
plusieurs individus pourraient être soumis à la même dose et manifester des niveaux
différents d’amélioration. L’approche classique à l’inférence, se fonde sur un ensemble
de conditions connues comme le modèle de Gauss .
1. Yi = a + bxi + Ui , i = 1, . . . , n où a et b sont des paramètres.
2. Les erreurs Ui sont i.i.d. et indépendentes de Xi .
La moyenne des erreurs est nulle et la variance est un paramètre noté σ 2 .
3. Ui ∼ N (0, σ 2 ).
La distribution de Yi en fonction de xi est esquissée dans la Figure 1.

X1 X2 X3 X4 ... Xn

Figure 1. Distribution de Yi en fonction de xi

Remarques
1. Souvent les Xi sont obtenus de façon aléatoire simultanément aux Yi . Dans ce cas,
il faudra interpréter les résultats concernants la distribution des estimateurs de façon
conditionnelle, les valeurs obervées des Xi étant données.

A.
c Marazzi
17.2

2. Les équations Yi = a + bxi + Ui pour les variables aléatoires correspondent à n équations


pour les réponses observées:

yi = a + bxi + ui , i = 1, . . . , n.

Notez que les erreurs ui ne sont pas observables (car a et b sont inconnus).
3. On dit que les équations Yi = a + bxi + Ui caractérisent la “structure du modèle”,
tandis que les conditions 2 et 3 caractérisent la “partie aléatoire du modèle”. Une autre
expression de la structure du modèle est

E(Y |X = x) = a + bx.

Ici, E(Y |X = x) est l’espérance conditionnelle de Y pour X = x (c’est-à-dire, l’espérance


de la distribution conditionnelle de Y pour X = x donné).

17.2 Distributions des estimateurs


Les résultat suivants s’obtiennent sous le modèle de Gauss.
– les estimateurs â et b̂ suivent des distributions de Gauss:

â ∼ N (a, σ 2(â)), b̂ ∼ N (b, σ 2(b̂)),

où
  n

2 1 x̄2 1
σ (â) = + σ2, σ (b̂) = 2 · σ 2 ,
2
s2xx = (xi − x̄)2 .
n s2xx sxx i=1

En outre, si ŷx = â + b̂x indique la réponse calculée en fonction d’une valeur x donnée,
alors ŷx suit une distribution de Gauss de moyenne yx = a + bx et de variance
 
2 1 (x − x̄)2 2
σ (ŷx ) = + σ .
n s2xx

Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. Mais en
pratique, σ 2 est presque toujours inconnu et il faut l’estimer. Dans ce but, on utilise
l’estimateur
n
2 1  2
σ̂ = e ,
n−2 1 i

où ei = yi −(â+ b̂xi ). (Noter que les résidus observés ei ne sont pas les erreurs aléatoires Ui
et que σ̂ 2 est noté s2E au Chapitre 3.) Des estimations σ̂ 2 (â), σ̂ 2 (b̂) et σ̂ 2 (ŷx ) des variances
de â, b̂ et ŷx sont alors obtenues des expressions de σ 2 (â), σ 2 (b̂) et σ 2 (ŷx ), en remplaçant
σ 2 par σ̂ 2 . On démontre alors que:
– La variable aléatoire (n − 2)σ̂ 2 /σ 2 suit une distribution χ2 à n − 2 degrés de liberté.
– Les estimateurs standardisés

(â − a)/σ̂(â), (b̂ − b)/σ̂(b̂), (ŷx − yx )/σ̂(ŷx )

suivent une distribution t à n − 2 degrés de liberté.


17.3

17.3 Intervalles de confiance usuels


Le résultats précédents permettent d’obtenir les intervalles de confiance pour a, b et yx =
a + bx pour un x fixé. Soit α une probabilité préfixée (par exemple, α = 2.5%). Alors, des
intervalles de confiance bilatéraux avec coefficient de couverture 1 − 2α sont:
[â − σ̂(â) t1−α,n−2 , â + σ̂(â) t1−α,n−2 ],
[b̂ − σ̂(b̂) t1−α,n−2 , b̂ + σ̂(b̂) t1−α,n−2 ],
[ŷx − σ̂(ŷx ) t1−α,n−2 , ŷx + σ̂(ŷx ) t1−α,n−2 ],
où t1−α,n−2 indique le percentile 1 − α de la distribution t à n − 2 degrés de liberté.
En outre,
[(n − 2)σ̂ 2 /χ21−α,n−2 , (n − 2)σ̂ 2 /χ2α,n−2 ],
où χ2α,n−2 est le percentile α de la distribution χ2 à n−2 degrés de liberté, est un intervalle
de confiance avec coefficient de couverture 1 − 2α pour σ 2

17.4 Tests usuels


L’hypothèse
H0 : b = b0 ,
où b0 est une valeur donnée, peut être rejetée au niveau α, en faveur de l’alternative
H1 : b = b0 , si la statistique de test
(b̂ − b0 )
T =
σ̂(b̂)
n’appartient pas à l’intervalle [tα/2,n−2 , t1−α/2,n−2 ]. Un exemple fréquent est b0 = 0,
auquel cas H0 signifie que la covariable n’explique pas la réponse. De façon équivalente,
on peut rejeter H0 en faveur de H1 au niveau α si l’intervalle de confiance avec coefficient
de couverture 1 − α pour b ne contient pas b0 . L’hypothèse H0 : a = a0 contre l’alternative
H1 : a = a0 , où a0 est une valeur donnée, est traitée de la même manière.
Remarques
1. Il est possible d’ajuster aux données une droite qui passe par l’origine, c’est-à-dire,
d’imposer la condition a = 0 au modèle. On peut alors étudier les distributions de b̂,
ŷx = b̂x et σ̂ et établir de nouvelles formules pour les intervalles de confiance et les tests.
Voir Chapitre 18 pour une approche générale à la régression qui inclue le modèle Yi = bxi .
2. Les logiciels de statistique courants fournissent dans leurs outputs standards les valeurs
de σ̂(â) et de σ̂(b̂), ainsi que celles des statistiques â/σ̂(â) et b̂/σ̂(b̂) et les P-values corre-
spondantes. Par exemple, R et S-plus calculent
P(|tn−2 | > |â/σ̂(â)|) et P(|tn−2 | > |b̂/σ̂(b̂)|),
où tn−2 indique une variable aléatoire qui suit une distribution t à n − 2 degrés de liberté
et â/σ̂(â) et b̂/σ̂(b̂) désignent les valeurs observées des statistiques correspondantes.
17.5 Analyse des résidus
Si le modèle de Gauss est approprié, les résidus ont approximativement une distribution
de Gauss. Il faut donc examiner cette condition à l’aide d’un qq-plot. En outre, la
variance des résidus ne doit pas dépendre de la variable explicative. Il est donc opportun
de représenter graphiquement les résidus en fonction des valeurs observées de X. Aucune

A.
c Marazzi
17.4

relation (relation non linéaire, variance non homogène) ne doit apparaı̂tre. Si une relation
apparaı̂t le modèle de Gauss et les inférences obtenues avec son appui doivent être mis en
doute.
17.6 Exemple
La Table 1 donne les temps t [s] de chute d’une bille lâchée de différentes hauteurs h
[m]. Les mesures ont été prises par une étudiante du gymnase aux travaux pratiques de
physique, dans le but de vérifier la relation h = (1/2)γt2 avec γ = 9.81 [m/s2 ].

Table 1. Mesures des hauteurs h et des temps t

h [m] t [s] h [m] t


0.15 0.173 0.15 0.179
0.15 0.177 0.15 0.184
0.20 0.199 0.20 0.201
0.20 0.218 0.20 0.202
0.25 0.244 0.25 0.225
0.25 0.227 0.25 0.226
0.30 0.244 0.30 0.253
0.30 0.244 0.30 0.248
0.35 0.275 0.35 0.270
0.35 0.268 0.35 0.264
0.40 0.289 0.40 0.284
0.40 0.288 0.40 0.283
0.45 0.308 0.45 0.298
0.45 0.305 0.45 0.302
0.50 0.331 0.50 0.318
0.50 0.319 0.50 0.319
0.55 0.332 0.55 0.333
0.55 0.355 0.55 0.331
0.60 0.360 0.60 0.350
0.60 0.347 0.60 0.349

Les points (hi , t2i ), avec t2i = t2i sont représentés dans la Figure 2. L’allure est celle d’une
relation linéaire; la relation entre h et t2 peut donc être décrite par le modèle h = a+b·(t2).
Un programme de régression simple donne les résultats suivants:

Coefficients:
Value Std.Error t value Pr(>|t|)
Intercept a 0.0001 0.0076 0.0176 0.9861
Pente b 4.8320 0.0917 52.6938 0.0000
Residual standard error: 0.01712 on 38 degrees of freedom
Multiple R-Squared: 0.9865

Correlation of Coefficients:
Intercept
b -0.9346
17.5

Dans les notations des sections précédentes, nous avons donc:

â = 0.0001, b̂ = 4.8320
σ̂(â) = 0.0076, σ̂(b̂) = 0.0917.

La proportion de variance expliquée par le modèle est R2 = 0.9865 et l’erreur standard


des résidus est σ̂ = 0.01712. (Le programme nous donne aussi le coefficient de corrélation
entre â et b̂: ce coefficient vaut −0.9346.) En outre,


= 0.0176, P(|t38 | > 0.0176) = 0.9861,
σ̂(â)

= 52.6938, P(|t38 | > 52.6938) = 0.0000,
σ̂(b̂)

où t38 indique une variable aléatoire qui suit une distribution t à 38 degrés de liberté. Il
faut donc retenir l’hypothèse a = 0 et rejeter l’hypothèse b = 0. En supprimant l’intercept
on obtient:

Coefficients:
Value Std.Error t value Pr(>|t|)
Pente b 4.8335 0.0322 150.1507 0.0000

Residual standard error: 0.0169 on 39 degrees of freedom


Multiple R-Squared: 0.9983

La pente de la droite est maintenant b̂ = 4.8335. On remarquera que 2b̂ = 9.6670 est
une estimation de l’accélération de gravité γ. Pour construire un intervalle de confiance
pour γ calculons le percentile 97.5% de la distribution t à 39 degrés de liberté. On trouve
t97.5%,39 = 2.0226, et donc

[9.6670 − 2 · 0.0322 · 2.0226, 9.6670 + 2 · 0.0322 · 2.0226] = [9.537, 9.797]

est un intervalle de confiance avec coefficient de couverture 95% pour γ. Selon ce calcul
il faut alors rejeter l’hypothèse que l’accélération est 9.81 [m/s2 ] (et ceci, au niveau 5%).
Toutefois, l’analyse des résidus des Figures 3 et 4 indique que la condition de normalité des
erreurs n’est pas bien satisfaite. L’inférence basée sur cette condition est alors douteuse.
Voir la remarque ci-dessous.

Dans la Figure 5 plusieurs intervalles de confiance pour les hauteurs h = a + b(t2) sont
représentés par les lignes traitillées. Pour leur calcul, la valeur de t97.5%,38 = 2.024 a été
utilisée. La ligne continue est obtenue selon la règle décrite dans le Complément 2 (avec
F95%,2,38 = 3.245).

Remarque. Nous avons ajusté le modèle h = b · (t2) + erreur car il fournit directement
une estimation et un intervalle de confiance pour γ = 2b selon les formules des sections
précédentes. Toutefois, dans l’expérience, les temps de chute ont été mesurés en fonction
d’hauteurs préfixées. Il est donc préférable d’ajuster le modèle t2 = c + d · h + erreur.

A.
c Marazzi
17.6

L’hypothèse c = 0 peut être retenue et on obtient

Coefficients:
Value Std.Error t value Pr(>|t|)
Pente d 0.2065 0.0014 150.1507 0.0000

Residual standard error: 0.003493 on 39 degrees of freedom


Multiple R-Squared: 0.9983

L’estimation de γ est alors 2/dˆ = 9.6837. Pour construire un intervalle de confiance


pour 2/d nous utilisons le procédé, décrit dans le Complément 3, qui sert à construire
un intervalle de confiance pour le rapport entre deux paramètres. On obtient l’intervalle
[9.5560, 9.8159] avec un coefficient de couverture de 95%.
0.6
0.5
Hauteur
0.4
0.3
0.2

0.04 0.06 0.08 0.10 0.12


Temps**2

Figure 2. Diagramme de dispersion hauteur/(temps2 )


0.06
0.02
0.0

0.02
Residus

Residus
-0.02

-0.02
-0.06
-0.06

-2 -1 0 1 2 0.2 0.3 0.4 0.5 0.6

Quantiles of Standard Normal Hauteur

Figure 3. qq-plot des résidus Figure 4. Diagramme résidus/hauteurs


17.7

0.6
••• •
••• •
••• •
• •••
Hauteur
0.4
•• ••
• •• •
•• •
0.2 ••• •
••• •
• •• •
0.0

0.0 0.02 0.04 0.06 0.08 0.10 0.12

Temps**2

Figure 5. Intervalles de confiance pour les hauteurs h en fonction de t2

A.
c Marazzi
17.8

Compléments
1. Conséquences théoriques du modèle de Gauss
a. Les conditions 1 et 2 impliquent que les estimateurs des moindres carrés â et b̂ ne sont
pas biaisés pour a et b (Chapitre 9, Complément 1: E(â) = a, E(b̂) = b).
b. Sous les conditions 1 et 2, σ̂ 2 est un estimateur sans biais de σ 2 .
c. Les conditions 1 et 2 impliquent que les estimateurs â et b̂ sont les estimateurs de vari-
ance minimale parmi tous les estimateurs linéaires en y1 , . . . , yn et sans biais (théorème
de Gauss-Markov).
d. Les conditions 1, 2 et 3 impliquent que les estimateurs â et b̂ sont les estimateurs de
variance minimale parmi tous les estimateurs de a et b.
2. Bandes de confiance
Supposons de construire des intervalles de confiance avec coefficient de couverture 1 − 2α
pour yx = a + bx et pour différentes valeurs de x: x = x1 , x = x2 , etc. Supposons ensuite
que nous joignions les extrémités supérieures et les extrémités inférieures, obtenant ainsi les
deux courbes comme celles indiquées en traitillé dans la Figure 5. Il serait faux d’affirmer
que la région entre les deux courbes couvre l’ensemble de toutes les valeurs de a + bx avec
probabilité 1 − 2α. (Si Ii est l’intervalle de confiance pour yxi et P (yxi ∈ Ii ) = 1 − 2α
pour i = 1, . . . , n, on ne peut pas conclure que P (yx1 ∈ I1 ∩ . . . ∩ yxn ∈ In ) = 1 − 2α.) Une
région de confiance “simultanée” pour tous les yx peut être obtenue (Miller R.G, 1966, p.
111) en joignant les extrémités supérieures et les extrémités inférieures des intervalles
 
[ŷx − σ̂(ŷx ) 2F1−2α,2,n−2 , ŷx + σ̂(ŷx ) 2F1−2α,2,n−2 ],
où F2α,2,n−2 est le percentile 1 − 2α de la distribution F à 2 et n − 2 degrés de liberté.
3. Intervalle de confiance pour un rapport
Soient â et b̂ des estimateurs sans biais de deux paramètres a et b. Notre objectif est
d’estimer le rapport r = a/b et de construire un intervalle de confiance pour r. Supposons
que â et b̂ suivent approximativement une distribution de Gauss et que
V (â) = vaa σ 2 , V (b̂) = vbb σ 2 , V (â, b̂) = vab σ 2 ,
où vaa , vab , vbb et σ sont connues. Alors, V (â − r b̂) = (vaa − 2rvab + r 2 vbb )σ 2 , et
 
(â − r b̂)2 2
P ≤ z1−α ≈ 1 − 2α,
V (â − r b̂)
où z1−α est le percentile 1 − α de la distribution de Gauss standard. Pour trouver les
limites rl et ru d’un intervalle de confiance avec coefficient de couverture 1 − 2α pour r,
il suffit donc de résoudre pour r l’équation quadratique (â − r b̂)2 = z1−α2
V (â − r b̂). Les
solutions sont


1/2 
2
vab z1−α σ 2 vab
(rl , ru ) = r̂ − g ± vaa − 2r̂vab + r̂ vbb − g vaa − (1 − g),
vbb |b̂| vbb
2
où g = z1−α σ 2 vbb /b̂2 , et r̂ = â/b̂ est l’estimateur de r. Dans un problème de régression,
a et b sont souvent des coefficients, les valeurs de vaa , vab et vbb sont fournies par les
programmes (“matrice de covariance sans échelle”) et σ 2 est estimé par σ̂ 2 (avec n − 2
degrés de liberté). Il faut alors remplacer z1−α par t1−α,n−2 . Dans l’exemple (Section 6)
la valeur t97.5%,39 = 2.0226 a été utilisée.
18.1

Chapitre 18
Régression multiple: introduction
La régression multiple est l’une des méthodes les plus importantes en statistique. Son but
est d’étudier et modéliser la relation entre une variable réponse Y et plusieurs variables
explicatives X1 , X2 , . . ., Xp .

18.1 Modèle de régression multiple: exemples


Ajustement d’un polynôme. La Table 1 contient des mesures de concentration (pmol/ml)
du peptide C en relation avec l’âge pour n = 43 enfants diabétiques.

Table 1. Concentrations de peptide C et âge de 43 enfants


Age Conc. Age Conc.
5.2 4.8 11.3 5.1
8.8 4.1 1.0 3.9
10.5 5.2 14.5 5.7
10.6 5.5 11.9 5.1
10.4 5.0 8.1 5.2
1.8 3.4 13.8 3.7
12.7 3.4 15.5 4.9
15.6 4.9 9.8 4.8
5.8 5.6 11.0 4.4
1.9 3.7 12.4 5.2
2.2 3.9 11.1 5.1
4.8 4.5 5.1 4.6
7.9 4.8 4.8 3.9
5.2 4.9 4.2 5.1
0.9 3.0 6.9 5.1
11.8 4.6 13.2 6.0
7.9 4.8 9.9 4.9
11.5 5.5 12.5 4.1
10.6 4.5 13.2 4.6
8.5 5.3 8.9 4.9
11.1 4.7 10.8 5.1
12.8 6.6
La Figure 1 représente les logarithmes des concentrations en fonction d’Age. Comme la
relation n’a pas une allure linéaire, on peut penser de la décrire à l’aide d’un polynôme
de deuxième degré (fonction quadratique). Plus précisement, nous considérons la variable
réponse Y = ln(Concentration), la variable explicative X1 = Age, ainsi que son carré
X2 = Age2 et nous ajustons le modèle
Y ≈ θ0 + θ1 X 1 + θ2 X 2 (1)
aux données. (Le signe “≈” indique que la relation n’est pas parfaite: une “erreur” sera
introduite par la suite). Il faut donc déterminer les coefficients θ0 , θ1 et θ2 à l’aide des
données.

A.
c Marazzi
18.2


1.8 •
• •
• •
• • • • • • •• • •
1.6


log(Conc.)

•• • • •• •
••
• • • • • •
1.4

• •
• • •
• •
• •
1.2

5 10 15
Age

Figure 1. Log(concentration) du peptide C et âge de 43 enfants diabétiques

Nous indiquons par yi (i = 1, . . . , n) les valeurs de la variable réponse, par xi1 les valeurs de
la variable explicative X1 = Age et par xi2 les valeurs de la deuxième variable explicative
X2 = Age2 . Dans l’exemple,
y1 = ln(4.8), y2 = ln(4.1), ..., y43 = ln(5.1);
x11 = 5.2, x21 = 8.8, ..., x43,1 = 10.8;
x12 = (5.2)2 , x22 = (8.8)2 , ..., x43,2 = (10.8)2 .
Alors, une méthode fréquemment utilisée pour déterminer θ0 , θ1 , et θ2 consiste à les choisir
de façon que la somme
n
(yi − θ0 − θ1 xi1 − θ2 xi2 )2
i=1

soit minimale. C’est la méthode des moindres carrés. Les valeurs θ̂0 = 1.197, θ̂1 = 0.079
et θ̂2 = −0.004 ont été obtenues de cette façon. Avec ces valeurs on obtient la courbe
représentée dans la Figure 1.
18.3

Variables explicatives quantitatives et qualitatives. Un certain type d’appareil médical


administrant de façon automatique et continue une hormone anti-inflammatoire a été testé
sur 27 sujets. La Table 2 donne les quantités d’hormone (“Quantité” en mmg) qui restent
dans 27 appareils – un par sujet – après un certain nombre d’heures (“Hrs”) d’utilisation.

Table 2. Quantités d’hormone dans 27 appareils


Lot Hrs Quantité Lot Hrs Quantité Lot Hrs Quantité
A 99 25.8 B 376 16.3 C 119 28.8
A 152 20.5 B 385 11.6 C 188 22.0
A 293 14.3 B 402 11.8 C 115 29.7
A 155 23.2 B 29 32.5 C 88 28.9
A 196 20.6 B 76 32.0 C 58 32.8
A 53 31.1 B 296 18.0 C 49 32.5
A 184 20.9 B 151 24.1 C 150 25.4
A 171 20.9 B 177 26.5 C 107 31.7
A 52 30.4 B 209 25.8 C 125 28.5

Les appareils ont été échantillonnés dans trois groupes (“Lot”) provenant de trois fa-
bricants: A, B, C. Il faut étudier la relation entre la variable réponse “Quantité” et les
variables explicatives “Hrs” et “Lot”. Les données sont représentées dans la Figure 2.

B B CC
A C
A
30

30

30
C
C CC
B
A B C
25

25

25
Quantite

Quantite

Quantite

B
A
C
A AAA
20

20

20

B
B
15

15

15

BB

100 200 300 400 100 200 300 400 100 200 300 400

Hrs Hrs Hrs

Figure 2. “Quantité” versus “Hrs” pour les groupes A, B et C et modèles ajustés.


La variable Lot est qualitative: on dit que c’est un facteur en trois classes. Les facteurs
doivent être codés comme variables numériques et il y a plusieurs façons de faire. La plus
simple utilise trois variables indicatrices X1 , X2 et X3 définies par leurs valeurs observées
xi1 , xi2 et xi3 :
xi1 = 1 si l’appareil i appartient au Lot A,
= 0 si l’appareil i n’appartient pas au Lot A,
xi2 = 1 si l’appareil i appartient au Lot B,
= 0 si l’appareil i n’appartient pas au Lot B,
xi3 = 1 si l’appareil i appartient au Lot C,
= 0 si l’appareil i n’appartient pas au Lot C.

A.
c Marazzi
18.4

En définissant Y = Quantité et X4 = Hrs, on peut alors décrire les données par le modèle
Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4 (2)
et déterminer les coefficients θ1 , θ2 , θ3 et θ4 à l’aide des données. Ces coefficients sont les
intercepts des trois droites parallèles Y = θ1 + θ4 X4 , Y = θ2 + θ4 X4 et Y = θ3 + θ4 X4 qui
décrivent les relations entre Quantité et Hrs pour les trois groupes.
La méthode des moindres carrés pour déterminer θ1 , θ2 , θ3 , et θ4 consiste à les choisir de
façon que la somme
n
(yi − θ1 xi1 − θ2 xi2 − θ3 xi3 − θ4 xi4 )2
i=1

soit minimale. Dans l’exemple on trouve θ̂1 = 32.13, θ̂2 = 36.11, θ̂3 = 35.60, θ̂4 = −0.06,
ce qui signifie que pour les données du groupe A, Y ≈ 32.13 − 0.06X4 , pour les données
du groupe B, Y ≈ 36.11 − 0.06X4 , et pour celles du groupe C, Y ≈ 35.60 − 0.06X4 . Ces
trois droites sont indiquées dans les diagrammes de la Figure 2.
Une autre façon de “paramétriser” le modèle utilise seulement deux variables indicatrices,
par exemple, X1 et X2 :
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ4 X 4 . (3)

Dans ce cas, θ0 est l’intercept de la droite du groupe C, tandis que θ1 et θ2 sont les écarts
entre les intercepts de A et B par rapport à C, qui constitue le niveau de référence. La
méthode des moindres carrés donne θ̂0 = 35.60, θ̂1 = −3.47, θ̂2 = 0.51 et θ̂4 = −0.06.
L’intercept de A est donc 35.60 − 3.47 = 32.13 et celui de B est 35.60 + 0.51 = 36.11.
En général, pour coder un facteur à deux niveaux il suffit d’utiliser une seule variable
indicatrice (pour la présence ou l’absence de l’une des deux caractéristiques). Pour coder
un facteur à k niveaux il suffit d’utiliser k − 1 variables indicatrices.
Remarque. Les coefficients θ0 , . . . , θ4 du modèle
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ3 X 3 + θ4 X 4
ne peuvent pas être déterminés de façon unique. En effet, une infinité de valeurs de θ0 , θ1 , θ2
et θ3 peuvent fournir θ0 + θ1 = 32.13, θ0 + θ2 = 36.11 et θ0 + θ3 = 35.60.
Modèle avec interactions. Pour décrire les quantités d’hormone distribuées par trois ap-
pareils nous avons utilisé trois droites parallèles. On peut se demander si un modèle plus
souple, avec trois droites non nécessairement parallèles, ne serait pas plus avantageux. La
modélisation des trois droites peut se faire en utilisant les variables indicatrices X1 , X2 et
X3 ainsi que trois variables supplémentaires X5 , X6 , X7 définies comme suit:
xi5 = Hrs de l’appareil i, si i appartient au Lot A,
= 0 si l’appareil i n’appartient pas au Lot A,
xi6 = Hrs de l’appareil i, si i appartient au Lot B,
= 0 si l’appareil i n’appartient pas au Lot B,
xi7 = Hrs de l’appareil i, si i appartient au Lot C,
= 0 si l’appareil i n’appartient pas au Lot C.
18.5

Si Y indique la réponse, on peut décrire les données par le modèle


Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ5 X 5 + θ6 X 6 + θ7 X 7 . (4)
Les coefficients θ1 , θ2 et θ3 sont les intercepts, tandis que θ5 , θ6 et θ7 sont les pentes des
trois droites. Si les pentes sont différentes, on dit qu’il y a interaction entre le facteur Lot
et la variable Hrs: dans ce cas, la variable Hrs explique Y de façon différente selon le Lot.
Notons que X5 = X1 X4 , X6 = X2 X4 et qu’une autre façon de paramétriser (5) est
Y ≈ θ0 + θ1 X 1 + θ2 X 2 + θ4 X 4 + θ5 X 1 X 4 + θ6 X 2 X 4 . (5)
Dans cette paramétrisation θ4 est la pente de la droite du Lot C (pente de référence). On
dit que θ5 mesure l’interaction entre Hrs et Lot A et que θ6 est l’interaction entre Hrs et
Lot B. L’utilisation de produits entre deux variables est la façon habituelle d’introduire
des interactions dans un modèle.
Le degré d’ajustement des modèles (4) et (5) est certainement supérieur à celui des modèles
(2) et (3). Toutefois, il n’est pas certain que la complexité accrue de (4) et (5) justifie ce
gain. La question du choix entre ces modèles sera abordée au Chapitre 20.

18.2 Définitions et propriétés

Plusieurs concepts et propriétés de la régression simple s’étendent à la régression multiple.


Considérons par exemple le modèle
Y ≈ θ0 + θ1 X 1 + . . . + θp X p .
On dit que θ0 , θ1 , . . ., θp sont les coefficients et que θ0 est la constante additive du modèle.
Les coefficients sont habituellement estimés selon la méthode des moindres carrés par un
programme d’ordinateur. Nous indiquons les estimations par θ̂0 , θ̂1 , etc. Alors
ŷi = θ̂0 + θ̂1 xi1 + . . . + θ̂p xip , i = 1, . . . , n
sont les réponses calculées et
ei = yi − ŷi i = 1, . . . , n
les résidus. Evidemment
yi = ŷi + ei
d’où découle la décomposition
s2 (Y ) = s2 (Ŷ ) + s2 (E),
où Ŷ est le vecteur des réponses calculées et E celui des résidus. Cette décomposition
de s2 (Y ) est connue comme analyse de la variance (Chapitre 3). Le premier terme est la
variance expliquée par 
le modèle et le deuxième la variance résiduelle. En outre, la somme
des résidus est nulle: ei = 0. (Mais ceci n’est pas certain si la constante additive est
absente.)

A.
c Marazzi
18.6

Le coefficient de détermination est défini par


R2 = s2 (Ŷ )/s2 (Y ).
Il jouit des propriétés habituelles
– 0 ≤ R2 ≤ 1
– Si R2 est proche de 1 (par exemple R2 = 0.8) le modèle explique très bien la variation
de Y . Si R2 est proche de 0, les variables X1 , X2 , etc. ne contiennent pas d’information
utile pour expliquer la variation de Y .
L’écart type de l’erreur (ou erreur standard des résidus) noté sE ou σ̂ est défini par

 n
 1 
sE =  e2 .
n − p − 1 i=1 i

18.3 Notation matricielle


La notation matricielle est très utile dans la régression multiple car les données ont la
forme d’une matrice dont les colonnes correspondent aux variables et les lignes aux ob-
servations. Nous introduisons cette notation en reprenant d’abord le cas de la régression
simple (Chapitre 3). On définit le vecteur des réponses observées y, et le vecteur des erreurs
u par
⎛ ⎞ ⎛ ⎞
y1 u1
⎜ 2⎟
y ⎜ 2⎟
u
y=⎜ ⎟
⎝ .. ⎠ , u=⎜ ⎟
⎝ ... ⎠ .
.
yn un
(On utilise d’habitude les minuscules y et u dans ce contexete.) La matrice du modèle X
(ou matrice de design) et le vecteur des paramètres θ sont définis par
⎛ ⎞
1 x1

⎜ 1 x2 ⎟ a
X =⎜ ⎝ ... .. ⎟
⎠ , θ= .
. b
1 xn
La première colonne contient des “1” et sera associée à a; la deuxième contient les valeurs
de la variable explicative. On obtient ainsi
⎛ ⎞
a + bx1
⎜ a + bx2 ⎟
Xθ = ⎜ ⎝ .. ⎟

.
a + bxn
et les n equations caractérisant la structure modèle sont exprimées d’un seul coup par:
y = Xθ + u. (6)
Cette équation représente aussi les modèles de régression multiple si on définit de façon ap-
propriée la matrice X et le vecteur θ. Par exemple, pour exprimer le modèle (1) définissons
⎛ ⎞
1 5.2 5.22 ⎛ ⎞
⎜ 1 8.8 8.82 ⎟ θ0

X = ⎝ .. .. ⎟
.. ⎠ , θ = θ1 ⎠ .

. . . θ2
1 10.8 10.82
18.7

La première colonne sera associée à θ0 , la deuxième contient les valeurs de X1 et la troisième


les valeurs de X2 . On obtient ainsi l’équation (6). Dans le cas du modèle (3) définissons
⎛ ⎞
1 1 0 99
⎜ 1 1 0 152 ⎟
⎜. . . .. ⎟
⎜ .. .. .. . ⎟
⎜ ⎟
⎜ 1 0 1 376 ⎟ ⎛ ⎞
⎜ ⎟ θ0
⎜ 1 0 1 385 ⎟
⎜ ⎟ ⎜θ ⎟
X = ⎜ .. .. .. .. ⎟ , θ = ⎝ 1 ⎠.
⎜. . . . ⎟ θ2
⎜ ⎟
⎜ 1 0 0 119 ⎟ θ4
⎜ ⎟
⎜ 1 0 0 188 ⎟
⎜. . . .. ⎟
⎝. . . ⎠
. . . .
1 0 0 125
La première colonne est associée à θ0 , la deuxième contient les valeurs de X1 , la troisième
les valeurs de X2 et la quatrième les valeurs de X4 . On obtient encore l’équation (6).
En général, on considérera un vecteur y de n réponses observées, un vecteur u de n erreurs
(non observées), une matrice de modèle X à n lignes et p colonnes
⎛x x ... x ⎞
11 12 1p
⎜ x21 x22 ... x2p ⎟
X=⎜
⎝ .. .. .. .. ⎟

. . . .
xn1 xn2 . . . xnp
et un vecteur θ de p paramètres
⎛ ⎞
θ1
.
θ = ⎝ .. ⎠
θp
tels que
y = Xθ + u. (7)
Les colonnes de X contiennent les valeurs des variables explicatives. Si une constante
additive est présente, la première colonne est formée de “1”. On notera par xT T T
1 , x2 , . . . , xn
les lignes de la matrice X et par X1 , X2 , . . . , Xp ses colonnes. (Ici, (·)T indique l’opération
matricielle de transposition.) L’équation matricielle (7) résume les n équations
yi = θ1 xi1 + . . . + θp xip + ui , i = 1, . . . , n
que l’on peut aussi écrire de la façon suivante:
y i = xT
i θ + ui , i = 1, . . . , n.
Pour spécifier le modèle, on écrira aussi
Y ≈ θ1 X 1 + . . . + θp X p .

A.
c Marazzi
19.1

Chapitre 19
Ajustement du modèle de régression multiple
Ce chapitre considère quelques aspects du calcul des coefficients d’une régression par la
méthode des moindres carrés ainsi qu’une interprétation géométrique de cette méthode. Il
n’est pas requis pour les chapitres suivants.
Dans ce chapitre, la longueur d’un vecteur y sera notée par |y|: donc, |y| = (y T y)1/2 .

19.1 La méthode des moindres carrés


Nous considérons un modèle de regression multiple défini par sa matrice de modèle X, (n
lignes et p colonnes) son vecteur de paramètres θ (p composantes), son vecteur de réponses
observées y (n composantes) et l’équation structurelle
y = Xθ + u,
où u est le vecteur des erreurs. On dit que cette équation représente un modèle linéaire
dans les coefficients θ1 , . . . , θp .
Selon la méthode des moindres carrés, une estimation du vecteur θ est obtenue en min-
imisant la fonction
Q(θ) = |y − Xθ|2 .
Dans ce but, il faut résoudre le système de p équations ∂Q/∂θj = 0, j = 1, . . . , p, où ∂Q/∂θj
indique la dérivée partielle de Q par rapport à θj . On obtient l’équation matricielle
X T Xθ = X T y
connue comme le système des équations normales.
Le calcul de la solution est normalement réalisé par un programme d’ordinateur. La
solution est un vecteur noté θ̂. On définit:
– le vecteur des réponses calculées ŷ = X θ̂;
– le vecteur des résidus e = y − ŷ.

Remarques sur le calcul de θ̂


1. Si le rang de la matrice X est égal à p (c’est à dire, si les colonnes de X sont linéairement
indépendantes) alors le rang de X T X est égal à p et le problème de minimisation a une
solution unique
θ̂ = (X T X)−1 X T y,
où (·)−1 indique l’opération d’inversion d’une matrice.
2. Si le rang de X est inférieur à p il y a une infinité de vecteurs θ qui minimisent Q(θ).
Pour en choisir une, on réduit d’habitude le nombre de coefficients en posant des conditions
supplémentaires. Par exemple, on supprime certaines variables explicatives (c’est à dire,
on pose leur coefficient√ égal à zéro). Il y a aussi des procédés qui permettent de choisir la
solution de longueur θ T θ minimale.

A.
c Marazzi
19.2

19.2 Propriétés algébriques et géométriques

Nous supposons que le rang de X est r ≤ p.


• Les composantes de θ̂ sont des fonctions linéaires en y1 , . . . , yn .
• Les colonnes de X génèrent un sous-espace de dimension r de IRn . Notons ce sous-
espace par V r . Pour tout θ, le vecteur v = θ1 X1 + . . . + θp Xp = Xθ obtenu comme
combinaison linéaire des colonnes X1 , . . . , Xp de X appartient donc à V r .
• La méthode des moindres carrés minimise la longueur du vecteur y − Xθ = y − v. Le
vecteur v̂ = X θ̂ est donc la projection de y en V r . Il coı̈ncide avec le vecteur ŷ des
réponses calculées.

n
IR
y

y-v e

^v = ^y
O

v
r
V

• Le vecteur des résidus e est orthogonal à V r . Par conséquent, X T e = 0. Cette dernière


équation vectorielle coı̈ncide avec les équations normales.
• Evidemment
y = ŷ + e,
et, par le théorème de Pythagore,
|y|2 = |ŷ|2 + |e|2 .
Si ȳ indique le vecteur avec n composantes égales à la moyenne arithmétique des yi ,
nous avons aussi y − ȳ = ŷ − ȳ + e et, comme ȳ est orthogonale à e (eT ȳ = 0):
|y − ȳ|2 = |ŷ − ȳ|2 + |e|2 .
Ceci signifie que la variance de y est la somme de deux parties: la première est la
“partie expliquée par le modèle” et la deuxième est la variance résiduelle (analyse de
la variance). Donc,
|ŷ − ȳ|2
R2 = .
|y − ȳ|2
20.1

Chapitre 20
Inférence classique pour la régression multiple
Ce chapitre étend les résultats du Chapitre 17 à la régression multiple. Nous considérons
la relation
Y ≈ θ1 X 1 + . . . + θp X p
entre une réponse Y et p variables explicatives X1 , . . . , Xp ; X1 pourrait être identique à
1, auquel cas, θ1 serait une constante additive.

20.1 Modèle classiques pour l’inférence


Comme dans le cas de la régression simple, l’inférence classique pour la régression multiple
se fonde sur un ensemble de conditions concernant la distribution de la variable réponse Y
en relation avec les variables explicatives X1 , . . . , Xp . Il n’est pas nécessaire de supposer que
les observations des variables explicatives sont obtenues de façon aléatoire. Les conditions
suivantes forment le modèle de Gauss pour la régression multiple.
1. Yi = θ1 xi1 + . . . + θp xip + Ui , i = 1, . . . , n, où θ1 , . . . , θp sont des paramètres.
2. Les erreurs Ui sont i.i.d. et indépendents de X1 , . . . , Xp .
3. Ui ∼ N (0, σ 2 ) où σ 2 est un paramètre.
La condition 1 correspond à n équations pour les réponses observées:
yi = θ1 xi1 + . . . + θp xip + ui , i = 1, . . . , n.
Les erreurs ui ne sont pas observables. La condition 1 caractérise la structure du modèle;
les condition 2 et 3 la partie aléatoire.
20.2 Distributions des estimateurs
Les résultats suivants s’obtiennent sous le modèle de Gauss.
– θ̂ suit une distribution de Gauss multivariée avec vecteur de moyennes θ et matrice
de covariance Σ2 (θ):
θ̂ ∼ N (θ, Σ2(θ̂)), avec Σ2 (θ̂) = σ 2 (X T X)−1 .

En outre, si x = (x1 , . . . , xp )T est un vecteur (colonne) contenant des valeurs données


des variables explicatives, nous considérons la réponse calculée ŷx = θ̂ T x ainsi que
yx = θ T x. Alors,
ŷx ∼ N (yx , σ 2 (ŷx )), avec σ 2 (ŷx ) = xT Σ2 (θ̂) x.

Ces résultats pourraient permettre de réaliser des inférences si σ 2 était connu. En pratique,
il faut presque toujours estimer σ 2 et, dans ce but, on utilise l’estimateur
n
2 1  2
σ̂ = e .
n−p 1 i

Des estimations Σ̂2 (θ̂) et σ̂ 2 (ŷx ) sont alors obtenues en remplaçant σ 2 par σ̂ 2 dans les
expressions de Σ2 (θ̂) et σ 2 (ŷx ). On démontre que:
– La variable aléatoire (n − p)σ̂ 2 /σ 2 suit une distribution χ2 à n − p degrés de liberté.

A.
c Marazzi
20.2

– Les estimateurs standardisés


(θ̂j − θj )/σ̂(θ̂j ), j = 1, . . . , p et (ŷx − yx )/σ̂(ŷx )
suivent une distribution t à n − p degrés de liberté.
Note. La matrice (X T X)−1 est parfois appelée matrice de covariance sans échelle des
coefficients estimés.

20.3 Intervalles de confiance et test usuels


Les résultats précédents permettent d’obtenir les intervalles de confiance pour les coeffi-
cients θj (j = 1, . . . , p) et pour yx = xT θ. Soit α une probabilité préfixée (par exemple
α = 2.5%). Alors, des intervalles de confiance bilatéraux avec coefficient de couverture
1 − 2α sont:
[θ̂j − σ̂(θ̂j ) t1−α,n−p , θ̂j + σ̂(θ̂j ) t1−α,n−p ], j = 1, . . . , p,
[ŷx − σ̂(ŷx ) t1−α,n−p , ŷx + σ̂(ŷx ) t1−α,n−p ],
où t1−α,n−p est le percentile 1 − α de la distribution t à n − p degrés de liberté. En outre,
un intervalle de confiance avec coefficient de couverture 1 − 2α pour σ 2 est donné par
[(n − 2)σ 2 /χ21−α,n−p , (n − 2)σ 2 /χ2α,n−p ],
où χ2α,n−p est le percentile α de la distribution χ2 à n − 2 degrés de liberté.
Pour un certain k, l’hypothèse
H0 : θk = c0 ,
où c0 est une valeur donnée, peut être rejetée au niveau α, en faveur de H1 : θk = c0 , si la
statistique
T = (θ̂k − c0 )/σ̂(θ̂k )
n’appartient pas à l’intervalle [−tα/2,n−p , tα/2,n−p ].
De façon équivalente, on peut rejeter H0 en faveur de H1 au niveau α si l’intervalle de
confiance avec coefficient de couverture 1 − α pour θk ne contient pas la valeur préfixée c0 .
Remarques
1. Les logiciels de statistique courants fournissent les valeurs de σ̂(θ̂j ) (j = 1, . . . , p) ainsi
que celles des statistiques θ̂j /σ̂(θ̂j ) et les P-values correspondantes. Par exemple, R et
S-plus donnent
P(|tn−p | > |θ̂j /σ̂(θ̂j )|), j = 1, . . . , p
où tn−p indique une variable aléatoire suivant une distribution t à n − p degrés de liberté
et θ̂j /σ̂(θ̂j ) désigne la valeur observée de la statistique correspondante.
2. Si [A, B] et [C, D] sont des intervalles de confiance avec coefficient de couverture 1 − α
pour θ1 et θ2 (par exemple) on ne peut pas affirmer que le rectangle [A, B]×[C, D] couvre le
point (θ1 , θ2 ) avec probabilité 1−α ! Nous effleurons ici un problème d’inférence statistique
simultanée que nous n’approfondirons pas.
20.3

20.4 Analyse des résidus


Si le modèle de Gauss est approprié, les résidus ont approximativement une distribution
de Gauss. Il faut donc examiner cette condition à l’aide d’un qq-plot. En outre, la
variance des résidus ne doit pas dépendre des variables explicatives. Il est donc opportun
de représenter graphiquement les résidus en fonction des valeurs observées de X1 , . . . , Xp .
Aucune relation (relation non linéaire, variance non homogène) ne doit apparaı̂tre. Enfin,
on peut représenter les résidus en fonction des réponses calculées. Si une relation apparaı̂t
le modèle de Gauss et les inférences obtenues avec son appui doivent être mis en doute.

20.5 Exemples
Ajustement d’un polynôme. Nous considérons les données de la Table 1, Chapitre 18 et
ajustons le modèle
log(Concentration) ≈ θ0 + θ1 Age + θ2 Age2 .
On a les résultats suivants:

Coefficients:
Value Std.Error t value Pr(>|t|)
theta0 1.1973 0.0767 15.6040 0.0000
theta1 0.0787 0.0204 3.8673 0.0004
theta2 -0.0037 0.0012 -3.0406 0.0042

Residual standard error: 0.1299 on 40 degrees of freedom


Multiple R-Squared: 0.3686

Correlation of Coefficients:
theta0 theta1
theta1 -0.8880
theta2 0.7678 -0.9696

Donc, dans les notations des sections précédentes,


θ̂0 = +1.1973, σ̂(θ̂0 ) = 0.0767,
θ̂1 = +0.0787, σ̂(θ̂1 ) = 0.0204,
θ̂2 = −0.0037, σ̂(θ̂2 ) = 0.0012.
L’erreur standard des résidus est σ̂ = 0.1299 et R2 = 0.3686. (La corrélation entre θ̂1 et
θ̂2 est −0.9696, celle entre θ̂1 et θ̂0 est −0.8880 et celle entre θ̂0 et θ̂2 est 0.7678.)
Si le modèle de Gauss peut être retenu, on obtient les inférences suivantes:
θ̂0
= 15.6040 et P(|t40 | > 15.6040) = 0.0000,
σ̂(θ0 )
θ̂1
= +3.8673 et P(|t40 | > 3.8673) = 0.0004,
σ̂(θ1 )
θ̂2
= −3.0406 et P(|t40 | > 3.0406) = 0.0042.
σ̂(θ2 )

A.
c Marazzi
20.4

En outre, les intervalles de confiance avec coefficient de couverture 95% pour θ0 , θ1 et θ2


sont (avec t40,0.975 = 2.0211):
[1.1973 − 2.0211 · 0.0767, 1.1973 + 2.0211 · 0.0767] = [1.0422, 1.3524],
[0.0787 − 2.0211 · 0.0204, 0.0787 + 2.0211 · 0.0204] = [0.0376, 0.1198],
[−.0037 − 2.0211 · 0.0012, −.0037 + 2.0211 · 0.0012] = [−.0062, −.0012].

Selon cette analyse, θ̂0 , θ̂1 et θ̂2 sont significativement différentes de 0 (au niveau 1%).
La courbe dessinée dans la Figure 1, Chapitre 18, soulève toutefois quelques doutes à
propos du modèle polynomial de deuxième degré, comme description de la relation entre
log(Conc.) et Age. En effet, on ne voit pas clairement pour quelle raison biologique la
relation devrait être décroissante pour Age> 10. Enfin, l’analyse graphique des résidus
fournie dans la Figure 1 suggère que la variance des erreurs croı̂t en fonction de l’âge. Il
s’agit d’une violation du modèle de Gauss qui soulève quelques doutes supplémentaires sur
la validité de l’inférence.

• • •
0.2

0.2

0.2
• • •
•• • • • •
• • •

••• • • • • • • • •• ••
•••••• • • •• •• • • •••
••••• • • • •• • •••
••• • •• •
0.0

0.0

0.0
Residus

Residus

Residus
•• • • •
• • ••
••••• • • • • •
• • •
•• • • • • •
• •
•• • • • •
•• • • • •
• • •
-0.2

-0.2

-0.2

•• • • ••

• • •

• • •

-2 -1 0 1 2 5 10 15 1.3 1.4 1.5 1.6

Quantiles of Standard Normal Age Reponses ajustees

Figure 1. Analyse des résidus de la régression polynomiale. (1) Quantile-quantile plot des
résidus; (2) résidus versus âge; (3) résidus versus réponses calculées.
20.5

Variables explicatives quantitatives et qualitatives. En ajustant le modèle (3), Chapitre


18, aux données de la Table 2, Chapitre 18, on obtient:
Coefficients:
Value Std.Error t value Pr(>|t|)
theta0 35.5973 0.6596 53.9698 0.0000
theta1 -3.4657 0.7691 -4.5061 0.0002
theta2 0.5078 0.8681 0.5849 0.5643
theta4 -0.0601 0.0035 -17.3095 0.0000

Residual standard error: 1.605 on 23 degrees of freedom


Multiple R-Squared: 0.945

Correlation of Coefficients:
theta0 theta1 theta2
theta1 -0.4600
theta2 -0.2136 0.5164
theta4 -0.5847 -0.1787 -0.4900

L’analyse graphique des résidus fournie dans la Figure 2 ne contredit pas les hypothèses
classiques pour l’inférence. L’écart 0.5078 entre l’intercept du groupe B et l’intercept
de référence C (35.5973) n’est donc pas significativement différent de zéro. En d’autre
termes, l’hypothèse H0 : θ2 = 0 ne peut pas être rejetée, car P(|t23 | > 0.5849) = 0.5643.
Par contre, l’intercept de A est significativement plus petit que celui de C, car P(|t40 | >
4.5061) = 0.0002. La différence est visible dans la Figure 2 du Chapitre 18.
3

• B
• C
• • B A
2

• A
•• B C
1

• C
• B
Residus

Residus

•• • • A A CC
0

••• B
B A C
••• A A
• A
-1

-1

• C
•• B C
• B
-2

-2

• C
• A
• B
-3

-3

-2 -1 0 1 2 15 20 25 30 35
Quantiles of Standard Normal Reponses ajustees

Figure 2. Analyse des résidus du modèle pour les quantité d’hormone. (1) Quantile-
quantile plot des résidus; (2) résidus versus réponses calculées.

A.
c Marazzi
20.6

20.6 Le test F d’une hypothèse linéaire


Nous avons considéré des hypothèses du type H0 : θk = 0. Ce type d’hypothèse concerne
l’un ou l’autre des paramètres pris individuellement. Dans la suite de ce chapitre, nous
considérons des hypothèse plus complexes qui concernent plusieurs paramètres à la fois.

Exemple: test de parallélisme


Pour décrire les quantités d’hormone distribuées par trois appareils nous avions utilisé trois
droites parallèles. Un modèle avec trois droites non parallèles aurait un degré d’ajustemnt
supérieur (R2 plus élevé); toutefois, il n’est pas certain que la complexité accrue du modèle
justifie ce gain. Cosidérons le modèle (4) du Chapitre 18:

Ω: Y ≈ θ1 X 1 + θ2 X 2 + θ3 X 3 + θ5 X 5 + θ6 X 6 + θ7 X 7 .
Ce modèle Ω sera appelé le modèle complet. Il sera comparé au modèle réduit
ω: Y ≈ η1 Z1 + η2 Z2 + η3 Z3 + η4 Z4 ,
où Z1 = X1 , Z2 = X2 , Z3 = X3 et Z4 = X5 + X6 + X7 . Le modèle ω est obtenu de Ω en
utilisant les deux équations
H0 : θ 5 = θ 6 = θ 7 ,
qui représentent l’hypothèse de parallélisme. Dans le modèle ω, η4 représente la pente
commune des trois droites exprimées comme fonctions de Z4 = Hrs. L’hypothèse H0 est
un système de deux équations linéaires dans les coefficients:
θ5 − θ6 = 0,
θ5 − θ7 = 0.
On dit que H0 est une hypothèse linéaire.
Le coefficient R2 de Ω vaut 0.9971, tandis que celui de ω vaut 0.9966. La différence est
minime: en d’autre termes le gain en ajustement ne semble pas justifier le modèle plus
complexe.
Cas général
En général, soit
Ω: Y ≈ θ1 X 1 + . . . + θp X p
un modèle de régression multiple. Nous appellerons Ω le modèle complet. Nous supposons
que les conditions de Gauss s’appliquent à Ω. Une hypothèse linéaire est un système de r
équations indépendantes dans les coefficients, c’est à dire,
H0 : Aθ = 0
où A est une matrice p × p (de constantes) de rang r et θ = (θ1 , . . . , θp )T . En utilisant ces
équations il est possible d’exprimer r coefficients à l’aide des autres et d’obtenir ainsi un
modèle réduit
ω : Y ≈ η1 Z1 + . . . + ηq Zq ,
où q = p − r et Z1 , . . . , Zq sont des combinaisons linéaires de X1 , . . . , Xp .
20.7

Statistique de test
Les ajustement de Ω et ω aux données fournissent les vecteurs de résidus rΩ et rω . In-
diquons par |rΩ |2 et |rω |2 les sommes des carrés de leurs composantes, et soit
n−p  
f= · |rω |2 − |rΩ |2 /|rΩ |2 .
p−q
Sous H0 , la variable aléatoire f suit une distribution F à p − q degrés de liberté (dans le
numérateur) et n − p degrés de liberté (dans le dénominateur). On peut donc rejeter H0
au niveau α si la valeur observée de f est supérieure au percentile 1 − α de la distribution
F à p − q et n − p degrés de liberté.
Remarque. Une expression équivalente de f est
2
(RΩ − Rω2 )/(p − q)
f= 2 )/(n − p) ,
(1 − RΩ
2
où RΩ et Rω2 indiquent les coefficients de détermination des modèles Ω et ω.
Exemple: continuation
Pour Ω on obtient
Coeff. Value Std.Error t value Pr(>|t|)
theta1 33.3601 1.2116 27.5343 0.0000
theta2 35.2061 1.0645 33.0726 0.0000
theta3 37.1937 1.5063 24.6918 0.0000
theta5 0.0062 0.0147 0.4241 0.6758
theta6 0.0182 0.0133 1.3659 0.1864
theta7 -0.0745 0.0127 -5.8490 0.0000

Residual standard error: 1.556 on 21 degrees of freedom


Multiple R-Squared: 0.9971
Pour ω on obtient
Coeff. Value Std.Error t value Pr(>|t|)
eta1 32.1316 0.7483 42.9408 0.0000
eta2 36.1051 0.9716 37.1588 0.0000
eta3 35.5973 0.6596 53.9698 0.0000
eta4 -0.0601 0.0035 -17.3095 0.0000

Residual standard error: 1.605 on 23 degrees of freedom


Multiple R-Squared: 0.9966

Les sommes des carrés des résidus sont obtenues à partir des erreurs standards des résidus:
|rΩ |2 = 50.8691 ≈ 21 · 1.5562 et |rω |2 = 59.2709 ≈ 23 · 1.6052 .
Ainsi,
27 − 6  
f= · 59.2709 − 50.8691 /50.8691 = 1.7342.
6−4
Le percentile 95% de la distribution F à 2 et 21 degrés de liberté se situe à 3.4668. Il n’est
donc pas possible de rejeter l’hypotèse de parallélisme au niveau 5%.

A.
c Marazzi
20.8

20.7 Recherche et validation d’un modèle


La recherche et la validation d’un modèle sont parmi les domaines les plus difficiles de la
statistique. Construire un modèle est, en partie, un art. Dans ce qui suit, seules les idées
principales sont présentées. On peut distinguer deux catégories de techniques:
(1) Techniques exploratoires, habituellement basées sur l’analyse graphique des données
et des résidus
(2) Techniques d’inférence basées sur les tests.
Toute analyse de données devrait commencer par une analyse exploratoire pour obtenir
une bonne compréhension des données et repérer des valeurs et des tendances particulières.
Sélection de variables. Plusieurs études font intervenir un grand nombre de prédicteurs
Xj , mais on ne pourrait pas tous les inclure dans le modèle qui deviendrait trop complexe
et l’ajustement trop imprécis. En outre, certains prédicteurs sont fortement corrélés. Les
principes suivants devraient être observés:
(i) Inclure les variables qui sont pertinentes dans le domaine d’application;
(ii) Réduire au maximum le nombre de variables;
(iii) Utiliser l’analyse exploratoire comme guide.
Si le nombre k de variables est élevé et les connaissances préalables sont faibles, une
méthode de sélection pas-à-pas (“stepwise”) peut être envisagée. La méthode “forward
selection” commence avec β0 et inclut les variables au fur et à mesure selon un ordre
dicté par leur signification statistique (par exemple, le p-value de la statistique T ). La
méthode “backward selection” débute avec le modèle le plus complet et élimine une à une
les variables de moindre importance (la possibilité de récupérer certaines variables éliminées
est prise en considération). En principe, la “backward selection” est préférable, mais elle
n’est faisable que si le nombre total de variables est modéré. Le principe d’élimination est le
suivant: calculer la signification statistique (p-value) de chaque variable Xj (j = 1, . . . , k)
tout en gardant les autres; éliminer la variable Xj la moins significative. Certaines variables
particulièrement importantes peuvent être retenues obligatoirement dans le modèle. Si un
groupe de variables indicatrices représentent la codification d’une variable catégorielle,
elles doivent être retenues ou éliminées en bloc.
Linéarité. Jusqu’ici nous avons considéré des modèles avec des variables explicatives non
modifiées; mais parfois il convient de les transformer. Supposons avoir une bonne raison
pour penser qu’une certaine variable Xj agit de manière quadratique sur la réponse. Il est
alors possible de créer une nouvelle variable Xj2 et de tester son utilité (H0 : le coefficient
de Xj2 est nul). D’autres outils sont disponibles pour détecter et étudier des éventuelles
non-linéarités, par exemple: le “plot des résidus partiels” (Collett (1991), p.135), les trans-
formations de Box-Cox (Carrol and Ruppert, 1988) de la variable réponse, la “modélisation
additive généralisée” (Hasties et Tibshirani (1990)).
Interactions. Le nombre d’intéractions deux à deux entre k variables est k(k−1)/2. D’autre
part, les interactions sont relativement rares, mais elles méritent de l’attention. Si k n’est
pas trop élevé, pour écarter les interactions clairement inutiles, on peut les modéliser toutes
et appliquer une “backward selection” tout en gardant les termes linéaires dans le modèle.
Outliers et points influents. Pour détecter les outliers et les points influents (cas qui
déterminent en grande partie les résultats de l’analyse) on peut utiliser des “procédés
statistiques robustes” (Hampel et al., 1986; Rousseuw et Leroy, 1987).
21.1

Chapitre 21
Inférence par bootstrap pour la régression
Le bootstrap (Chapitre 16) permet de réaliser l’inférence sans faire appel à un modèle
mathématique de la distribution des données. Ce chapitre décrit le bootstrap pour la
régression multiple. Les notations du Chapitre 18 seront utilisées; en particulier, le symbole
xTi indiquera la i-ème ligne de la matrice X du modèle et yi la i-ème réponse observée.
On utilisera aussi l’abréviation zi = (xT
i , yi ).

21.1 Rappel des idées de base


Supposons que z1 , . . . , zn soient les observations dans un problème de régression et qu’elles
proviennent d’une population de distribution multivariée F : zi i.i.d. ∼ F . Nous souhaitons
calculer la distribution d’une statistique s(z1 , . . . zn ). L’approche classique utilise la de-
scription de F fournie par un modèle mathématique (par exemple, la distribution de Gauss)
dont les paramètres sont ajustés aux données. Cette approche repose donc sur l’hypothèse
que le modèle est adéquat. L’approche bootstrap remplace F par la fonction de distribu-
tion empirique Fn , qui associe une probabilité 1/n à chaque observation. On dérive ensuite
la distribution de s en fonction de Fn , appelée la distribution bootstrap de s. Le calcul est
effectué par simulation: plusieurs échantillons sont générés à partir de la distribution Fn ;
la statistique s est évaluée à l’aide de chaque échantillon simulé; la distribution empirique
des valeurs simulées de s (distribution bootstrap) est alors considérée comme une appro-
ximation de la distribution de s. On l’utilise, par exemple, pour calculer les intervalles de
confiance percentiles (Chapitre 16). Pour la régression, il y a deux schémas de simulation
possible: le bootstrap des paires et le bootstrap des résidus.
21.2 Bootstrap des paires et bootstrap des résidus
Le bootstrap des paires est particulièrement approprié lorsque les lignes de X caractérisent
des individus qui ont été échantillonnés et pour lesquels on a observé la réponse conjointe-
ment aux variables explicatives. On obtient k échantillons simulés (par exemple, k = 1000)
par tirage au sort, avec remplacement, de n paires (x∗1 T , y1∗ ), . . . , (x∗n T , yn∗ ) de l’ensemble
des n lignes de X et des réponses y correspondantes. Par exemple, pour les données de
la Table 2, Chapitre 18, chaque échantillon simulé est obtenu en tirant au sort 27 triades
(Lot, Hrs, Quantité). Un de ces échantillons figure dans la table suivante:
Lot Hrs Quantité Lot Hrs Quantité Lot Hrs Quantité
B 29 32.5 A 155 23.2 C 88 28.9
C 125 28.5 A 52 30.4 B 209 25.8
B 177 26.5 C 107 31.7 A 171 20.9
B 29 32.5 A 184 20.9 B 177 26.5
A 99 25.8 C 58 32.8 C 119 28.8
C 107 31.7 A 53 31.1 B 296 18.0
B 385 11.6 B 402 11.8 C 115 29.7
C 119 28.8 B 76 32.0 C 58 32.8
A 171 20.9 C 107 31.7 A 99 25.8
En ajustant le modèle à chacun des k échantillons simulés, on obtient k vecteurs de coef-
ficients simulés et leur distribution bootstrap conjointe.

A.
c Marazzi
21.2

Si on admet les hypothèses 1 et 2 de la Section 17.1, mais qu’on se méfie de l’hypothèse 3,


on peut se limiter à “simuler les erreurs”. Celles-ci sont représentées par les résidus
ri = yi − θ̂1 xi1 + . . . + θ̂p xip , i = 1, . . . , n.
Le bootstrap des résidus utilise la distribution empirique des résidus comme estimation de
la distribution des erreurs ei : on obtient donc un échantillon simulé d’erreurs en tirant
au sort, avec remplacement, n résidus r1∗ , . . . , rn∗ de l’ensemble {r1 , . . . , rn }. On construit
ensuite n réponses simulées
yi∗ = θ̂1 xi1 + . . . + θ̂p xip + ri∗ , i = 1, . . . , n.
L’ajustement du modèle à (x1 , y1∗ ), . . . , (xn , yn∗ ) fournit alors un vecteur de coefficients
simulés. Le procédé est répété k fois (par exemple, k = 1000) pour obtenir la distribution
bootstrap du vecteur des coefficients estimés.

21.3 Exemples
Exemple 1. Considérons les données de la Table 2, Chapitre 18, et le modèle ω du Chapitre
20, Section 6. La Figure 1 montre les histogrammes des 1000 valeurs simulées par bootstrap
des paires de η̂1 , η̂2 , η̂3 et η̂4 .
Les estimations bootstrap des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont: 0.798, 1.252,
0.645 et 0.004. Ces valeurs sont assez proches de celles fournies par la méthode classique
et reportées au Chapitre 20, Section 6. L’estimation bootstrap la moins semblable à
l’estimation classique est celle de l’erreur standard de η̂2 ; or, la distribution bootstrap de
η̂2 est clairement asymétrique.
Les intervalles percentiles de couverture 95% pour η1 , η2 , η3 et η4 sont respectivement:
[30.54, 33.74], [34.34, 39.46], [34.45, 37.02], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux continus dans la Figure 1. Les intervalles
classiques correspondants, obtenus par la méthode décrite au Chapitre 20, Section 3, sont:
[30.58, 33.68], [34.09, 38.11], [34.23, 36.96], [−0.07, −0.05].
Ils sont indiqués par des segments verticaux en traitillé dans la Figure 1. Les intervalles
classiques et les intervalles percentile sont assez semblables dans cet exemple. Ce fait n’est
pas surprenant car, comme nous l’avions remarqué grâce à l’analyse graphique du Chapitre
20, Section 5, les hypothèses classiques pour l’inférence sont plausibles.
Exemple 2. Le bootstrap des résidus du modèle ω produit les histogrammes de la Figure 2.
Les estimations des erreurs standard de η̂1 , η̂2 , η̂3 et η̂4 sont respectivement 0.695, 0.926,
0.609, 0.003 et les intervalles percentiles de couverture 95% sont:
[30.78, 33.44], [34.26, 38.01], [34.44, 36.84], [−0.07, −0.05].
Les extrémités de ces intervalles sont indiquées par des segments verticaux dans la Figure 2.
Remarque. Le bootstrap fournit une approximation de la distribution conjointe de η̂1 ,
η̂2 , η̂3 et η̂4 . Cette distribution nous permet d’estimer, par exemple, la corrélation entre
les coefficients estimés. Les histogrammes dans la Figure 1 et Figure 2 représentent les
distributions marginales.
21.3

80
100

60
80
60

40
40

20
20
0

0
30 31 32 33 34 35 34 36 38 40 42

Theta 1 Theta 2
60

80 100
40

60
40
20

20
0

34 35 36 37 38 -0.08 -0.07 -0.06 -0.05

Theta 3 Theta 4

Figure 1. Histogrammes de 1000 valeurs simulées par bootstrap des paires des coefficients
de ω. Les traits verticaux continus indiquent les intervalles percentiles et les traits en
traitillé les intervalles de confiance classiques. La couverture est de 95% dans tous les cas.
80 100 120

80
60
60

40
40

20
20
0

30 31 32 33 34 34 35 36 37 38 39

Theta 1 Theta 2
60
60

40
40

20
20
0

34 35 36 37 -0.070 -0.065 -0.060 -0.055 -0.050

Theta 3 Theta 4

Figure 2. Histogrammes de 1000 valeurs simulées par bootstrap des résidus des coefficients
de ω. Les segments verticaux indiquent les intervalles percentiles de couverture 95%.

A.
c Marazzi
21.4

21.4 Test bootstrap d’une hypothèse linéaire


En général, pour effectuer un test statistique, il faut choisir une statistique de test s et
déterminer sa distribution sous l’hypothèse nulle. La méthode bootstrap estime la distri-
bution des données sous l’hypothèse nulle à l’aide d’une distribution empirique cohérente
avec l’hypothèse nulle, et dérive la distribution de s par simulation. Dans le cas de la
régression, nous considérons un modèle complet
Ω: Y ≈ θ1 X 1 + . . . + θp X p
avec p paramètres, une hypothèse linéaire H : Aθ = 0, où A est une matrice p × p de rang
r, et un modèle réduit
ω: Y ≈ η1 Z1 + . . . + ηq Zq
(q = p − r) obtenu de Ω en utilisant H (voir Chapitre 20, Section 6). L’ajustement de Ω
aux données fournit le vecteur de résidus rΩ = (rΩ,1 , . . . , rΩ,n ) et l’ajustement de ω fournit
les estimtions θ̂ω,1 , . . . , θ̂ω,n et le vecteur des résidus rω . Comme Ω est retenu en tant que
modèle adéquat, les résidus rΩ ne contiennent pas de biais et peuvent servir à estimer
la distribution des erreurs ei . On dérive donc la distribution de la statistique de test
∗ ∗
par bootstrap des résidus rΩ . Plus précisément, soit rΩ,1 , . . . , rΩ,n un échantillon simulé
d’erreurs tirées, avec remise, de {rΩ,1 , . . . , rΩ,n }. Un échantillon de réponses simulées sous
H est
yi∗ = θ̂ω,1 xi,1 + . . . + θ̂ω,q xi,q + rΩ,i

, i = 1, . . . , n.
∗ ∗ ∗
En ajustant Ω et ω à (x1 , yi ), . . . , (xn , yn ), on obtient deux vecteurs de résidus rΩ et rω∗ ,
qui permettent de calculer une valeur simulée
f ∗ = [(n − p)/(p − q)](|rω∗ |2 − |rΩ ∗ 2
| )/|rΩ ∗ 2
|

de la statistique de test f . Avec k valeurs simulées f on estime le p-value du test par
(Nombre de f ∗ > f0 )/k, où f0 est la valeur observée de f .
Exemple 3. La Figure 3 montre l’histogramme de 1000 valeurs simulées de f pour tester
l’hypothèse de parallélisme des droites représentées par le modèle Ω, Chapitre 20, Section
6. La densité de la distribution F à 2 et 21 degrés de liberté, indiquée dans la figure, est
très proche de l’histogramme. La valeur observée de f est f0 = 1.7342 (segment vertical);
le p-value bootstrap est 0.215, tandis que celui classique est 0.2009.
0.8
0.6
0.4
0.2
0.0

0 2 4 6 8

Figure 3. Histogramme de 1000 valeurs simulées de la statistique f et densité de la distri-


bution F à 2 et 21 degrés de liberté. Le trait vertical indique f0 = 1.7342.
21.5

Complément
Bootstrap d’un lissage non paramétrique.
La Figure 4 montre à nouveau les données de la Table 1, Chapitre 18. La ligne foncée, qui
représente une fonction (Age), est obtenue par un procédé de lissage non paramétrique
(“loess”). La description de ce procédé est en dehors du cadre de ce cours; voir, par
exemple, Chambers et Hastie, Eds., “Statistical Models in S”, Wadworth & Brooks/Cole,
1992; Chapitre 8. La ligne s’adapte aux données de façon locale, sans faire appel à un
modèle paramétrique unique pour l’ensemble des valeurs d’Age. Il faut la comparer au
polynôme de deuxième degré de la Figure 1, Chapitre 18. Le polynôme décroı̂t pour Age
> 10, tandis que le lissage s’aplatit à partir de Age = 5 ou 6.
Les lignes en traitillé représentent 20 lissages ∗ (Age) calculés, par le même procédé ,
sur autant d’échantillons simulés. Chaque échantillon a été obtenu en tirant au sort, avec
remise, 43 paires (Age, ln(Conc.)) de la Table 1. Le nuage donne une image palpable de
la variabilité du lissage et confirme visuellement son aplatissement.
Pour tester l’existence d’une éventuelle flexion pour Age > 10, nous avons simulé 500
échantillons et, pour chaque échantillon, nous avons calculé un lissage simulé ∗ . Pour
chaque lissage, nous avons cherché à calculer la pente
( ∗ (15.6) − ∗ (10))/(15.6 − 10),
mais seuls 329 échantillons s’étendaient jusqu’à la valeur 15.6. Ainsi, nous n’avons obtenu
que 329 pentes simulées. Les percentiles 5% et 95% de la distribution des 329 pentes ainsi
obtenus sont respectivement −0.0183 et 0.0153. On ne peut donc pas rejeter l’hypothèse
que la flexion est nulle.
o
1.8

o
o
o o
o
o o o
o o o oo o
o
1.6

o o o oo
o o o
o
log(Conc.)

o o o
o o
o

o o
1.4

o o o

o o

o o
1.2

5 10 15
Age

Figure 4. Lissage non-paramétrique (ligne foncée) des données de la Table 1, Chapitre 18,
et 20 lissages non-paramétriques simulés (lignes traitillées).

A.
c Marazzi
22.1

Chapitre 22
Introduction à la régression logistique
La régression ordinaire permet d’analyser une variable réponse quantitative en fonction
d’une ou plusieurs variables explicatives. Souvent, c’est un résultat binaire (ou dichotomi-
que) d’une expérience ou d’une observation que l’on souhaite mettre en relation avec des
variables explicatives; par exemple:
– des patients peuvent survivre ou décéder; les différentes thérapies et les facteurs de
risque peuvent être considérés comme des variables qui contribuent à expliquer la
survie ou le décès;
– des personnes peuvent être atteintes par une maladie. On souhaite étudier la relation
entre les chances d’être atteint et certains facteurs explicatifs ou facteurs de risque
(par exemple, âge, fumée, sexe);
– des personnes peuvent avoir ou ne pas avoir un emploi selon leur âge, sexe, type de
formation;
– un appareil peut fonctionner ou ne pas fonctionner; cet état peut être mis en relation
avec son âge, les conditions de l’environnement, etc.
La régression logistique permet d’étudier la relation entre une variable réponse binaire et
plusieurs variables explicatives. Ce chapitre donne une brève introduction à la régression
logistique. On trouvera un traitement plus approfondi dans le livre de Hosmer et Lemeshow
(1989), duquel cette introduction est tirée.

22.1 Introduction
En général, le résultat d’une observation binaire est appelé “succès” ou “échec”. Il est
représenté mathématiquement par une variable aléatoire Y telle que Y = 1 s’il y a succès
et Y = 0 s’il y a échec. Cette variable a une distribution de Bernoulli et on note par
p = P (Y = 1) la probabilité de succès; donc P (Y = 0) = 1 − p. L’espérance mathématique
et la variance de Y sont, respectivement, E(Y ) = p et σ 2 (Y ) = p(1 − p). Le résultat Y
peut dépendre des valeurs assumées par k variables explicatives X1 ,. . .,Xk au moment de
l’observation et nous souhaitons étudier cette relation. L’exemple suivant montre que les
techniques de régression ordinaire ne sont pas adaptées à ce type d’analyse.
Exemple 1. La Table 1 concerne un échantillon de 100 personnes, pour lesquels la présence
(CHD = 1) ou l’absence (CHD = 0) d’une maladie cardiovasculaire a été observée. On
souhaite étudier la relation entre CHD et la variable explicative âge (AGE). La Figure 1
montre un diagramme de dispersion de CHD versus AGE. Evidemment, ce diagramme
ne donne pas une information très utile même si on remarque une proportion plus élevée
de “cas” (CHD = 1) pour les personnes agées que pour les jeunes. Il n’est pas opportun
d’adapter une droite à ce diagramme. Il est, toutefois, raisonnable de décrire la relation
entre la probabilité de CHD = 1 pour une valeur donnée a de AGE, c’est à dire, la
probabilité conditionnelle P (CHD = 1|AGE = a), par une fonction mathématique simple
(modèle) de la variable AGE. La Figure 2, qui représente les fréquences relatives de CHD =
1 selon les catégories d’âge définies par la variable AGRP de la Table 1, nous suggère l’allure
de cette fonction.

A.
c Marazzi
22.2

Table 1. Age (AGE) et présence (1) ou absence (0) d’une maladie cardiovasculaire (CHD)
pour un échantillon de 100 personnes. AGRP représente des catégories d’âge et ID est le
numéro du cas.
ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD
1 1 20 0 35 3 38 0 68 6 51 0
2 1 23 0 36 3 39 0 69 6 52 0
3 1 24 0 37 3 39 1 70 6 52 1
4 1 25 0 38 4 40 0 71 6 53 1
5 1 25 1 39 4 40 1 72 6 53 1
6 1 26 0 40 4 41 0 73 6 54 1
7 1 26 0 41 4 41 0 74 7 55 0
8 1 28 0 42 4 42 0 75 7 55 1
9 1 28 0 43 4 42 0 76 7 55 1
10 1 29 0 44 4 42 0 77 7 56 1
11 2 30 0 45 4 42 1 78 7 56 1
12 2 30 0 46 4 43 0 79 7 56 1
13 2 30 0 47 4 43 0 80 7 57 0
14 2 30 0 48 4 43 1 81 7 57 0
15 2 30 0 49 4 44 0 82 7 57 1
16 2 30 1 50 4 44 0 83 7 57 1
17 2 32 0 51 4 44 1 84 7 57 1
18 2 32 0 52 4 44 1 85 7 57 1
19 2 33 0 53 5 45 0 86 7 58 0
20 2 33 0 54 5 45 1 87 7 58 1
21 2 34 0 55 5 46 0 88 7 58 1
22 2 34 0 56 5 46 1 89 7 59 1
23 2 34 1 57 5 47 0 90 7 59 1
24 2 34 0 58 5 47 0 91 8 60 0
25 2 34 0 59 5 47 1 92 8 60 1
26 3 35 0 60 5 48 0 93 8 61 1
27 3 35 0 61 5 48 1 94 8 62 1
28 3 36 0 62 5 48 1 95 8 62 1
29 3 36 1 63 5 49 0 96 8 63 1
30 3 36 0 64 5 49 0 97 8 64 0
31 3 37 0 65 5 49 1 98 8 64 1
32 3 37 1 66 6 50 0 99 8 65 1
33 3 37 0 67 6 50 1 100 8 69 1
34 3 38 0
22.3

Figure 1. Diagramme de CHD et AGE.


• • • •• •• ••••••••• •••••••••••••• •

1.0
0.8
0.6
CHD

0.4
0.2

• •••• ••• •••••••••••••••••••••••• • •• • •


0.0

20 30 40 50 60 70

AGE

Figure 2. Diagramme des proportions de personnes avec CHD = 1 selon AGE en groupes.
1.0


0.8



0.6
CHD


0.4



0.2

• •
0.0

20 30 40 50 60 70

AGE

Figure 3. p̂(AGE) = exp(−5.31 + 0.111 · AGE)/(1 + exp(−5.31 + 0.111 · AGE))


1.0


0.8



0.6
CHD


0.4



0.2

• •
0.0

20 30 40 50 60 70

AGE

A.
c Marazzi
22.4

Considérons d’abord le cas d’une seule variable explicative quantitative X. Nous nous pro-
posons d’utiliser une fonction mathématique p(x) simple comme modèle pour
P (Y = 1|X = x). S’agissant d’une probabilité, la fonction p(x) doit être bornée par
les valeurs 0 et 1. Elle ne peut donc pas être linéaire. L’Exemple 1 suggère que p(x) a une
forme sigmoı̈dale qui peut être approchée par une fonction de distribution cumulative, par
exemple, la fonction de distribution normale F = Φ. Plus précisément, on peut utiliser le
modèle
p(x) = Φ(β0 + β1 x).
Ici, β0 et β1 sont les paramètres du modèle ou coefficients. Si Φ−1 est la fonction inverse
de Φ (transformation probit), on obtient
Φ−1 (p(x)) = β0 + β1 x,
c’est-à-dire, une relation linéaire. Ce modèle, connu comme le modèle probit, a joui d’une
certaine popularité dans l’essai biologique (Finney, 1978).
Toutefois, la forme la plus utilisée est celle de la fonction de distribution logistique FL ,
c’est-à-dire:
exp(β0 + β1 x)
FL (β0 + β1 x) = .
1 + exp(β0 + β1 x)
On pose donc le modèle
p(x) = FL (β0 + β1 x)
appelé modèle logit ou logistique. La transformation inverse
FL−1 (y) = ln(y/(1 − y)), 0 < y < 1,
est appelée la transformation logit et l’expression ln(p/(1 − p)) est appelé le logit de p, noté
logit(p). Donc,

−1 p(x)
FL (p(x)) = logit(p(x)) = ln = β0 + β1 x
1 − p(x)
est une fonction linéaire. La fonction K(x) = logit(p(x)) est aussi appelée une link function
dans la théorie des modèles linéaires généralisés (McCullagh et Nelder, 1989). On observe
qu’elle peut varier entre −∞ et +∞.
Le modèle peut être étendu à l’analyse d’une variable réponse binaire Y en fonction de
plusieurs variables explicatives X1 , . . . , Xk , qui peuvent être quantitatives, en catégories
ordonnées, ou qualitatives (exprimées de façon numérique). Dans ce cas, on cherche une
fonction p(x1 , . . . , xk ) à plusieurs variables comme modèle pour la probabilité condition-
nelle P (Y = 1|X1 = x1 , . . . , Xk = xk ). Le modèle logit utilise la fonction
exp(β0 + β1 x1 + . . . + βk xk )
p(x1 , . . . , xk ) = ,
1 + exp(β0 + β1 x1 + . . . + βk xk )
c’est-à-dire la relation linéaire
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
avec link function
K(x1 , . . . , xk ) = ln(p(x1 , . . . , xk )/(1 − p(x1 , . . . , xk )).
22.5

En pratique, les coefficients β0 , β1 , . . . , βk doivent être déterminés à l’aide des données


On utilise la méthode du maximum de vraisemblance (Chapitre 8). En général, cette
méthode fournit des estimateurs avec de bonnes propriétés statistiques: les estimateurs ont
approximativement une distribution normale et leurs variances sont relativement petites.
Toutefois, ces propriétés ne sont valables que si la taille n de l’échantillon est grande et
que le nombre de paramètres est petit (McCullagh et Nelder, 1989).
Les estimations sont souvent associées à des tests d’hypothèses du type
H0 : βh = βh+1 = . . . = βk = 0
avec 1 ≤ h ≤ k. L’hypothèse H0 affirme que Xh , Xh+1 , . . . , Xk ne sont pas utiles pour
expliquer la probabilité conditionnelle de succès P (Y = 1|X1 = x1 , . . . , Xk = xk ). A l’aide
de ces tests, le problème de la construction d’un modèle adéquat – c’est-à-dire, avec un
bon degré d’ajustement et un faible nombre de paramètres – peut être abordé. Enfin, on
peut calculer des intervalles de confiance pour les coefficients β0 , β1 , . . . , βp .
Remarque. En général, les modèles logit et probit fournissent des valeurs très proches.
Toutefois, l’interprétation des paramètres du modèle logit est avantageuse, car elle s’appuie
sur des importants concepts utilisés en épidémiologie (Section 4, ci-dessous).

22.2 Estimation et tests: cas d’une seule variable explicative


Nous allons esquisser la méthode du maximum de vraisemblance pour le cas d’une seule
variable explicative X, c’est-à-dire la régression logistique simple. La vraisemblance d’un
échantillon (xi , yi ), i = 1, . . . , n (où les xi sont les valeurs observées de X et les yi celles
de Y – donc yi = 0 ou 1) est
p(xi )yi (1 − p(xi ))1−yi ,
où
exp(β0 + β1 x)
p(x) =
1 + exp(β0 + β1 x)
dépend de β0 et β1 . Comme on admet que les observations sont indépendantes, la vraisem-
blance de l’échantillon selon le modèle est
L(β0 , β1 ) = Πni=1 p(xi )yi (1 − p(xi ))1−yi .
Le critère du maximum de vraisemblance détermine les valeurs de β0 et β1 qui rendent
maximale cette vraisemblance. Dans ce but, il convient de considérer l’opposé de son
logarithme, c’est-à-dire, la fonction log-likelihood
(β0 , β1 ) = − ln L(β0 , β1 )
n
=− [yi ln p(xi ) + (1 − yi ) ln(1 − p(xi ))].
i=1

On minimise alors cette fonction en annulant ses dérivées partielles selon β0 et β1 . On


obtient ainsi les conditions
n n

(yi − p(xi )) = 0 et xi (yi − p(xi )) = 0.
i=1 i=1

Les solutions β̂0 et β̂1 de ces équations sont les estimateurs du maximum de vraisemblance
de β0 et β1 . En général, elles sont calculées à l’aide de programmes de calcul numérique.

A.
c Marazzi
22.6

A l’aide des estimations β̂0 et β̂1 , on peut estimer les probabilités de succès pour différentes
valeurs x de la variable explicative:

exp(β̂0 + β̂1 x)
p̂(x) = .
1 + exp(β̂0 + β̂1 x)

Les valeurs de la fonction p̂(x) sont parfois appelées les probabilités ajustées.

Exemple 2. Avec les données de la Table 1, on obtient les coefficients estimés indiqués
dans la Table 2, c’est-à-dire, β̂0 = −5.310 et β̂1 = 0.111 et donc

exp(−5.31 + 0.111 × AGE)


p̂(x) = .
1 + exp(−5.31 + 0.111 × AGE)

La Figure 3 donne le graphique de cette fonction qui s’adapte assez bien aux fréquences
relatives de CHD selon AGE (en groupes). La valeur du log likelihood (β̂0 , β̂1 ) est −53.677.

Table 2. Résultats de l’ajustement d’un modèle logistique


à une seule variable explicative X = AGE aux données de la Table 1.

Estimation Erreur
Variable Coefficient Standard Coeff./σ̂
AGE 0.111 0.024 4.61
Constante -5.310 1.134 -4.68
Log-likelihood=-53.677

Les programmes usuels fournissent aussi les écarts types σ̂(β̂0 ) et σ̂(β̂1 ) de β̂0 et β̂1 . Grâce
au fait que la distribution des estimateurs est approximativement normale on peut con-
struire des intervalles de confiance avec coefficient de couverture 1 − 2α:

[β̂j − σ̂(β̂j )z1−α , β̂j + σ̂(β̂j )z1−α ], j = 0, 1,

où z1−α est le quantile 1 − α de la distribution normale standard (par exemple, α = 0.025
et z0.975 = 1.96).

Enfin, on peut aussi tester l’hypothèse

H0 : βj = 0

(j = 1 ou j = 2) contre l’une des deux alternatives

H1 : βj > 0 (unilatérale) ou H1 : βj = 0 (bilatérale).


22.7

Le procédé le plus simple utilise la statistique

T = β̂j /σ̂(β̂j ).

Sous l’hypothèse, la statistique T a approximativement une distribution normale standard.


Au niveau α, on rejette donc H0 en faveur d’une alternative unilatérale H1 (par exemple)
si T > z1−α . De façon équivalente, on rejette H0 si la valeur observée t0 de T est telle que
P (T > t0 ) < α. Ce test est connu comme le test de Wald. Un autre test sera présenté
dans la section suivante.

Exemple 3. Les écarts types et les valeurs de la statistique T pour les coefficients β0 et
β1 de l’Exemple 1 sont donnés dans la Table 2. Pour l’hypothèse H0 : β1 = 0 (β1 est le
coefficient de la variable AGE) on obtient t0 = 0.111/0.024 = 4.610. A l’aide d’une table
de la distribution normale on trouve que P (T > 4.610) < 0.0001 et on conclut que la
variable AGE est importante pour expliquer la probabilité de CHD=1.

22.3 Estimation et tests: cas de plusieurs variables explicatives

Un des buts principaux de la régression logistique est celui d’examiner les effets conjoints
de plusieurs variables explicatives et de leurs interactions.

Exemple 4. Comme un petit poids à la naissance (LBW = Low Birth Weight) a une
influence négative sur le développement de l’enfant, les facteurs de risque de LBW sont
de grand intérêt en médecine préventive. Dans une étude de 189 cas, 8 facteurs de risque
potentiels (âge maternel, fumée, hypertension, etc.) ont été enregistrés. Les données
figurent dans Hosmer et Lemeshow (1989). n1 = 59 bébés avaient un poids au-dessous
de la normale et n0 = 130 un poids normal. Quatre variables ont été choisies comme
prédicteurs: l’âge de la mère (AGE), son poids aux dernières règles (PDS), le nombre
de visites médicales qu’elle a eues durant le premier trimestre (VST) et sa race, en 3
catégories, codées à l’aide de deux variables indicatrices RACE1 et RACE2.

Souvent, comme dans l’Exemple 4, des informations concernant un grand nombre de vari-
ables explicatives X1 , . . . , Xk sont disponibles. Comme dans le cas de la régression mul-
tiple ordinaire, elles forment une matrice du modèle X dont les lignes sont les vecteurs
(1, xi1 , . . . , xik ) et xik indique la i-ème observation (observation du cas i) de la variable k.
Le modèle
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk ,
est alors ajusté par la méthode du maximum de vraisemblance. Dans ce but, on résout
un système de (k + 1) équations pour les coefficients β0 et β1 , . . . , βk , que l’on obtient en
annulant les dérivées partielles de la fonction log likelihood (β0 , β1 , . . . , βp ):
n
∂ (β0 , β1 , . . . , βk ) 
= (yi − p(xi1 , . . . , xip )) = 0,
∂β0 i=1
n
∂ (β0 , β1 , . . . , βk ) 
= xij (yi − p(xi1 , . . . , xip )) = 0, j = 1, . . . , k.
∂βj i=1

A.
c Marazzi
22.8

L’interprétation des données fournie par la régression multiple est supérieure à celle fournie
par la régression simple. La régression multiple tient compte des éventuelles associations
entre les variables explicatives. Les coefficients de chaque variable sont épurés des contri-
butions fournies par les autres variables et représentent, donc, des effets propres.
Exemple 4 (continuation). La Table 3 donne les coeffiecients estimés d’une régression
logistique de LBW en fonction de AGE, PDS, RACE (RACE1 et RACE2) et VST. La
dernière colonne donne les valeurs de la statistique β̂j /σ̂(β̂j ) pour le test de Wald de chaque
coefficient. On voit immédiatement que les effets de PDS et RACE1 sont significatifs
(P < 0.05). Au contraire, les effets de AGE et de VST sont nettement non-significatifs et
ces variables peuvent être écartées du modèle. Toutefois, RACE2 ne peut pas être éliminée
puisqu’elle est utilisée en combinaison avec RACE1.

Table 3. Estimation des coefficients d’une régression logistique multiple


sur des données concernant des bébés de faible poids à la naissance.

Estimation Erreur
Variable Coefficient Standard σ̂ Coeff./σ̂
AGE -0.024 0.034 -0.71
PDS -0.014 0.00652 -2.14
RACE1 1.004 0.497 2.02
RACE2 0.433 0.362 1.20
VST -0.049 0.167 -0.30
Constante 1.295 1.069 1.21
Log-Likelihood=-111.286

Pour tester une hypothèse linéaire qui concerne plusieurs coefficients on utilise le test du
rapport de vraisemblance. Supposons que le modèle courant (ou complet) soit

K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βk xk

et que l’hypothèse à tester soit

H0 : βh = βh+1 = . . . = βk = 0

avec 1 ≤ h ≤ k (c’est le type d’hypothèse linéaire le plus fréquent). Le modèle réduit est
donc
K(x1 , . . . , xk ) = β0 + β1 x1 + . . . + βh−1 xh−1 .
On définit d’abord la déviance du modèle courant par rapport au modèle saturé (voir note
ci-dessous):

vraisemblance du modèle courant


D(modèle courant) = −2 ln .
vraisemblance du modèle saturé
La déviance est une mesure de comparaison entre les probabilités p̂(x∗i ) ajustées à l’aide
du modèle courant et celles ajustées à l’aide du modèle saturé, c’est-à-dire, les fréquences
observées.
22.9

La statistique du test du rapport de vraisemblance est


vraisemblance du modèle réduit


G = −2 ln
vraisemblance du modèle complet
= D(modèle réduit) − D(modèle complet)
= −2 [ln(vraisemblance du modèle réduit) − ln(vraisemblance du modèle complet)] .
Dans son esprit, ce calcul est similaire à la différence des sommes des carrés des résidus
dans la régression ordinaire. Sous l’hypothèse H0 , la statistique G a approximativement
une distribution χ2 avec k − h + 1 degré de liberté. On rejette donc H0 , au niveau α, si la
valeur observée g0 de G dépasse le quantile 1 − α de la distribution χ2 à k − h + 1 degré
de liberté.
Exemple 4 (continuation). On peut tester si l’ensemble des 5 variables de la Table 3
explique la probabilité d’une réponse positive de façon significative. L’hypothèse est:
H0 : β1 = β2 = β3 = β4 = β5 = 0.
La vraisemblance du modèle complet (à 6 coefficients) doit être comparée à celle du modèle
réduit K(x1 , . . . , x5 ) = β0 . On trouve
ln(vraisemblance du modèle complet) = −111.29,
ln(vraisemblance du modèle réduit) = −117.34.
Donc
g0 = −2((−117.34) − (−111.29)) = 12.1
et P (G > 12.1) = 0.033 (G a 5 = 6 − 1 degrés de liberté); le modèle complet est donc
significatif. Par analogie, on pourrait tester s’il est opportun d’inclure les variables VST et
AGE en supposant que PDS, RACE1 et RACE2 soient incluses de toute façon. La vraisem-
blance d’un modèle à 6 coefficients (5 variables et un intercept) devrait être comparée à
celle d’un modèle à 3 variables; G aurait 6 − 3 = 3 degrés de liberté.
Exemple 5. Pour le cas d’une seule variable explicative, il n’y a que trois “modèles
courants” possibles: le modèle K(x) = β0 + β1 x, le modèle sans intercept K(x) = β1 x et
le modèle constant K(x) = β0 . Si H0 : β1 = 0 on a k = h = 1, k − h + 1 = 1 et on obtient

n

D(modèle courant) = −2 [yi∗ ln(p̂(x∗i )/yi∗ ) + (1 − yi∗ ) ln((1 − p̂(x∗i ))/(1 − yi∗ ))] .
i=1

Le signe ∗ indique que des “cas similaires” (avec la même valeur de la variable explicative)
ont été regroupés (comme dans la Figure 2). En d’autres termes, yi∗ est la fréquence relative
de succès pour X = xi ; c’est aussi l’estimation de p(x∗i ) sous le modèle saturé. Avec les
données de la Table 1 et H0 : β1 = 0 on trouve g0 = 29.31. Comme G a approximativement
une distribution χ2 à 1 degré de liberté, P (G > 29.31) est inférieur à 0.001.
Note. Un modèle saturé est un modèle qui a autant de paramètres que de points qu’il
doit ajuster; par exemple, une droite de régression lorsque les données représentées dans
le diagramme de dispersion sont regroupées dans deux seuls points.

A.
c Marazzi
22.10

22.4 Interprétation des coefficients


Dans le cas de la régression ordinaire simple, une variation unitaire dans la valeur x de la
variable X produit un changement de β1 unités dans l’espérance conditionnelle E(Y |X =
x) de Y . Pour la régression logistique à une seule variable explicative la relation entre p(x)
et x est donnée par le logit:

p(x)
ln = β0 + β1 x.
1 − p(x)
Donc, un incrément unitaire en x produit une variation de “β1 logits”. Nous allons préciser
ce que cette expression signifie pour différents types de variables explicatives X.
Variable explicative binaire. Nous considérons la régression logistique simple, mais la
généralisation au cas multiple est possible. Une variable explicative binaire est utilsée
pour indiquer la présence (X = 1) ou l’absence (X = 0) d’une certaine condition X. Pour
mesurer l’association entre X et Y , où Y = 1 indique la présence d’une maladie, on utilise
en épidémiologie le odds ratio ou rapport des cotes (Fleiss (1981)). La cote (odds) de Y = 1
pour les individus avec X = 0 est définie comme
P (Y = 1|X = 0) p(0)
Ω(0) = = .
1 − P (Y = 1|X = 0) 1 − p(0)
Par analogie, on définit la cote de Y = 1 en présence de X = 1:
P (Y = 1|X = 1) p(1)
Ω(1) = = .
1 − P (Y = 1|X = 1) 1 − p(1)
La cote est donc le rapport entre la probabilité d’être malade et la probabilité d’être sain
et son logarithme est le logit. Enfin, l’odds ratio pour comparer la présence et l’absence de
X est le rapport
o(1, 0) = Ω(1)/Ω(0).
Si l’association entre X et Y est faible, P (Y = y|X = 0) ≈ P (Y = y|X = 1) et o(1, 0) est
proche de 1. Inversement, un odds ratio supérieur ou inférieur à 1 indique une association
entre X et Y . Avec p(x) = exp(β0 + β1 x)/(1 + exp(β0 + β1 x) on obtient
o(1, 0) = exp(β1 )
et donc
β1 = ln(o(1, 0)) = logit(p(1)) − logit(p(0)).
Le coefficient β1 indique donc de combien le logit de devenir malade est augmenté par
l’exposition à la condition X.
Remarques
1. On peut estimer o(1, 0) par ô(1, 0) = exp(β̂1 ) et obtenir un intervalle de confiance pour
o(1, 0) en prenant l’exponentielle (exp(·)) des limites d’un intervalle de confiance pour β1 .
2. Si les valeurs de P (Y = 1|X = 0) et de P (Y = 1|X = 1) sont très petites, les odds Ω(1)
et Ω(0) sont proches de leur numérateur et la valeur numérique de l’odds ratio est proche
de celle du risque relatif r(1, 0) = P (Y = 1|X = 1)/P (Y = 1|X = 0). L’approximation
suivante du risque relatif est toutefois meilleure: r ≈ o + o[1 − o]p(0).
22.11

Variable explicative qualitative à plusieurs niveaux. Pour l’interprétation d’une variable


explicative qualitative (facteur) à plusieurs niveaux, nous nous servons d’un exemple.
Exemple 6. La Table 4 fournit les fréquences de Y = 1 (CHD présent) et de Y = 0 (CHD
absent) selon les 4 catégories de la variable Race à 4 niveaux: Blanche, Noire, Hispanique,
Autre.

Table 4. Classification de données hypothétiques selon CHD et Race, pour 100 sujets.
CHD Blanche Noire Hispanique Autre Total
Présent 5 20 15 10 50
Absent 20 10 10 10 50
Total 25 30 25 20 100
Odds ratio (ô) 1.0 8.0 6.0 4.0
ln(ô) 0.0 2.08 1.79 1.39
Int. conf. à 95% (2.3,27.6) (1.7,21.3) (1.1,14.9)

Sans utiliser de modèles, les odds ratios pour comparer chaque niveau de Race à Race
Blanche peuvent être estimés à l’aide des tableaux 2×2 correspondants.
Pour utiliser le modèle de régression, il faut coder numériquement la variable Race à 4
niveaux. Le codage usuel utilise 3 variables indicatrices D1 , D2 et D3 , par exemple celles
définies dans la Table 5, où Blanche est le niveau de référence. (Comme pour la régression
multiple, pour coder un facteur à k niveaux, il faut utiliser k − 1 variables indicatrices.)
Table 5. Codage du facteur Race avec niveau de référence Blanche.
Variables
Race D1 D2 D3
Blanche 0 0 0
Noire 1 0 0
Hispanique 0 1 0
Autre 0 0 1

Les coefficients estimés β̂1 , β̂2 et β̂3 de D1 , D2 et D3 sont respectivement les logarithmes
des odds ratios qui figurent dans la Table 4. Par exemple:
ln(ô(Noire,Blanche)) = logit(p̂(Noire)) − logit(p̂(Blanche))
= [β̂0 + β̂1 (1) + β̂2 (0) + β̂3 (0)] − [β̂0 + β̂1 (0) + β̂2 (0) + β̂3 (0)] = β̂1

Donc β̂1 = 2.079, β̂2 = 1.792, β̂3 = 1.386. En outre,


p(Blanche) = exp(β0 )/(1 + exp(β0 )) = 1/5
d’où β0 = ln(1/4) = −1.386.

A.
c Marazzi
22.12

Variable explicative continue. Soit X une variable explicative continue et soit p(x) =
P (Y = 1|X = x). Considérons l’odds ratio correspondant à deux valeurs x1 et x0 de X:
p(x1 )/(1 − p(x1 ))
o(x1 , x0 ) = .
p(x0 )/(1 − p(x0 ))
Si
K(x) = β0 + β1 x,
alors β1 est le log de l’odds ratio correspondant à un incrément unitaire:
β1 = ln(o(x + 1, x)).
Si on s’intéresse à un incrément de c unités, on obtient évidemment,
K(x + c) − K(x) = cβ1 , c’est-à-dire, o(x + c, x) = exp(cβ1 ).

Remarque. On peut facilement obtenir un intervalle de confiance avec coefficient de cou-


verture 1 − 2α pour o(x + c, x). L’intervalle est:
[exp(cβ̂1 − z1−α cσ̂(β̂1 ), exp(cβ̂1 + z1−α cσ̂(β̂1 )].

Exemple 7. Avec les données de la Table 1 on avait obtenu K̂(AGE) = −5.310 + 0.111 ×
AGE. L’odds ratio pour un incrément de AGE de 10 ans est alors o(AGE+10, AGE) = 3.03
et un intervalle de confiance de couverture 95% est
[exp(10 × 0.111 − 1.96 × 10 × 0.024), exp(10 × 0.111 + 1.96 × 10 × 0.024)] = [1.90, 4.86].

Variable explicative en catégories ordonnées. Une variable en catégories ordonnées (ou


variable ordinale) est une variable dont les modalités ne sont pas numériques mais peuvent
être ordonnées. Un exemple est une variable avec modalités Bon, Satisfaisant, Suffisant,
Insuffisant. Si le nombre de modalités est supérieur à 3, il convient généralement de traiter
une variable ordinale comme si elle était quantitative (et coder les modalités avec leur
rang); dans le cas contraire, il faut la traiter comme un facteur.
22.13

Interactions. Dans la régression logistique multiple, l’effet d’une variable explicative Xj


sur la réponse moyenne est ajusté en tenant compte des autres variables Xk , avec k = j,
comme dans la régression multiple ordinaire. Supposons, par exemple, que le modèle
K(x1 , x2 ) = β0 + β1 x1 + β2 x2
soit utilisé pour expliquer Y = CHD à l’aide de X1 = AGE et de X2 = SEXE.
(Evidemment, il faudrait connaı̂tre le sexe de chaque sujet, mais la Table 1 ne donne
pas cette information.) Si AGE et SEXE étaient associés, l’effet d’AGE constaté dans
l’analyse univariée (Exemples 1, 2, 3) pourrait être dû au sexe. En effet, CHD est plus
fréquent chez les hommes que chez les femmes, mais les chances de CHD augmentent aussi
avec l’âge, et les femmes atteignent en moyenne un âge plus élevé. La régression multiple
permet d’évaluer l’effet propre du sexe en ayant pris en compte celui propre à l’âge.
Ce qu’on vient d’affirmer est valable s’il n’y a pas d’interaction entre X1 et X2 . Dans
notre exemple, une interaction impliquerait que l’effet du sexe varie en fonction de l’âge
(il serait donc spécifique à l’âge). La Figure 4 illustre ce point: si les logits de CHD en
fonction de AGE pour SEXE=hommes et SEXE=femmes sont parallèles (lignes l1 et l2 ),
l’effet du sexe ne dépend pas de l’âge: il n’y a pas d’interaction. Si les logits ne sont pas
parallèles (lignes l2 et l3 ), l’effet du sexe varie selon l’âge et il y a interaction. (Dans ce
cas, l’odds ratio pour comparer les sexes est aussi dépendant de l’âge.)
Pour inclure cette interaction dans le modèle, on utilise une variable explicative supplémen-
taire définie comme le produit X1 · X2 , donc:
K(x1 , x2 , x3 ) = β0 + β1 x1 + β2 x2 + β12 x1 x2 .
La présence de l’interaction peut être vérifiée par un test de l’hypothèse H0 : β12 = 0.
En définitive, la meilleure façon d’interpréter une régression logistique multiple est de cal-
culer et de comparer les valeurs de p̂(x1 , . . . , xp ) pour différents jeux de valeurs (x1 , . . . , xp ).
Par exemple, on pourrait comparer les probabilités de CHD pour les fumeurs-hommes-
obèses et pour les non-fumeurs-femmes-obèses.
6

l3
5

l2
4

l1
Log(Odds+4)

3
2
1
0

30 40 50 60 70

AGE

Figure 4. Logit en fonction de AGE pour 3 modèles différents.

A.
c Marazzi
Chapitre 23
Introduction à l’analyse de survie avec R

23.1 Introduction

L’analyse de survie est un domaine de la statistique qui a pour objet l’étude de la durée qui s’écoule
entre un temps d’origine et un certain événement d’intérêt. L’événement typique - qui donne son
nom à la discipline - est le décès. Toutefois, les méthodes qui se regroupent sous le terme de "analyse
de survie" peuvent être (et ont été) appliquées à l’étude de toute une variété d’événements, comme
par exemple l’occurrence d’une maladie et sa récurrence, le décès après une intervention chirurgicale
(biostatistique), le récidivisme criminel, le divorce, la naissance d’un enfant (science sociales), la panne
d’une machine (ingénierie).
La variable d’intérêt en analyse de survie est donc le temps. Il s’agit d’une variable toujours
positive et d’habitude continue. Elle est souvent caractérisée par une information incomplète, due
au fait que quelques uns des sujets pris en compte peuvent ne pas avoir connu l’événement d’intérêt
avant la …n de la période d’observation. Pour ces individus le chercheur ne connaît pas le temps exact
de l’événement, mais il sait seulement que l’événement a eu lieu à une durée au moins égale à un
certain temps t. Dans ce cas on dit que la durée est censurée.
En absence de censure, l’analyse de la variable "durée" pourrait eventuellement être conduite à
l’aide de procédures standard de régression. La présence de données censurées rend ces techniques
standard inadéquates, et rend donc indispensable l’adoption de méthodes ad hoc.

23.2 La censure

Une donnée censurée est une donnée dont on dispose d’une information incomplète. Il y a essentielle-
ment deux raisons pour lesquelles une censure peut se véri…er:

Le sujet ne connaît pas l’événement avant la …n de la durée dobservation. On parle dans ce


cas de censure …xe, parce que si l’étude se termine après une période T (mesurée en jours,
semaines, années,...), tous les sujets qui ne connaissent pas l’événement avant la …n de l’étude
ont un temps de censure …xe égal a T:

1
Le sujet sort de l’étude, sans connaître l’événement, avant qu’elle ne soit …nie (lost to follow-up).
Dans ce cas on aura une censure de type random, parce les sujets censurés de cette façon ont
chacun un temps de censure di¤érent, qui n’est pas déterminé par la durée de l’étude elle même.

Considérons par exemple une étude de la survie de patients qui ont été soumis à une transplanta-
tion du coeur et qui sont suivis après l’opération pendant une période de 52 semaines. Dans ce cas le
temps origine est représenté par le moment de la transplantation et l’événement d’intérêt est le décès.
Dans la Figure 1 sont représentées les histoires de survie de cinq patients. Un cercle plain indique
un événement observé; un cercle vide représente un événement non observé; un carré représente une
censure. Une ligne continue représente une période pendant laquelle les sujets sont observés être
soumis au risque de connaître l’événement; une ligne pointillée, une période pendant laquelle un sujet
reste soumis au risque, sans qu’il ne soit observé.
La première observation est non-censurée; le deuxième sujet est censuré car il est encore vivant à
la …n des 52 semaines de l’étude (censure …xe); le troisième patient sort de l’étude, et donc la durée
correspondante est censurée, 20 semaines après la transplantation, par exemple parce qu’il déménage
et il est suivi par d’autres médecins (censure random). Les deux censures considérées représentent
des cas de censure à droite (la seule qui sera prise en compte dans la suite). Il est toutefois intéressant
de remarquer la possibilité d’une censure à gauche (truncation) qui se véri…e quand un sujet entre
dans l’étude un certain temps après le début de l’étude même (late entry). C’est le cas des patients 4
et 5, dont le premier connaît l’événement avant la …n de l’étude, alors que le deuxième est sujet aussi
à une censure a droite.
Dans les méthodes d’analyse de survie sont considérés comme "soumis au risque" à un certain
temps t tous les sujets qui sont encore observés en t, et donc qui n’ont pas été censurés avant t. Or,
pour que les estimateurs des temps ou des probabilités de survie soient non biaisées, il faut assumer
que les sujets observés en t soient représentatifs de tous les sujets, même de ceux qui sont sortis de
l’étude avant t. Ceci équivaut à assumer que le mécanisme de censure est indépendant du temps. On
parle dans ce cas de censure non-informative.
Si T est la variable aléatoire qui représente la durée jusqu’à l’événement et C la variable aléatoire
qui représente la durée jusqu’à la censure, l’hypothèse d’indépendance entre T et C assure que:

P (t < T < t + t j C > t) = P (t < T < t + t j C < t) :

2
La probabilité de "survivre" de t à (t + t) est la même pour ceux qui sont encore dans l’étude à
l’instant t et pour ceux qui sont censurés avant.

Début de l’étude Fin de l’étude

Sujets 3

0 20 40 60 80 100

Temps de l’origine de l’étude

Figure 1: Survie de patients soumis à une transplantation du coeur. Di¤érentes trajectoires indi-
viduelles.

23.3 Terminologie et notation

On indique avec T la variable aléatoire qui représente le time-to-event d’un individu. On se limite au
cas d’une variable T continue. Soit f la fonction de densité de T et F sa fonction cumulative:
Z t
F (t) = P (T t) = f (s) ds: (23.1)
0

Dans le contexte de l’analyse de survie on est souvent intéressé par le complément à un de la fonction
cumulative, la fonction de survie S, qui donne la probabilité pour un individu de survivre jusqu’à un
certain temps t: Z 1
S(t) = 1 F (t) = P (T > t) = f (s) ds: (23.2)
t

3
Une des notions les plus importantes en analyse de survie est celle de fonction de risque h. Celle-ci est
dé…nie comme la limite quand t ! 0 de la probabilité que la durée T soit comprise dans l’intervalle
[t; t + t), sachant qu’elle est au moins égal à t, divisée par la longueur de l’intervalle:

Pr (t T <t+ t j T > t)
h (t) = lim : (23.3)
t!0 t

On montre facilement que la fonction de risque peut être écrite comme le rapport entre la fonction
de densité et la fonction de survie:

P (t
T < t + t)
h (t) = lim = (23.4)
t!0 tP (T > t)
1 P (t T < t + t) f (x)
= lim =
P (T > t) t!0 t S (x)

La fonction de risque h (t) caractérise le risque instantané de connaître l’événement à un certain


temps t, étant donné que l’individu est encore soumis au risque en t. Il est utile de remarquer que la
fonction de risque ne représente pas une probabilité conditionnelle, dans le même sens que la fonction
de densité ne représente pas une probabilité. En e¤et, si la fonction de risque ne peut pas être
négative, elle peut par contre avoir des valeurs supérieures à un.
On dé…nit en…n la fonction de risque cumulé H de la façon suivante:
Z t
H(t) = h(s) ds: (23.5)
0

Les fonctions f; F; S; h and H donnent des spéci…cations équivalentes de la distribution de la


variable aléatoire T . On peut facilement dériver des relations entre les quantités en question:
Z t Z t
f (s)
H(t) = h(s) ds = ds = ln S (t) (23.6)
0 0 S (s)

et donc:
H(t)
S(t) = e (23.7)

H(t)
F (t) = 1 e (23.8)

H(t)
f (t) = h(t) e (23.9)

4
23.4 Estimation non paramétrique de la fonction de survie: l’estimateur
de Kaplan Meier

Quand on travaille avec des données censurées, on doit faire face à deux processus non entièrement
observés. D’un côté les durées, représentées par la variable aléatoire T , de l’autre les censures, que
l’on peut indiquer avec une autre variable aléatoire C. Les deux variables sont non observées; ce
que l’on observe c’est le minimum entre les deux: Y = min(T; C) et une variable indicatrice D
qui donne valeur 1 aux durées observées qui aboutissent à un événement et 0 aux durées censurées:
D = I (T < C).
Les données se présentent donc dans la forme: (yi ; di ), i = 1; :::; n, où y1 ; :::; yn sont les durées
observées sur les n individus de l’échantillon et d1 ; ::::dn représentent les indicateurs de censure,
prenant la valeur 1 si la durée correspondante représente un événement et la valeur 0 si elle correspond
à une censure.
Soient y(1) ; :::y(k) (k n) les temps, distincts et ordonnés, auxquels un ou plusieurs événements
sont observés. Nous souhaitons estimer, pour chaque y(i) (i = 1; :::; k), la probabilité de survivre au
moins jusque y(i) (S y(i) = P T > y(i) ). La méthode d’estimation de Kaplan Meier (Kaplan et
Meier 1958) correspond au calcul d’une probabilité conditionnelle de survie, notamment la probabilité
de survivre au moins jusque y(i) sachant que le sujet est encore "vivant" (soumis au risque de connaître
l’événement) à l’instant précédent y(i 1) : P T > y(i) jT > y(i 1) . Cette probabilité est beaucoup
plus facile à estimer à partir des données d’un échantillon, puisqu’il su¢ t de rapporter le nombre
d’événements qui ont lieu en y(i) au nombre de sujets qui sont observés comme étant soumis au
risque juste avant l’instant y(i) (probabilité conditionnelle de connaître l’événement) et de calculer le
complément à 1 de ce rapport (probabilité conditionnelle de ne pas connaître l’événement).

5
L’estimateur se base donc sur les relations:

S y(i) = P T > y(i) (23.10)

= P T > y(i) jT > y(i 1) P T > y(i 1) +

P T > y(i) jT y(i 1) P T y(i 1)

= P T > y(i) jT > y(i 1) P T > y(i 1) +0

= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(i 2)

= P T > y(i) jT > y(i 1) P T > y(i 1) jT > y(i 2) P T > y(0)

où y(0) représente le moment origine de l’étude.


Etant donné que P T > y(0) = 1, la relation (23.10) peut être écrite de la façon suivante:

i
Y
S y(i) = P T > y(j) jT > y(j 1)
j=1
i
Y
= 1 P T y(j) jT > y(j 1)
j=1
i
Y
= 1 P T = y(j) jT > y(j 1) (23.11)
j=1

et un estimateur de S y(i) est donné par:

i
Y e(j)
Sb y(i) = 1 (23.12)
n(j)
j=1

ou e(j) représente le nombre d’événements qui ont lieu à l’instant y(j) et n(j) le nombre d’individus
qui sont soumis au risque de connaître l’événement juste avant l’instant y(j) . La quantité n(j) est
déterminée en soustrayant à n (le nombre total de sujets engagés dans l’étude) le nombre de sujets
qui ont connu l’événement ou qui sont censurés avant l’instant y(j) . Dans les intervalles où il ne se
véri…e pas un événement la fonction de survie estimée reste constante:

Sb (t) = Sb y(i) y(i) < t < y(i+1)

6
L’estimateur peut donc être réécrit de la façon suivante:

Y e(j)
Sb (t) = 1 : (23.13)
n(j)
j:y(j) t

id clinic status survt prison dose


1 1 1 428 0 50
2 1 1 275 1 55
3 1 1 262 0 55
4 1 1 183 0 30
5 1 1 259 1 65
6 1 1 714 0 55
7 1 1 438 1 65
8 1 0 796 1 60
9 1 1 892 0 50
10 1 1 393 1 65
. . . . . .
. . . . . .

Tableau 1: Données addict (Calehorn et al. 1991). Cf. document joint "addict.dat".

Considérons à titre d’exemple les données "addicts", issues d’une étude australienne (Calehorn
et al. 1991) qui avait l’objectif de suivre un échantillon de n = 238 sujets dépendants de l’héroine.
L’étude voulait comparer l’e¤et de deux di¤érents traitements à la méthadone (clinic=1,2) sur le
temps - en jours - pendant lequel les patients restaient sous traitement, l’événement étudié étant la
rechute (survt). Pour chaque patient on connaît aussi la quantité de méthadone administrée, en
mg/jour (dose), et si oui ou non il a été en prison avant le traitement (prison). La censure (status)
correspond aux patients qui sont encore dans la clinique à la …n de l’étude (Tableau 1).
Pour l’instant nous sommes intéressés seulement aux durées observées y1 ; :::; yn et aux indicateurs
de censure d1 ; :::dn . Dans le Tableau 2 est détaillé le calcul des valeurs de l’estimateur de Kaplan
Meier pour les durées jusque 29 jours. Dans la première colonne sont indiquées les durées pour
lesquelles on observe au moins un événement ou une censure. On remarque que seulement les durées

7
qui correspondent à un événement (en gras) donnent lieu à des variations de l’estimateur de Kaplan
Meier Sb y(i) . Les lignes correspondant à des censures (que l’on à introduites a…n de pouvoir e¤ectuer
les calculs) peuvent en fait être ignorées quand on regarde les résultats (cf. output R dans le Tableau
3). La Fig. 2 montre les valeurs de l’estimateur de Kaplan Meier en fonction du temps (les croix sur
le graphique correspondent à des durées censurées). Les lignes pointillées indiquent les intervalles de
con…ance à 95%. Ces derniers sont obtenus de la façon suivante pour chaque instant y(i) (i = 1; :::; k):

Sb y(i) 1:96 b Sb y(i)

où b Sb y(i) - estimation de l’erreur standard de Sb y(i) , est calculé à l’aide de la formule de


Greenwood : v
u i
uX e(j)
b Sb y(i) = Sb y(i) t i = 1; :::; k:
j=1
n(j) n(j) e(j)

Dans la Fig. 3 l’estimateur de Kaplan Meier est obtenu séparément pour chacun des deux traitements
à la méthadone (variable clinic). On peut observer que, étant donnée une durée quelconque t,
l’estimation selon Kaplan Meier de la probabilité de "survivre" au moins jusque t est plus élevée pour
les patients soumis au traitement 2.

Jour (y(i)) Evénements (e(i)) Censures n(i) 1-(e(i) / n(i)) S(y(i))

2 0 2 n = 238 1 - (0 / 238) = 1.000 1


7 1 0 238-(0+2) = 236 1 - (1 / 236) = 0.9958 0.9958
13 1 0 236-(1+0) = 235 1 - (1 / 235) = 0.9957 0.9915
17 1 0 235-(1+0) = 234 1 - (1 / 234) = 0.9957 0.9873
19 1 0 234-(1+0) = 233 1 - (1 / 233) = 0.9957 0.9831
26 1 0 233-(1+0) = 232 1 - (1 / 232) = 0.9957 0.9788
28 0 2 232-(1+0) = 231 1 - (0 / 231) = 1.000 0.9788
29 1 0 231-(0+2) = 229 1 - (1 / 229) = 0.9956 0.9745
. . . . . .
. . . . . .

Tableau 2: Calcul de l’estimateur de Kaplan Meier. Données addict.

8
time n.risk n.event survival std.err lower 95% CI upper 95% CI
7 236 1 0.996 0.00423 0.9875 1.000
13 235 1 0.992 0.00597 0.9799 1.000
17 234 1 0.987 0.00729 0.9731 1.000
19 233 1 0.983 0.0084 0.9667 1.000
26 232 1 0.979 0.00937 0.9606 0.997
29 229 1 0.975 0.01026 0.9546 0.995
30 228 1 0.97 0.01107 0.9488 0.992
33 227 1 0.966 0.01182 0.9431 0.989
35 226 2 0.957 0.01317 0.932 0.984

Tableau 3: Estimateur de Kaplan Meier, output en R. Données addict. Cf. code R dans le document
joint "surv.r".

Figure 2: Estimation de Kaplan Meier de la fonction de survie relative aux données addict. Cf.
code R dans le document joint "surv.r".

9
Figure 3: Estimation de Kaplan Meier de la fonction de survie pour chacun des deux traitements à
la méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".

23.5 Modèles paramétriques

23.5.1 Di¤érentes distributions

L’estimateur de Kaplan Meier est un instrument très utile lorsqu’on s’intéresse à l’estimation d’une
fonction de survie. Parfois il peut cependant être intéressant de spéci…er une forme paramétrique de
la distribution des durées non observées, de façon à pouvoir résumer toute l’information relative à
cette variable à l’aide d’un petit nombre de paramètres. En principe toute distribution de variable
aléatoire positive peut être utilisée pour représenter les durées; les plus utilisées en analyse de survie
sont les distributions exponentielle, de Gompertz, Gamma, de Weibull, log-logistique et log-normale.
Dans la suite on va considérer et comparer seulement trois de ces distributions: exponentielle, Weibull
et log-normale. Pour un développement plus complet des approches paramétriques, voir en français
le texte "Analyse démographique des biographies" (Courgeau et Lelièvre, 1989).

10
1) Distribution exponentielle
C’est la distribution la plus simple. On l’obtient en considérant que la fonction de risque h (t) est
une constante, c’est à dire qu’elle ne varie pas dans le temps (Figure 4a):

h (t) = ( > 0) (23.14)

Comme on l’a vu précédemment (Section 3), si on connaît l’expression de la fonction de risque on


peut facilement obtenir l’expression des autres fonctions caractérisant la variable aléatoire T :

H (t) = t

S (t) = exp ( t)

f (t) = exp ( t)

2) Distribution de Weibull
Il s’agit d’une généralisation de la distribution exponentielle. Elle comporte une fonction de risque
h (t) qui peut être croissante ou décroissante au cours du temps. La fonction de risque de Weibull est
dé…nie de la façon suivante:
1
h (t) = t ( > 0; > 0) (23.15)

On remarque que si le paramètre est égal à 1 on retrouve la distribution exponentielle. Si est


supérieur à l’unité la fonction de risque est uniformément croissante; si et inférieur à l’unité la
fonction de risque est uniformément décroissante (Figure 4b). Les autres fonctions s’obtiennent à
partir de h (t):

H (t) = t

S (t) = exp ( t )
1
f (t) = t exp ( t )

3) Distribution Log-normale
La distribution log-normale représente un cas de fonction de risque non monotone. Dans le cas

11
de la loi log-normale, il est utile de considérer d’abord la fonction de densité:
!
2
1 1 log t
f (t) = p exp ( > 0; > 0) (23.16)
t 2 2

où et sont la moyenne et la déviation standard de la variable W = log T , qui se distribue selon


une loi normale. Les autres fonctions s’obtiennent à partir de f (t):

log t
S (t) = 1

log t
H (t) = log 1
!
2
1 1 log t
h (t) = p exp
t 2 (1 ((log t ) = )) 2

où ( ) représente la fonction cumulative de la loi normale standard. La Figure 4c reporte les valeurs
de la fonction h (t) dans le cas log-normal, pour = 0:4 et di¤érentes valeurs de .

12
Figure 4: Fonctions de risques correspondant aux distributions exponentielle, de Weibull et log-
normale.

23.5.2 Véri…cation empirique des modèles

Voyons maintenant comment on peut véri…er de façon empirique si une des distributions précédem-
ment présentées peut être utilisée pour décrire les données dont on dispose (cfr par exemple Lawless
2003). Commençons par le modèle le plus simple, le modèle exponentiel. Si on regarde l’expression de
la fonction de survie, on remarque que le logarithme de cette fonction peut être écrit comme fonction
linéaire du temps:
log S (t) = t

13
Il s’agit de voir si une telle relation linéaire est présente dans les données. Pour cela on utilise
l’estimateur non-paramétrique Sb (t) de la fonction de survie présenté dans la Section 4 (estimateur
de Kaplan Meier) et on représente dans un graphique le logarithme de cet estimateur en fonction
du temps. L’hypothèse d’une distribution exponentielle est véri…ée si on obtient une droite de pente
négative.

Figure 5: Véri…cation graphique du modèle exponentiel. Dataset addict. Cf. code R dans le document
joint "surv.r".

Puisque les points ne semblent pas dessiner une droite, le modèle exponentiel ne peut pas être
utilisé pour représenter les données du dataset "addicts". Le contrôle empirique de la validité des
distributions de Weibull et log-normale se base sur le même principe. Il s’agit de trouver des transfor-
mations de S (t) qui présentent, selon le modèle, une relation linéaire avec le temps (ou une fonction
du temps) et de véri…er cette relation sur les données à l’aide d’un estimateur non-paramétrique. On
peut véri…er facilement que, dans le cas de la distribution de Weibull:

log ( log S (t)) = log + log t

14
Alors que dans le cas log-normal:

1 1
(1 S (t)) = + log t

1
ou (p) est le quantile p de la loi normale standard. Il y a donc dans le modèle de Weibull une
relation linéaire entre log ( log S (t)) et log t; et dans le modèle log-normal une relation linéaire entre
1
(1
S (t)) et log t. Les deux peuvent être véri…ées en remplaçant S (t) par l’estimateur de Kaplan
meier Sb (t) et en représentant sur un graphique respectivement les points log t; log log Sb (t) ou
log t; 1
1 Sb (t) , qui devraient se disposer sur une droite si l’une ou l’autre des distributions
est véri…ée (Figure 6). Dans notre exemple les données apparaissent pouvoir être mieux représentées
par une distribution de Weibull.

Figure 6: Véri…cation graphique des modèles de Weibull et log-normal. Dataset addict. Cf. code R
pour chacune des deux distribution dans le document joint "surv.r".

23.5.3 Estimation d’un modèle paramétrique

Les modèles paramétriques décrits précédemment peuvent être estimés à l’aide de la méthode du
maximum de vraisemblance. On rappelle que dans le contexte de l’analyse de survie les données

15
observées sont issues des variables aléatoires Y = min (T; C), ou T et C représentent respectivement
les durées non-observées et les censures, et D = I (T < C). Cette dernière variable prend la valeur 1 si
Y = T et zéro si Y = C. L’échantillon se compose donc des quantités (yi ; di ), i = 1; :::; n, réalisations
des variables (Y; D). La fonction de vraisemblance est la distribution de l’échantillon, considérée en
fonction des paramètres inconnus. Donc:

n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di ) (23.17)
i=1

où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de la
façon suivante:

f (yi ; di ) = (F10 (yi ))di (F00 (yi ))1 di


(23.18)

ou F1 (y) = P (Y < y; D = 1) ; F0 (y) = P (Y < y; D = 0) et Fk0 (yi ) = dFk (y) =dy]y=yi , k = 0; 1:


L’expression (23.18) se développe de la façon suivante (voir Annexe A pour les passages analy-
tiques):

f (yi ; di ) = (f (yi )(1 G(yi )))di (g(yi )(1 F (yi )))1 di


: (23.19)

ou g ( ) et G ( ) représentent la densité et la fonction cumulative de la variable de censure C. Dans


l’hypothèse de censure non-informative, la distribution de la variable C ne contient aucune information
sur les paramètres . Elle représente une constante multiplicative dans la vraisemblance L ( ) et peut
donc être omise:
n
Y n
Y n
Y n
Y
L( ) = f (yi ; di ) = f (yi )di (1 F (yi ))1 di
= f (yi )di S (yi )1 di
= h(yi )di S (yi ) (23.20)
i=1 i=1 i=1 i=1

L’expression (23.20) peut avoir une interprétation intuitive, en ce sens que les observations non-
censurées yi : di = 1 contribuent à la vraisemblance par la densité f (yi ), alors que les observations
censurées yi : di = 0, pour lesquelles on sait seulement que T > yi , contribuent par la fonction de
survie S (yi ).
Dans les tableaux 4 à 6 sont représentés les outputs R des modèles exponentiel, de Weibull et log-

16
normal. Dans notre exemple on se concentre plutôt sur les résultats obtenus avec l’hypothèse d’une
distribution de Weibull, car ce modèle semble mieux s’ajouster aux données (Section 5.2). Dans le
Tableau 5, le paramètre "scale" représente en fait l’inverse du paramètre de l’équation (23.15).
Une valeur estimée de 0.815 du paramètre "scale" correspond à une valeur de supérieure à l’unité.
Le risque de rechute estimé est donc une fonction croissante du temps (Fig. 4). Le …t des modèles
exponentiel, de Weibull et Log-normal est représenté dans la Fig. 7.

Call:
survreg(formula = S1 ~ 1, dist = "exponential")
Value Std. Error z p
(Intercept) 6.46 0.0816 79.1 0

Scale fixed at 1

Exponential distribution
Loglik(model)= - 1118.9 Loglik(intercept only)= - 1118.9
Number of Newton- Raphson Iterations: 4
n= 238

Tableau 4: Output du modèle exponentiel en R. Données addict. Cf. code R dans le document joint
"surv.r".

Call:
survreg(formula = S1 ~ 1, dist = "weibull")
Value Std. Error z p
(Intercept) 6.425 0.0671 95.77 0.00000
Log(scale) - 0.204 0.0691 - 2.95 0.00314

Scale= 0.815

Weibull distribution
Loglik(model)= - 1114.9 Loglik(intercept only)= - 1114.9
Number of Newton- Raphson Iterations: 6
n= 238

Tableau 5: Output du modèle de Weibull en R. Données addict. Cfr code R dans le document
joint "surv.r".

17
Call:
survreg(formula = S1 ~ 1, dist = "lognorm")
Value Std. Error z p
(Intercept) 6.060 0.0881 68.75 0.00000
Log(scale) 0.191 0.0600 3.18 0.00147

Scale= 1.21

Log Normal distribution


Loglik(model)= - 1123.7 Loglik(intercept only)= - 1123.7
Number of Newton- Raphson Iterations: 6
n= 238

Tableau 6: Output du modèle log-normal en R. Données addict. Cf. code R dans le document joint
"surv.r".

Figure 7: Fit des modèles exponentiel, de Weibull et Log-normal. Données addict. Cf. code R pour
chacune des trois distributions dans le document joint "surv.r".

18
23.6 Le modèle semiparamétrique de Cox

23.6.1 Structure du modèle

Jusqu’ici on a travaillé dans l’hypothèse que tous les individus ont la même fonction de survie et donc
le même risque de connaître l’événement. Souvent toutefois on dispose d’une série d’informations sur
les sujets, qui pourraient nous aider à di¤érencier les risques individuels. Dans le dataset "addicts"
par exemple on sait que les sujets ont été soumis à deux di¤érents types de traitement en méthadone,
et il peut être intéressant de voir si à ces deux traitements correspondent des risques di¤érents de
connaître l’événement (rechute). D’autres variables explicatives pourraient produire un e¤et sur le
risque d’abandonner le traitement. Il s’agit de la dose de méthadone administrée et du fait que le
sujet ait ou non été en prison avant le traitement.
Le modèle le plus utilisé en analyse de survie quand on veut examiner la relation entre la variable
de durée et une ou plusieurs variables explicative est le modèle de Cox (Cox, 1972), parfois aussi
appelé modèle semiparamétrique ou modèle à risques proportionnels. La structure du modèle est la
suivante:
T
hi (t) = h0 (t) exp xi i = 1; :::; n (23.21)

où h0 (t) représente le risque de base (baseline hazard ); xi = (xi1 ; ::::xik ) est le vecteur qui contient les
valeurs de k variable explicatives pour l’i-ème individu et =( 1 ; :::; k) le vecteur des coe¢ cients
inconnus. Comme la fonction de risque hi (t) doit être une quantité positive, la fonction linéaire des
T
covariates xi doit être exponentiée. Soulignons par ailleurs que la fonction de risque de base h0 (t)
est laissée non-spéci…ée, et représente donc la partie non-paramétrique du modèle semiparamétrique
T
de Cox, alors que la partie paramétrique est représentée par le facteur exp xi . La fonction h0 (t)
peut être interprétée comme étant la fonction de risque d’un individu pour lequel toutes les covariates
prennent la valeur zéro: xi = 0.
Le modèle semiparamétrique de Cox est un modèle à risques proportionnels, dans le sens que, selon
le modèle, le rapport entre les risques de deux individus i et j est une quantité …xe, indépendante du
temps:
hi (t) T T T
= exp xi xj = exp (xi xj ) :
hj (t)
Le modèle de Cox peut s’exprimer - de façon équivalente à (23.21) - en termes de fonctions de survie,

19
sur la base des relations (23.5)-(23.7):

T
Si (t) = S0 (t)exp( xi )
i = 1; :::; n (23.22)

où la fonction de survie "de base" S0 (t) prend la forme:


Z t
S0 (t) = exp h0 (s) ds = exp ( H0 (t)) :
0

23.6.2 Méthode d’estimation de la vraisemblance partielle

Dans le cas du modèle de Cox, la fonction de vraisemblance complète peut être écrite de la façon
suivante: n n
Y Y
L( ) = f (yi ; di ; xi ) = hi (yi )di Si (yi ) : (23.23)
i=1 i=1

où les coe¢ cients =( 1 ; :::; k) sont les paramètres inconnus du modèle. En remplaçant (23.21) et
(23.22) en (23.23), on obtient:

n
Y di T
L( ) = h0 (yi ) exp T
xi S0 (yi )exp( xi )
(23.24)
i=1

Le problème avec cette vraisemblance est qu’elle contient, non seulement les paramètres mais aussi
les fonctions h0 (t) et S0 (t) auxquelles n’est pas assignée une forme paramétrique.
Dans son article de 1972, Cox a proposé une méthode alternative pour l’estimation du modèle, qui
est la méthode de la vraisemblance partielle (partial likelihood ). On considère seulement les durées
non censurées: y1 ; ::::; ym (m n). Chaque individu dont la durée yi est non censurée contribue
à la vraisemblance partielle avec sa probabilité de connaître l’événement en yi étant donné qu’un
événement se véri…e en yi . On peut montrer que cette probabilité est égale à

hi (yi )
P
j2Ri hj (yi )

ou Ri est l’ensemble des individus que sont encore soumis au risque juste avant l’instan yi . La

20
vraisemblance partielle peut donc être écrite de la façon suivante:

m
Y Y m
hi (yi ) h0 (yi ) exp T xi
PL( ) = P = P T
i=1 j2Ri hj (yi ) j2R h0 (yi ) exp
i=1 i
xj

m
Y T
exp xi
PL( ) = P T
: (23.25)
i=1 j2R(yi ) exp xj

Les paramètres estimés ^ sont donc obtenus en maximisant (23.25).


Dans le cas de covariates catégorielles on peut obtenir des estimations de la fonction de survie
(23.22) pour chacune des di¤érentes combinaisons des valeurs des covariates x, en remplaçant dans
(23.22) les valeurs estimées des paramètres ^ :

exp ^T x
Sb (tjx = x) = S^0 (t) (23.26)

où S^0 (t) est un estimateurs non paramétrique (estimateur de Nelson-Aalen) de la function de survie
de base (toutes les covariates égales à zéro).
L’expression (23.25) n’est plus valable lorsque plusieurs événements ont lieu au même instant (tied
data). Dans ce cas on a recours à des approximations de la vraisemblance partielle dues à Breslow
(1974) et Efron (1977).
L’output R du modèle de Cox avec la covariate clinic11 est représenté dans le Tableau 7. Le
coe¢ cient estimé est signi…cativement négatif (p < 0:0001). Cela signi…e que le risque de connaître
l’événement (rechute) à chaque instant t est signi…cativement plus petit pour les patients qui sont
soumis au traitement 2 (clinic1=1), par rapport à ceux qui sont soumis au traitement 1 (clinic1=0).
La valeur exp(coef ) (0.341) représente le rapport entre le risque de connaître l’événement des patients
du deuxième groupe et le même risque pour les patients du premier groupe (risk ratio). Dans notre
cas le risque à chaque instant pour les patients du deuxième groupe est environ un tiers de celui des
patients du premier groupe. La quantité exp( coef ) représente l’inverse du risque ratio, c’est-à-dire
le rapport entre le risque de connaître l’événement pour les patients du premier groupe et le même
risque pour les patients du deuxième groupe (presque trois fois dans notre exemple).

1
clinic1 = clinic - 1. Cette transformation de la variable clinic permet d’avoir une variable dichotomique 0 ou 1.

21
Dans la Fig. 8 sont représentées les fonctions de survie estimées avec le modèle de Cox pour les
deux groupes de patients. Elles sont calculées sur la base de (23.26):

Sb (tjclinic1 = 0) = S^0 (t)


^
Sb (tjclinic1 = 1) = S^0 (t)exp( )

A chaque instant t, donc, la probabilité de survivre au moins jusque t - selon le modèle de Cox - est
plus élevée pour les patients du deuxième groupe ( ^ < 0). Ce résultat va dans le sens de celui obtenu
avec l’estimateur de Kaplan Meier (Figure 3).
L’e¤et des covariates prison et dose est montré dans le Tableau 8 et la Figure. 9. Le fait
d’avoir été en prison fait augmenter le risque de rechute (même si la signi…cativité est faible); une
augmentation de la dose de méthadone administrée fait diminuer le risque de rechute. Comme dans
tout modèle de régression multiple, ici l’e¤et de chaque covariate sur le risque de rechute est estimé au
net de l’e¤et des autres covariates du modèle. Dans ce cas par exemple la valeur estimée du coe¢ cient
de la variable clinic1 passe du 1:08 du modèle à une seule covariate (Tableau 7) au 1:01 du modèle
à trois covariates (Tableau 8). Quand on introduit l’e¤et des variables prison et dose le risk ratio
associé à la variable clinic1 passe donc de 0:341 à 0:364.
L’interprétation du risk ratio est un peu mois évidente quand on considère une variable quanti-
tative comme dose. Dans ce cas une valeur plus utile s’obtient en soustrayant 1 du risk ratio. Cela
donne la variation relative dans le risque pour chaque variation d’une unité dans la covariate. Pour la
variable dose le risque relatif estimé est de 0:965, ce qui donne une variation de (0:965 1) = 0:035
( 3:5%) pour chaque augmentation d’une unité dans la dose de méthadone administrée.
Les test du rapport de vraisemblance (Likelihood ratio), de Wald et "Score (logrank)", que l’on
retrouve à la …n de l’output R du modèle de Cox, servent à tester l’hypothèse nulle globale f = 0g.
La p-value de ces trois statistiques, toutes basées sur la distribution du 2, est très petite dans notre
exemple. Cela nous mène à refuser l’hypothèse nulle et à admettre que au moins un des coe¢ cients
est di¤érent de zéro. Le test du rapport de vraisemblance, en particulier, représente la di¤érence entre
(moins deux fois) la log-vraisemblance partielle du modèle sans covariates et (moins deux fois) la log-
vraisemblance partielle du modèle avec les trois covariates. A valeurs plus élevées de cette statistique
correspondent donc des modèles caractérisés par une vraisemblance plus élevée (cf. modèle avec une

22
seule covariate, Tableau 7).

Call:
coxph(formula = Surv(survt, status) ~ clinic1)

n= 238
coef exp(coef) se(coef) z p
clinic1 - 1.08 0.341 0.213 - 5.06 4.3e- 07

exp(coef) exp(- coef) lower .95 upper .95


clinic1 0.341 2.93 0.225 0.518

Rsquare= 0.122 (max possible= 0.997 )


Likelihood ratio test= 31 on 1 df, p=2.59e- 08
Wald test = 25.6 on 1 df, p=4.26e- 07
Score (logrank) test = 27.9 on 1 df, p=1.27e- 07

Tableau 7: Output du modèle de Cox avec la covariate ’clinic’. Données addict. Cf. code R dans le
document joint "surv.r".

Figure 8: Estimation selon le modèle de Cox de la fonction de survie pour chacun des deux traitements
en méthadone (clinic). Données addict. Cf. code R dans le document joint "surv.r".

23
Call:
coxph(formula = Surv(survt, status) ~ clinic1 + prison + dose)

n= 238
coef exp(coef) se(coef) z p
clinic1 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison 0.3266 1.386 0.16722 1.95 5.1e- 02
dose - 0.0354 0.965 0.00638 - 5.54 2.9e- 08

exp(coef) exp(- coef) lower .95 upper .95


clinic1 0.364 2.745 0.239 0.555
prison 1.386 0.721 0.999 1.924
dose 0.965 1.036 0.953 0.977

Rsquare= 0.238 (max possible= 0.997 )


Likelihood ratio test= 64.6 on 3 df, p=6.23e- 14
Wald test = 54.1 on 3 df, p=1.06e- 11
Score (logrank) test = 56.3 on 3 df, p=3.6e- 12

Tableau 8: Output du modèle de Cox avec les covariates ’clinic’, ’prison’et ’dose’. Données addict.
Cf. code R dans le document joint "surv.r".

Figure 9: Estimation selon le modèle de Cox de la fonction de survie pour chacune des quatre
combinaisons des valeurs des covariates dichotomiques (clinic et prison). La variable continue (dose)
est …xée à sa moyenne. Données addict. Cf. code R dans le document joint "surv.r".

24
23.6.3 Test de l’hypothèse de proportionnalité

Comme on l’a vu dans la Section 6.1, le modèle de Cox est un modèle à risques proportionnels, dans
le sens où, selon ce modèle, le rapport entre les risques de deux individus i et j est une quantité …xe,
indépendante du temps. Cette hypothèse est violée quand l’e¤et d’une des covariates du modèle sur
le risque de connaître l’événement n’est pas constant au …l du temps.
Une manière de véri…er l’hypothèse de proportionnalité des risques consiste à introduire explicite-
ment dans le modèle cette dépendance entre les e¤ets et le temps.

T T T T
hi (t) = h0 (t) exp xi + txi = h0 (t) exp + t xi i = 1; :::; n (23.27)

Si les coe¢ cients =( 1 :::: k ) ne sont pas signi…cativement di¤érents de zéro, on a pas l’évidence
d’une violation de l’hypothèse de proportionnalité. Si par contre au moins un des j (j = 1; :::; k)
est signi…cativement di¤érent de zéro - l’e¤et de la covariate correspondante augmente ou diminue
linéairement avec le temps - l’hypothèse de proportionnalité est violée pour la ou les covariates en
question. On remarque que l’expression (23.27) non seulement fournit un test de proportionnalité,
mais représente aussi une façon d’incorporer la non-proportionnalité éventuelle dans le modèle.
Dans l’Annexe B est décrite une façon pour estimer en R le modèle (23.27). Deux méthodes
alternatives permettent de véri…er l’hypothèse de proportionnalité des risques. La première méthode
est basée sur le test de Grambsch et Therneau (1994) et la deuxième sur une comparaison graphique.
Le test de Grambsch et Therneau (Tableau 9) a pour objectif de véri…er l’hypothèse nulle de pro-
portionnalité des risques relativement à chacune des covariates du modèle. Une valeur du test ("rho"
dans le tableau) signi…cativement di¤érente de zéro signale un problème de violation de l’hypothèse
relativement à la variable correspondante. Dans le cas de notre exemple, l’hypothèse de proportion-
nalité doit être refusée pour la variable clinic1.
La méthode graphique est très intuitive. On se concentre sur une variable à la fois, par exemple la
variable clinic1 pour laquelle le test de Grambsch et Therneau signale une violation de l’hypothèse
de proportionnalité. Il s’agit de comparer l’allure des fonctions de survie estimées en appliquant
Kaplan Meyer à chacun des deux groupes de la variable en question (Fig 3) avec les fonctions de
survie estimées selon le modèle de Cox ayant cette variable comme seule covariate (Fig. 9). Comme
on peut le remarquer dans la Figure 10, les functions de survie obtenues avec Kaplan Meier vs Cox

25
sont très semblables pour clinic = 1 (clinic1 = 0). Les remarquables di¤érences d’allure, surtout
pour clinic = 2 (clinic1 = 1), sont à interpréter comme un signal de violation de l’hypothèse de
proportionnalité des risques.

rho chisq p
clinic1 - 0.2578 11.185 0.000824
prison - 0.0382 0.220 0.639369
dose 0.0724 0.700 0.402749
GLOBAL NA 12.616 0.005546

Tableau 9: Test de Grambsch et Therneau pour véri…er l’hypothèse de proportionnalité. Données


addict. Cf. code R dans le document joint "surv.r".

Figure 10: Test de proportionnalité basé sur la comparaison entre les functions de survie estimées
avec Cox et Kaplan Meier. Données addict. Cf. code R dans le document joint "surv.r".

26
23.7 Modèles paramétriques. Modèles AFT (Accelerated Failure
Time)

23.7.1 Structure des modèles AFT

Supposons maintenant que l’e¤et des covariates joue, non pas sur la fonction de risque, comme dans
un modèle à risques proportionnels, mais directement sur la fonction de survie:

T
Si (t) = S0 t exp xi (23.28)

où Si (t) = S (tjx = xi ) est la fonction de survie d’un individu ayant les caractéristiques xi et
S0 (t) = S (tjx = 0) celle d’un individu ayant toutes les caractéristique nulles. Si par exemple on
a une seule covariate binaire, prenant les valeurs zéro et un, la relation (23.28) équivaut à assumer
que la probabilité pour un individu ayant la caractéristique égale à un de survivre jusqu’au temps t
est égale à probabilité de survivre jusqu’au temps t exp ( ) pour un individu ayant la caractéristique
égale à zéro. Un ^ > 0 correspond donc à une sortie anticipée ou accélérée pour l’individu ayant la
covariate égale à un par rapport aux sujets pour lesquels x = 0 (t < t exp( ^ )). L’hypothèse (23.28)
dé…nit une classe de modèles paramétriques dits "Modèles à temps de sorties accélérées" (Accelerated
Failure Time - AFT). La relation (23.28) peut être réécrite de la façon suivante:
!
T T0
Pr (Ti > t) = Pr T0 > t exp xi = Pr T
>t
exp xi

où T0 représente la durée de séjour d’un individu ayant toutes ses caractéristiques nulles.
En termes de variables aléatoires ceci signi…e que:

T0 T
Ti = T
= T0 exp xi (23.29)
exp xi

Dans les modèles AFT, les caractéristiques ont donc un e¤et multiplicatif directement sur la durée de
séjour. En reprenant l’exemple d’une seule variable explicative dichotomique, on observe que, quand
b > 0, la durée de séjour diminue (la sortie est accélérée) pour les sujets qui ont la caractéristique

27
égale à un. Le modèle est le plus souvent écrit en termes logarithmiques:

T T
log (Ti ) = log T0 xi = log T0 + xi ( = ) (23.30)

Si et représentent respectivement la moyenne et la déviation standard de la variable aléatoire


log T0 , le modèle peut encore être écrit de la façon suivante:

T
log (Ti ) = + xi + " i E ("i ) = 0 ; V ar ("i ) = 1

Les modèles AFT correspondent donc à des modèles de régression dont la variable dépendante
est le logarithme des durées.
Di¤érentes hypothèses sur la distribution de l’erreur donnent lieu à di¤érentes formes de la dis-
tribution des durées T : Quelques exemples:

1) Modèle exponentiel
On peut facilement démontrer que, si:

(i) "i g ("i ) = exp ("i ) exp ( exp ("i )) (distribution extreme value)

(ii) =1

alors les durées T suivent une loi exponentielle:

f (t) = exp ( t)

avec:
T
= exp + xi

2) Modèle de Weibull
Si on garde seulement l’hypothèse (i), on obtient pour T une loi de Weibull:

1
f (t) = t exp ( t )

28
avec:

+ Tx
i
= exp
1
=

3) Modèle Log-normal
Avec des erreurs qui se distribuent selon une loi normale standard,

(i) "i N (0; 1)

les durées T suivent une loi log-normale:


!
2
1 1 log t
f (t) = p exp
t 2 2

ou = + Tx .
i

L’estimation des modèles AFT se base sur la méthode de maximum de vraisemblance (voir Section
5.3).

23.7.2 Véri…cation des modèles AFT

La véri…cation empirique des modèles AFT suit la même logique que dans le cas des modèles
paramétriques sans covariates (Section 5.2). On se base cette fois-ci sur les résidus standardisés
(et exponentiés) du modèle
0 1
log t a + bT xi
b
resi = exp @ A
b

et on considère des transformations de S (resi ) qui devraient, selon chacun des modèles considérés,
présenter une relation linéaire avec resi (ou log (resi )).
On peut démontrer que, dans le cas du modèle de Weibull (et donc modèle exponentiel, qui est
un cas particulier du modèle de Weibull):

log S (resi ) = resi (23.31)

29
alors que dans le cas log-normal:

1
(1 S (resi )) = log (resi ) : (23.32)

Les deux relations (23.31) et (23.32) sont en…n véri…ées en remplaçant S (resi ) avec l’estimateur
de Kaplan Meier calculé sur les résidus Sb (resi ).

Dans les Tableaux 10-12 sont représentés les outputs de modèles AFT à trois covariates, obtenus
sur nos données avec les di¤érentes distributions de la variable d’erreur. Les paramètres estimés sont
dans ces modèles les e¤ets des covariates sur le logarithme de la durée de survie. Il ne faut pas
s’étonner si les e¤ets sont souvent opposés à ceux que nous avons obtenus avec le modèle de Cox.
La variable dépendante est maintenant la durée, alors que dans le modèle de Cox il s’agissait du
risque. Le tableau 10 par exemple (distribution Exponentielle) indique que, lorsque la variable clinic1
est égale à 1, le logarithme de la durée de survie augmente signi…cativement, en comparaison avec
la référence (clinic1=0). Le logarithme de la durée de survie diminue pour les sujets qui ont été en
prison (mais l’e¤et est signi…catif à 5 % seulement dans le cas du modèle log-normal), et augmente
signi…cativement quand la dose de métadone augmente. En e¤et l’output d’un modèle AFT se lit
d’une façon très semblable à un output d’un modèle de régression. On peut observer que les output
des trois modèles AFT (Exponentiel, de Weibull et log-Normal) sont assez semblables. Néanmoins, la
véri…cation empirique des trois modèles (Fig. 11) nous mène à préférer le modèle de Weibull comme
celui qui représente le mieux la structure des données.

30
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "exponential")
Value Std. Error z p
(Intercept) 4.5649 0.36789 12.41 2.36e- 35
clinic1 0.8806 0.21063 4.18 2.91e- 05
prison - 0.2526 0.16489 - 1.53 1.25e- 01
dose 0.0289 0.00614 4.71 2.52e- 06

Scale fixed at 1

Exponential distribution
Loglik(model)= - 1094 Loglik(intercept only)= - 1118.9
Chisq= 49.91 on 3 degrees of freedom, p= 8.3e- 11
Number of Newton- Raphson Iterations: 5
n= 238

Tableau 10: Output d’un modèle AFT exponentiel à trois covariates. Données addict. Cf. code R
dans le document joint "surv.r".

Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "weibull")
Value Std. Error z p
(Intercept) 4.8139 0.27499 17.51 1.29e- 68
clinic1 0.7090 0.15722 4.51 6.49e- 06
prison - 0.2295 0.12079 - 1.90 5.75e- 02
dose 0.0244 0.00459 5.32 1.03e- 07
Log(scale) - 0.3150 0.06756 - 4.66 3.13e- 06

Scale= 0.73

Weibull distribution
Loglik(model)= - 1084.5 Loglik(intercept only)= - 1114.9
Chisq= 60.89 on 3 degrees of freedom, p= 3.8e- 13
Number of Newton- Raphson Iterations: 7
n= 238

Tableau 11: Output d’un modèle AFT de Weibull à trois covariates. Données addict. Cf. code R
dans le document joint "surv.r".

31
Call:
survreg(formula = Surv(survt, status == 1) ~ clinic1 + prison +
dose, dist = "lognorm")
Value Std. Error z p
(Intercept) 3.9833 0.34663 11.49 1.46e- 30
clinic1 0.5765 0.17648 3.27 1.09e- 03
prison - 0.3090 0.15431 - 2.00 4.52e- 02
dose 0.0337 0.00568 5.93 2.96e- 09
Log(scale) 0.0748 0.05930 1.26 2.07e- 01

Scale= 1.08

Log Normal distribution


Loglik(model)= - 1097.8 Loglik(intercept only)= - 1123.7
Chisq= 51.85 on 3 degrees of freedom, p= 3.2e- 11
Number of Newton- Raphson Iterations: 4
n= 238

Tableau 12: Output d’un modèle AFT log-normal à trois covariates. Données addict. Cf. code R
dans le document joint "surv.r".

32
Figure 11: Véri…cation empirique des modèles AFT exponentiel, de Wibull et log-normal. Données
addict. Cf. code R pour chacune des trois distributions dans le document joint "surv.r".

33
Annexe A: construction de la fonction de vraisemblance avec
données censurées.

Soient:
T = Durée non observée
C = Censure non-observée
Y = min (T; C) = Durée observée
D = I (T < C) = Indicateur de censure

les données observées sont représentées par les couples: (yi ; di ), i = 1; :::; n,
réalisations des variables (Y; D).
La fonction de vraisemblance est donnée par:

n
Y
L ( ) = f (y1 ; :::yn ; d1 ; :::dn ) = f (yi ; di )
i=1

où représente l’ensemble des paramètres inconnus. La densité f (yi ; di ) peut être obtenue de la
façon suivante:

f (yi ; di ) = (F10 (yi ))di (F00 (yi ))1 di

où F1 (y) = P (Y < y; D = 1) ; F0 (y) = P (Y < y; D = 0) et Fk0 (yi ) = dFk (y) =dy]y=yi , k = 0; 1:

F1 (y) = P (Y < y; D = 1) = P (T < y; T < C) =


Z Z Z
= f (t) g (c) dc dt = f (t) [1 G (t)] dt
t<y c>t t<y

F0 (y) = P (Y < y; D = 1) = P (C < y; C < T ) =


Z Z Z
= g (c) f (t) dt dc = g (c) [1 F (c)] dc
c<y t>c c<y

où g ( ) et G ( ) sont respectivement la fonction de densité et la fonction cumulative de la variable

34
aléatoire C.
Et donc:

F10 (yi ) = f (yi ) (1 G (yi ))

F00 (yi ) = g (yi ) (1 F (yi ))

D’où:
f (yi ; di ) = (f (yi ) (1 G (yi ))) i (g (yi ) (1 F (yi )))1 di
:

Quand la censure est non-informative la fonction de vraisemblance devient:

n
Y n
Y
L( ) = f (yi ; di ) = (f (yi ) (1 G (yi )))di (g (yi ) (1 F (yi )))1 di

i=1 i=1
n
Y n
Y
di 1 di
= f (yi ) (1 F (yi )) = f (yi )di S (yi )1 di
:
i=1 i=1

Pour la relation: f ( ) = h ( ) S ( ), où h ( ) représente la fonction de risque associée à la variable


aléatoire T , la vraisemblance peut aussi être écrite:

n
Y
L( ) = h (yi )di S (yi ) :
i=1

35
Annexe B: test de l’hypothèse de proportionnalité dans le modèle de Cox, via l’introduction
de variables dépendantes du temps dans le modèle

T T
hi (t) = h0 (t) exp xi + txi i = 1; :::; n

On construit un …cher personne-période dans lequel les épisodes sont “splittés” en sous-épisodes qui
durent chacun une unité de temps (le jour dans notre cas). Par exemple un sujet qui reste dans
l’étude 5 jours avant de connaître l’événement est représenté par 5 sujets …ctifs, dont le premier entre
au temps zéro et est censuré au jour 1, le deuxième entre au jour 2 et est censure au jour 3, . . . , le
cinquième entre au jour 4 et connaît l’événement au jour 5. Seul le dernier sujet …ctif connaît donc
l’événement, si le sujet de départ a connu l’événement, sinon il est lui aussi censuré.

# On crée une variable start qui donne les jours d’entrée dans l’étude de tous les sous-individus
et une variable stop donne les jours de sortie de l’étude de tous les sous-individus

n <- length(survt)
stop <- 1:survt[1]
for (i in 2:n) {
stop <- c(stop,1:survt[i])}
start <- stop-1

# On construit la variable de censure cens2 pour le nouveau …cher

cens2 <- rep(0,sum(survt))


cumsurv <- cumsum(survt)
for (i in 1:n) {
if (status[i] == 1) cens2[cumsurv[i]] <- 1 }

# On construit les covariates clinic2, prison2 et dose2 pour le nouveau …cher

clinic2 <- rep(clinic1,survt)


prison2 <- rep(prison,survt)
dose2 <- rep(dose,survt)

36
# On estime le modèle de Cox aux nouvelles données. D’abord sans introduire les variables
dépendantes du temps. Le résultat est le même que celui obtenu avec le …cher de départ

cox21 <- coxph(Surv(start,stop,cens2) clinic2+prison2+dose2)


summary(cox21)

Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2)

n= 95812
coef exp(coef) se(coef) z p
clinic2 - 1.0099 0.364 0.21489 - 4.70 2.6e- 06
prison2 0.3266 1.386 0.16722 1.95 5.1e- 02
dose2 - 0.0354 0.965 0.00638 - 5.54 2.9e- 08

exp(coef) exp(- coef) lower .95 upper .95


clinic2 0.364 2.745 0.239 0.555
prison2 1.386 0.721 0.999 1.924
dose2 0.965 1.036 0.953 0.977

Rsquare= 0.001 (max possible= 0.015 )


Likelihood ratio test= 64.6 on 3 df, p=6.23e- 14
Wald test = 54.1 on 3 df, p=1.06e- 11
Score (logrank) test = 56.3 on 3 df, p=3.6e- 12

# On estime ensuite le modèle de Cox en introduisant les variables dépendantes du temps.

clinic2.time <- clinic2*start


prison2.time <- prison2*start
dose2.time <- dose2*start
cox22 <- coxph(Surv(start,stop,cens2) clinic2+prison2+dose2
+clinic2.time + prison2.time + dose2.time)
summary(cox22)

37
Call:
coxph(formula = Surv(start, stop, cens2) ~ clinic2 + prison2 +
dose2 + clinic2.time + prison2.time + dose2.time)

n= 95812
coef exp(coef) se(coef) z p
clinic2 2.38e- 02 1.024 3.48e- 01 0.0685 9.5e- 01
prison2 4.40e- 01 1.553 2.97e- 01 1.4853 1.4e- 01
dose2 - 4.40e- 02 0.957 1.13e- 02 - 3.9059 9.4e- 05
clinic2.time - 3.05e- 03 0.997 9.62e- 04 - 3.1689 1.5e- 03
prison2.time - 1.44e- 04 1.000 7.50e- 04 - 0.1925 8.5e- 01
dose2.time 2.70e- 05 1.000 2.82e- 05 0.9596 3.4e- 01

exp(coef) exp(- coef) lower .95 upper .95


clinic2 1.024 0.976 0.518 2.026
prison2 1.553 0.644 0.869 2.778
dose2 0.957 1.045 0.936 0.978
clinic2.time 0.997 1.003 0.995 0.999
prison2.time 1.000 1.000 0.998 1.001
dose2.time 1.000 1.000 1.000 1.000

Rsquare= 0.001 (max possible= 0.015 )


Likelihood ratio test= 77 on 6 df, p=1.44e- 14
Wald test = 59.2 on 6 df, p=6.42e- 11
Score (logrank) test = 68.3 on 6 df, p=9.3e- 13

# e¤ et dans le temps de la variable clinic

time <- 1:max(survt)


plot(time,cox22$coef[1]+cox22$coef[4]*time,
xlab="time",ylab="coeff(clinic)")

38
Figure 12: e¤et du traitement (clinic) dans le temps.

39
Bibliography

[1] Breslow, N E (1974) Covariance Analysis of Censored Surviavl Data. Biometrics, 30, 89-99.

[2] Courgeau D, Lelièvre E (1989) Analyse démographique des biographies, INED, Paris.

[3] Cox, D.R. (1972) Regression models and life tables (with discussion). Journal of the Royal Sta-
tistical Society, Series B 34, 187 - 220.

[4] Efron B. (1977) The E¢ ciency of Cox’s Likelihood Function for Censored Data. Journal of the
American Statistical Association, 76: 312-319.

[5] Grambsch P and Therneau T M (1994) Proportional hazards tests and diagnostics based on
weighted residuals Biometrika 81: 515-26

[6] Kaplan E.L. and Meier P. (1958). Nonparametric estimation for incomplete observations. Journal
of the American Statistical Association, 53: 457:581.

[7] Lawless, J.F. (2003). Statistical Models and Methods for Lifetime Data, 3nd edition. John Wiley
and Sons, New York.

40