Vous êtes sur la page 1sur 164

MODLES DE SURVIE

Notes de Cours
MASTER 2 ESA
voies professionnelle et recherche

Gilbert Colletaz

2 dcembre 2015
2
Avertissements

Ce document constitue le support du cours consacr au traitement des


donnes de survie. Actuellement le nombre dexemples prsents est rduit
au minimum, ceux-ci tant raliss prcisment pendant le cours. Compte-
tenu de son volume horaire (24 heures), le dtail des calculs ainsi que les
dmonstrations sont souvent seulement esquisss. Celles-ci peuvent tre
trouves dans des ouvrages de rfrence tels que Statistical Models and Me-
thods for Lifetime Data de Lawless, The Statistical Analysis of Failure Time Data
de Kalbfleisch et Prentice, The Econometric Analysis of Transition Data de
Lancaster, Survival Analysis : Techniques for Censored and Truncated Data de
Klein et Moeschberger, ou encore Applied Survival Analysis de Hosmer et
Lemeshow. Normalement tout tudiant de deuxime anne du Master pos-
sde les lments lui permettant, en cas de besoin, dtre en mesure de les
comprendre. Deux ouvrages spcifiquement ddis lutilisation de SAS
pour lanalyse des donnes de survie peuvent galement savrer utiles :
Survival Analysis Using the Sas System : A Practical Guide de Allison, et Survi-
val Analysis Techniques for Medical Research de Cantor. Enfin on peut trouver
sur Internet beaucoup de pages utiles. Voyez notamment celles offertes par
UCLA disponibles partir de ladresse suivante :
http : //www.ats.ucla.edu/stat/sas/seminars/sas_survival/de f ault.htm.

Enfin, si depuis SAS9 il est possible de raliser des estimations bay-


siennes des modles de survie, ce type destimation sera totalement ignor
dans ce cours pour une raison simple, qui ne prjuge pas de son intrt.
Simplement il ny a actuellement pas de cours dconomtrie baysienne
dans le cursus du Master, ce qui interdit videmment daborder ces aspects
dans les 24 heures imparties.

Pr-requis : Une bonne dose de logique, vos connaissance en statis-


tique, thorie des tests, estimateurs du maximum de vraisemblance et plus
particulirement :

3
4

cours dconomtrie des variables qualitatives (notamment pour la


construction des vraisemblances)
cours dconomtrie non paramtrique, pour lestimation kernel du
risque
cours de statistique non paramtrique, pour la comprhension de
certains tests particulirement sur lgalit des courbes de survie

Normalement ce cours a bnfici des corrections et remarques des


tudiants layant suivi. En consquence, toutes les erreurs restantes leurs
sont imputables. Nhsitez cependant pas me faire part de celles que vous
remarqueriez.
Table des matires

1 Introduction 9
1.1 La nature des donnes de survie . . . . . . . . . . . . . . . . 9
1.2 La description de la distribution des temps de survie . . . . 11

2 Lapproche non paramtrique 15


2.1 Lestimateur de Kaplan-Meier de la fonction de survie : une
prsentation heuristique . . . . . . . . . . . . . . . . . . . . . 16
2.2 Kaplan-Meier comme estimateur du maximum de vraisem-
blance non paramtrique . . . . . . . . . . . . . . . . . . . . . 22
2.3 Les principales hypothses et leur signification . . . . . . . . 25
2.3.1 Lhypothse de censure non informative . . . . . . . 25
2.3.2 Lhypothse dhomognit de la population tudie 27
2.4 La variance de lestimateur de Kaplan-Meier . . . . . . . . . 28
2.5 La construction dIC sur la survie . . . . . . . . . . . . . . . . 30
2.5.1 Les intervalles de confiance ponctuels . . . . . . . . . 30
2.5.2 Les bandes de confiance . . . . . . . . . . . . . . . . . 31
2.6 Lestimation de la fonction de risque cumul . . . . . . . . . 34
2.7 Lestimation kernel du risque instantan . . . . . . . . . . . . 35
2.7.1 Le choix de la fonction Kernel . . . . . . . . . . . . . . 36
2.7.2 Le choix du paramtre de lissage . . . . . . . . . . . . 37
2.8 Comparaison de courbes de survie estimes par Kaplan-Meier 38
2.8.1 La statistique du LogRank . . . . . . . . . . . . . . . . 40
2.8.2 Le test de Wilcoxon (ou de Gehan) et les autres statis-
tiques pondres . . . . . . . . . . . . . . . . . . . . . 45
2.8.3 Les tests stratifis de comparaison des survies . . . . 51
2.8.4 Tests dassociation entre une variable continue et la
survie . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.9 Les tables de survie - La mthode actuarielle . . . . . . . . . 57
2.10 PROC LIFETEST . . . . . . . . . . . . . . . . . . . . . . . . . 62

5
6 TABLE DES MATIRES

3 Lapproche paramtrique 69
3.1 Les modles AFT et les modles PH . . . . . . . . . . . . . . 70
3.1.1 Les Modles temps de vie acclre . . . . . . . . . 70
3.1.2 Les Modles risques proportionnels . . . . . . . . . 74
3.2 Les principales modlisations AFT . . . . . . . . . . . . . . . 77
3.2.1 La distribution exponentielle . . . . . . . . . . . . . . 77
3.2.2 La distribution de Weibull . . . . . . . . . . . . . . . . 78
3.2.3 La distribution log-normale . . . . . . . . . . . . . . . 79
3.2.4 La distribution log-logistique . . . . . . . . . . . . . . 80
3.2.5 La distribution Gamma gnralise . . . . . . . . . . 81
3.3 Estimation avec diffrents types de censure et tests sur les
coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.4 Choix dune distribution et tests de spcification . . . . . . . 83
3.4.1 Slection au moyen du test de rapport de vraisemblance 84
3.4.2 Les aides graphiques . . . . . . . . . . . . . . . . . . . 85
3.5 estimation de fractiles sur les dures dvnement . . . . . . 91
3.6 Donnes censures gauche, droite et par intervalle . . . . 93
3.6.1 La structuration des donnes . . . . . . . . . . . . . . 93
3.6.2 Estimation dun modle Tobit via LIFEREG . . . . . . 94
3.7 PROC LIFEREG . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4 Lapproche semi-paramtrique 105


4.1 Le modle de Cox et son estimation . . . . . . . . . . . . . . 106
4.1.1 La fonction de vraisemblance partielle . . . . . . . . . 106
4.1.2 La correction de Firth en cas de monotonicit de PL . 110
4.1.3 La prise en compte dvnements simultans . . . . . 112
4.1.4 Spcification de lquation estimer, commandes Model
et Class . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2 Les ratios de risque . . . . . . . . . . . . . . . . . . . . . . . . 121
4.2.1 Interprtation des coefficients et Ratios de Risque . . 121
4.2.2 Commandes Hazardratio et Contrast . . . . . . . . . 122
4.2.3 Des exemples de sorties . . . . . . . . . . . . . . . . . 130
4.3 Lestimation de la survie de base . . . . . . . . . . . . . . . . 132
4.4 Lanalyse stratifie avec le modle de Cox . . . . . . . . . . . 136
4.5 Explicatives non constantes dans le temps . . . . . . . . . . . 141
4.5.1 donnes entres selon un processus de comptage . . 143
4.5.2 Explicatives non constantes cres par programme . 143
4.6 Tests de validation . . . . . . . . . . . . . . . . . . . . . . . . 144
4.6.1 La qualit de lajustement . . . . . . . . . . . . . . . . 145
TABLE DES MATIRES 7

4.6.2 Etude de spcification : rsidus de martingales, r-


gression locale et sommes partielles cumules . . . . 146
4.6.3 Reprage des outliers : les rsidus de dviance, les
statistiques DFBETA et LD. . . . . . . . . . . . . . . . 151
4.6.4 Tests de lhypothse PH - Introduction dinteractions
avec le temps, Rsidus de Schoenfeld et sommes de
transformes de rsidus de martingale . . . . . . . . . 155
4.7 La slection automatique des variables explicatives . . . . . 163
8 TABLE DES MATIRES
Chapitre 1

Introduction

Ce cours a pour objectif la prsentation des principales techniques statis-


tiques utilises pour lanalyse des dures de ralisation dun ou de plusieurs
vnements dintrt. Le prototype dvnement en question est la mort,
do le nom le plus courant donn ces mthodes. Elles sappliquent ce-
pendant dautres sortes dvnements (mariage, divorce, rupture dune
relation client, chmage,. . .). Ces techniques statistiques sont souvent quali-
fies danalyse des biographies ou danalyse des vnements du parcours de
vie lorsque les vnements analyss dcoulent dactions humaines indivi-
duelles et danalyse dhistoire des vnements lorsquils rsultent dactions
collectives.
Dans cette introduction nous prsentons les caractristiques essentielles
des donnes analyser ainsi que les outils techniques permettant de dcrire
leur distribution.

1.1 La nature des donnes de survie


Les temps de survie mesure partir dune origine approprie ont
deux caractristiques. La premire est quils sont non ngatifs et tels quune
hypothse de normalit nest gnralement pas raisonnable en raison dune
asymtrie prononce. La seconde est structurelle et tient au fait que pour
certains individus lvnement tudi ne se produit pas pendant la priode
dobservation et en consquence certaines donnes sont censures. Cette
censure droite est la plus courante mais nest pas la seule censure que lon
peut rencontrer avec des donnes de survie.
Considrons une tude relative la dure de survie de patients soumis
un traitement particulier. Lvnement dintrt est la mort de la personne.

9
10 CHAPITRE 1. INTRODUCTION

Tous les individus sont suivis pendant les 52 semaines suivant la premire
administration du traitement. On considre plus particulirement 3 sujets
qui vont permettre dillustrer certaines des caractristiques les plus fr-
quentes des donnes de survie et notamment deux cas possibles de censure
droite.

Lindividu 1 est dcd 40 semaines aprs le dbut du traitement. Il


sagit dune observation non censure.
La deuxime personne est toujours vivante au terme des 52 semaines
dobservation. Elle dcdera aprs 90 semaines mais cette informa-
tion nest pas connue lorsque la constitution de la base de donnes
est arrte. Mme incomplte linformation est utile puisque lon sait
que le temps de survie rel est suprieur 52 semaines. Il ne faut
donc pas lliminer de la base sous peine par exemple de biaiser vers
le bas lestimation de la dure moyenne de survie. Il sagit dune
censure dterministe car elle ne dpend pas de lindividu considr
mais des conditions de lexprimentation.
La troisime personne dcde aprs 50 semaines mais cet vnement
nest pas enregistr dans la base de donnes car le patient concern
na pu tre effectivement suivi que pendant 30 semaines. Cest un
exemple de censure alatoire car elle chappe au contrle de lexp-
rimentateur. L encore linformation est incomplte mais non nulle.
Par exemple savoir que cet individu a survcu au moins 30 semaines
est pertinent pour lestimation du taux de survie 20 semaines.
Dans beaucoup dtudes lentre des individus seffectue des temps
calendaires diffrents. Supposons que lon analyse la dure de labonne-
ment un service, lvnement dintrt tant le non renouvellement du
contrat. La fentre dobservation stend de janvier 2000 janvier 2004. Une
personne ayant souscrit en janvier 2001 et rsili en janvier 2003 a une dure
1.2. LA DESCRIPTION DE LA DISTRIBUTION DES TEMPS DE SURVIE 11

de survie non censure de 25 mois. Deux nouveaux clients depuis janvier


2002 pour lun et janvier 2003 pour lautre et qui le sont toujours en janvier
2004 auront des dures de survie correspondant une censure dterministe
de respectivement 25 mois et 13 mois.

Il sagit dtudier la dure passe dans un tat pralable la ralisation,


observe ou non, dun vnement mais aussi la probabilit de transition
dune situation une autre. Pour cela il est donc impratif que les individus
constituant la base de donnes soient tous soumis au risque de survenu de
lvnement tudi. Par exemple dans une tude sur la dure et la sortie du
chmage seuls des chmeurs ou danciens chmeurs seront pris en compte.

1.2 La description de la distribution des temps de sur-


vie
Pour des donnes continues la dure de vie T, cest--dire la dure
observe dun individu dans un tat initial, est une variable alatoire dfinie
sur [0, +[ de fonction de rpartition F. La fonction de survie est dfinie
comme :
S(t) = Prob[T > t] = 1 F(t), t 0 (1.1)

Cest donc une fonction continue monotone non croissante telle que
S(0) = 1 et limt S(t) = 0.

On peut galement pour prciser cette distribution recourir la fonction


de densit :

dF(t) dS(t)
f (t) = = (1.2)
dt dt
12 CHAPITRE 1. INTRODUCTION

Un concept important dans ces analyses est celui de risque. Considrons


la quantit Prob[t T < t + t|T t]. Cest la probabilit de survenue de
lvnement durant lintervalle de temps [t + t[ sachant quil ne stait pas
ralis avant t. Naturellement, si lintervalle de temps en question tend vers
zro alors avec une alatoire continue la probabilit en question tend aussi
vers zro. Les choses changent si on la norme par la dure de lintervalle
lui-mme :
Prob[t T < t + t|T t]
t
On passe alors une valuation du risque de connatre lvnement durant
lintervalle de temps considr. La quantit obtenue mesure en effet le
nombre moyen dvnements que connatrait lindividu concern au cours
dune unit de temps choisie (mois, anne par exemple) si les conditions
prvalant durant lintervalle de temps considr restaient inchanges tout
au long de lunit de temps choisie et pas seulement sur lintervalle. Par
exemple si lunit est lanne, si la dure de lintervalle t correspond un
mois et si la probabilit de connatre lvnement au cours de ce mois est
de 20% alors lexpression ci-dessus vaut :

Prob[t T < t + t|T t] 20%


= = 2.4
t 1/12
ce qui signifie quen moyenne si les conditions observes pendant le mois en
question se maintenaient toute lanne, lindividu connatrait en moyenne
2.4 vnements par an ce qui est bien lvaluation dun risque. Par exemple
un risque de 4 dattraper un rhume signifie quen moyenne sur lanne on
contracte 4 rhumes. Ce concept peut paratre absurde pour les vnements
qui ne peuvent tre rpts tel que le dcs. Il est toutefois toujours int-
ressant de considrer linverse du risque qui est une valuation de la dure
moyenne dattente de la ralisation de lvnement. Par exemple si lunit
de dure est lanne et quau cours dune expdition lointaine dun mois on
affirme avoir connu une probabilit de mourir de 33%, ce qui correspond
un risque de mourir gal 4 (vnement qui sil se produit une fois interdit
naturellement la possibilit des 3 autres occurrences) cela implique quen
moyenne, conditions inchanges, on peut sattendre vivre encore 3 mois.
On va dfinir la fonction de risque (hasard funtion) qui apparat comme une
mesure du risque instantan (attention ainsi que nous lavons vu ce nest
pas une probabilit. Elle peut en particulier prendre des valeurs suprieures
lunit) :
1.2. LA DESCRIPTION DE LA DISTRIBUTION DES TEMPS DE SURVIE 13

Prob[t T < t + t|T t]


h(t) = lim (1.3)
t0 t

Cette fonction est lie aux prcdents objets puisquen effet avec le thorme
des probabilits conditionnelles il vient :

f (t)
h(t) =
S(t)
Il est encore possible de dfinir le risque cumul H(t) selon :
Z t
H(t) = h(s)ds (1.4)
0
Avec lgalit suivante entre fonction de survie et fonction de risque
cumul :

H(t) = log[S(t)]
en effet
Z t
f (t) d log St
h(t) = = S(t) = exp[ h(s)ds] = exp[H(t)]
S(t) dt 0

Toutes ces fonctions sont donc lies entre elles : la connaissance de S(t)
permet celle de f (t) via (1.2) et donc celles de h(t) par (1.3) et H(t) par
(1.4). De mme, la connaissance de h(t) permet celle de H(t) donc de S(t)
et finalement de f (t). En dautres termes, si on se donne une seule de ces
fonctions, alors les autres sont dans le mme temps galement dfinies. En
particulier, un choix de spcification sur la fonction de risque instantan
implique la slection dune certaine distribution des donnes de survie.
14 CHAPITRE 1. INTRODUCTION
Chapitre 2

Lapproche non paramtrique

Lestimateur de la fonction de survie le plus utilis lorsquaucune hy-


pothse ne veut tre faite sur la distribution des temps de survie est les-
timateur de Kaplan-Meier. Dans un premier temps nous en donnons une
drivation heuristique. Dans un second temps nous le prsentons comme
estimateur du maximum de vraisemblance non paramtrique. Ce faisant
nous aurons alors un cadre cohrent danalyse au sein duquel pourrons
tre discutes les principales hypothses ncessaires sa drivation et leur
signification. Par ailleurs nous serons galement en mesure de driver sa
variance, et donc dapprcier la prcision avec laquelle la survie est esti-
me.
La consquence immdiate des acquis prcdents sera la possibilit de
construire des intervalles de confiance ponctuels autour de la survie esti-
me. Nous prsenterons galement la construction de bandes de confiance
affrente un seuil de confiance fix a priori 1 .
Si Kaplan-Meier est utile pour estimer une fonction de survie, on peut tre
intress par lestimation dautres fonctions qui caractrisent la distribu-
tion des temps dvnements. Nous traiterons donc de lestimation de la
fonction de risque cumule, avec lestimateur de Nelson-Aalen. Enfin nous
verrons la construction destimateurs noyaux de la fonction de risque cu-
mule 2 .
En pratique, au-del de la mise en vidence des caractristiques de la dis-
tribution des temps de survie au sein dune population donne, il nest pas

1. en faisant toutefois limpasse sur les dmonstrations qui relvent dune r-criture
de KM en termes de processus de comptage permettant de faire appel la thorie des
martingales. A lvidence le temps imparti ce cours ne permet pas daborder ces aspects.
2. Ces deux estimations sont en maintenant aisment ralisables avec SAS 9.2

15
16 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

rare de sinterroger sur dventuelles carts entre les distributions affrentes


deux ou plusieurs sous-population (par exemple hommes versus femmes,
maris versus clibataires, individus soumis un traitement particulier ver-
sus individus non soumis ce traitement, etc...). Outre son intrt propre,
la mise en vidence de caractristiques responsables dcarts significatifs
dans les survies est souvent utilise comme une premire tape de slection
dexplicatives avant la mise en oeuvre destimations de modles param-
triques ou semi-paramtriques. La section suivante prsente donc les tests
les plus usits dgalit des fonctions de survie estimes par Kaplan-Meier
avec notamment les versions stratifies de ces tests.
La section suivante est consacre lestimation non paramtrique des carac-
tristiques de la distribution des temps dvnements partir de donnes
issues de tables de survie. Enfin nous prsentons, dans la dernire section,
les principales commandes et options de la proc LIFETEST de SAS sous
SAS 9.2.

2.1 Lestimateur de Kaplan-Meier de la fonction de


survie : une prsentation heuristique
La fonction de survie est donc dfinie comme :

S(t) = Prob[T > t] = 1 F(t), t 0

Soient 2 dures t1 et t2 telles que t2 > t1 , alors :

Prob[T > t2 ] = Prob[T > t2 et T > t1 ]

puisque pour survivre aprs t2 il faut naturellement avoir dj survcu au


moins pendant une dure t1 . . On utilise ensuite le thorme des probabilits
conditionnelles et il vient :

Prob[T > t2 ] = Prob[T > t2 |T > t1 ] Prob[T > t1 ]


| {z } | {z }
(a) (b)

o
(a) peut tre estim par 1 dt2 /nt2 o dt2 est le nombre dindividus
ayant connu lvnement en t2 et nt2 le nombre dindividus qui au-
raient pu connatre lvnement en question entre t1 exclu et t2 . En
dautres termes nt2 est le nombre dindividus risque au temps t2 .
Si le temps tait vraiment continu on devrait toujours avoir d = 1.
2.1. LESTIMATEUR DE KAPLAN-MEIER DE LA FONCTION DE SURVIE : UNE PRSENTATION HEURIS

. En pratique la priodicit de collecte des donnes dissimule cette


continuit et on observe couramment des valeurs de d suprieures
lunit traduisant le fait que la discrtisation du temps impose par
le mode de collecte fait que plusieurs individus connaissent lvne-
ment au mme instant t. Que ceci ait des consquences svres pour
lanalyse dpend naturellement du degr de cette agrgation. Il est
cependant possible que la nature du problme impose le recours
une analyse en temps discret, par exemple si on tudie lobten-
tion dun diplme avec une succession de jurys semestriels. Dans ce
cours nous travaillons essentiellement avec lhypohse de distribu-
tions continues. Lorsquexistent des dures censures entre t1 inclus
et t2 exclus, la convention retenue est de ne pas prendre en compte
les individus concerns dans le calcul de nt2 , nombre dindividus
risque en t2 . Ainsi, si nt1 et nt2 sont respectivement les nombres din-
dividus risque en t1 et t2 , dt1 le nombre dindividus ayant connu
lvnement en t1 et c[t1 ,t2 [ le nombre dindividus censurs entre les
deux dates, on a nt2 = nt1 dt1 c[t1 ,t2 [ .

(b) est par dfinition S(t1 ).

On a donc :

dt2
2 ) = (1
S(t 1)
) S(t (2.1)
nt 2

Lquation prcdente donne une rcurrence permettant de calculer S(t)

pour tout temps dvnement t observ, sachant quinitialement S(0) =1:
Y di
=
S(t) (1 ) (2.2)
ni
i|ti t

On peut montrer que, sous des conditions assez faibles, lestimateur de



Kaplan-Meier, S(t), a asymptotiquement une distribution normale centre
sur S(t) . Une de ces conditions est que la censure soit non informative relati-
vement lvnement tudi : une faon de comprendre cette condition est
que la probabilit de connatre lvnement tudi un temps t quelconque
est la mme pour les individus censurs et les individus non censurs. Cet
aspect sera prcis la section suivante.

Exemple 1 : On ne considre pour linstant que des donnes compltes,


cad. non censures relatives des temps de ralisation dun vnement
18 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

mesurs en jours et observ sur 10 individus :

6, 19, 32, 42, 42, 43, 94, 105, 105, 120


ti di ni 1 di /ni i ) F(t
S(t i)
i ) = 1 S(t
0 0 10 1 1 0
6 1 10 1-1/10= 0.90 0.90 0.10
19 1 9 1-1/9 = 0.889 0.80 0.20
32 1 8 1-1/8 = 0.875 0.70 0.30
42 2 7 1-2/7 = 0.7143 0.50 0.50
43 1 5 1-1/5 = 0.80 0.40 0.60
94 1 4 1-1/4 = 0.75 0.30 0.70
105 2 3 1-2/3 = 0.330 0.10 0.90
120 1 1 1-1 = 0 0 1

La reprsentation graphique associe tant :


1. 00

0. 75

0. 50

0. 25

0. 00

0 20 40 60 80 100 120

t emps

est une fonction en escalier dont la valeur change


Remarque : S(t)
uniquement aux temps correspondant des vnements observs.
En effet un instant ti se produit un vnement qui mne une
i ) . Le prochain vnement se produira linstant ti+1
estimation S(t
et donc entre les temps ti inclus et ti+1 exclus aucune information
nouvelle napparat relativement celle dont on dispose en ti : il ny
a donc pas lieu de rviser lestimateur de la fonction de survie.

Exemple 2 : On introduit des donnes censures. Dans ce cas la fonction


de survie nest estime que pour les temps observs mais il faut naturel-
lement ajuster le nombre dindividus risque. La rgle est que pour une
dure donne ti on ne comptabilise dans les individus risqus que ceux
qui ont une date dvnement gale ou suprieure ti ou une dure de
censure suprieure ti (au passage on notera quune convention est que si,
2.1. LESTIMATEUR DE KAPLAN-MEIER DE LA FONCTION DE SURVIE : UNE PRSENTATION HEURIS

pour un individu quelconque, les survenues de lvnement et de la cen-


sure sont concomitantes alors on le considre comme comme non censur.
En dautres termes, on impose que la ralisation de lvnement prcde la
censure).
Dans la liste ci-dessous relatives 19 dures mesures en jours, les donnes
censures sont signales par lexposant * :

6, 19, 32, 42, 42, 43*, 94, 126*, 169*, 207, 211*, 227*, 253, 255*, 270*, 310*,
316*, 335*, 346*
On obtient alors :

ti di ni 1 di /ni i)
S(t F(t i)
i ) = 1 S(t
0 0 19 1 1 0
6 1 19 0.947 0.947 0.053
19 1 18 0.944 0.895 0.105
32 1 17 0.941 0.842 0.158
42 2 16 0.875 0.737 0.263
94 1 13 0.923 0.680 0.320
207 1 10 0.90 0.612 0.388
253 1 7 0.957 0.525 0.475
Remarques :
Il existe des dures suprieures 253 jours mais elles sont toutes cen-
sures. En consquence dans ce deuxime exemple, et contrairement
au prcdent, la valeur estime de la fonction de survie correspon-
dant au temps dvnement maximal observ (soit 253 jours) ne
sannule pas. Prcdemment nous avions S(120) = 0 du fait que la
dure maximale tait non censure. En dautres termes, le fait que
lestimateur de la fonction de survie sannule ne signifie pas que tous
les individus ont connu lvnement tudi mais seulement que la
dure maximale ne correspond pas une censure. Pour vous en per-
suader, reprenez les chiffres de ce second exemple en remplaant
346* par 346.
En ce qui concerne la reprsentation graphique de la fonction de
survie beaucoup vont la tracer jusquau temps t = 253, ce qui est rai-
sonnable puisque lestimateur KM nest pas dfini au-del du temps
dvnement maximal. Toutefois, vous trouverez aussi des prsen-
tations qui vont la prolonger jusquau temps t = 346, maximum des
temps censurs qui est ici suprieur au plus grand temps dvne-
ment connu, avec une horizontale dordonne 0.525. On retrouve une
20 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

fonction en escalier pour les raisons prcdemment avances : soient


ti et ti+1 deux temps dvnements observs successifs, la rvision de
lestimateur calcul en ti ne se produira quen ti+1 et les temps cen-
surs compris entre ces deux instants ne seront pris en compte que
pour lvaluation du nombre dindividus risque en ti+1 . Selon ce
raisonnement si on a dpass le maximum des temps dvnement
ralis alors on doit avoir naturellement une horizontale pour le
dernier segment. On obtient ainsi avec ce second exemple le graphe
suivant :
1. 00

0. 75

0. 50

0. 25

0. 00

0 50 100 150 200 250 300 350

t emps
Legend: Pr oduct - Li mi t Est i mat e Cur ve Censor ed Obser vat i ons

Aprs avoir estim une fonction de survie il est souvent intressant


destimer les quantiles de la distribution des temps de survie. Dans SAS
lestimateur du pime centile est donn par qp = inf[t|S(t) < 1 p] ou t est
pris dans lensemble des temps dvnement observs. Par dfaut le logiciel
affiche lestimation de la mdiane ainsi que celles des premier et le troisime
quartiles. Ainsi, le premier quartile (p = 0.25) est le temps dvnement au-
del duquel on estime que 75% des individus ne vont pas encore connatre

lvnement : q0.25 = inf[t|S(t) < 0.75]. Dans le premier exemple on a en
consquence q0.25 = 32 jours. De mme, lvaluation du troisime quartile
q0.75 est de 105 jours. Dans le cas o il existe un temps dvnement t j tels
que S(t j ) = 1p alors le pime centile est valu comme qp = 1 (t j +t j+1 ). Ainsi,
2
toujours dans le premier exemple, comme S(42) = 0.50, la mdiane est esti-
me 12 (42 + 43), soit 42,5 jours. Dans le deuxime exemple il est impossible
destimer la mdiane et a fortiori le troisime quartile de la distribution
puisque lon natteint jamais la valeur de 50%. Ceci se produit en raison de
la prsence de nombreuses donnes censures pour les plus grandes dures
dvnement, ce qui est souvent le cas. Il est possible en revanche destimer
le premier quartile de la distribution des temps dvnements : q0.25 = 42
2.1. LESTIMATEUR DE KAPLAN-MEIER DE LA FONCTION DE SURVIE : UNE PRSENTATION HEURIS

jours : au moins 75% des individus nont pas connu lvnement avant 42
jours. On peut galement construire des intervalles de confiance sur ces
percentiles et SAS utilise pour cela une mthodologie base sur un test de
signe propos par Brookmeyer et Crowley (1982), lintervalle de confiance
p]2 c Var[S(t)]},
du pime centile ICp est alors donn par ICp = {t|[1 S(t)
o c est la valeur critique au seuil dun Chi2 un degr de libert, et

Var[S(t)] qui sera dfinie dans le paragraphe
est la variance estime de S(t)
suivant.

Remarques

La prsence de donnes censures pour les plus longues dures de


vie affecte la qualit de la moyenne empirique en tant questima-
teur de lesprance de la distribution des temps de survie. Pour cette
raison on prfre utiliser la mdiane. Cette prfrence est encore
renforce par le fait que trs souvent cette distribution est asym-
trique. On rappelle dailleurs quil est toujours utile de commencer
une tude par une analyse descriptive simple des sries de travail,
ici des temps de survie.
Lestimateur KM possde une caractristique contre intuitive : les
dures dvnements longues tendent abaisser la courbe de survie
estime plus que ne le font les vnements observs dure courte
(Cantor et Shuster, 1992, et Oakes, 1993). Ceci provient du fait que
ni dcrot avec ti et donc lestimation de la probabilit conditionnelle
de survenue de lvnement, di identique, diminue lorsque ti aug-
mente. Pour vous en persuader, reprenez les donnes de lexemple 2
en supposant que lvnement initialement observ au 6 ime jour se
soit produit au 230ime . La srie considrer est donc :
19, 32, 42, 42, 43*, 94, 126*, 169*, 207, 211*, 227*, 230, 253, 255*, 270*,
310*, 316*, 335*, 346*
Alors que cette substitution correspond une amlioration de la du-
re de survie, vous devez vrifier que si initialement une survie dau
moins 253 jours a une probabilit estime de 0.525, elle est mainte-
nant de 0.500 et est donc, paradoxalement, infrieure.
22 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

2.2 Kaplan-Meier comme estimateur du maximum de


vraisemblance non paramtrique
Lobjectif de cette section est de donner un cadre formel plus assur per-
mettant la drivation de lestimateur de Kaplan-Meier. On va notamment
crire, sans faire dhypothse sur la distribution des temps de survie, une
fonction de vraisemblance et obtenir KM comme solution au problme de
maximisation de cette fonction. Les seules hypothses sont des conditions
de rgularit (notamment de continuit et de diffrentiabilit de la fonction
de survie). En outre, cela permettra par la suite dvaluer la variance de cet
estimateur partir de la matrice dinformation de Fisher associe cette
vraisemblance.
On va se situer dans un cadre de censure alatoire droite pour lequel
un certain nombre de notations et dhypothses doivent tout dabord tre
prcises. On considre deux alatoires Ti et Ci qui, pour chaque individu
i, donnent respectivement le temps de survenu de lvnement tudi, ti et
le temps de censure ci . Dans le cas dune censure droite qui nous intresse
ici, le temps de survenue nest pas toujours connu : ce que lon observe est
la ralisation de T dfinie par Ti = min (Ti , Ci ) : si ci < ti alors le temps
de survenu nest pas connu pour cet individu et le temps ti pris en compte
dans les calculs pour cet individu est ci . Inversement, si ci ti alors ti = ti .
Au final, ti = min (ti , ci ). Cette information est complte par la valeur dune
indicatrice signalant la prsence ou labsence de la censure : i = 1 si ti = ti
et i = 0 sil y a censure. On suppose que les Ti sont indpendantes entre
elles, que les Ci sont indpendantes entre elles et de plus que le mcanisme
de censure est, pour chaque individu, indpendant de la survenue de lv-
nement tudi : Ti et Ci sont galement indpendantes. On admet enfin que
les variables alatoires ti , i = 1, . . . , n, ont mme distribution avec une fonc-
tion de densit f (t) et une fonction de survie S(t). De mme les variables Ci
ont toutes la mme distribution de densit m(t) et de survie M(t).
Ce qui nous intresse est naturellement destimer les caractristiques de
la distribution des temps de ralisation de lvnement et en particulier la
fonction de survie S(t). Pour ce faire, on va sintresser la vraisemblance
associe cette configuration. On commence par crire la vraisemblance
associe une observation selon quelle est censure ou pas. Il vient :

Cas dun temps non censur : la vraisemblance est donne par la


probabilit de survenue de lvnement au temps t, soit
Pr[T t] Pr[T > t] = S(t ) S(t), o S(t ) = lim S(t + dt).
dt0
2.2. KAPLAN-MEIER COMME ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE NON PARAMTRIQ

Elle est encore gale f (t) (plus prcisment, f (t)dt si Y est conti-
nue).
Cas dun temps censur : la vraisemblance associe est gale simple-
ment gale la probabilit que T soit suprieure t, soit S(t).

On note di le nombre dindividus qui connaissent lvnement tudi au


temps ti , i = 1, . . . , k et mi le nombre dindividus soumis une censure sur
[ti , ti+1 [ des temps ti,1 , ti,2 , . . . , ti,mi . Sur lchelle des temps, les observations
se rpartissent donc comme suit :

d1 non d2 non dk non


censurs censurs censurs
z}|{ z}|{ z}|{
0 < t0,1 t0,2 . . . t0,m0 < t1 t1,1 . . . t1,m < t2 < tk tk,1 . . . tk,m
1 k
| {z } | {z } | {z }
m0 individus censurs m1 censurs mk censurs

Au total, la fonction de vraisemblance scrit donc :

L = S(t0,1 )S(t0,2 ) S(t0,m0 )


d1
Y
[S(t1 ) S(t1 )]
i=1
S(t1,1 )S(t1,2 ) S(t1,m1 )
d2
Y
[S(t2 ) S(t2 )]
i=1
...
dk
Y
[S(tk ) S(tk )]
i=1
S(tk,1 )S(tk,2 ) S(tk,mk )

m0
Y Yk mi
Y

= S(t0,i ) [S(t ) S(ti )]di S(ti,j )
i
i=1 i=1 j=1

Sachant que lobjectif est de maximiser cette vraisemblance, deux re-


marques peuvent alors tre faites :
La fonction de survie doit effectuer un saut en S(ti ). En effet, si on
pose S(ti ) = S(ti ), alors la vraisemblance sannule. Comme lobjectif
est de la maximiser, on doit avoir S(ti ) > S(ti ). La fonction de survie
24 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

tant monotone non croissante, lcart maximal est obtenu en posant


S(ti ) = S(ti1 ).
Les termes du type S(ti,j ), i = 0, . . . , k, j = 1, . . . , mi sont affrents
aux individus pour lesquels le temps dvnement est censur. Tou-
jours en raison du fait que lon veut maximiser la vraisemblance et
que la fonction de survie S() est monotone non croissante on doit
leur donner la plus grande valeur possible. Celle-ci est alors la va-
leur prise par la fonction sur le temps dvnement ralis qui leur
est immdiatement antrieur. Ainsi S(ti,j ) = S(ti ) avec en particulier
S(t0,j ) = S(t0 ) = S(0) = 1.
La fonction de survie est ainsi une fonction tage avec des sauts aux
temps dvnements non censurs. Quand la fonction de vraisemblance,
elle scrit donc encore :
k
Y
L= [S(ti1 ) S(ti )]di S(ti )mi
i=1

Enfin, on sait que

S(ti ) = Prob[T > ti ]


= Prob[T > ti , T > ti1 ]
= Prob[T > ti |T > ti1 ] Prob[T > ti1 ]
= Prob[T > ti |T > ti1 ] S(ti1 )
Comme S(t0 ) = S(0) = 1, alors, en notant i la probabilit conditionnelle,
il vient : S(t1 ) = 1 , S(t2 ) = 1 2 , S(ti ) = 1 2 i . On peut alors exprimer
la vraisemblance en fonction de ces termes i . Par la suite, ayant trouv
les estimateurs du maximum de vraisemblance i , nous pourrons calculer
ceux de S(ti ) grce aux galits prcdentes et la proprit dinvariance aux
transformations de ces estimateurs. La vraisemblance peut en effet encore
scrire comme :

k
Y
L= (1 2 i1 )di (1 i )di (1 2 i )mi
i=1
k
Y
= (1 i )di m
i
i
(1 2 i1 )di +mi
i=1

Finalement en notant
P ni le nombre dindividus risque au temps dv-
nement ti , soit ni = ji (d j + m j ), on obtient :
2.3. LES PRINCIPALES HYPOTHSES ET LEUR SIGNIFICATION 25

k
Y
L= (1 i )di ni i di
i=1

et la log-vraisemblance :

k
X
`= di log(1 i ) + (ni di ) log(i )
i=1

Les solutions sont aisment obtenues partir des conditions du premier


ordre :

`() di ni di ni di di
= + = 0 i = =1 , i = 1, . . . , k
i 1 i i ni ni
Lestimateur de Kaplan-Meier est alors donn par :
Y di
=
S(t) (1 )
ni
i|ti t

ce qui est bien lexpression (2.2) dj vue dans la section prcdente page
17.

2.3 Les principales hypothses et leur signification


A ct des hypothses de rgularit des fonctions manipules, deux
aspects doivent tout particulirement tre pris en considration lors de
lemploi de lestimateur KM : lhypothse de censure non informative dune
part, lhomognit de la population tudie dautre part.

2.3.1 Lhypothse de censure non informative


Elle correspond lhypothse dindpendance entre le processus dter-
minant le temps de survenue de lvnement ti et celui dterminant le temps
de censure ci . Lorsquelle nest pas vrifie, lestimateur KM est biais. Pour
saisir le problme, on peut reprendre la configuration prcdente et recon-
sidrer la construction de la vraisemblance sur les individus plutt que
sur les temps. Dans le cas dune censure droite, pour chaque individu i,
i = 1, . . . , n, on rappelle que lon a dfini une variable alatoire Ti de ra-
lisation ti = min (ci , ti ) o ci et ti sont les ralisations de deux variables Ci
26 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

et Ti de densit et de survie respectives m(t), M(t) et f (t), S(t). On dispose


galement dune indicatrice i = 1 si ti = ti et 0 sinon. Deux cas sont donc
considrer :
Celui dun temps de ralisation dvnement non censur. La pro-
babilit associe est :
   
Prob Ti [ti , t+i [, Ti = Ti = Prob Ti [ti , t+i [, i = 1
 
= Prob Ti [ti , t+i [, Ci > ti
 
= Prob Ti [ti , t+i [ Prob (Ci > ti )
= [ f (ti )dt][M(ti )]

et donc grce lhypothse dindpendance de Ti et Ci , fTi ,i (ti , 1) =


Prob(Ti [ti ,t+ [,Ti =Ti )
dt
i
= f (ti )M(ti ).

Cas dun temps de ralisation dvnement censur. La probabilit


associe est :
   
Prob Ti [ti , t+i [, Ti = Ci = Prob Ci [ti , t+i [, i = 0
 
= Prob Ci [ti , t+i [, Ti > ti
 
= Prob Ci [ti , t+i [ Prob (Ti > ti )
= [m(ti )dt][S(ti )]

Prob(Ti [ti ,t+ [,Ti =Ci )


do fTi ,i (ti , 0) = dt
i
= m(ti )S(ti ).

La vraisemblance sexprime alors comme :

n
Y
L= [ f (ti )M(ti )]i [m(ti )S(ti )]1i
i=1
n
Y
= [ f (ti )i S(ti )1i ][M(ti )i m(ti )1i ]
i=1
Yn
[ f (ti )i S(ti )1i ]
i=1

En labsence dindpendance la relation de proportionnalit nest plus


valide et on ne peut plus, pour maximiser L, se contenter de considrer
2.3. LES PRINCIPALES HYPOTHSES ET LEUR SIGNIFICATION 27

seulement les fonctions caractristiques des temps de survenue des v-


nements : il faudrait aussi faire intervenir les densit et fonction de survie
de sorte
affrentes au processus de censure. En dautres termes, choisir S(t)
maximiser la dernire expression comme effectu dans la section prc-
dente naurait aucune raison de fournir une estimation satisfaisante de la
survie.

2.3.2 Lhypothse dhomognit de la population tudie


Dans les prcdents dveloppements il est admis que le temps de sur-
venue de lvnement tudi est, pour tous les individus, tir dans une
mme distribution. Ainsi, chaque individu possde la mme fonction de
survie S(), ou bien encore de faon quivalente la mme fonction de risque
instantan, la mme fonction de risque cumule,... Le non respect de cette
hypothse peut avoir des consquences svres, et notamment provoquer
des erreurs dinterprtation des rsultats des estimations. Pour illustrer ce
danger, nous reprenons un exemple connu construit partir de la fonc-
tion de risque plutt quavec la fonction de survie. On suppose que pour
chaque individu le risque instantan est une constante. Cependant plu-
tt que dadmettre lunicit de cette constante entre tous les individus, on
pose maintenant quexistent J groupes dans lchantillon de travail tels que
tous les individus au sein dun groupe donn se caractrisent par le mme
risque mais que ce risque diffre entre les groupes. En dautres termes si
on note G j le jime groupe, j = 1, . . . , J, alors, pour deux individus a et b on a :

Si a et b appartiennent au mme groupe G j alors ha (t) = hb (t)


Si a Gi et b G j avec i , j alors ha (t) = i , hb (t) = j

Pour simplifier on admet galement que les groupes de risque sont or-
donns : 1 > 2 > > J1 > J . Que se passe til si on estime une
fonction de risque avec un tel chantillon en travaillant sous lhypothse
dhomognit ? Il est tout dabord vident que la fonction de risque de cet
chantillon est un mlange des J fonctions de risque affrentes chacun des
groupes. Par ailleurs lestimateur un temps dvnement donn de cette
fonction est obtenu en considrant les individus encore risque ce temps.
Or, lorsque le temps dvnement augmente la proportion des individus
faible risque doit saccrotre alors que simultanment la proportion des
individus risqu lev doit diminuer. Ce mouvement nest sans doute pas
uniforme : on peut avoir une faible probabilit de connatre un vnement
et cependant le subir rapidement, et inversement une personne peut avoir
28 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

une forte probabilit pour que se ralise un vnement sans que celui-ci se
produise court terme. Mais en moyenne cette tendance doit tre vrifie.
Ainsi le risque estim sur lchantillon complet doit dcrotre. Pour autant,
il faut se garder dappliquer cette conclusion chaque individu puisque
lon sait, par construction, que son risque est constant. Concrtement, ima-
ginez que les individus soient des entreprises de cration rcente et que
lvnement dintrt soit la survenue dune faillite : le fait dobtenir une
dcroissance du risque dans lchantillon ne signifie pas ncessairement que
le risque de faillite est leve dans les premiers mois qui suivent la cration
dune entreprise puis diminue si elle a survcu un certain temps puisque
lon obtiendrait la mme volution avec des entreprises risque constant
certaines trs risques mlanges avec des firmes risque quasi-nul.

En pratique lhomognit suppose des individus, si elle nest pas


respecte, conduit lestimation dun mlange de distributions difficilement
interprtable et il faut donc tenter de se mettre dans des conditions o
elle nest pas trop invalide. Ceci est par exemple possible dans certaines
expriences (pensez par exemple des chantillons constitus de souris
gntiquement identiques, des plants), mais est plus compliqu notamment
sur des donnes dentreprises, de clients, etc... La solution est de construire
des sous-chantillons au sein lesquels elle doit tre mieux vrifie. Ainsi,
on pourra distinguer les clients selon leur sexe ou/et leur catgorie dge
si on pense que la probabilit de survenue de lvnement diffre entre les
hommes et les femmes, les jeunes et les adultes, etc... Lestimation KM est
alors ralise sparment sur chacun de ces sous-chantillons. Nous verrons
par la suite quil est dailleurs possible de tester lgalit des diffrentes
fonctions de survie, et donc de justifier ou non le dcoupage de lchantillon
initial. Lautre solution sera dinclure les caractristiques en question comme
explicatives des paramtres de la fonction de survie et/ou de risque, ce qui
sera ralis par les modlisations paramtrique ou semi-paramtrique dans
les chapitres suivants.

2.4 La variance de lestimateur de Kaplan-Meier

Pour apprcier la prcision de lestimation de S(t) il est utile destimer


. Pour ceci on peut employer des rsultats
la variance de lestimateur S(t)
drivs dans le cadre de la thorie de lestimation par du maximum de
vraisemblance. On sait notamment que la variance asymptotique de MV =
2.4. LA VARIANCE DE LESTIMATEUR DE KAPLAN-MEIER 29

( 1 , 2 , . . . , k )0 peut tre value par :

2
!1
MV ) = `() |
V(
i j =MV i,j=1,...,k

Partant de l, on peut obtenir la formule dite de Greenwood qui est la


plus utilise dans la littrature.

On part de la formule de calcul de lestimateur KM :


Y di Y
=
S(t) (1 )= i
ni
i|ti t i|ti t

et donc : X X
di
log(S(t)) = log(1 )= log( i )
ni
i|ti t i|ti t

o
di /ni est la proportion dindividus ayant connu lvnement parmi
les individus risque en ti , et donc
1di /ni est la proportion dindividus nayant pas connu lvnement
parmi les individus risque en ti .

Lide est de calculer la variance de la somme prcdente, dont on


montrera quelle est constitue dlments orthogonaux entre eux et donc
simplement gale la somme des variances des lments en question pour,

finalement, remonter de la variance de log( S(t))
la variance de S(t).
On a immdiatement dune part :

2 `() ni di di
2
= 2
, i = 1, . . . , k
i i (1 i )2

et, dautre part :


2 `()
= 0, i, j = 1, . . . , k et j , i
i j
di
La matrice de VarCov est donc diagonale. value en i = 1 ni , on
arrive alors Cov( i , j ) = 0 si i , j et

di (ni di )
Var( i ) =
n3i
30 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

En consquence en utilsant la mthode delta 3 ,

Var[log( i )] = 2 i]
i Var[
n2i di (ni di )
=
(ni di )2 n3i
di
=
(ni di )ni

Et donc :
X di

Var[log(S(t))] = 2lSt =
(ni di )ni
i|ti t


On veut Var[S(t)].
Sachant que lon connat Var[log(S(t))] et que natu-

rellement Var[S(t)] = Var[exp{log(S(t))}], il suffit de reprendre la mthode
delta applique maintenant g() = exp() pour obtenir finalement la formule
de Greenwood :


Var[S(t)]
= Var[exp{log(S(t))}]

= [exp{log(S(t))}] 2
Var[log(S(t))]
X di
2
= S(t)
(ni di )ni
i|ti t
2

= S(t) 2lSt

2.5 La construction dIC sur la survie


2.5.1 Les intervalles de confiance ponctuels
Il sagit de trouver deux bornes bLt et bUt telles que t > 0 on ait :
Prob[bUt S(t) bLt ] = 1 , ou est un seuil de risque fix a priori.

Le point de dpart est relativement


complexe obtenir et sera simple-
S(t))/S(t) converge vers une
ment admis ici : on peut montrer que n(S(t)

3. Rappel : soit calculer Var[g(x)] o g() est une fonction continue drivable. Un dve-
g(x)
loppement de Taylor lordre 1 au voisinage de x0 donne : g(x) = g(x0 ) + (x x0 ) x |x=x0 =
0 02
g(x0 ) + (x x0 )gx0 et donc Var[g(x)] = g x0 Var(x). Ici g(x) = log(x) et g(x)=1/x.
2.5. LA CONSTRUCTION DIC SUR LA SURVIE 31

martingale gaussienne centre. Une des consquences est que la distribu-


est gaussienne et centre sur S(t). Compte-tenu
tion asymptotique de S(t)
des rsultats prcdents, son cart-type estim, not St , est donn par :


St = lSt S(t), (2.3)

et donc un intervalle de confiance au seuil 100(1 )% peut tre construit


selon :

z/2 S
S(t) (2.4)
t

o z/2 est le fractile de rang 100 /2 de la distribution normale standar-


dise.

Un inconvnient de la construction de lIC avec la formule prcdente


est que les bornes obtenues peuvent tre extrieures lintervalle [0, 1].
Une solution est de considrer une transforme de S(t) via une fonction
g() continue, drivable et inversible telle que g(S(t)) appartienne un es-
pace plus large idalement non born et pouvant mieux approximer une
va gaussienne. La mthode delta autorise alors lestimation de lcart-type
de lobjet ainsi cr au moyen de g(St ) dfinit par g(St ) = g0 (S t ) St . Lin-
tervalle
 de confiance associ
 au seuil de risque est construit comme
1 0
g g(St ) z/2 g (St ) St . La transformation la plus usite est g(St ) = log[log(St )],
et dans ce cas 4 :
 S

St exp z/2 t

et S t
S t log(S t )
log[ log (St )] = .
S t log(S t )

2.5.2 Les bandes de confiance


Il sagit maintenant de trouver une rgion du plan qui contienne la
fonction de survie avec une probabilit gale 1 , ou encore un en-
semble de bornes bLt et bUt qui, avec une probabilit 1 , encadre S(t) pour
tout t [tL , tU ]. Parmi les solutions proposes, les deux plus couramment
employes et disponibles dans SAS 9.2 sont dune part les bandes de Hall-
Wellner et dautre part les bandes de Nair ("equal precision bands"). Si tk est
le temps dvnement maximal observ dans lchantillon, alors pour les
4. On peut galement utiliser des transformations de type log, arc-sinus de la racine
carre ou logit dans la plupart des logiciels dfinies respectivement par g(St ) = log[St ],
g(St ) = sin1 [ St ], g(St ) = log [St /(1 St )]
32 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

bandes de Nair on a les restrictions suivantes 0 < tL < tU tk , en revanche,


avec Hall-Wiener on peut autoriser la nullit de tl , soit 0 tL < tU tk . Tech-
niquement lobtention de ces bandes est complexe 5 , et leur utilit pratique
par rapport aux intervalles ponctuels nest pas vidente. En particulier, du
fait du caractre joint, pour un t donn leur tendue est plus large que celle
de lIC ponctuel correspondant. Dans ce qui suit nous donnons les expres-
sions obtenues en labsence de transformation. Il peut tre encore possible
dappliquer les transformations log, log-log, arc-sinus de la racine carre ou
logistique. En pratique, il est conseill dutiliser une transformation avec
les bandes de Nair alors que le recours une transformation serait moins
utile sur les bandes de Hall-Wellner.

Les bandes de confiance de Hall-Wellner


Sous lhypothse de continuit des fonctions de survie de S(t) et M(t)
affrentes respectivement au temps dvnement et au temps de censure,
Hall et Wellner montrent que pour tout t [tL , tU ] lIC joint au seuil de
risque est donn par :

h (xL , xU )n 12 [1 + n 2 ]S(t),
S(t) (2.5)
lSt

o xL et xU sont donns par xi = n 2lS /(1 + n 2lS ) pour i = L, U et h (xL , xU )


ti ti
h i
0
est la borne vrifiant = Pr supxL xxU |W (x)| > h (xL , xU ) .

Les equal precision bands de Nair


Lemploi dun pont Brownien pondr va notamment modifier les bornes
des IC. Pour tout t [tL , tU ] celles-ci sont alors donnes par :

e (xL , xU ) S ,
S(t) (2.6)
t
" #
|W 0 (x)|
la borne e (xL , xU ) vrifiant = Pr supxL xxU > e (xL , xU ) .
x(1x)

Si on compare (2.4) et (2.6), on voit que les bornes affrentes aux bandes
de Nair sont proportionnelles aux bornes des IC ponctuels et correspondent
simplement un ajustement du seuil de risque utilis dans ces dernires.
S(t)S(t)

5. Le point de dpart utilise le fait que n S(t) converge vers une martingale gaus-
sienne centre. On passe ensuite par une transformation faisant apparatre un pont brownien
p
{W 0 (x), x [0, 1].}, pondr par 1/ x(1 x) chez Nair, permettant de rcuprer les valeurs
critiques idoines
2.5. LA CONSTRUCTION DIC SUR LA SURVIE 33

Un exemple
Pour illustrer les points prcdents, on utilise des donnes de Klein et
moeschberger(1997) distribues avec linstallation de SAS (fichier BMT).
proc format;
value risk 1=ALL 2=AML-Low Risk 3=AML-High Risk;
data BMT;
input Group T Status @@;
format Group risk.;
label T=Disease Free Time;
datalines;
1 2081 0 1 1602 0 1 1496 0 1 1462 0 1 1433 0 1 1377 0 1 1330 0
1 996 0 1 226 0 1 1199 0 1 1111 0 1 530 0 1 1182 0 1 1167 0 1
418 1 1 383 1 1 276 1 1 104 1 1 609 1 1 172 1 1 487 1 1 662 1
1 194 1 1 230 1 1 526 1 1 122 1 1 129 1 1 74 1 1 122 1 1 86 1
1 466 1 1 192 1 1 109 1 1 55 1 1 1 1 1 107 1 1 110 1 1 332 1 2
2569 0 2 2506 0 2 2409 0 2 2218 0 2 1857 0 2 1829 0 2 1562 0 2
1470 0 2 1363 0 2 1030 0 2 860 0 2 1258 0 2 2246 0 2 1870 0 2
1799 0 2 1709 0 2 1674 0 2 1568 0 2 1527 0 2 1324 0 2 957 0 2
932 0 2 847 0 2 848 0 2 1850 0 2 1843 0 2 1535 0 2 1447 0 2
1384 0 2 414 1 2 2204 1 2 1063 1 2 481 1 2 105 1 2 641 1 2 390
1 2 288 1 2 421 1 2 79 1 2 748 1 2 486 1 2 48 1 2 272 1 2 1074
1 2 381 1 2 10 1 2 53 1 2 80 1 2 35 1 2 248 1 2 704 1 2 211 1
2 219 1 2 606 1 3 2640 0 3 2430 0 3 2252 0 3 2140 0 3 2133 0 3
1238 0 3 1631 0 3 2024 0 3 1345 0 3 1136 0 3 845 0 3 422 1 3
162 1 3 84 1 3 100 1 3 2 1 3 47 1 3 242 1 3 456 1 3 268 1 3
318 1 3 32 1 3 467 1 3 47 1 3 390 1 3 183 1 3 105 1 3 115 1 3
164 1 3 93 1 3 120 1 3 80 1 3 677 1 3 64 1 3 168 1 3 74 1 3 16
1 3 157 1 3 625 1 3 48 1 3 273 1 3 63 1 3 76 1 3 113 1 3 363
1;
Dans cet exemple on ne considre pas les informations relatives la
variable risk. Les estimations KM de la survie, les intervalles de confiance
ponctuels et une bande de confiance, ici de Nair, sont obtenus avec les
instructions suivantes :
proc lifetest data=BMT plots=s(cl cb=ep); time T * Status(0);
run;
Le seuil de risque par dfaut est utilis ( = 5%) et les rsultats sont
prsents dans le graphique (2.1).
34 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

Figure 2.1 Intervalles de confiances ponctuels et bande de confiance

2.6 Lestimation de la fonction de risque cumul


Nelson (1972) et Aalen (1978) ont propos un estimateur de la fonction
de risque cumule H(t). Connu sous le nom destimateur de Nelson-Aalen,
il est donn par :
Xd
= i
H(t) (2.7)
ni
i|ti t

Un autre estimateur galement souvent employ est lestimateur de


Breslow ou de Peterson. Il est obtenu partir de lestimateur KM de la
survie et reprend lquation liant les deux fonctions, soit :

H(t)
= log S(t) (2.8)
On peut montrer que H(t) < H(t)
: lestimateur de Nelson-Aalen est tou-
jours infrieur lestimateur de Breslow 6 . Il ny a cependant aucune raison
6. Ceci vient du fait que la fonction log tant concave elle se situe sous sa tangente et
donc, si on considre un dveloppement de Taylor lordre 1, 1l vient log(1 x+ ) < x+ .
P P
Comme dune part H(t) = i|t t di , on obtient immdiatement
= i|t t log (1 di ) et H(t)
i ni i ni
la proprit annonce.
2.7. LESTIMATION KERNEL DU RISQUE INSTANTAN 35

de privilgier lun par rapport lautre 7 .On peut naturellement.

En ce qui concerne la prcision de ces estimateurs, on peut estimer la


variance de lestimateur de Peterson par :


Var(S(t))

Var(H(t)) = (2.9)
2
S(t)

o Var(S(t)) est la variance de lestimateur KM drive prcdemment.

Pour lestimateur de Nelson-Aalen, deux choix asymptotiquement qui-


valents sont offerts. Soit :

X di (ni d j )

Var(H(t)) = , (2.10)
i|ti t
n3i

soit, et cette deuxime expression est prfrable sur petits chantillons :


X d
i
Var(H(t)) = 2
. (2.11)
n
i|t t i
i

Cest cette dernire formulation qui utilise dans la proc LIFETEST de SAS)

2.7 Lestimation kernel du risque instantan


Des estimateurs noyaux de la fonction de risque ont t proposes tant
pour des donnes groupes, du type table de survie que nous tudions dans
une section ultrieure, que pour des donnes individuelles supposant des
dures continues. Nous naborderons que ce dernier cas qui, actuellement,
est le seul implment dans SAS.
Par la suite, lensemble des calculs ne portent que sur les temps dv-
nements observs. Lide est de proposer un estimateur liss du risque
instantan partir de lestimation du risque cumul. Pour cette dernire
on utilise lestimateur canonique qui est celui de Nelson-Aalen vu au point
prcdent. Plusieurs mthodes de lissage ont t proposes dont les fonc-
tions splines, mais la plus usite (et en tout cas la seule disponible dans

7. Disposant de lestimateur de Nelson-Aalen du risque cumul, on peut naturellement


remonter vers la survie en exploitant toujours la relation liant les deux fonctions. Cest ce
= exp H(t).
que ralise lestimateur de Fleming et Harrington : S(t)
36 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

SAS) recourt lemploi de fonctions de type kernel K associes un choix


de bandwidth b, soit :
Z  
hn (t) = tx
b1 K dHn (t) (2.12)
b

Labsence de biais asymptotique, la normalit asymptotique et la conver-


gence en moyenne quadratique de h n (t) peut tre obtenue sous des condi-
tions de rgularit 8

La fonction de risque cumule H n (t) tant une fonction sauts aux


temps dvnements observs ti , en posant 4H n (ti ) = H n (ti ) H n (ti1 ) pour
i = 1, 2, . . . , k, il vient :

k
X  
hn (t) = 1 K
t ti
4H n (ti ) (2.13)
b b
i=1

Quand sa variance, elle est donne par :

k  
1 X t ti 2
s2 (h n (t)) = K 4Var(H n (ti ))
b2 i=1 b

En consquence on peut construire des intervalles de confiance ponc-


tuels de la forme h n (t) z/2 s(h n (t)), o z/2 est le fractile affrent au seuil
de risque dans la distribution gaussienne standardise. Comme pour
les IC sur la survie, on prfre appliquer une transformation sur h n (t). La
proc LIFETEST utilise une transforme logarithmique ce qui conduit lIC
suivant :
z s(h (t))
hn (t) exp /2 n

h n (t)

2.7.1 Le choix de la fonction Kernel


Dans SAS 9.2, les 3 choix suivants sont possibles :

un kernel uniforme : KU (x) = 12 , 1 x 1


un lissage de noyau Epanechnikov : KE (x) = 34 (1 x2 ), 1 x 1

8. la fonction deRhasard est k-fois


R diffrentiable R(le plus souvent k=2), la fonction kernel
est dordre k (soit K(x)dx = 1, K2 (x)dx < , x j K(x)dx = 0 pour 1 < j < k et 0 <
R
xk K(x)dx < ), enfin le paramtre de bandwidth vrifie lim n bn = 0 et limn nbn = .
2.7. LESTIMATION KERNEL DU RISQUE INSTANTAN 37

15
un lissage biweight : KBW (x) = 16 (1 x2 )2 , 1 x 1

En pratique le lissage Epanechnikov est souvent recommand mme si


on admet que le choix du noyau a peu dimpact sur la valeur de lestimation.
Il faut naturellement se mfier des effets de bord : les mthodes de
lissage prcdentes deviennent douteuses lorsque le support du kernel d-
passe ltendue des donnes disponibles cest dire au voisinage des temps
dvnements les plus faibles et les plus levs. Il est alors ncessaire de
remplacer les fonctions kernel symtriques par des fonctions asymtriques
lorsque t < b dune part et lorsque tk b tk dautre part 9

2.7.2 Le choix du paramtre de lissage


Contrairement au choix du noyau, celui de b est essentiel : en augmen-
tant sa valeur on risque de trop lisser et masquer des caractristiques perti-
nentes, en la diminuant on risque de rvler des volutions trs irrgulires
essentiellement dues des bruits alatoires. Il sagit en fait darbitrer entre
le biais et la variance de lestimateur h n (t) comme le montre les rsultats
suivants obtenus dans le cadre du modle censure alatoire :

biais(h n (t)) = bk [hk (t)Bk + 0(1)


!
1 h(t)
Var(h n (t)) = V + 0(1)
nb [S(t)M(t)]
R R
o Bk = (1)k /k! xk K(x)dx et V = K2 (x)dx.

Actuellement SAS utilise une valeur de b qui minimise lerreur qua-


dratique moyenne intgre 10 . On notera que la valeur de ce paramtre est
donc fixe pour tous les temps dvnement ti . On peut mettre en vidence
un mauvais comportement des estimations rsultantes en raison nouveau
dun effet de bord notamment pour les ti levs : le nombre dobservations
diminuant avec t il en rsulte une baisse des observations disponibles pour
les calculs lorsquon travaille avec un paramtre de lissage constant et des
ti de plus en plus grands. Une autre faon de percevoir ce problme est
de noter que lorsque le temps dvnement augmente alors la fonction de
survie tend vers zro et, daprs la dernire quation, la variance de lesti-
mateur explose. Une solution est de modifier la valeur de b en un b(t) qui
9. Voir la documentation de proc LIFETEST pour lexpression des fonctions alors mises
en oeuvre par SAS. R 
10. Rappel : MISE(h n (t)) = E [h n (t) h(t)]2 dt .
38 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

soit une fonction croissante de t. Cette possibilit demploi dun paramtre


de bandwidth local nest pas disponible avec SAS 9.22.

Un exemple

On reprend les donnes du fichier BMT utilis dans la section prc-


dente. Afin destimer le risque ponctuel, nous avons utilis deux valeurs
pour le paramtre bandwith : lune correspond sa valeur optimale (94.47),
lautre est impose (180.0). Les instructions utilises sont de la forme :

proc lifetest data=BMT plots=h(bw=180);


time T * Status(0);
run;

Les rsultats sont regroups dans le graphique 2.1. Par dfaut, cest un
Kernel de type Epanechnikov qui est mis en oeuvre. On remarque bien leffet
de lissage accentu associ laugmentation du paramtre de bandwith. Par
ailleurs, il semble que le risque de dcs soit lev au moment et peu aprs la
date du diagnostic, et quil tend ensuite dcrotre assez rgulirement pour
atteint un plateau o il est pratiquement nul entre 1200 et 2000 jours, avant
de remonter vers les plus longues dures. Il faut cependant se souvenir
des effets de bords et ne pas commenter une volution qui serait en fait
essentiellement de leur fait. Ces effets affectent la prcision des estimations
et une faon de les mettre en vidence est de construire des intervalles de
confiance autour de la fonction lisse. Cela est effectu dans le graphique 2.2.
Dans le prsent exercice, on observe des amplitudes pour les IC aux dures
faibles et leves qui interdisent de commenter les volutions observes
sur ces temps. La seule conclusion raisonnable concerne la dcroissance du
risque quelque mois aprs le diagnostic.

2.8 Comparaison de courbes de survie estimes par


Kaplan-Meier
Aprs avoir estim les courbes de survie sur deux groupes dindividus
ou plus, on est souvent amener vouloir les comparer. Lexemple le plus
simple est celui de deux chantillons dindividus issus initialement de la
mme population mais dont lun a t soumis une intervention (par
exemple un traitement, une action marketing,. . . ). La question est alors
de tester lefficacit de cette intervention. Il est extrmement important de
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 39

Table 2.1 Estimation kernel de la fonction de risque instantane

Figure 2.2 Estimation kernel de la fonction de risque instantane avec


intervalles de confiance
40 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

sassurer qu lexception de lintervention en question, les deux ensembles


dindividus possde les mmes autres caractristiques. Dans le cas contraire,
une divergence des courbes de survie ne peut pas tre attribuable la seule
intervention dont on cherche apprcier limpact. Par exemple que les
caractristiques dges, de sexe, de catgories socioprofessionnelles sont les
mmes dans les deux groupes dont lun est la cible dune action marketing et
lautre pas. La plupart des statistiques utilises sont fondes sur des tableaux
de contingences construits sur lensemble des temps dvnements. Ce sont
donc des statistiques de rang, la plus couramment utilise tant la statistique
dite du LogRank 11 .

2.8.1 La statistique du LogRank

Aussi appele statistique de Mantel-Haenzel, elle doit son nom Peto


et Peto (1972) qui la drive en considrant les estimateurs du logarithme
des fonctions de survie. Pour simplifier nous lexposerons relativement en
dtail pour 2 seulement groupes dindividus, avant daborder lextension
plus de deux groupes.

La comparaison de deux fonctions de survie

Soient 2 groupes dindividus indics 1 et 2 et les effectifs observs au


temps ti :

Groupe 1 2 total
Individus ayant connu lvnement d1i d2i di
Individus nayant pas connu lvnement n1i d1i n2i d2i ni di
Individus risqus n1i n2i ni

Lhypothse nulle est lgalit des courbes de survie. Sous H0 la pro-


portion attendue dvnements un temps ti quelconque est donne par
di /ni et le nombre espr dvnements au sein des groupes est obtenu en
appliquant cette proportion leffectif observ de chacun des groupes. Soit :

11. SAS donne galement par dfaut une statistique de type LRT. Celle-ci suppose une
distribution exponentielle des dures qui na aucune raison dtre gnralement valide.
Pour cette raison nous ne la traiterons pas ici. En revanche, elle rapparatra dans le chapitre
3 consacr aux modles paramtriques.
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 41

di
e1i = n1i pour le 1er groupe
ni
di
e2i = n2i
ni
di
= (ni n1i )
ni
= di e1i pour le second groupe

Les rgles de construction des donnes ncessaires ces calculs sont


celles utilises dans les calculs de la statistique KM. Ainsi, le nombre din-
dividus risqus au temps ti est gal au nombre dindividus risqus en ti1
diminu de leffectif des individus ayant connu lvnement en ti1 et de
celui des individus censurs entre ti1 inclus et ti exclu.

Une fois ces tables construites pour lensemble des temps dvnement,
ensemble obtenu par lunion des deux sous-ensembles de temps dvne-
ment affrents chacun des groupes (les temps considrs sont donc soient
observs dans le groupe 1 soient observs dans le groupe 2), on calcule 4
quantits :

Le nombre total dvnements observs dans le premier groupe,


c.a.d. la somme des d1i , not O1 .
Le nombre total dvnements observs dans le second groupe, c.a.d.
la somme des d2i , not O2 .
Le nombre total dvnements esprs sous H0 pour le premier
groupe, c.a.d. la somme des e1i , not E1 .
Le nombre total dvnements esprs sous H0 pour le second groupe,
c.a.d. la somme des e2i , not E2 .

On note au passage la relation dgalit O1 + O2 = E1 + E2 .

La statistique O1 E1 est statistique de log-rank ou de Mantel-Haenzel.


Si on imagine quune action marketing a t effectue auprs des individus
du groupe 2 et que lvnement est la rupture de la relation client, alors
une valeur ngative de la statistique signifie que le nombre dvnements
observs dans le groupe 1 est infrieur celui attendu sous H0 o, de faon
quivalente puisque O1 E1 = (O2 E2 ), que le nombre dvnements
observs dans le groupe 2 est suprieur celui attendu sous H0 et que donc
laction marketing en question affecte globalement favorablement la courbe
42 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

de survie et donc la fidlisation du client. Nous reviendrons ultrieurement


sur la signification du terme globalement.

Il reste driver la distribution de cette statistique pour tre en mesure


de raliser un test de significativit de lintervention. Pour cela on retrouve
une statistique de Chi2 de Pearson couramment employe dans ltude des
tableaux de contingence (Cf. cours de statistique non paramtrique) :
 
(O1 E1 )2 (O2 E2 )2 2 1 1
+ = (O1 E1 ) +
E1 E2 E1 E2
Sous lhypothse nulle dgalit des courbes de survie, cette quantit est
asymptotiquement la ralisation dun Chi2 un degr de libert.

Dans la proc LIFETEST, SAS value autrement la variance de la statis-


tique de Mantel-Haenzel : sous lhypothse nulle, chacun des termes d1i e1i
est centr sur zro et a pour variance i = [n1i n2i di (ni di )]/[n2i (ni 1)]. Ce
rsultat provient du fait que, conditionnellement di , d1i a une distribution
hypergomtrique 12 . On peut encore montrer que la variance de la somme
P
O1 E1 = (d1i e1i ) est approximativement gale la somme des variances
de chacun des termes la constituant et que O1 E1 tend vers une gaussienne.
Dans ces conditions sous H0 :

O 1 E1
P N(0, 1)
( i )1/2
ou encore,
(O1 E1 )2
P (1).
i
, Exemple 3 : Les donnes suivantes, reprises de Freireich et alii. (1963),
dcrivent les temps de survie (employ ici au sens littral) de patients leu-
cmiques avec traitement 6-MP (groupe 1, 21 patients) et sans traitement
12. Cette distribution est relative au nombre de succs dans une succession de t tirages
sans remplacement. Pour mmoire, la distribution binomiale considre une succession de
tirages avec remplacement. Une variable hypergomtrique X de paramtres n,s,t o n est
le nombre total dvnements et s le nombre de succs parmi ces n, vrifie
s  ns !
a a!
Prob(X = k) = k ntk  , avec = .
t
b b!(a b)!
ts(nt)(ns)
Son esprance est donne par tsn et sa variance par n2 (n1) . Dans ce qui nous intresse ici,
on considre que lon a, chaque date dvnement, n1i tirages, soit t = n1i , que le nombre
de succs est di parmi un total de ni lments, et comme par construction n2i = ni n1i , on
obtient la formule donne dans le texte.
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 43

(groupe 2, 21 patients). Le signe * signale une donne censure.

Groupe 1 : 6, 6, 6, 6*, 7, 9*, 10, 10*, 11*, 13, 16, 17*, 19*, 20*, 22, 23, 25*,
32*, 32*, 34*, 35*
Groupe 2 : 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22,23
On obtient alors :

ti d1i n1i d2i n2i di ni e1i e2i


(a) (b) (c) (d) (e)=(a)+(c) (f)=(b)+(d) =(b)x(e)/(f) =(d)x(e)/(f)

1 0 21 2 21 2 42 1 1
2 0 21 2 19 2 40 1.05 0.95
3 0 21 1 17 1 38 0.553 0.447
4 0 21 2 16 2 38 1.135 0.865
5 0 21 2 14 2 37 1.2 0.8
6 3 21 0 12 3 35 1.909 1.091
7 1 17 0 12 1 39 0.586 0.414
8 0 16 4 12 4 29 2.286 1.714
10 1 15 0 8 1 28 0.652 0.348
11 0 13 2 8 2 23 1.238 0.762
12 0 12 2 6 2 21 1.333 0.667
13 1 12 0 4 1 18 0.75 0.25
15 0 11 1 4 1 16 0.733 0.267
16 1 11 0 3 1 15 0.786 0.214
17 0 10 1 3 1 14 0.769 0.231
22 1 7 1 2 2 9 1.556 0.444
23 1 6 1 1 2 7 1.714 0.286
O1 = 9 O2 = 21 E1 = 19.25 E2 = 10.75

Valant O1 E1 = 10.25, la valeur ngative de la statistique de Lo-


gRank signale que le traitement affecte favorablement le temps de survie
des patients traits. Par ailleurs, le Chi2 de Pearson associ est :
(9 19.25)2 (21 10.75)2
+ = 15.23
19.25 10.75
et si on compare ce chiffre aux valeurs critiques affrentes aux seuils de
risque usuels de la distribution de Chi2 un degr de libert, on conclut
que lavantage du traitement est significatif 13 .

13. Si on emploie lautre mode de calcul alors la variance de la statistique de Mantel-


44 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

La comparaison de k fonctions de survie, k 2


Lextension k groupes de la version approche par le chi2 de Pearson
du test de Mantel-Haenzel test est immdiate (ici encore, voir le cours
de statistique non paramtrique). Sous lhypothse nulle dgalit des k
courbes de survie la quantit

(O1 E1 )2 (O2 E2 )2 (Ok Ek )2


+ + +
E1 E2 Ek
est distribue selon un chi2 k 1 degrs de libert.

Lextension k groupes du chi2 de Mantel-Haenzel est galement pos-


sible. Pour cela il est ncessaire de calculer la matrice de variance-covariance
de seulement k1 termes arbitrairement pris parmi les k statistiques O1 E1 ,
O2 E2 , . . . , Ok Ek . Sous lhypothse nulle, un thorme standard assure
que la forme quadratique construite partir de ce vecteur sur linverse de
leur matrice de variance covariance est la ralisation dun Chi2 k1 degrs
de libert 14 .

En cas de rejet de lhypothse nulle, on peut tre amen rechercher


les couples de fonctions responsables de ce rejet. Lhypothse nulle rejete
tant une hypothse jointe de la forme H0 : S1 (t) = S2 (t) = = Sk (t), on
va retrouver la difficult habituelle de contrle du risque global et donc
du ncessaire ajustement du seuil de risque utiliser pour chacun des
tests individuels. Comme on le sait, la mthode la plus courante (et la plus
simple) est celle de Bonferroni : pour un seuil de risque fix a priori, si nH
hypothses simples doivent tre considres, alors on rejettera lhypothse
nulle H0 : Si (t) = S j (t) si son seuil de significativit est infrieur /nH
ou, de manire quivalente, si son seuil de significativit multipli par
nH est infrieur 15 . Dautres mthodes dajustement sont galement
disponibles. Ainsi lajustement de Sidk affiche 1 [1 SLb ]nH que lon
compare toujours pour prendre la dcision de rejet ou non. Il sagit de
la mthode par dfaut utilise par proc LIFETEST 16 .
Haenzel est estime 6.257, et le Chi2 associ est 10.2512 /6.257 = 16.79 ce qui mne ici la
mme conclusion que le chi2 de Pearson
14. Pour les formules explicites de construction de cette matrice, voir la documentation
de la proc LIFEREG.
15. dans la proc LIFETEST, cest cette dernire convention qui est utilise : si on note SLb
le seuil de significativit brut dun test simple, laffichage des rsultats fait apparatre SLb
lui-mme et le seuil ajust gal min (1, nH SLb ).
16. Voir la documentation de cette procdure pour les autres choix possibles.
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 45

Partant de lhypothse jointe prcdente, le nombre dhypothses simples,


nH , est constitu de lensemble des couples pouvant tre constitus, soit
k(k1)
nH = 2 . Il est cependant possible de se donner une fonction de survie de
rfrence pour ne considrer que les carts cette rfrence et dans ce cas
nH = k 1. Les deux possibilits 17 sont offertes dans la proc LIFETEST avec
des variantes (plusieurs courbes de rfrence, liste de couples comparer,..).

2.8.2 Le test de Wilcoxon (ou de Gehan) et les autres statistiques


pondres
P
Le test du log-rank a donc pour expression (pour 2 groupes) ri=1 (d1ti
e1ti ) o r est le nombre dvnements observs sur les groupes 1 et 2. Impli-
citement il attribue un poids unitaire chacune des quantits d1ti e1ti . On
peut imaginer de construire des statistiques pondres de la forme :
r
X
wi (d1ti e1ti )
i=1

Ceci permet en jouant sur la valeur des coefficients de pondration wi


dattribuer plus ou moins dinfluence aux vnements en fonction de la
dure de leurs ralisations. Ainsi une dcroissance de ces poids accorde
plus dinfluence aux vnements de courte dure. Une proposition a t
faite par Gehan (1965) lorigine pour deux groupes, qui est en fait une
gnralisation du test de Wilcoxon, et a t tendue k groupes par Breslow
(1970). On pose simplement wi = ni , cest--dire que les poids sont gaux
au nombre dindividus risqus au temps ti . Comme ni diminue avec ti , cette
statistique accorde donc plus de poids aux vnements de courte dure
relativement au test de Mentel-Haenzel 18 .

Dans la proc LIFETEST, le test Wilcoxon-Gehan est fourni par dfaut


au mme titre que le test de logrank. On peut galement mettre en oeuvre
dautres tests qui se fondent sur des coefficients de pondration wi diffrents,

ainsi Tarone-Ware avec wi = ni attribue un poids intermdiaire entre celui
du logrank et celui de Wilcoxon-Gehan. Peto-Peto utilise lestimation de la

17. Par exemple, avec k=3, en cas de rejet de H0 : S1 (t) = S2 (t) = S3 (t), alors dans le premier
cas on est amen regarder H0 : S1 (t) = S2 (t), H0 : S1 (t) = S3 (t), H0 : S2 (t) = S3 (t) et donc
nH = 3. Dans le second, si S1 () est prise comme rfrence, on aura seulement H0 : S1 (t) = S2 (t)
et H0 : S1 (t) = S3 (t) avec nH = 2.
18. Naturellement il faut adapter les expressions des variances ou des variances-
covariances pour tenir compte de la prsence des poids wi .
46 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

i ). Celle-ci tant non croissante, cela revient attribuer


survie, soit wi = S(t
plus de poids aux carts de survie observs aux temps dvnement faibles.
Cette sur-reprsentation des temps les plus courts est encore accentue
avec le modified Peto-Peto. Enfin, la version de Harrington-Fleming(p,q)
i )p (1 S(t
en posant wi = S(t i ))q , p, q 0 permet de se concentrer sur certains
sous-espaces du support de la survie 19

Remarques
Sous certaines conditions et notamment si le ratio des taux de risque
est constant alors le log-rank a le plus fort pouvoir dans la classe
des tests de rangs linaires (Peto et Peto, 1972). Sous cette hypothse
de risque proportionnel, que nous dtaillerons par la suite (Chapitre
3), les fonctions de survie S1 (t) et S2 (t) des individus appartenant
deux classes diffrentes i et j vrifient S1 (t) = S2 (t)k . En consquence
on obtient des courbes parallles dans lespace log log(St ) versus
log(t). Un simple graphique peut donc, visuellement, permettre de
voir si lhypothse en question est raisonnable ou pas 20 .
Les tests les plus couramment utiliss sont ceux du logrank et de
Wilcoxon-Gehan. A moins davoir de bonnes raisons de faire autre-
ment, on conseille gnralement de les considrer en priorit. Dans
tous les cas il est important de ne pas fonder le choix du test ex-post
la vue des rsultats : les conclusions que lon est amen tirer selon
les diffrents tests peuvent se contredire et il serait alors possible de
valider nimporte quelle conjecture. Il est donc important de faire
ce choix ex-ante compte-tenu notamment de la perception a priori
que lon a de la validit de lhypothse de risques proportionnels
ou des plages sur lesquelles la divergence des survies est la plus
intressante considrer.
19. Ainsi par exemple, avec p proche de 1 et q proche de zro on se concentre sur les
carts existant aux temps dvnements faibles, retrouvant ainsi la limite les pondrations
de Peto-Peto. Avec p proche de zro et q proche de 1 on va accorder plus de poids aux
carts existants aux temps dvnements levs (alors que la survie est la plus faible). Avec
p = 1/2 et q = 1/2, ce sont les carts observs pour des survies aux environ de 0.5 qui sont
sur-pondrs.
20. Admettons la proportionnalit des risques : h1 (t) = kh2 (t) o k est une constante posi-
Rt
tive. En utilisant les relations fondamentales, il vient :log S1 (t) = H1 (t) = 0 h1 (u)du =
Rt
0 kh2 (u)du = kH2 (t) = k log S2 (t), soit encore S1 (t) = S2 (t)k . En consquence,
log log S1 (t) = log k+log log S2 (t) assurant ainsi le paralllisme des courbes dans lespace
log log S(t) versus t ou encore versus log(t).
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 47

Ces tests requirent que la distribution des censures ne soit pas trop
dsquilibre entre les diffrentes sous-populations.
Lorsque les courbes de survie se coupent alors la puissance des tests
peut tre affecte, ceci videmment en raison dun effet de compen-
sation algbrique qui se produit dans le calcul de la somme des
quantits d1ti e1ti . Par ailleurs lintersection des courbes remet en
cause lhypothse de risque proportionnel 21 et donc loptimalit du
test de log-rank.
Lorsque les effectifs des individus risque diminuent, la prcision
des estimateurs se dgrade. Il est donc recommand de surveiller
lvolution de ces effectifs avec laugmentation des temps de survie
afin de sassurer quun nombre raisonnable dobservations sont uti-
lises dans la construction des estimateurs de la survie et des tests
de comparaison.

Un premier exemple
Pour illustrer les dveloppements qui prcdent, nous prenons les don-
nes de Lee(1992) : il sagit de comparer lefficacit de deux traitements
dimmunothrapies (BCG vs. Cryptosporium parvum) sur la survie de pa-
tients dveloppant un mlanome malin. Pour chaque patient on connat la
nature du traitement, le temps de survie censur ou non (une toile signale
un temps censur) ainsi que son appartenance une classe dge. Ces in-
formations sont prsentes dans le tableau (2.2).

Via une tape data on a cr la variable treat valant 0 si le patient a reu


le traitement BCG et 1 sinon, ainsi que la variable c valant 1 si le patient est
dcd, 0 sinon. Enfin, la variable time contient les diffrentes dures. Le
programme suivant qui autorise la rcupration de graphiques en format
postscript est ensuite excut :

ods graphics on; ods graphics/imagefmt=ps;


proc lifetest plots=(s(nocensor atrisk) lls);
time time*c(0);
strata treat / test=(logrank wilcoxon);
run;
Les distributions des censures sont assez diffrentes dans les deux chan-
tillons de patients. Par ailleurs, le graphique (2.3) des deux transformes des
21. Cela dcoule directement des lments prsents dans la note 20.
48 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

21-40 41-60 61+


BCG C. parvum BCG C. parvum BCG C. parvum
19 27* 34* 8 10 25*
24* 21* 4 11* 5 8
8 18* 17* 23* 11*
17* 16* 12*
17* 7 15*
34* 12* 8*
24 8*
8
8*

Table 2.2 Efficacit de deux traitements - Lee (1992)

Figure 2.3 Log-log S(t) - Lee (1992)

survies estimes montre que le paralllisme nest pas vrifi sur les temps
les plus faibles, ce qui peut affecter le test de logrank. Il peut donc tre utile
de le complter par un autre test, ici Wilcoxon-Gehan. Les deux courbes de
survie obtenues sont par ailleurs prsentes dans le graphique (2.4).

Les rsultats des tests demands sont prsents dans le tableau 2.3 et
conduisent ne pas rejeter, aux seuils de risque usuels, lhypothse dgalit
des survies et donc lquivalence en termes defficacit des deux traitements.
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 49

Figure 2.4 Courbes de survie estimes - Lee (1992)

Statistique Chi2 df SL
Log-rank 1.2893 0.7558 1 0.3847
Wilcoxon 34.000 0.9115 1 0.3397

Table 2.3 Tests dgalit des survies - donnes Lee (1992)


50 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

Figure 2.5 Courbes de survie estimes - Lee (1992)

Un deuxime exemple

On reprend les donnes du fichier BMT, les patients atteints de leuc-


mie sont distingus selon la nature de celle-ci : ALL (acute lymphoblastic
leukemia), AML (acute myeloctic leukemia)-Low Risk, et AML-High Risk.
La question est de comparer les survies entre ces trois groupes. Lexcution
du code suivant rclame la construction des tests par dfaut (logrank et
de Wilcoxon) dgalit des 3 courbes ainsi que le calcul des tests dgalit
pour tous les couples possibles, ici 3, avec un ajustement de Bonferroni sur
le seuil de significativit. Le graphique 2.5 contient la reprsentation des
courbes de survie estimes au sein de chaque groupe.

proc lifetest data=BMT plots=survival(atrisk=0 to 2500 by


500);
time T * Status(0);
strata Group / adjust=bon;
run;
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 51

Test Chi2 df SL
Log-rank 13.8037 2 0.0010
Wilcoxon 16.2407 2 0.0003

Table 2.4 Tests dgalit des 3 survies - donnes BMT

Test de Log-rank
Groupe Groupe Chi2 SL brut SL Bon.
ALL AML-High Risk 2.6610 0.1028 0.3085
ALL AML-Low Risk 5.1400 0.0234 0.0701
AML-High Risk AML-Low Risk 13.8011 0.0002 0.0006
Test de Wilcoxon
Groupe Groupe Chi2 SL brut SL Bon.
ALL AML-High Risk 3.8056 0.0511 0.1532
ALL AML-Low Risk 5.1415 0.0234 0.0701
AML-High Risk AML-Low Risk 16.2052 <0.0001 0.0002

Table 2.5 Tests dgalit des survies entre tous les couples - donnes BMT

Les rsultats des tests dgalit des trois courbes et des tests simples sont
respectivement dans les tableaux 2.4 et 2.5. Avec un seuil de risque de 10%
on serait conduit rejeter lhypothse dgalit jointe. Les tests dhypothses
simples quand eux permettent daccepter lhomognit des survies des
patients appartenant aux groupes ALL et AML-High Risk et les distinguer
de celles affrentes aux patients classs dans le groupe des ALM-Low risk,
ces derniers tant favoriss au regard du temps de survenue du dcs.

2.8.3 Les tests stratifis de comparaison des survies


Il peut arriver que lon souponne une htrognit des sous-populations
constituant chacune des strates que lon veut comparer. Si cette htrog-
nit est bien prsente, alors les tests prcdents peuvent tre dficients et
leurs conclusions sujettes caution. Supposons par exemple que lon veuille
comparer la dure daccs lemploi de deux filires de formation, mais que
la rpartition par sexe des sortants de ces deux filires soit diffrentes. Dans
ces conditions, nous pourrions attribuer aux filires ce qui en fait relve de
conditions daccs lemploi ventuellement ingales entre les hommes et
les femmes.
52 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

Les tests stratifis visent tenir compte de ce type dhtrognit. Si on


note X1 la variable dont les modalits dfinissent les strates dintrt et
X2 celle dont les modalits dfinissent les sous-populations ventuelle-
ment htrognes au sein des strates prcdentes, alors la logique des tests
stratifis est de construire des tests dgalit des survies sur chacune des
sous-populations responsables de lhtrognit, identifies par X2, puis
de combiner les valeurs de ces tests pour donner un test global dgalit
des survies des strates identifies par X1.
Dans lexemple prcdent, on commencerait ainsi par tester lgalit des
courbes de survie des femmes entre les deux filires de formation F1 et F2,
puis lgalit des survies des hommes selon leur appartenance F1 ou F2
pour construire une statistique globale dgalit des survie entre F1 et F2
partir des valeurs obtenues aux deux tests prcdents.

Plus gnralement, si on a M strates de sous-populations pouvant crer


de lhtrognit on rcupre alors la premire tape M statistiques vs ,
chacune de variance-covariance estime Vs et de degrs de libert d f . A la
seconde tape, on construit les quantits
M
X
v = vs et
s=1
XM
V = Vs
s=1

Finalement, la statistique de test stratifie est construite comme v0 V 1 v


et, sous lhypothse dgalit des survie, elle possde asymptotiquement
une distribution de Chi2 d f degrs de libert.

Un exemple
On reprend les donnes de Lee (1992) dj utilises. Il sagissait dtu-
dier lefficacit compare de deux traitements (BCG vs. Cryptosporidium
parvum). Dans cette base nous avons galement la rpartition des patients
en 3 classes dge, information qui navait pas t utilise prcdemment.
On peut imaginer que lefficacit dun traitement soit affecte par lge du
patient. Si tel est le cas, alors on pourrait attribuer lun des traitement ce
qui ne serait quune consquence de rpartition par ge htrogne entre les
deux chantillons, ou bien au contraire masquer la plus grande efficacit de
lun des traitement en raison dune rpartition par ge dsquilibre. Dans
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 53

Test Statistique Chi2 df SL


Wilcoxon 6 0.1786 1 0.6726

Table 2.6 Test stratifi dgalit des survies - Lee (1992)

tous les cas, le risque davoir une mauvaise apprciation de leur efficacit
relative peut tre lev.

Lexcution des lignes suivantes demande le calcul de la statistique de


Wilcoxon stratifie correspondante et conduisent aux rsultats prsents
dans le tableau 2.6.

proc lifetest;
time time*c(0);
strata agegrp /test=wilcoxon group=treat;
run;

Pour bien comprendre la construction de cette statistique, on peut d-


tailler les diverses tapes. En premier lieu, des statistiques dgalit des
survies de patients soumis des traitements diffrents mais appartenant
une mme classe dge sont rclames par les instruction suivantes :

proc sort;
by agegrp;
run;
proc lifetest;
by agegrp;
time time*c(0);
strata treat /test=wilcoxon;
run;

Ces statistiques ont ici un seul degr de libert et les rsultats sont donns
dans le tableau 2.7.
Finalement, on construit la statistique de test stratifie comme indique plus
haut pour obtenir, avec v = (3.0 + 5.0 + 4.0) = 6.0 et V = (155.615 + 35.0 +
62
11.0) = 201.615, une valeur de 201.615 = 0.1786 qui est, sous lhypothse
nulle, la ralisation dun Chi2 1 degr de libert comme indiqu dans le
tableau 2.6 22 .
22. Cette faon de procder rconcilie les rsultats apparemment contradictoires de SAS
54 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

agegrp=1 agegrp=2 agegrp=3


Test Stat. Variance Stat. Variance Stat. Variance
Wilcoxon -3.0 155.615 5.0 35.000 4.0 11.000

Table 2.7 Test stratifi dgalit des survies - Lee (1992)

2.8.4 Tests dassociation entre une variable continue et la survie


Les tests prcdents permettent de juger de linfluence sur la survie de
variables de type nominal, ordinal ou numrique ayant relativement peu
de modalits. Dans le cas de variables continues, le nombre de strates que
lon peut tre amen construire est susceptible de les rendre inapplicables.
On propose alors de construire des tests de rang de la faon suivante : si m
variables numriques z = (z1 , z2 , . . . , zm )0 sont considres, la statistique de
test est construite comme
X n
v= s(i,ci ) zi
i=1

o n est le nombre total dobservations et s le score associ la ime ob-


servation qui dpend du mcanisme de censure via ci . Dans SAS 9.2, la
proc LIFETEST considre soit des scores de log-rank, soit des scores de Wil-
coxon. Une matrice de variance-covariance V est value 23 et finalement
deux types dinformation sont fournis :

Le premier concerne des statistiques individuelles : pour chacune des


m variables une statistique est construite comme v(i)2 /Vii et compa-
re la valeur critique tire dune distribution de Chi2 1 degr
de libert. Le rejet de lhypothse nulle laisse penser que la sur-
vie dpend de la variable considre. Cette procdure est souvent
employe pour identifier les variables pertinentes retenir pour une
explication de la survie ou du risque dans les modles paramtriques

et Stata sur les tests stratifis et qui avaient t relevs dans une note de la FAQ de Stata Why
do Stata and SAS differ in the results that they report for the stratified generalized Wilcoxon test for
time-to-event data ? disponible ici : http ://www.stata.com/support/faqs/stat/wilcoxon.html.
La combinaison de la commande STRATA avec loption GROUP donne bien des rsultats
identiques ceux obtenus avec la commande sts test treat, wilcoxon strata(agegrp) de
Stata. Lorigine de la contradiction tait lemploi sous SAS, par les auteurs de la note en
question, de la commande STRATA couple avec la commande TEST. A leur dcharge, il est
vrai que loption GROUP nexistait pas dans la version 8 de SAS.
23. Voir la documentation de LIFETEST pour le dtail des expressions
2.8. COMPARAISON DE COURBES DE SURVIE ESTIMES PAR KAPLAN-MEIER 55

(Chapitre 3) ou dans le modle de Cox (Chapitre 4).


La seconde information est relative aux rsultats dune procdure de
slection de type Forward. On calcule la statistique usuelle de test
global v0 V 1 v en sarrangeant dans la mthode du pivot pour faire
apparatre lordre des contributions de chaque variable cette statis-
tique. Si on note z(i) les variables classes selon cette procdure, alors
z(1) est celle ayant la plus grande contribution puis z(2) celle qui, asso-
cie z(1) contribue le plus laugmentation de la statistique, etc. . . .
Une autre faon de comprendre cette dmarche est de concevoir que
si on voulait expliquer la survie par un modle linaire, alors parmi
les m modles ayant une seule explicative (z1 ou z2 ou . . . zm ), le R2 est
maximal si on prend z(1) . Parmi les modles deux explicatives, celui
ayant le plus grand R2 est constitu de z(1) et z(2) , etc. . . . L encore
lobjectif est souvent daider la slection dune liste de variables
continues pertinentes avant lajustement dun modle paramtrique
ou semi-paramtrique.

Comme vu dans la section prcdente, et pour des raisons identiques,


ces tests dassociations peuvent galement tre stratifis. Dans ce cas, une
statistique similaire celle que lon vient dexposer est tout dabord calcu-
le sur chacune des strates considres puis, dans la deuxime tape, ces
statistiques sont combines pour construire le test final.
En pratique ces statistiques de rang ncessitent que les nombre dvne-
ments simultans et de censures ne soient pas trop importants relativement
au nombre total dobservation.

Un exemple sans stratification

Afin dillustrer les dveloppements qui prcdent, nous reprenons un


fichier de donnes disponible dans laide de la proc LIFETEST 24 . La variable
SurvTime contient les temps de survie en jours de patients ayant un can-
cer de la gorge. Lex explicatives sont Cell (type de tumeur), Therapy (type
de thrapie : standard ou test), Prior (existence dune thrapie antrieure :
0=non, 10=oui), Age (ge en annes), DiagTime (temps en mois de la date
du diagnostic lentre dans lchantillon), Kps (indicateur de performance
mesur par lindice de karnofsky). La variable de censure, Censor, est cre
et vaut 1 si la dure est censure et 0 si le dcs est observ. La variable
24. Example 49.1 : Product-Limit Estimates and Tests of Association.
56 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

Logrank Wilcoxon
Variable Stat. Chi2 SL Stat. Chi2 SL
Age -83.7764 0.6107 0.4345 -12.6165 0.0320 0.8581
Prior 36.2253 0.4980 0.4804 -5.7669 0.0389 0.8436
DiagTime -93.9987 1.0011 0.3170 -65.2381 0.8031 0.3702
Kps 1220.1 44.8525 <.0001 920.4 57.4490 <.0001
Treatment -0.5002 0.00817 0.9280 -3.1226 0.8782 0.3487

Table 2.8 Chi2 univaris, statistiques de Logrank et de Wilcoxon

indicatrice du traitement, Treatment, prend la valeur 0 pour la thrapie


standard et la valeur 1 pour la thrapie en test.

Dans ce qui suit, on teste limpact des variables Age, Prior, DiagTime,
Kps et Treatment sur la survie.
proc lifetest data=VALung;
time SurvTime*Censor(1);
test Age Prior DiagTime Kps Treatment;
run;
On rcupre alors les rsultats donns dans le tableau 2.8 pour ce qui
concerne les statistiques individuelles et dans le tableau 2.9 pour la pro-
cdure de slection. Notez que dans le premier lordre de prsentation est
celui qui est donn par la commande test du programme dappel, dans
le second les variables sont classes en fonction de leur contribution la
construction de la statistique globale v0 V 1 v. On rappelle galement que le
nombre de degr de libert du Chi2 est toujours de 1 dans le premier tableau
alors quil est gal au nombre de variables incorpores dans le meilleur mo-
dle dans le second. Ainsi, la variable la plus pertinente pour sparer les
survies est KPS. Si on veut retenir deux variables, celles-ci seraient Kps et
DiagTime, etc. . .. Notez aussi que le nombre de degr de libert saccrot
dune unit avec lajout dune variable supplmentaire indpendamment
du nombre de valeurs diffrentes que prend la variable en question. Enfin,
vous remarquerez galement que cet exemple illustre la non quivalence
des tests Logrank et Wilcoxon.

Un exemple avec stratification


Pour illustrer la construction dune statistique stratifie, on reprend les
donnes de lexemple prcdent. Lide a priori est que linfluence de nos
cinq variables peut tre diffrente selon la nature de la tumeur (variable Cell
2.9. LES TABLES DE SURVIE - LA MTHODE ACTUARIELLE 57

Logrank Wilcoxon
DF Variable Chi2 SL 4Chi2 Variable Chi2 SL 4Chi2
1 Kps 44.8525 <.0001 44.8525 Kps 57.4490 <.0001 57.4490
2 Treatment 46.2596 <.0001 1.4071 Age 58.5609 <.0001 1.1119
3 Prior 46.6821 <.0001 0.4225 DiagTime 58.7809 <.0001 0.2200
4 DiagTime 46.7795 <.0001 0.0974 Treatment 58.8881 <.0001 0.1072
5 Age 46.8386 <.0001 0.0591 Prior 58.9000 <.0001 0.0120

Table 2.9 Procdure de slection Stepwise, statistiques de Logrank et de


Wilcoxon

discriminant les tumeurs entre 4 types : squamous, small, adeno et large).

Le programme excuter devient le suivant, avec comme rsultats les


chiffres des tableaux 2.10 et 2.11. Dans le prsent cas, la prise en compte
ou non dune stratification ne modifie pratiquement pas les conclusions :
parmi les cinq variables considres, seule Kps parat devoir tre retenue
comme explicative de la survie, les accroissements de la statistique gnrs
par les autres variables pouvant tre considrs comme ngligeables 25

proc lifetest data=VALung;


time SurvTime*Censor(1);
strata Cell;
test Age Prior DiagTime Kps Treatment;
run;

2.9 Les tables de survie - La mthode actuarielle


La construction de tables de survie remonte au 18 ime sicle. Elles ont
t utilises notamment par les dmographes pour tudier la longvit des
populations. Un autre exemple dapplication concerne le domaine de las-
surance o il est important destimer la probabilit de dcs dun individu
diffrents ges pour valuer le prix dune police dassurance. Elles peuvent

25. Mme si ceci nest pas totalement justifi, puisque lon est dans une procdure de
slection pas pas, une rgle simple consiste comparer ces accroissements la valeur
critique dun Chi2 1 degr de libert. Que lon considre ou non une stratification selon la
nature de la tumeur, on constate quaucun des accroissements nest significatif. Ceci rejoint
parfaitement les conclusions que lon pouvait tirer de lexamen des statistiques univaries.
58 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

Logrank Wilcoxon
Variable Stat. Chi2 SL Stat. Chi2 SL
Age -40.7383 0.1485 0.7000 14.4158 0.0466 0.8290
Prior -19.9435 0.1802 0.6712 -26.3997 0.8336 0.3612
DiagTime -115.9 1.4013 0.2365 -82.5069 1.3127 0.2519
Kps 1123.1 43.4747 <.0001 856.0 51.9159 <.0001
Treatment -4.2076 0.6967 0.4039 -3.1952 1.0027 0.3167

Table 2.10 Chi2 univaris, statistiques de Logrank et de Wilcoxon avec


stratification

Logrank Wilcoxon
DF Variable Chi2 SL 4Chi2 Variable Chi2 SL 4Chi2
1 Kps 43.4747 <.0001 43.4747 Kps 51.9159 <.0001 51.9159
2 Treatment 45.2008 <.0001 1.7261 Age 53.5489 <.0001 1.6329
3 Age 46.3012 <.0001 1.1004 Treatment 54.0758 <.0001 0.5269
4 Prior 46.4134 <.0001 0.1122 Prior 54.2139 <.0001 0.1381
5 DiagTime 46.4200 <.0001 0.00665 DiagTime 54.4814 <.0001 0.2674

Table 2.11 Procdure de slection Stepwise, statistiques de Logrank et de


Wilcoxon avec stratification

galement tre utiles dans le cadre des analyses contemporaines des don-
nes de survie. Cest particulirement le cas lorsquau lieu de connatre la
date exacte de survenue dun vnement ou dune censure on ne connat
quun intervalle de temps dans lequel lun ou lautre se ralise. Un autre
cas de figure est celui o le nombre de dures observes est important :
alors quavec KM les calculs sont raliss pour chacune de ces dures, ils ne
sont effectus que pour chacun des intervalles de temps considrs dans la
construction dune table de survie.

Relativement aux mthodes de calcul employes dans lestimateur KM,


une seule diffrence notable intervient dans le traitement des censures au
sein dun intervalle : on va utiliser leffectif moyen risque pendant linter-
valle de temps considr dans lexpression donnant la probabilit de survie.
Ceci revient supposer que la censure se produit de manire uniforme sur
lintervalle. Si leffectif dindividus risqus est ni au dbut de lintervalle
[ti , ti+1 [ et que lon observe sur ce laps de temps ci donnes censures alors
juste avant ti+1 le nombre dindividus risque est de ni ci . Leffectif risqu
moyen sur [ti , ti+1 [ est donc 26 ni = ni c2i . En consquence la probabilit de

26. On fait apparatre lexposant * pour distinguer les estimateurs construits avec les
effectifs risque corrigs ni des estimateurs KM construits sur ni .
2.9. LES TABLES DE SURVIE - LA MTHODE ACTUARIELLE 59

survenue de lvnement au cours de ce iime intervalle pour les individus


qui ne lont pas connu au cours des (i 1) intervalles prcdents est donne
par

di di
qi = ci = ,
ni 2
ni
et la probabilit de survie conditionnelle au cours du iime intervalle est
donc i = 1 qi .

A partir de l, lestimation de la probabilit de survie seffectue selon


une rcurrence faisant appel au thorme des probabilits conditionnelles
et lvidence selon laquelle pour survivre un intervalle donn il faut dj
avoir survcu tous les intervalles prcdents. Si on note survie(i) le fait de
survivre, cad de ne pas connatre lvnement, au iime intervalle de temps,
alors il vient :

Prob[survie(i)]
= Prob[survie(i) et survie(i-1) et . . . et survie(1)]

= Prob[survie(i) | survie(i-1) et . . . et survie(1)]

Prob[survie(i-1) et . . . et survie(1)]

= Prob[survie(i) | survie(i-1)]

Prob[survie(i-1) et . . . et survie(1)]

= (1 qi ) Prob[survie(i-1) | survie(i-2) et . . . et survie(1)]

Prob[survie(i-2) et . . . et survie(1)]

= (1 qi ) Prob[survie(i-1) | survie(i-2)]

Prob[survie(i-2) et . . . et survie(1)]
= (1 qi )(1 qi1 )

Prob[survie(i-2) | survie(i-3) et . . . et survie(1)]

Prob[survie(i-3) et . . . et survie(1)]
=
= (1 qi )(1 qi1 ) (1 q2 )(1 q1 )

Soit donc :
i
Y
Prob[survie au cours du i ime
intervalle] = S i = j
j=1

= i S i1
avec naturellement S 0 = 1.
60 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

Comme qi est lestimateur dune proportion, celui de son son cart-type


est donn par :
s s

q (1 q ) qi i
i i
s(qi ) = = ,
ni ni

et celui de la survie estime sur le i ime intervalle est :


v
u
u
tX i qj

s(Si ) = Si
nj j
j=1

Un exemple
Cet exemple utilise des donnes regroupes : on ne connat pas pour
chaque individu la date exacte de lvnement ou de la censure mais seule-
ment son appartenance un intervalle de temps correspondant ici un
dcoupage en trimestres dinformations mensuelles. Les trois premires co-
lonnes du tableau 2.12 correspondent aux informations de dpart. Ainsi,
pour la priode allant du 12ime mois inclus au 15ime mois exclu, 10 indi-
vidus sont risqus au dbut de lintervalle, 2 vont connatre lvnement
tudi et 2 sont censurs.
Notez bien que les informations affrentes un intervalle de temps donn
sont utilises pour construire lestimation de la survie pour le dbut de
lintervalle suivant. Si on fait lhypothse dune distribution uniforme des
survenues dvnements et des censures au cours de chaque intervalle de
temps, alors la reprsentation graphique ne sera plus une fonction en es-
calier mais doit simplement relier entre eux les diverses survies estimes
comme le montre le graphe 2.6.

Remarques :
Lorsque di est nul alors la probabilit conditionnelle estime sur le
iime intervalle est nulle. Ceci est naturellement techniquement exact
mais peut tre en pratique compltement irraliste et montre que
le choix des intervalles de temps a un impact sur les rsultats de
lanalyse.
Si lamplitude des intervalles tend vers zro alors les estimations
donnes par la mthode actuarielle tendent vers celles de lestima-
teur de Kaplan-Meier. Pour cette raison ce dernier est aussi appel
product-limit estimator
2.9. LES TABLES DE SURVIE - LA MTHODE ACTUARIELLE 61

Intervalle ni di ci Effectif risqu moyen 1 pi S


(a) (b) (c) (d)=(a)-(c)/2 =1-(b)/(d)
[0,3[ 20 2 0 20 0.90
S(0) = 1.00
[3,6[ 18 5 0 18 0.72
S(3) = 0.90
[6,9[ 13 0 0 13 1
S(6) = 0.65
[9,12[ 13 3 0 13 0.77
S(9) = 0.65
[12,15[ 10 2 2 9 0.78
S(12) = 0.50
[15,18[ 6 0 2 5 1
S(15) = 0.39
[18,21[ 4 2 0 4 0.50
S(18) = 0.39
[21,[ 2 0 2 1 1
S(21) = 0.19

Table 2.12 Exemple de calculs pour une table de survie, mthode actua-
rielle

Figure 2.6 Survie estime, mthode actuarielle


62 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

Une des raisons pour lesquelles les deux estimateurs diffrent pro-
vient de la non similitude du traitement des donnes censures.
Par ailleurs lestimateur KM donne une estimation de la survie
pour tous les temps dvnements observs et lestimateur reste
constant entre deux temps dvnement observs, alors que la m-
thode actuarielle donne des estimations pour les dures correspon-
dant aux bornes suprieures des intervalles (avec naturellement tou-

jours S(0) = 1).
Avec la mthode actuarielle on peut encore estimer les fonctions
de risque instantan h(t) et de densit f (t). Si on note ti1,i la dure
correspondant au milieu du iime intervalle, on utilise habituellement
les expressions suivantes :

i )q
S(t i ) di
S(t n
f(ti1,i ) = i
= i
, et
ti ti1 ti ti1
qi
i1,i ) =
h(t .
qi
(ti ti1 )(1 2)
En pratique, sur petits chantillons ces estimateurs ne sont pas par-
ticulirement bons.

2.10 PROC LIFETEST


On ne prcise ici que les principales commandes et options ainsi que la
syntaxe minimale. Pour plus de dtails voyez laide de la proc.

PROC LIFETEST <options> ;


TIME variable <*censor(list)> ;
BY variables ;
FREQ variables ;
STRATA variable <(list)> <variable <(list) . . . <variable <(list) </op-
tions> ;
TEST variables ;

A lexception de la commande TIME toutes les autres sont optionnelles.


Cette commande requiert le nom dune variable dont les valeurs sont les
temps de survie ; censor est une variable indicatrice de la censure et list
2.10. PROC LIFETEST 63

donne les valeurs de censor pour lesquelles il y a censure. Les observations


valeurs manquantes dans variable o censor ne sont pas prises en compte.

TIME variable <*censor(list)> : variable contient les dures de sur-


vie analyser. Elle peut tre suivie par *censor(list), o censor est
une indicatrice des survies censures droite. La liste (list) prcise
les valeurs pour lesquelles la censure est effective. Par exemple :
TIME duree ;
signifie quaucune valeur nest censure : tous les temps dvne-
ment sont observs.
TIME duree*cens(0) ;
les observations de duree pour lesquelles celles de cens valent 0 sont
censures
TIME duree*cens(1,5) ;
les observations de duree pour lesquelles celles de cens valent 1 ou
5 sont censures.

BY variables : constitue des sous-chantillons dobservations de


temps de survie pour chacune des modalits prises par la (les) va-
riable(s) spcifies dans cette commande. Par exemple si sexe est une
variable deux modalits (1=homme, 2=femme), on ralisera une
analyse de survie pour chacun des deux sexes avec la commande
"BY sexe ;". A la diffrence de STRATA, aucun test dhomognit
des distributions (du type log-rank ou Wilcoxon) nest effectu. Lors-
quon utilise cette commande BY, le fichier de donnes est suppos
tre tri pralablement selon les valeurs des variables en question
au moyen de lapplication de PROC SORT (il peut exister des excep-
tions cette rgle, voir la documentation SAS).

FREQ variable : variable contient la frquence de survenue de cha-


cune des observations. Ainsi une observation donne est considre
comme apparaissant n fois si n est la valeur de lobservation cor-
respondante dans variable. Par exemple, supposez que lon ait les
observations suivantes :
data obs ;
input duree cens ;
cards ;
5 1
8 1
8 1
64 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

3 0
;
on pourrait faire :

data obs ;
input duree cens eff ;
cards ;
5 1 1
8 1 2
3 0 1
;

et utiliser linstruction "FREQ eff;" dans lappel de LIFEREG. Lorsque


la variable contient des frquences non entires, elles sont tronques
lentier infrieur. Une consquence est que si la frquence est inf-
rieure 1 alors lobservation concerne nest pas utilise.

STRATA variable<(list)> : constitue des sous-chantillons dobser-


vations de temps de survie pour chacune des modalits prises par
la (les) variable(s) spcifies dans cette commande. Cette commande
implique lestimation des probabilits de survie pour chacun des
chantillons ( limage de BY qui est plus efficace de ce point de
vue) mais ralise galement des tests dhomognit (log-rank et
Wilcoxon par dfaut) entre les diffrentes strates. Si (liste) nest pas
spcifie alors chaque modalit qui nest pas une valeur manquante
de la variable dfinit une strate. Il est possible de crer une strate
sur les valeurs manquantes en spcifiant loption MISSING. La pr-
sence dune liste cre des intervalles qui chacun vont dfinir une
strate. Par exemple
STRATA age(16 20 30 40 50 65) ; ou STRATA age(16, 20, 30, 40, 50,
65) ;
produit les intervalles
] , 16[, [16, 20[, [20, 30[, [30, 40[, [40, 50[, [50, 65[, [65, +[

La syntaxe dindication de la liste est assez souple. Ainsi on peut


obtenir les mmes rsultats que dans lexemple ci-dessus avec :
STRATA age(16, 20 to 50 by 10, 65) ;
La prsence de plusieurs variables dans STRATA gnre des strates
croisant les modalits spcifies, ainsi :
STRATA age(16, 20 to 50 by 10, 65) sexe ;
2.10. PROC LIFETEST 65

va produire 14 strates avec estimation des probabilits de survie et


tests dhomognit associs : les 7 strates correspondant au dcou-
page en 7 intervalles de la variables age vont tre cres pour les
hommes dune part et les femmes dautre part. Le nombre de sous-
chantillons considrs peut donc devenir rapidement lev.
Parmi les options associes cette commande, on trouve notamment :

GROUP= qui permet de spcifier une variable dont les modali-


ts dfinissent des strates sur lesquelles on veut raliser un test
dhomognit. Cependant les tests sont stratifis en fonction des
strates identifies par la ou les variables indiques au niveau de
la commande STRATA.
ADJUST= spcifie la mthode dajustement employer en cas de
ralisations de tests dgalit des survies sur plusieurs couples de
variables. On peut par exemple spcifier ADJUST=BONFERRONI
(ou ADJUST=BON), ADJUST=SIDAK, etc. . ..
DIF=. Avec DIFF=ALL tous les couples possibles sont compa-
rs. Avec DIF=CONTROL(zzz), on utilise la courbe de survie
identifie par zzz comme rfrence pour les comparaisons.
TEST= indique le ou les tests mettre en oeuvre : TEST=LOGRANK
demande la construction du test de Logrank. On obtient Wil-
coxon avec TEST=WILCOXON). Parmi les autres tests, on peut
citer PETO, TARONE, FLEMMING(p, q) ou p et q sont des va-
leurs positives ou nulles, etc. . .. Avec TEST=ALL on gnre tous
les tests actuellement disponibles (FLEMING(1,0) tant alors cal-
cul par dfaut).

TEST variables : sert tester linfluence de variables continues sur


les probabilits de survie au moyen de tests de rang. En plus des
tests de significativit individuelle, les rsultats dune procdure de
slection de type Forward sont galement donns.

Les principales options pouvant apparatre dans lappel de la proc-


dure LIFETEST sont les suivantes (voir la documentation de SAS pour
lensemble des options disponibles) :

METHOD= donne la mthode utiliser pour lestimation.


METHOD = PL ou KM pour Kaplan-Meier
METHOD = ACT ou LIFE ou LT pour la mthode actuarielle
Par dfaut METHOD= PL.
66 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE

OUTSURV=fichier ou OUTS=fichier : nom dune table qui contien-


dra notamment les estimateurs des fonctions de survie (variable
"SURVIVAL") et les bornes infrieures et suprieures des intervalles
de confiance au seuil alpha (respectivement, variables "SDF_LCL"
et "SDF_UCL), une indicatrice des observations censures ("_CEN-
SOR_, valant 1 si censure, 0 sinon.)".
ALPHA= seuil de risque utiliser pour construire les intervalles de
confiance.
ALPHAQT= idem ci-dessus mais pour les IC des quartiles.
INTERVALS= bornes des intervalles considrer pour construire les
tables de survie. Par dfaut SAS les slectionne automatiquement.
Vous pouvez cependant les imposer. Ainsi :
INTERVALS= 4 8 12 16 ou INTERVALS= 4 to 16 by 4
Construira la table de survie pour les intervalles
[0, 4[, [4, 8[, [8, 12[, [12, 16[, [16, [
WIDTH= valeur numrique spcifiant la largeur ventuellement
dsire des intervalles considrer pour la construction des tables
de survie.
NINTERVAL= nombre dintervalles construire pour les tables de
survie. Par dfaut NINTERVAL= 10. Cette option est ignore si
WIDTH= est utilise (cette dernire tant elle-mme ignore si IN-
TERVALS= est prcis).
MAXTIME= spcifie la dure maximale considrer dans les re-
prsentations graphiques. Ceci naffecte que les graphiques, pas les
estimations.
MISSING permet aux valeurs manquantes dune variable num-
rique ou au blanc dune variable alphanumrique de dfinir une
strate lorsquon emploie la commande STRATA. Attention ne pas
la confondre avec loption MISSING qui peut apparatre dans la com-
mande STRATA crant une strate pour les observations manquantes
de la variable spcifie dans GROUP= .
NOTABLE supprime laffichage des estimateurs des fonctions de
survie. Les graphiques et les tests ventuels dhomognit sont
raliss. Cette option est utile lorsque le nombre dobservations est
important.
PLOTS= (type) : demande laffichage graphique de la fonction dfi-
nie par le type, le graphe tant ralis pour chaque strate si STRATA
est actif. Attention, les types de graphiques valides dpendent de
la nature des sorties. Ainsi selon que ODS est actif ou non, certains
graphes sont ou ne sont pas disponibles. Par exemple, avec ODS
2.10. PROC LIFETEST 67

graphics on ; on ne peut pas obtenir le graphe des options censures.


CENSORED ou C : graphe des observations censures
SURVIVAL ou S versus t
: graphe des fonctions de survie estimes S(t)
LOGSURV ou LS
: graphe de log[S(t)] versus t
LOGLOGS ou LLS : graphe de log{ log[S(t)]} versus log(t)
HAZARD ou H versus t
: graphe de la fonction de risque estime h(t)
PDF ou P : graphe de la fonction de densit estime f(t) versus t (seulement pour les

Par exemple les options suivantes sont valides :

PLOT=(s) ou PLOT=(s,h)

Attention : avec SAS 9.2 lorsque les sorties ODS ne sont pas actives
alors PLOT=(h) graphe la courbe de risque instantan issue de lanalyse
dune table de survie, aucun graphe ntant disponible avec lestimation
de Kaplan-Meier. En revanche, avec des sorties graphiques ODS actives,
lappel de Kaplan-Meier couple avec PLOT=(h) graphe lestimation ker-
nel du risque instantan. Toujours dans ce dernier cas, un certain nombre
doptions peuvent tre couples lappel du graphique, via PLOT=h(liste
doptions) du type BANDWITDTH= , KERNEL= , CL, etc. . ..

Lactivation des sorties graphiques ODS autorise galement lutilisa-


tion doptions lors de lappel du graphe de ou des fonctions de survie. On
peut par exemple faire apparatre le nombre dindividus risque pour cer-
taines dures via ATRISK<liste de nombres>, les intervalles de confiance
avec CL (IC ponctuels) ou CB=ALL ou EP ou HW (Bande de confiance de
Nair ou de Hall-Wellner), NOCENSOR supprime les indications des temps
censurs (seulement avec KM), STRATA=INDIVIDUAL ou OVERLAY ou
PANEL gre le graphe des survies si plusieurs strates sont tudies, TEST
fait apparatre dans le graphique la valeur du ou des tests dhomognit
spcifis dans la commande STRATA.


Nous verrons lutilit ventuelle des graphes de log[S(t)] versus t et

de log{ log[S(t)]} versus log(t) dans le chapitre suivant.
68 CHAPITRE 2. LAPPROCHE NON PARAMTRIQUE
Chapitre 3

Lapproche paramtrique

Si on suppose une distribution particulire des temps de survie alors il


est possible dintroduire des variables explicatives dans la modlisation du
risque. Par ailleurs si la distribution postule est correcte alors les estima-
teurs obtenus sont plus efficients que les estimateurs non paramtriques.
Comme, quelle que soit la distribution considre, la fonction de survie est
toujours non croissante, ralisations dans [0, 1], il va tre difficile de dis-
tinguer deux de ces fonctions associes des distributions diffrentes, leur
allure gnrale tant similaire. Pour cette raison on prfre travailler sur la
fonction de risque mieux mme de reprsenter les a-priori que lon peut
avoir sur le phnomne tudi. Par exemple, une courbe en U peut tre
approprie lorsquon suit des populations humaine depuis la naissance :
aprs des taux de mortalit en bas-ge qui peuvent tre relativement levs,
on observe leur dcroissance par la suite avant la reprise dune hausse aux
ges avancs. En mdecine une fonction de risque dcroissante est souvent
spcifie lorsquon tudie les patients atteints de cancers : juste aprs le
diagnostic le taux de mortalit est relativement lev puis il dcrot sous
linfluence des traitements et des gurisons. En ingnierie, une courbe de
risque constante est couramment admise pour modliser la dure de vie
des lments lectroniques.

Un des risques lis lemploi dune mthode paramtrique consiste bien


videmment en un choix erron de la distribution suppose et il importe
donc de chercher sassurer de la pertinence du choix effectu. Une pre-
mire indication, comme nous allons le voir, peut tre tire de lvolution
attendue a priori de la fonction de risque : celle-ci peut tre incompatible
avec telle ou telle distribution. Il existe galement des tests permettant

69
70 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

daider lutilisateur slectionner une distribution plutt quune autre. De


mme un certain nombre de graphiques peuvent apporter des informations
utiles mme sil ne faut pas en exagrer la porte.

On retiendra en outre que la procdure destimation des modles de


survie paramtriques sous SAS autorise aisment la prise en compte de
censure droite, gauche, et par intervalle. La premire correspond au cas
couramment trait dans le chapitre prcdent : lvnement se produira
une date inconnue laquelle correspond un temps dvnement suprieur
la dure observable. La premire survient lorsque lon sait que lvnement
sest produit avant une dure connue mais on ignore exactement quand.
La dernire apparat lorsque la date de ralisation de lvnement nest pas
connue avec prcision : on sait seulement quelle appartient certain un
intervalle de temps qui lui est connu.

Le point commun de tous les modles paramtriques pouvant tre es-


tims par la procdure LIFEREG de SAS est de supposer une hypothse
dite de temps de vie acclr (Accelerated Failure Time ou AFT) traduisant
le fait que si Si () et S j () sont les temps de survie affrents deux individus
i et j, alors il existe une constante ij telle que Si (t) = S j (ij t) pour tout
t. Allisson (1998) donne comme exemple de cette configuration la relation
souvent affirme selon laquelle une anne de la vie dun chien quivaut
sept annes de la vie dun homme.

3.1 Les modles AFT et les modles PH


Les modles AFT se distinguent notamment des modles dits risque
proportionnel (Proportional Hazard ou PH) qui sont caractristiques des mo-
dlisations semi-paramtriques et notamment de la plus utilise dentre
elles, le modle de Cox qui fera lobjet du chapitre suivant. Les dveloppe-
ments qui viennent prcisent ces deux cadres danalyse dont il importe de
comprendre la signification.

3.1.1 Les Modles temps de vie acclre


Lquation de base des modles AFT
Dans ce type de modle on explique le temps de survenu de lvne-
ment dintrt. Un ensemble de k explicatives caractristiques de chaque
individu peut tre mobilis pour cette explication : Ti = f (xi1 , xi2 , . . . , xik ).
3.1. LES MODLES AFT ET LES MODLES PH 71

Comme fonction de lien, on va retenir une forme usuelle : f () est suppose


linaire. La seule prcaution prendre concerne le fait que le temps de
survenue Ti est strictement positif. On intgre aisment cette condition via
une transformation de lexplique, pour arriver lquation de base des
modles AFT :

log(Ti ) = 0 + 1 xi1 + 2 xi2 + . . . + k xik + b ui (3.1)


= ci + b u i (3.2)

o ci est un paramtre de position, b un coefficient dchelle et ui est une


alatoire centre et de paramtre dchelle unitaire. Grce cette transfor-
mation, aucune contrainte particulire, ni de taille, ni de signe, na besoin
dtre impose sur les coefficients . Notez galement dans cette formulation
usuelle des modles AFT, que les caractristiques des individus affectent
uniquement le paramtre de position : le paramtre b est suppos constant
entre les individus 1 .
Pour ce qui concerne le choix des distributions possibles pour u, les
modles temps de vie acclr retiennent des variables alatoires de type
position-chelle (location-scale, LS). Soit deux alatoires relles telles que
Y = c + bY0 , c <, b <, b > 0 alors lensemble des distributions associes
Y constitue une famille location-scale associe la distribution de Y0 . c
est le paramtre de position (location parameter) et b le paramtre dchelle
(scale parameter). Si FY et FY0 sont les fonctions de rpartition respectives
de Y et Y0 et y une ralisation de Y, on a :
yc
FY (y) = FY0 ( ) (3.3)
b
Par ailleurs, si fY et fY0 sont leurs fonctions de densit, alors 2 :

1 yc
fY (y) = fY 0 ( ) (3.4)
b b
yc
En termes de survie, on a donc galement : SY (y) = SY0 ( b ).

1. On peut imaginer dintroduire de lhtrognit en faisant dpendre b de ces carac-


tristiques individuelles, b = bi = b(xi1 , . . . , xik ). Dans SAS, cette possibilit nest pas offerte
en standard
yc yc
2. Lobtention de (3.3) est immdiate : FY (y) Prob[Y y] = Prob[Y0 b ] FY0 ( b ).
Celle de (3.4) est encore plus rapide si on se souvient que f (y) = F(y)/y. Il suffit donc de
driver (3.3) gauche et droite pour obtenir le rsultat affich.
72 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

Vous aurez videmment reconnu dans Y0 = Yc b la forme standardise


de Y pour laquelle le paramtre de position est gal 0 et le paramtre
dchelle vaut 1. Notez toutefois que si pour la gaussienne, esprance et
paramtre de position dune part, cart-type et paramtre dchelle dautre
part concident, ce nest pas le cas pour les autres distributions.
Un des intrts pratiques des variables alatoires de type position-
chelle est que lon peut, condition de connatre les deux paramtres c
et b faire des calculs qui impliquent FY ou fY avec uniquement des rsultats
affrents la rpartition et/ou la densit de la variable standardise de la
famille 3 .

Si on pose Y = log(T) et que Y est de type position-chelle, alors T


lui-mme est dit de type log-location-scale.

En quoi le temps est-il acclr ?


Pour comprendre la dnomination de ces modles, nous allons prendre
un individu de rfrence pour lequel toutes les explicatives sauf la constante
sont nulles. Lindice 0 servira reprer cette rfrence. En reprenant lqua-
tion de base des modles AFT, on a videmment :

Y0 = log(T0 ) = 0 + b u, soit encore, (3.5)


T0 = exp(0 + b u), et (3.6)
log(t) 0
S0 (t) = Pr[T0 > t] = Pr[u > ] (3.7)
b
Pour un autre individu i, il vient :

Y = log(T) = 0 + 1 xi1 + 2 xi2 + . . . + k xik + b u, (3.8)


T = exp(0 + 1 xi1 + 2 xi2 + . . . + k xik + b u) (3.9)
log(t) 0 1 xi1 . . . k xik
S(t) = Pr[T > t] = Pr[u > ]
b

= S0 t exp(1 xi1 1 xi1 . . . k xik )
 
= S0 i t (3.10)

o i = exp(1 xi1 1 xi1 . . . k xik ), est un coefficient de proportion-


nalit positif et constant si les valeurs des explicatives sont invariantes dans
3. Pour prendre un exemple connu, pensez la recherche des valeurs critiques pour
une gaussienne quelconque alors que les tables publies ne concernent que la gaussienne
standardise.
3.1. LES MODLES AFT ET LES MODLES PH 73

le temps. Dans ce cas, la survie une dure t pour un individu quelconque


est gale la survie observe un autre dure donne par i t pour lindi-
vidu de rfrence. Pour reprendre lexemple de lhomme et du chien, si le
premier est en rfrence alors pour le chien, i = 7 : la survie 4 ans dun
chien serait gale celle dun homme de 28 ans. Tout se passe comme si le
temps tait acclr pour le chien. En rsum pour un individu quelconque,
Si i > 1, le temps sacclre pour lui relativement celui du rfrent,
Si i = 1, le temps scoule la mme vitesse pour les deux individus,
Si i < 1, le temps est dclr pour lindividu i relativement celui
qui caractrise lindividu pris en rfrence.
Notez que cette dilatation du temps sapplique aux quantiles. Par exemple,
si tM0 est le temps mdian pour la population de rfrence, i.e. S0 (tM0 ) = 0.50,
alors pour lindividu i, S(i tM0 ) = 0.50. Pour reprendre lexemple prcdent,
si lge mdian au dcs des hommes tait de 70 ans, celui des chiens serait
de 10 ans.
Compte tenu de lquation de dfinition de ce paramtre de proportionna-
lit, il est vident que lacclration o la dclration du temps dpend
des caractristiques des individus concerns via la valeur des explicatives
xi1 , xi2 , . . . , xik et de leurs coefficients.

Linterprtation des coefficients


La signification des coefficients i , i = 1, . . . , k est immdiate compte-
tenu des prcdents rsultats. Nous allons traiter ce point au moyen dune
simple illustration. Supposons que lon soit en prsence dun modle ne
possdant, outre un terme constant, quune seule explicative code 0 o 1.
Par exemple, Si = 1 si i est un homme et 0 sinon. Les femmes sont donc
utilises ici comme rfrence . Lquation de base est alors :

Yi = log(Ti ) = 0 + 1 Si + b u (3.11)
et la survie des femmes :
log(t) 0
S0 (t) = Pr[u > ] (3.12)
b
alors que celle des hommes devient :
log(t) 0 1  
 t
S(t) = Pr[u > ] = S0 t exp(1 ) = S0 (3.13)
b e1
Avec ce codage binaire 0/1, il vient i = e1 : si 1 > 0 le temps dclre
pour les hommes relativement aux femmes. Au contraire, si 1 < 0 le temps
74 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

dvnement sacclre pour les hommes. Par exemple, pour 1 = 0.6931,


on a exp(1 ) = 2 : la survie des hommes 20 ans est gale celle des
femmes 10 ans, le temps des premiers a dclr. Pour 1 = 0.6931,
on a exp(1 ) = 0.50, et la survie des hommes 20 ans serait gale celle
des femmes 40 ans, le temps scoule deux fois plus rapidement pour les
hommes.
Une autre formulation aidant se rappeler de la relation existante entre le
signe du coefficient dune explicative et la vitesse dcoulement du temps est
la suivante : considrons une explicative affecte dun coefficient positif. Si
la valeur de cette variable augmente tourtes autres choses inchanges, alors
daprs lquation fondamentale des modles AFT, le temps dvnement
doit augmenter, ce qui signifie que la survie augmente, et quivaut dire que
le temps dclre. A linverse, avec un coefficient ngatif, laugmentation
de la variable provoque une baisse des temps de survenue de lvnement,
cest dire une diminution de la survie ce qui correspond une acclration
du temps.

Remarques
1. la plupart des ajustement paramtriques de la survie ont comme ex-
plique le logarithme des temps de survie. Il est cependant possible
dans la Proc LIFEREG dexpliquer T et non pas log T en utilisant
loption NOLOG. La transformation en logarithme est galement
dsactive si vous spcifiez pour les temps dvnement une distri-
bution normale ou une distribution logistique.
2. Les distributions log-normale et de Weibull sont des exemples de
distributions qui ne sont pas des distributions position-chelle. En
revanche, ces alatoires prises en logarithme en font partie (respecti-
vement distribution normale et de Gumbel). On les retrouvera donc
naturellement lorsquil sagira de modliser le logarithme des temps
de survie.

Dans les modles AFT, les explicatives affectent le paramtre de posi-


tion. Une autre possibilit est de faire porter cette influence directement sur
la fonction de risque. Cest ce que vont faire les modles risque propor-
tionnels.

3.1.2 Les Modles risques proportionnels


Ici la spcification usuelle est
3.1. LES MODLES AFT ET LES MODLES PH 75

h(t) = h0 (t)r(x) (3.14)

o h() est la fonction de risque. Elle est donc crite comme le produit de
deux fonctions, lune hi 0(t) tant dpendante du temps mais pas des carac-
tristiques individuelles, et lautre, r(x) ne dpendant pas du temps mais
uniquement des caractristiques des individus. A lvidence, h0 (t) est le
risque dun individu pour lequel r(x) = 1. Pour cette raison, h0 () est gale-
ment nomm risque de base.
Lexplication du nom donn ces modles se comprend aisment si
on considre le ratio de risque affrent deux individus pour une dure
t quelconque : on obtient une fonction indpendante du temps qui est de
plus une constante si les valeurs des deux ensemble dexplicatives xi et x j
sont elles-mme invariantes :

hi (t) r(xi )
= (3.15)
h j (t) r(x j )

Considrons ainsi la spcification suivante de r(xi ), qui fait intervenir


une exponentielle afin dassurer la positivit de hi (t) :

r(x) = exp(0 + 1 xi1 + . . . + k xik ), (3.16)

il vient :

hi (t) h i
= exp 1 (xi1 x j1 ) + . . . + k (xik x jk ) (3.17)
h j (t)

Bien que traitant de la fonction de risque, on peut remonter la survie


implique par un modle PH. En effet, partant de la relation de base des
modles risques proportionnels, h(t) = h0 (t)r(x), en considrant lgalit
fondamentale
" Z t #
S(t|x) = exp [H(t|x)] = exp h(v)dv ,
0

et en utilisant la notation S0 (t|x) = exp [H0 (t|x)], on arrive immdiatement


:

S(t|x) = S0 (t|x)r(x) (3.18)


76 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

Remarques
1. Une caractristique des modles risque proportionnels est que si
S0 (t) est dans une certaine famille de distribution paramtriques alors
en gnral S(t) nest pas dans la mme famille, ce qui est contraire
ce quon vrifie avec les modles AFT. Ceci est une des raisons pour
lesquelles les modles paramtriques sont du type AFT plutt que
PH.
2. Un cas intressant considrer est la distribution de Weibull dont la
densit scrit :
!1 !
t t
fT (t|(x), ) = exp , (3.19)
(x) (x) (x)
avec t 0, > 0, (x) > 0.

Si on considre Y = log(T) alors on obtient une distribution de Gum-


bel pour lalatoire Y qui est de type position-chelle, avec :
" ( )#
1 y c(x) y c(x)
fY (y|c(x), b) = exp exp , < y < ,
b b b
(3.20)
avec c() = log[(x)] et b = 1 > 0.
Par ailleurs, cest galement un modle de type PH. En effet, la
fonction de survie associe est :
!
t
ST (t|x) = exp , (3.21)
(x)

et la fonction de risque :
" #1
t
hT (t|x) = = t1 (x) (3.22)
(x) (x)

On note que cette dernire criture est conforme la spcification des


modles PH, puisque le risque total scrit bien comme le produit
dun terme ne dpendant que de t par un autre ne dpendant que
des caractristique x.
En dautres termes, si on suppose que les temps de survie ont une
distribution de Weibull, alors on est en prsence dun modle qui est
la fois AFT et PH. La distribution de Weibull est dailleurs la seule
vrifier cette double appartenance.
3.2. LES PRINCIPALES MODLISATIONS AFT 77

3. Dans un modle AFT lquation estime porte sur le logarithme des


temps de survie. Dans un modle PH elle porte sur la fonction de
risque. De ce fait, les coefficients des mmes explicatives estims
dans lun ou lautre cadre ne sont pas directement comparables.
Supposons que lon ait le mme ensemble dexplicatives avec les
coefficients AFT dans le premier et PH dans le second. Soit, en re-
prenant les notations prcdentes, (x) = exp(0AFT x) dune part, et
r(x) = exp(0PH x) dautre part. On pourrait sattendre ce quil soit
de signe oppos : si une variable augmente le risque (son coefficient
serait positif dans PH ), alors elle devrait diminuer la survie (son
coefficient serait ngatif dans AFT . En fait la relation entre risque et
survie est complexe 4 et il nest pas rare, en pratique de ne pas obser-
ver cette inversion de signe. Le seul cas o le passage dun ensemble
de coefficient lautre est non ambigu est lorsque lon travaille avec
une distribution de Weibull 5 . Dans ce cas, lexpression de la fonc-
1
tion de risque (3.22) montre que r(x) = (x) et donc 0PH x = 1 0AFT x,
soit finalement : PH = 1 AFT . les coefficients sont proportionnels
entre eux et de signe oppos.

3.2 Les principales modlisations AFT


Dans la classe des modles AFT, les distributions exponentielle, Weibull,
log-normale, log-logistique et gamma sont les plus couramment utilises et
implmentes dans la proc LIFEREG de SAS. Par la suite nous utiliserons
pour dcrire ces distributions les paramtrisations utilises dans laide de
la Proc LIFEREG.

3.2.1 La distribution exponentielle


Il sagit du modle le plus simple : on postule que le risque instantan
est une constante :
h(t) = , t 0, > 0. (3.23)
Compte-tenu de la relation fondamentale entre la fonction de risque et
la fonction de survie,
" Z t #
S(t) = exp h(u)du ,
0

4. On rappelle que le passage du risque la survie fait intervenir la densit.


5. Et ceci doit naturellement tre reli la remarque prcdente.
78 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

il vient :
" Z t #
S(t) = exp du = et (3.24)
0

La densit des temps de survie est alors donne par :

dS
f (t) = = et (3.25)
dt
On reconnat bien dans cette dernire expression la densit dune expo-
nentielle de paramtre . Ainsi, une fonction de risque constante quivaut
une distribution exponentielle des dures dvnement. On vrifie imm-
diatement que la proprit AFT est vrifie puisque pour deux individus i
et j diffrents caractriss par les paramtres constants i > 0 et j > 0, on
a:

Si (t) = ei t = eij j t = S j (ij t)


o ij est la constante dfinie par ij = i / j .
Le risque ne variant pas avec le temps, il sagit dun processus sans m-
moire. Pour cette raison, il est souvent utilis en ingnierie pour modliser
notamment la dure de vie des composants lectroniques. Afin dillustrer
cette proprit, on peut vrifier que pour deux dures t1 et t0 telles que
t1 > t0 , Prob[T > t1 |T > t0 ] = Prob[T > t1 t0 ]. Ainsi, la probabilit quun
composant fonctionne encore 3 ans, sachant quil a dj fonctionn une an-
ne est simplement gale la probabilit quil fonctionne deux annes ds
sa mise en fonction : il ny a donc pas dusure pendant la premire anne
de fonctionnement 6 .

3.2.2 La distribution de Weibull


La fonction de densit dune variable alatoire de Weibull scrit :

f (t) = t1 exp (t ) (3.26)


Les fonctions de survie et de risque associes sont respectivement :

S(t) = exp (t ) (3.27)


1
h(t) = t (3.28)
Prob[T>t1 T>t0 ] Prob[T>t1 ] S(t1 ) et1
6. Prob[T > t1 |T > t0 ] = Prob[T>t0 ]
= Prob[T>t0 ]
= S(t0 )
== et0
= S(t1 t0 )
3.2. LES PRINCIPALES MODLISATIONS AFT 79

h(t) h(t) = t1 , = 1.0

3
1.5
=
= 0.5

2
= 1.0
1

0 t
0 1 2 3 4

Figure 3.1 Exemples de fonctions de risque avec la distribution de Weibull

En consquence, lorsque > 1, la fonction de risque est monotone crois-


sante. Elle est monotone dcroissante pour < 1 et constante si = 1. Cette
flexibilit explique lutilisation de cette distribution ds lors que lon soup-
onne une volution monotone du risque avec la dure. On note galement
que la distribution exponentielle est un cas particulier de la Weibull obtenu
avec = 1. Trois illustrations sont prsentes dans le graphique 3.1

3.2.3 La distribution log-normale

La dure de vie T a une distribution log-normale si Y = log(T) est une


distribution normale 7 . Si T est une log-normale et Y = log T est une normale
desprance et de variance 2 alors sa densit est donne par :

" #
1 1 (log t) 2
fT (t) =
exp , t > c, > 0. (3.29)
2
t 2

7. On voit immdiatement que Y = log T N(, 2 ) T = exp Y = e+Y0 , o Y0


N(0, 1). Le paramtre dchelle de T est ainsi e . Empiriquement, ce paramtre
P correspond
la moyenne gomtrique des temps dvnements puisque = 1/N log{(ti )}.
80 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

Par ailleurs,
!
log(t)
FT (t) = , (3.30)

!
log(t)
ST (t) = 1 , (3.31)

h log(t) i
1
t
hT (t) = h log(t) i , (3.32)

!!
log(t)
HT (t) = log 1 , t > 0, > 0. (3.33)

o () et () sont les fonctions de densit et de rpartition rpartition de la


gaussienne standard.
Par ailleurs,
1 2
E(T) = e+ 2 , et (3.34)
2 2
V(T) = (e 1)e2+ (3.35)

Lintrt de la log-normale est de pouvoir gnrer des fonctions de


risque monotones mais aussi croissantes puis dcroissantes en fonction de
la valeur de , se dmarquant ainsi de la Weibull. Elle a cependant un
petit inconvnient : le calcul de () implique le recours des mthodes
dintgration numrique 8 . En consquence, on lui prfre encore souvent
la distribution log-logistique qui permet de gnrer des volutions de risque
similaires en ne faisant appel qu des fonctions lmentaires 9 .

3.2.4 La distribution log-logistique


La distribution des temps dvnement est log-logistique si la densit
de T est :
t1
f (t) = (3.36)
(1 + t )2

8. "petit" car compte-tenu de la puissance de calcul des processeurs actuels, les temps
dexcution ne sont plus trs sensiblement dgrads par des appels ces procdures din-
tgration numriques.
9. On retrouve ici quelque chose que vous connaissez : en conomtrie des variables qua-
litatives, on sait quil est difficile de justifier lemploi dun Probit plutt que dun Logit : les
deux ajustements conduisent gnralement des ajustements qualitativement identiques.
3.2. LES PRINCIPALES MODLISATIONS AFT 81

h(t)
6
t1
h(t) = 1+t = 1.0
5

=
8.0
3
=
= 0.5

2 4.0

1
= 1.0

0 t
0 1 2 3 4 5

Figure 3.2 Exemples de fonctions de risque sous distribution Log-


logistique

Les fonctions de survie et de risque associes sont respectivement :

1
S(t) = (3.37)
1 + t
t1
h(t) = (3.38)
1 + t
On rappelle que si T est une alatoire log-logistique, alors Y = log T a
une distribution logistique.
Des exemples de fonctions de survie obtenues pour diverses valeurs du
paramtre de forme sont prsents dans le graphique 3.2. Rappelez-vous
galement que des volutions similaires de la fonction de risque peuvent
tre obtenues avec la distribution log-normale.

3.2.5 La distribution Gamma gnralise


Cette distribution est intressante car elle admet comme cas particu-
lier les distributions Weibull et log-normale. Sa construction est cependant
relativement complique et de plus la masse de calculs ncessaires aux
valuations de sa densit est leve ce qui peut affecter les temps de cal-
cul. Plus grave, on peut rencontrer relativement souvent des difficults de
82 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

convergence dans le calcul des estimateurs lors de la maximisation de la


log-vraisemblance.
La densit de cette gamma est donne par :

!
v ||  2 2 log t
f (t) = v exp (v 2 ), v = exp (3.39)
t v( )
2

() est la fonction gamma complte 10 . Le paramtre est un paramtre


de forme 11 . Lintrt de cette distribution dans les analyses de survie est
double :
1. La Weibull et la log-normale sont des cas particuliers de la Gamma
gnralise. La premire est obtenue pour = 1, la seconde lorsque
= 0. On retrouve la distribution exponentielle lorsque delta =
sigma = 1. Ces proprits peuvent tre utiles pour fonder un test
du rapport de vraisemblance afin daider au choix de la spcification
de la distribution retenir.
2. La distribution Gamma gnralise est donc capable de produire une
fonction de risque semblable celle des distributions numres au
point prcdent, mais de plus, elle peut aussi gnrer une fonction
de risque en forme de U, dcroissante puis croissante avec la dure,
ce que ne peuvent faire les autres distributions vues jusquici.

3.3 Estimation avec diffrents types de censure et tests


sur les coefficients
La mthode destimation adapte lestimation des modles param-
triques est celle du maximum de vraisemblance. Celle-ci tant suppose
connue, nous ne rappelons ici que des aspects trs gnraux.
Une fois le choix de la distribution effectu, lcriture des diverses fonctions
ncessaires aux calculs est connue. Pour des valeurs donnes des paramtres
nous pouvons ainsi calculer la densit affrente chaque individu pour le-
quel la dure reporte correspond la ralisation de lvnement tudi.
Soit fi (ti ) cette densit value pour lindividu i qui a connu lvnement au
temps ti . Lindiciation de f () par i rappelle que si des explicatives sont prises

10. Gamma() est une gnralisation de la fonction factorielle des arguments rel et
complexe. Pour les entiers, on a (n) = (n 1)!
11. nomm "Shape" dans les sorties de Proc LIFEREG.
3.4. CHOIX DUNE DISTRIBUTION ET TESTS DE SPCIFICATION 83

en compte alors les valeurs de ces explicatives devraient affecter lvalua-


tion de la densit : sur deux individus ayant le mme temps dvnement
mais des explicatives diffrentes on vrifiera gnralement fi (ti ) , f j (ti ).
Les observations correspondantes une censure droite sont celles pour
lesquelles la dure dvnement est suprieure la dure de censure. Leur
vraisemblance est donc simplement la probabilit associe, soit, pour une
dure ti censure droite, P[Ti > ti ] = S(ti ). Selon la mme logique, une
observation censure gauche, o lon sait seulement que lvnement
eu lieu avant la dure ti va intgrer la vraisemblance avec la probabilit
correspondante, soit P[Ti > ti ] = F(ti ) = 1 S(ti ). Enfin, si nous sommes en
prsence dun individu censur sur un intervalle, pour lequel on sait seule-
ment que lvnement sest ralis entre ti1 et ti2 , avec naturellement ti1 < ti2
la vraisemblance associe sera P[ti1 < Ti < ti2 ] = F[ti2 ] F[ti1 ] = S[ti1 ] S[ti2 ].

Ainsi, il est possible dajuster des chantillons prsentant divers types


de censures :

Soit E lensemble des individus non censurs aux temps ti ,


Ed celui des individus censurs droite aux temps ti ,
E g celui des individus censurs gauche aux temps ti ,
Ei celui des individus censurs par intervalle aux temps ti1 et ti2 ,

la fonction de vraisemblance aura comme criture gnrale :


Y Y Y Y
L= fi (ti ) Si (ti ) Fi (ti ) Si (ti1 ) Si (ti2 ) (3.40)
iE iEd iE g ii

On retrouve galement tous les acquis de la thorie de lestimation par


le maximum de vraisemblance : sil ny a pas derreur de spcification, les
estimateurs des paramtres sont asymptotiquement gaussiens, efficients.
On sait estimer leur matrice de variance-covariance : la Proc LIFEREG utilise
la mthode de Newton-Raphson qui value le hessien. A partir de l, il et
possible de construire les tests usuels sur ces coefficients.

3.4 Choix dune distribution et tests de spcification


On a compris, avec les dveloppements prcdents que lune des pre-
mires difficults rencontres lors de lajustement dun modle param-
trique est celui du choix de la distribution sous laquelle vont se faire les
estimations.Plusieurs mthodes peuvent tre mises en oeuvre pour choisir
84 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

et ou valider ce choix. Nous commencerons par la mise en oeuvre dun test


LRT de slection dune distribution, avant dexposer les aides graphiques
disponibles permettant dorienter la dcision vers une distribution appro-
prie. Si ces aides graphiques sont spcifiques aux mthodes de survie, en
revanche, le test du rapport de vraisemblance vous est connu et donc son
application doit se comprendre aisment. Dans tous les cas, rappelez-vous
quune information a-priori sur lvolution du risque en fonction de la du-
re constitue galement un lment ne pas ngliger. Ainsi, si vous savez
que le risque est constant, alors la distribution exponentielle mrite dtre
envisage.

3.4.1 Slection au moyen du test de rapport de vraisemblance


Ds lors que le choix entre plusieurs distributions est possible, il est utile
de pouvoir discriminer entre les diverses alternatives. Une solution, certes
incomplte mais qui peut rendre service, est offerte par un test de type LRT.
Pour mmoire, si lnc et lc sont les valeurs de la log-vraisemblance obtenues
aprs estimation dun modle non contraint et dun modle contraint, alors
la quantit LRT = 2(lnc lc ) est distribue selon un 2 c degrs de libert
sous lhypothse nulle de validit des c contraintes imposes pour passer de
lun lautre. Ce test sapplique donc videmment dans le cas o le modle
contraint est embot dans le non contraint 12 .
Or, dans la section prcdente, nous avons rencontr ce cas de figure
plusieurs reprises :
1. Le modle exponentiel est un cas particulier du modle Weibull.
Il est obtenu lorsque le paramtre de forme est gal lunit.
Limposition de cette contrainte nous fait donc passer dune distri-
bution de Weibull (modle non contraint), une distribution expo-
nentielle (modle contraint). Aprs ajustement de la mme quation
sous chacune de ces distributions, on rcupre la vraisemblance esti-
me (lnc = lW et lc = lE ). On ne rejettera pas lexponentielle en faveur
de la Weibull si LRT = 2(lW lE ) < 2 (1), o 2 (1) est la valeur
critique affrente au seuil de risque, , choisi
2. Le modle Weibull est lui-mme un cas particulier de la Gamma g-
nralise. On passe de celui-ci celui-l en contraignant le paramtre

12. On sait quun inconvnient de ce test est de rendre obligatoire lestimation des deux
modles, contraint et non contraint, pour rcuprer les valeurs des vraisemblances. Dans le
cas prsent, ceci nest pas un obstacle majeur puisquil suffit de modifier un mot clef dans
lappel de la Proc LIFEREG pour changer de distribution.
3.4. CHOIX DUNE DISTRIBUTION ET TESTS DE SPCIFICATION 85

de forme, , de la Gamma lunit. En consquence, On ne rejettera


pas la Weibull en faveur de la Gamma si LRT = 2(lG lW ) < 2 (1).
3. Par ailleurs, lorsque = 0 la Gamma gnralise dgnre en une
log-normale. Ainsi on ne rejettera pas la log-normale en faveur de la
Gamma si LRT = 2(lG lLN ) < 2 (1).
4. Enfin, si la Gamma peut dgnrer en Weibull, et que la Weibull
peut elle-mme dgnrer en exponentielle, on conoit que lex-
ponentielle peut directement tre drive de la Gamma. Il suffit
simplement dimposer deux contraintes pour raliser le passage.
Ainsi, on ne rejettera pas lexponentielle en faveur de la Gamma si
LRT = 2(lG lE ) < 2 (2).

Attention : le test LRT oppose deux modles dont lun est un cas particulier
de lautre. Il ne valide pour autant pas le modle retenu. Par exemple, si
on est amen ne pas rejeter H0 en confrontant la distribution exponen-
tielle et la Weibull, cela signifie simplement que le modle le plus simple,
ici lexponentiel, est compte-tenu des donnes disponibles au moins aussi
vraisemblable que le modle Weibull. Si on rejette H0, alors lexponentiel
est moins vraisemblable que la Weibull. Mais, quelle que soit la dcision, il
est videmment possible que les deux distributions soient en fait errones,
et que la vraie distribution soit toute autre.

3.4.2 Les aides graphiques


Celles-ci sont de deux ordres : aide au choix dune distribution avant
estimation dune part, information sur le caractre appropri dun ajuste-
ment paramtrique aprs estimation dautre part.Il faut pourtant noter que
malheureusement, en pratique, mme si dans certains cas ils peuvent aider,
le plus souvent les graphiques en question ne permettent pas de tirer une
conclusion trs assure. Cette utilit limite tant encore plus notable pour
les aides graphiques avant estimation.

Aide au choix dune distribution avant estimation

Elle concerne les modles exponentiel, Weibull, log-normal et log-logistique.


Pour les deux premiers les graphes sont aisment obtenus au moyen dune
option dans la Proc LIFETEST au moins pour deux des distributions vues
prcdemment..
86 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

Pour le modle exponentiel, la fonction de survie est donne, en lab-


sence de variables explicatives, par S(t) = et , soit encore log S(t) =
t. Ainsi, si ce modle est adapt, alors le graphe de log S(t) en or-
donne sur t en abscisse doit tre celui dune droite passant par
lorigine.
Pour le modle de Weibull, toujours en labsence dexplicatives,
 
lquation de survie est S(t) = exp (t ) do log log S(t) =
 
log + log t. Dans ces conditions, le graphe de log log S(t) en
ordonne sur log t en abscisse doit donner une droite dordonne
lorigine log .

Comme nous lavons vu au chapitre prcdent, il est possible dob-


tenir directement ces deux graphiques avec la Proc LIFETEST en
spcifiant loption PLOT=(ls) pour gnrer le premier, et PLOT=(lls)
pour le second, o encore PLOT=(ls,lls) pour avoir les deux. Dans
ces graphiques, lestimateur de Kaplan-Meier S(t) de la survie se
substitue naturellement la valeur inconnue S(t).
Pour les distributions log-normale et log-logistique, lobtention des
graphes est un peu plus complique. Pour ces modles, les fonctions
de survie sont respectivement :
!
log t
SLN (t) = 1 , (3.41)

1
SLL (t) = , (3.42)
1 + t
Soit :
log t
1 [1 SLN (t)] = ,

1 SLL (t)
= t ,
SLL (t)
et finalement :

1
1 [1 SLN (t)] = + log t,
" #
1 SLL (t)
log = log + log t.
SLL (t)
Ainsi, en appliquant S(t) la transformation adapt lun ou lautre
modle on devrait obtenir, avec cette transformation en ordonne et
3.4. CHOIX DUNE DISTRIBUTION ET TESTS DE SPCIFICATION 87

log t en abscisse des graphes reprsentant des droites. La dmarche


suivre est donc la suivante :
1. Un Appel de la Proc LIFETEST pour obtenir les estimateurs de
Kaplan-Meier de S(t) et sauvegarde de ceux-ci dans un fichier,
2. Une tape data pour cre les variables transformes 13 ,
3. Un appel GPLOT pour obtenir les graphes.
Le squelette de cette construction serait donc :
Proc Lifetest data=...;
time duree*...;
outsurv=estim;
run;
Data estim;
set estim;
lnormal=probit(1-survival);
logit=log(1-survival)/survival);
logt=log(duree);
run;
Proc gplot data=estim;
symbol value=none i=join;
plot lnormal*logt logit*logt;
run;

Aide au choix dune distribution aprs estimation


Une limite forte de cette aide graphique avant estimation vient de ce
que la dmarche nest plus pertinente ds lors que des explicatives sont
prsentes et affectent la survie : lhomognit que suppose ces graphiques
nest plus valide. La solution est de travailler avec les rsidus du modle
estim qui, si le modle ajust est satisfaisant doivent vrifier entre autres
une hypothse dhomognit 14 .
13. On rappelle que probit() est sous SAS le nom de la fonction 1 ().
14. Pensez par exemple au modle de rgression linaire Y = X + u : lesprance condi-
tionnelle de Y gale X est susceptible de se modifier pour chaque individu en fonction
des valeurs des explicatives X. En revanche, dans le cadre des hypothses usuelles tous les
ui sont centrs, homoscdastique et orthogonaux entre eux. On peut ainsi tester la validit
dune estimation OLS en travaillant sur les estimateurs u i qui sont homognes plutt que sur
E[Y|X]. Dans le cas prsent, plutt que de travailler sur S(t) comme le fait laide graphique
avant estimation, on prfre regarder si certaines proprits sont valides sur lquivalent
Naturellement ceci ne peut se faire quaprs estimation, lorsque lon dispose
des rsidus u.
des rsidus empiriques en question.
88 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

La question est videmment de dfinir les rsidus pour un modle


de survie. Dfinissons les rsidus comme les images dune fonction ayant
comme argument la variable explique, les explicatives et les paramtres
du modles. Limportant est de dfinir la fonction de sorte ce quelle
renvoie un objet dont es proprits sont connues si le modle estim est
satisfaisant. Par exemple, ils devraient tre en ce cas i.i.d. et de distribution
connue. Soit ui = r(Ti , xi1 , xi2 , . . . , , xik , ), i = 1 . . . , n. Si est lestimateur
du maximum de vraisemblance de , alors le rsidu empirique est donn
Pour des valeurs suffisamment grande de
par ui = r(ti , xi1 , xi2 , . . . , , xik , ).
n, ces rsidus devraient se comporter comme des chantillons tirs dans
la loi de ui . Ce type de rsidus est appel rsidus gnraliss 15 , et lun des
plus connu, particulirement utile ici est le rsidu de Cox-Snell dfinit par
ui = H(Ti |x, ), soit encore, en fonction dune relation fondamentale, comme
ui = log S(Ti |x, ). On peut montrer que si la distribution choisie pour
lestimation du modle paramtrique est satisfaisante, alors les rsidus de
Cox-Snell devraient tre des alatoires ayant une distribution exponentielle
de paramtre gal lunit.
La preuve seffectue en deux temps :
1. Si X est une alatoire continue de fonction de rpartition FX (x) alors
lalatoire U = FX (x) possde une distribution uniforme sur [0, 1] 16 .
videmment, si U = FX (x) est une uniforme sur [0, 1], alors cest
aussi le cas de SX (x) = 1 FX (x).
2. Si U est une uniforme sur ]0, 1] alors Y = log U est une exponen-
tielle de paramtre gal 1 17 .
Ainsi, en labsence derreur de spcification, les rsidus possdent effecti-
vement la distribution impose pour lestimation : S(u) est une uniforme
et donc les rsidus de Cox-Snell, dfinis par log S(u) devraient tre des
exponentielles de paramtre = 1. En consquence, toujours si le modle
devrait
slectionn est adquat, le comportement de u i = log S(ti |xi , )

15. "gnralis" pouvant tre compris comme ntant pas ncessairement une mesure
dun cart entre un y observ et un y calcul, mais comme un objet devant vrifier certaines
proprits si le modle ajust est satisfaisant.
16. FU (u) = P[U u] = P[FX (X) u] = P[X F1 X
(u)] = FX [F1
X
(u)] = u. Ce thorme
est plus connu sous une formulation inverse : si U est une uniforme sur [0,1] alors X =
F1
X
(U) a comme fonction de rpartition FX (). Il fonde la mthode dite de la transformation
inverse : pour gnrer des pseudo-alatoires ayant la distribution FX (), il suffit de gnrer
des ralisations u dune uniforme sur [0,1] et de prendre x = F1 X
(u).
17. FY (y) = P[Y y] = P[ log(U) y] = P [U ey ] = 1 FU [ey ] = 1 ey . En
diffrenciant par rapport y le premier et le dernier terme de cette suite dgalits, il vient :
fY (y) = yey , et on reconnat l la densit dune exponentielle de paramtre = 1.
3.4. CHOIX DUNE DISTRIBUTION ET TESTS DE SPCIFICATION 89

donc approcher celui dun chantillon dexponentielles censures. Nous


en fonction
savons alors que pour ce modle, le graphe de log (S(ti |xi , )
de t doit tre une droite passant par lorigine et de pente gale 1.

Sous SAS la mise en oeuvre de cette aide graphique est simple :

1. Estimer le modle sur les temps de survie avec la Proc LIFEREG en


spcifiant une distribution parmi les 5 possibles (exponentielle, Wei-
bull, log-normale, log-logistique, gamma gnralise) et rcuprer
dans un fichier les rsidus de Cox-Snell en activant la commande
OUT=estim / CRESIDUAL=CS ou CRES=CS, o CS est le nom de la va-
riable qui contiendra ces rsidus dans la table estim,
2. Appel de la Proc LIFETEST sur la table estim en spcifiant loption
plot=(ls) et la commande Time CS*..., la variable indicatrice de
la censure tant la mme que celle utilise dans ltape prcdente
lors de lappel la Proc LIFEREG.

un exemple

Afin dillustrer la dmarche prcdente, nous allons utilser un fichier


de donnes disponible sur le site de lInstitute for Digital Research and
Education de UCLA 18 . Lobjectif de ces donnes est dtudier le temps
de rechute danciens utilisateurs de drogue ayant subis deux types de trai-
tement diffrents notamment selon leur dure (variable TREAT gale 1
pour le programme long, gale 0 pour le traitement court), et le site (va-
riable SITE valant 0 pour lun, et 1 pour lautre) entre lesquels les patients
ont t rpartis alatoirement. La variable AGE enregistre lge du patient
lors de son entre dans le programme de traitement. La variable NDRUTX
donne le nombre de traitements auquel a t soumis le patient avant son
incorporation dans lun ou lautre des deux traitements tudis. Une va-
riable, HERCO , prcise le type de consommation dans les trois mois qui
ont prcd son incorporation (HERCO=1 si consommation dhrone et de
cocane, HERCO=2 si consommation dhrone ou de cocane, HERCO=3 si
aucune des deux drogues na t prise pendant ces trois mois). Enfin, la va-
riable TIME reporte le temps de retour laddiction et la variable CENSOR
prend la valeur 1 si lindividu a effectivement rechut aprs aprs le laps de
temps donn par TIME, et vaut 0 si cette dure il navait pas rechut. On

18. Fichier "uis_small.sas7bdat", accessible ladresse suivante :


http ://www.ats.ucla.edu/stat/sas/seminars/sas_survival/uis_small.sas7bdat
90 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

est donc dans cet exemple en prsence dune censure droite.

Le modle final retenu explique le temps de rechute par lge, le site,


le nombre de traitements pralables, la dure du traitement, et incorpore
un effet dinteraction entre lge et le site de traitement. Sous Weibull, son
estimation dans LIFEREG est donc commande par le programme suivant :

proc lifereg data=uis;


model time*censor(0) = age ndrugtx treat site age*site /
D=WEIBULL;
output out=estim xbeta=index cres=cs;
run;
ods graphics on;
ods listing gpath="C:..
;
proc lifetest data=estim plots=(ls);
time cs*censor(0);
run;
ods graphics off;

A lissue de la proc LIFETEST, on rcupre le graphique (a) reprsent dans


la figure 3.3. En remplaant D=WEIBULL dans le programme dappel de LIFE-
REG par successivement D=LOGNORMAL,D=LOGLOGISTIC, et D=EXPONENTIAL,
la mme proc LIFETEST va gnrer respectivement les graphiques (b), (c) et
(d) du graphe 3.3. Finalement, il semble que les distributions log-normale
et log-logistique conduisent des reprsentations de droites plus satisfai-
santes que lexponentielle et la Weibull, et seraient donc prfres pour
modliser les temps tudis dans cet exemple.

Nous pouvons galement raliser des tests LRT. Les estimations de


lquation prcdente sous les cinq distributions disponibles donnent comme
maxima pour la log-vraisemblance les valeurs prsentes dans la table 3.1.
Nous pouvons ainsi
comparer exponentielle et Weibull :
H0
LRT = 2(983.49 + 980.74) = 5.5 2 (1)
comparer log-normale et gamma :
H0
LRT = 2(970.92 + 967.50) = 6.84 2 (1)
comparer exponentielle et gamma :
H0
LRT = 2(983.49 + 967.50) = 31.98 2 (2)
3.5. ESTIMATION DE FRACTILES SUR LES DURES DVNEMENT 91

Distribution lmax
Exponentielle -983.49
Weibull -980.74
Log-normale -970.92
log-logistique -961.76
Gamma -967.50

Table 3.1 maximum de la log-vraisemblance sous diffrentes ditributions

Avec des valeurs critiques 5% de 3.84 et 5.99 respectivement pour les 2


un et deux degrs de libert, nous sommes amens rejeter lexponentielle
lorsquon loppose la Weibull, rejeter la log-normale et la Weibull si elles
sont oppose la Gamma. Au final, parmi toutes les distributions que nous
pouvons opposer, ce test LRT serait donc favorable une modlisation sous
distribution gamma.

3.5 estimation de fractiles sur les dures dvnement

Pour une ensemble dexplicatives, le p me quantile yp de Y = log T dans


les modles AFT est donn par :

yp = X + zp (3.43)

o zp est le pme quantile de la distribution standard de la famille considre


de densit f0 (z).

Lestimateur de yp est obtenu en remplaant les paramtres inconnus par


les valeurs des estimateurs du maximum de vraisemblance dans lexpres-
sion prcdente. Sachant les caractristiques dun individu, on peut donc
estimer par exemple, la dure tMed telle quil ait 50% de chances de connatre
lvnement entre 0 et tMed . Par ailleurs, une estimation de lcart-type dun
quantile estim peut galement tre calcule au moyen de la mthode delta
et la construction dune forme quadratique faisant intervenir la matrice de
variance-covariance des selon la dmarche habituelle.
92 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

(a) Weibull (b) Log-normale

(c) Log-logistique (d) Exponentielle

Figure 3.3 log(survie) versus t sur rsidus de Cox-Snell


3.6. DONNES CENSURES GAUCHE, DROITE ET PAR INTERVALLE 93

3.6 Donnes censures gauche, droite et par inter-


valle
La procdure LIFEREG autorise facilement la prise en compte des ces
trois modes de censure. Nous avons vu prcdemment comment, en leur
prsence, se construisait la fonction de vraisemblance . Le seul lment
prciser ici est celui de la syntaxe. Dans un premier point, on prsente
donc la structure attendue des donnes afin que LIFEREG identifie le cas
de censure qui sapplique chaque individu de lchantillon. Dans un se-
cond temps, on profite des possibilits de cette procdure pour la mettre
contribution afin de raliser lestimation dun modle Tobit. Comme vous
le savez, ce modle est adapt lajustement dune rgression sur une ex-
plique prsentant une censure. Bien quil ne sagisse pas dun modle de
dure, cet exemple possde donc un intrt propre. Par ailleurs, il illustre
parfaitement une mise en application des rgles de structuration des don-
nes affrentes la Proc LIFEREG.

3.6.1 La structuration des donnes


Pour chacun des individu i non censurs, censurs gauche ou censur
droite, nous navons besoin que dune seule dure ti : soit lvnement
sest ralis en ti soit il sest ralis avant ou aprs ti . Pour les individus
censur par intervalle, nous avons besoin de deux dures : les bornes basse
et haute de lintervalle, respectivement ti et ti+ signifiant que lvnement
sest produit entre ces deux dures.
Par dfaut la censure est une censure droite, ce qui explique que, sil
ny a que ce type de censure, il suffit demployer une syntaxe de la forme

model duree*cens(0)=...

LIFEREG comprend que les temps reports dans la variable dure sont
censurs droite lorsque la variable cens prend la valeur 0. Dans le cas
plus gnral, il faut une autre syntaxe. La solution adopte dans LIFEREG
est dassocier chaque individu deux dures de vie Li et Ui qui seront les
imes observations des variables L et U. Leur interprtation est la suivante :
1. Si Ui est une valeur manquante, alors lindividu i est censur droite
au temps Li ,
2. Si Li est une valeur manquante, alors lindividu i est censur gauche
au temps Ui ,
94 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

3. Si Li et Ui ne sont pas des valeurs manquantes, et si Li < Ui alors


lindividu i est censur dans lintervalle [Li , Ui ],
4. Si Li = Ui et ne sont pas des valeurs manquantes, alors Li (ou Ui ) est
un temps dvnement effectif : lindividu i nest pas censur.

Par ailleurs deux autres rgles sappliquent :


5. Si Li = 0, lindividu i nest pas pris en compte dans lestimation du
modle, cela parce quun temps dvnement doit tre strictement
positif,
6. Si Ui < Li , lindividu nest pas pris en compte dans les estimations en
raison de lincohrence des donnes qui lui sont associes : la borne
basse de lintervalle de censure est suprieure la borne haute.
La syntaxe dappel de la commande model devenant :
model (L U)=...
Soit par exemple les donnes du tableau 3.2. le premier individu a
une temps dvnement censur gauche : celui-ci ne sest pas ralis,
et sil survient cela sera aprs plus de 4.1 units de temps. Il sagit donc
dune censure droite. Le deuxime a une dure censure gauche : on
sait seulement que pour lui lvnement sest ralis avant 5.2 units de
temps. Pour le troisime, lvnement sest produit une dure comprise
entre 3.2 et 6.5 units de temps mais on ne sait pas prcisment quand.
Pour le quatrime individu, lvnement sest ralis une dure gale
3.9. Les cinquime et sixime individus ne sont pas pris en compte dans
les estimations du modle. Le cinquime parce que la borne infrieure
est nulle 19 , le sixime car il prsente une incohrence dans les bornes de
lintervalle si on spcifie que L contient les bornes infrieures et U les bornes
suprieures de ces intervalles.

3.6.2 Estimation dun modle Tobit via LIFEREG


On peut utiliser cette capacit de la Prog LIFEREG traiter les cas de
censure prcdents pour estimer un modle de type Tobit 20 . Dans le cadre
19. Attention, dans le cas de ce cinquime individu, on pourrait linterprter comme une
censure gauche : lvnement sest produit, on ne sait pas exactement quand entre le temps
0 et le temps 4.3. En toute logique cela nest pas faux. Seulement LIFEREG ne retient que les
temps ou les bornes dintervalles de temps strictement positifs.
20. Depuis SAS 9, il est galement possible demployer la Proc QLIM
3.6. DONNES CENSURES GAUCHE, DROITE ET PAR INTERVALLE 95

individu t1 t2
1 4.1 .
2 . 5.2
3 3.2 6.5
4 3.9 3.9
5 0. 4.3
6 5.6 1.7

Table 3.2 Exemples de donnes associes divers cas de censure

dun modle Tobit de type 1 avec double censure, on a une variable latente
y et une variable observe y dfinies par :

u N(0, 2 ) telle que E[u|X] = 0, (3.44)



y = X + u, (3.45)



y si a yi b
i

yi =
a si yi a (3.46)


b si b y
i

En dautres termes, on observe la ralisation de y lorsquelle appartient


lintervalle ]a, b[, on observe seulement a (resp. b) si elle est infrieure
(resp. suprieure) a (resp. b). Dans ces conditions , y est une gaussienne
censure, y CN(X, 2 , a, b), et :

E[yi |xi ] = xi , o xi est la ime ligne de X (3.47)


 ax   bx 
i i
E[yi |a < yi < b, xi ] = xi +  bx   ax  (3.48)
i i

Le cas dune censure gauche, trait dans la recherche sminale de


Tobin (1958) correspond y CN(X, 2 , 0, +) : il sagissait dexpliquer
les acquisitions de biens durables dont les valeurs observes ne peuvent
videmment pas tre ngatives 21 . Pour changer, nous allons considrer le

21. Vous pouvez vous rafrachir la mmoire propos de ce modle et de diverses variantes
en consultant le polycopi de cours de Christophe Hurlin disponible ladresse suivante :
http://www.univ-orleans.fr/deg/masters/ESA/CH/Qualitatif_Chapitre3.pdf
96 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

cas dune censure droite 22 , correspondant y CN(X, 2 , , b).

Pour cela nous allons reprendre un exemple donn sur le site de l"Institute
For Digital Research And Education" rattach UCLA 23 . On dispose pour
200 lves des rsultats dun test daptitude aux tudes universitaires don-
nant un score compris, par construction entre 200 et 800 (variable APT).
On veut expliquer ce score par deux autres mesures : un score de lecture
(variable READ) et un score de math (variable MATH). Une dernire variable
(variable PROG) ayant trois modalits indique le type de parcours suivi
par chaque tudiant : 1=Academic, 2=General, 3=Vocational. La censure
provient du fait que tous les tudiants ayant rpondus correctement lors
du test toutes les questions se voient attribus un score de 800, mme si
leur aptitude nest pas gale. De mme les tudiants ayant rpondu incor-
rectement toutes les questions du test reoivent une score de 200, mme si
leur inaptitude nest pas la mme 24 . Sur la variable latente APT , le modle
ajust est donc :

APTi = 0 + 1 READi + 2 MATHi + 3 Academici + 4 Generali + ui (3.49)

o,

1 si PROGi = 1,

Academici =

0 sinon,
et,

1 si PROGi = 2,

Generali =

0 sinon,

La variable observe, APT, est donc dfinie comme :




APTi si APTi < 800,

APTi =
(3.50)
800 sinon

Il suffit donc de caler les modalits de structuration des donnes confor-


mment aux indications prcdentes pour raliser une estimation Tobit sur
22. Un exemple demploi de la LIFEREG avec censure gauche est donn dans la docu-
mentation de cette procdure.
23. Pour plus de dtails, voir http://www.ats.ucla.edu/stat/sas/dae/tobit.htm.
Lexemple en question y est trait via la Proc QLIM cite auparavant.
24. Dans les donnes, la valeur minimale de APT est de 352 : aucun tudiant na reu le
score minimal de 200. En dautres termes, si la censure gauche est potentiellement prsente,
elle nest pas effective sur les donnes utilises, ce qui explique que nous limitions lexercice
la seule censure droite, 17 tudiants ayant obtenus un score de 800.
3.6. DONNES CENSURES GAUCHE, DROITE ET PAR INTERVALLE 97

une censure droite des paramtres de lquation prcdente. En nous


conformant aux notations de la section prcdente, il faut crer une confi-
guration vrifiant L = U = APT lorsque APT < 800, et L = 800, U = . lorsque
APT = 800. Cest ce que fait le programme suivant dans ltape data, le rle
de L tant attribu APT, celui de U la variable upper 25 :

data tobit;
input id read math prog apt;
if apt = 800
then upper=.;
else upper=apt;
cards;
1 34 40 3 352
2 39 33 3 449
..
.
198 47 51 2 616
199 52 50 2 558
200 68 75 2 800
;
run;

Il suffit maintenant dexcuter la Proc LIFEREG en spcifiant la dis-


tribution voulue, ici la gaussienne conformment la pratique courante
employe pour lestimation des modles Tobit. Notez quil serait gale-
ment possible destimer le modle sous la distribution logistique qui peut
se rvler avantageuse dans certains cas de figure.
Important : rappelez-vous galement que dans la Proc LIFEREG, en
spcifiant lune ou lautre des distributions normale ou logistique, nous ac-
tivons implicitement loption NOLOG : lexplique nest pas transforme.

Dans cet exemple, outre lestimation des paramtres 1 , 2 , 3 , 2 , nous


allons galement calculer les estimateurs des esprances des scores tronqus
et non tronqus selon :

E[APT |xi ] = xi , (3.51)


!
800 xi
E[APT|APT < 800, xi ] = xi , (3.52)

25. On ne reproduit ci-aprs que quelques lignes du fichier de donnes. Vous pouvez y
accder via ladresse suivante :http://www.ats.ucla.edu/stat/data/tobit.csv
98 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

Analysis of Maximum Likelihood Parameter Estimates


Standard Chi-
Parameter DF Estimate Error Square Pr > ChiSq
Intercept 1 163.42 30.41 28.88 <.0001
read 1 2.70 0.62 19.01 <.0001
math 1 5.91 0.71 69.43 <.0001
prog 1 1 46.14 13.72 11.30 <.0008
prog 2 1 33.43 12.96 6.66 0.0099
prog 3 0 0.0000 . . .
Scale 1 65.68 3.48

Table 3.3 Estimation dun Probit avec censure droite via LIFEREG

Dans la seconde quation, qui se dduit immdiatement de (3.48) lorsque


a = , le terme () est le ratio de Mill 26 .
Pour cette raison, nous crons en sortie deux fichiers, le premier nomm
outest ne contient quune observation, celle de s2 , lestimateur de sigma2 ,
le second, out, contient les valeurs calcules de lindex X pour chacun des
200 individus. Soit donc :

proc lifereg data=tobit outest=outest(keep=_scale_);


class prog;
model (apt upper) = read math prog / d=normal;
output out=out xbeta=index;
run;

Les rsultats de lestimation sont prsents dans la table 3.3


Enfin, les estimations des esprances sont produites par lexcution du
programme suivant :
data predict;
drop lambda _scale_ _prob_;
set out;
if _n_ = 1 then set outest;
lambda = pdf(NORMAL, (800-index)/_scale_)/ cdf(NORMAL,
(800-index)/_scale_);
Predict = index-_scale_*lambda;
label index =MOYENNE DE LA VARIABLE NON CENSUREE
Predict = MOYENNE DE LA VARIABLE CENSUREE;
(z)
26. (z) (z)
3.7. PROC LIFEREG 99

Obs read math prog apt upper moyenne de moyenne de


APT non APT
censure censure
191 47 43 2 567 567 577.98 577.89
192 65 63 2 800 . 744.83 721.80
193 44 48 2 666 666 599.46 599.21
194 63 69 2 800 . 774.92 737.37
195 57 60 1 727 727 718.22 704.71
196 44 49 2 539 539 605.37 605.05
197 50 50 2 594 594 627.47 626.64
198 47 51 2 616 616 625.29 624.53
199 52 50 2 558 558 632.87 631.83
200 68 75 2 800 . 823.90 755.39

Table 3.4 Estimations des scores censurs et non censurs

run;
proc print data=predict label;
format index Predict 7.2;
run;
Dans la table 3.4, nous prsentons les rsultats des calculs pour une
dizaine dlves de lchantillon.

3.7 PROC LIFEREG


Comme pour la Proc LIFETEST, nous ne prsenterons ici que les princi-
pales commandes et options de LIFEREG avec leur syntaxe minimale. Pour
plus de dtails sur lensemble des possibilits, consultez laide de la Proc
distribue par SAS.

PROC LIFEREG
MODEL
BY
CLASS
OUTPUT <OUT=...>
WEIGHT

PROC LIFETEST <options> ;


100 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

Appel de la procdure. Les principales options disponibles sont les


suivantes :
DATA=SAS-data-set
donne le nom du fichier de donnes sur lequel vont se faire les
estimations.
OUTEST= SAS-data-set
indique le nom du fichier qui contiendra certains rsultats de
lestimation du modle ajust, notamment les estimateurs des
coefficients, la valeur de la logvraisemblance, et, si loption CO-
VOUT est spcifie, la matrice de variance-covariance estime
des coefficients.
COVOUT
rclame lcriture de la matrice de variance-covariance des esti-
mateurs dans le fichier prcis par OUTEST.
ORDER=DATA | FORMATTED | FREQ | INTERNAL
prcise lordre de classement des modalits des variables utili-
ses dans linstruction CLASS. Par dfaut, cest la spcification
ORDER=FORMATTED qui est utilise. Elle applique un ordre lexi-
cographique sur sur les tiquettes de format si elles existent,
sinon sur les observations des variables alphanumriques et la
relation "<" sur les valeurs des variables numriques. Avec OR-
DER=DATA, les modalits des variables sont ranges selon leur
ordre dapparition dans le fichier des donnes. Avec ORDER=FREQ,
ces modalits sont ranges selon leurs effectifs, par ordre dcrois-
sant.
Par exemple, soit la variable genre binaire 0/1 sur laquelle on
a appliqu le format 1 "Femmes",0 "Hommes". Avec lem-
ploi de ORDER=FORMATTED, la premire catgorie de genre sera les
femmes, la seconde les hommes. Si on ne met pas de format,
alors la premire catgorie de genre regroupera les hommes et la
seconde les femmes.
CLASS variables ;
Cette instruction sapplique sapplique des variables dont les mo-
dalits dfinissent des catgories dindividus. Elle va crer des in-
dicatrices de ces catgories qui pourront tre intgres la liste des
explicatives de lquation ajuste dfinie par la commande Model. Si
cette instruction est utilise, elle doit apparatre avant la commande
MODEL de faon ce que les indicatrices soient cres avant dtre
utilises comme explicatives. La catgorie mise en base est toujours
la dernire catgorie dfinie par loption ORDER.
3.7. PROC LIFEREG 101

MODEL
La commande MODEL est requise : elle prcise notamment le nom de
lexplique, les explicatives, la distribution utilise. Elle peut prendre
trois formes dont deux seulement ont t vues ici :
MODEL explique*<censor(list)>=variables explicatives</options> ;
Sous cette forme, sil y a censure, il sagit dune censure droite.
Dans ce cas, la variable censor donne linformation ncessaire :
toutes ses observations gales aux valeurs prcises dans list
signale que pour lindividu concern, la variable explique est
censure.
MODEL(lower,upper)=explicatives</options> ;
Avec cette syntaxe on autorise une censure droite, gauche
ou par intervalle. Linterprtation seffectue selon les rgles vues
prcdemment et relatives aux valeurs des variables lower et up-
per.

Des effets croiss peuvent tre aisment introduits, la liste des


explicatives pouvant prendre la forme suivante : x 1 x2 x1 x2 , x1
et/ou x2 pouvant ventuellement tre des variables de classifica-
tion rfrences dans la commande CLASS.

Parmi les options disponibles, on trouve :


DISTRIBUTION=type, ou DIST=type, ou D=type,
avec comme choix possible de type de distribution pour les
modles AFT :
exponentielle (EXPONENTIAL),
Weibull (WEIBULL), la distribution utilise par dfaut,
log-normale (LLNORMAL),
log-logistique (LLOGISTIC), et
gamma gnralise trois paramtres (GAMMA).
Par dfaut, la spcification de lune de ces distributions ajuste
le logarithme des temps dvnement. Il est possible demp-
cher cette transformation avec loption NOLOG.
Deux autres distributions peuvent tre spcifies :
normale (NORMAL),
logistique (LOGISTIC),
qui ajustent les temps dvnement non transforms. Ainsi,
les spcifications LLOGISTIC ou LLNORMAL avec loption
NOLOG sont quivalentes respectivement aux options NOR-
MAL ou LOGISTIC.
102 CHAPITRE 3. LAPPROCHE PARAMTRIQUE

ALPHA=valeur. Prcise le seuil de risque de premire es-


pce qui doit tre utilise pour construire les intervalles de
confiance sur les paramtres et la fonctions de survie estime.
Par dfaut, ALPHA=5%.
CORRB, rclame laffichage de la matrice de corrlation des
coefficients estims.
INITIAL=liste de valeurs. Permet dimposer des valeurs ini-
tiales pour les paramtres estimer, constante exclue, dans
lalgorithme de maximisation de la log-vraisemblance. Cette
option peut se rvler utile lorsque lon rencontre des diffi-
cults de convergence.
INTERCEPT=valeur. Option qui permet dinitialiser le terme
constant de la rgression.
NOINT. Supprime la constante du modle ajust.
OUTPUT<OUT=SAS-data-set><mot clef=nom>...<mot clef=nom> ;
Cette commande rclame la cration dune table contenant toutes les
variables inclues dans le fichier spcifi en entre de la procdure
plus un certain nombre de statistiques cres aprs lestimation du
modle et dont la slection sopre par des mots-cls. Parmi ceux-ci :
CDF=
nom dune variable qui contiendra lestimation de la fonction de
rpartition pour les temps dvnement effectivement observs,
CONTROL=
nom dune variable du fichier dentre qui, selon sa valeur, au-
torise ou non le calcul des quantiles estims sur les individus
concerns. Ces estimateurs napparatront que sur les individus
pour lesquels elle vaut 1. En son absence, les quantiles seront
estims sur toutes les observations.
CRESIDUAL= ou CRES=
nom dune variable qui contiendra les valeurs des rsidus de
Cox-Snell, log u i .
SRESIDUAL=
y x
nom dune variable contenant les rsidus standardiss ui = i s i .
PREDICTED= ou P=
variable utilise pour stocker les estimateurs des quantiles esti-
ms sur les temps dvnement. Les individus pour lesquels lex-
plique est valeur manquante ne sont pas pris en compte dans
ltape destimation des paramtres du modle. En revanche,
on obtiendra les quantiles estims pour ces mmes individus,
3.7. PROC LIFEREG 103

condition naturellement que les explicatives soient renseignes.


QUANTILES=liste ou QUANTILE=liste ou Q=liste
o liste prcise les quantiles estimer, les valeurs tant videm-
ment comprises entre 0 et 1 (exclus). Par exemple, Q=.25 .50 .75.
Par dfaut, Q=0.50.
STD_ERR= ou STD=
nom dune variable contenant les carts-types des quantiles esti-
ms.
XBETA= nom dune variable servant stocker les estimations de
lindex X
BY variables ;
rclame lajustement du mme modle sur des sous-chantillons re-
prs par les modalits des variables spcifies. Rappelez-vous quen
rgle gnrale lutilisation de cette commande doit tre prcde par
un PROC SORT, de sorte que le fichier dentre dans la LIFEREG soit
dj tri selon les variables en question.
WEIGHT variable ;
prcise le nom de la variable contenant les poids donner aux in-
dividus dans la fonction de vraisemblance. Ces poids ne sont pas
ncessairement des entiers, et les individus ayant un poids non po-
sitif ou valeur manquante ne sont pas utiliss pour lestimation du
modle.
104 CHAPITRE 3. LAPPROCHE PARAMTRIQUE
Chapitre 4

Lapproche semi-paramtrique

Ce chapitre sera entirement consacr la prsentation du modle de


Cox qui est lapproche la plus populaire dans lanalyse des modles de
survie. Comme nous allons le voir, ce modle ne requiert pas la formula-
tion dune hypothse de distribution des temps de survie, hypothse qui
est au coeur de lapproche paramtrique vue dans le chapitre prcdent.
Cependant lestimation des paramtres du modle et tout particulirement
des coefficients des variables explicatives passe par la maximisation dune
fonction de vraisemblance dite partielle.

Le coeur du modle est la description du risque total comme le produit


de deux lments, le premier est un risque dit "de base", identique pour
tous les individus, et qui ne dpend que du temps, alors que le second est
fonction des caractristiques des individus et plus gnralement des expli-
catives retenues. Lestimation des coefficients de ces dernires, seffectue
en maximisant la vraisemblance obtenue en ne considrant quune partie
de la vraisemblance totale, do le qualificatif de vraisemblance partielle.
Les estimateurs obtenus seront naturellement moins efficients que ceux d-
coulant de la maximisation de la vraisemblance complte mais cette perte
defficience est toutefois contrebalance par lnorme avantage de ne pas
avoir spcifier de distribution particulire sur les temps de survie, ce qui
doit accrotre leur robustesse. Une fois obtenus les estimateurs des coef-
ficients, il est possible de construire un estimateur non paramtrique du
risque de base.
La conjugaison dune estimation non paramtrique avec une technique
de maximisation de vraisemblance explique que ce modle soit qualifi
de semi-paramtrique. Cette solution, propose par Cox, est lapproche la

105
106 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

plus couramment employe pour lajustement des modles de survie. Pour


donner une ide de sa popularit, Ryan & Woodall 1 dans un travail de
2005 proposent une liste des articles les plus cits dans le domaine de la
statistique. Le premier 2 serait celui de Kaplan, E. L. & Meier, P. (1958) Non-
parametric estimation from incomplete observations, Journal of the American
Statistical Association, 53, pp. 457-481, et le second 3 serait celui de Cox, D.
R. (1972) Regression models and life tables, Journal of the Royal Statistical
Society, Series B, 34, pp. 187-220.

Le modle de Cox est un modle risques proportionnels (PH) tel que


nous lavons dfini dans le second chapitre. La fonction modlise est la
fonction de risque h() alors que les modles AFT que lon estime avec la
proc LIFEREG modlisent la fonction de survie S(). Lestimation du modle
de Cox sous SAS seffectue via la proc PHREG.

4.1 Le modle de Cox et son estimation


4.1.1 La fonction de vraisemblance partielle
tant un modle risques proportionnels, il obit la spcification

h(t) = h0 (t)r(x) (4.1)


o h0 (t) > 0 est le risque de base pour une dure t, x un vecteur dexpli-
catives, et r(x) une fonction de ces explicatives, habituellement un index
constitu par une combinaisons linaire des x.

Le risque devant tre positif pour toutes les valeurs des explicatives,
on respecte cette exigence en imposant une transforme logarithmique sur
lindex :
r(x) = exp (x> ) = exp(x1 1 + x2 2 + . . .) (4.2)
Soit au total 4 :
h(t) = h0 (t) exp (x> ) (4.3)
1. Ryan, Thomas P. & Woodall (2005), The Most-Cited Statistical Papers, Journal of
Applied Statistics, Vol. 32, No. 5, 461-474, July 2005
2. Avec 25 869 citations
3. Avec 18 193 citations
4. Notez qu la diffrence de lcriture du modle linaire usuel, il ny a pas de constante
dans lindex du modle de Cox pour la simple raison quelle serait indtermine. En effet,
 
c, h(t) = h0 (t) exp (c) exp (c + x> ). En consquence, on force c = 0 et le terme constant
ventuel est implicitement intgr la composante risque de base h0 (t).
4.1. LE MODLE DE COX ET SON ESTIMATION 107

Notez bien qu part la condition h0 (t) > 0, aucune hypothse nest faite sur
le risque de base 5 .

Si note i une indicatrice telle que i = 1 si lvnement est observ


pour le ime individu et i = 0 sinon, alors, dans le cas dune censure
droite, lexpression de la vraisemblance pour un chantillon constitu de n
individus indpendants est :
n
Y
L= [ fi (ti )]i [Si (ti )]1i (4.5)
i=1

Soit Rti les individus risque au temps dvnement ti . En supposant


pour linstant quil ny a pas concomitance dans la survenue de lvne-
ment entre plusieurs individus : chaque temps dvnement observ est
spcifique un individu et un seul, alors il vient :
n
Y
L= [hi (ti )Si (ti )]i [Si (ti )]1i (4.6)
i=1
n
Y
= [hi (ti ]i Si (ti ) (4.7)
i=1

n i i

Y X
P hi (ti )


=
h (t )
j i Si (ti )] (4.8)
h
jRt j i (t )
i=1 i jRti

Cox propose de ne considrer que le premier terme de lexpression


prcdente pour construire la vraisemblance partielle qui se dfinit donc
comme :

n
Y
i

hi (ti )

PL = P (4.9)
jRt h j (t i )
i=1 i

Afin de comprendre la logique qui est en oeuvre ici, il importe de com-


prendre que le terme

5. Au passage, rappelons que nous avons aussi :


> )
S(t; x, ) = [S0 (t)]exp (x (4.4)
Rt
avec S0 (t) = exp[H0 (t)] = exp[ 0
h0 (v)dv].
108 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE


P hi (ti )



jRt h j (ti )
i

est une probabilit conditionnelle : cest la probabilit quun individu connaisse


lvnement au temps ti sachant quil sest produit un vnement cette
dure parmi tous les individus risque Rti . En effet, si on repart de la d-
finition du risque instantan alors on peut driver une approximation de
la probabilit de survenue de lvnement dans un intervalle de temps t
contenant ti pour un individu j risque en ti :
Pr[ti T j < ti + t|T j ti ] = h j (ti )t
La probabilit de connatre un vnement en ti tant gale la probabilit
quil se produise pour le premier individu risque en recens dans Rti ou
pour le deuxime ou pour le troisime ou ...., et les survenues de lvnement
tudi tant indpendantes entre les individus, on a videmment
X
Pr[survenue dun vnement en ti ] = h j (ti )t
jRti

La probabilit que cet vnement concerne lindividu i, celui qui a effecti-


vement connu lvnement tudi, tant hi (ti )t, les termes qui dfinissent
la vraisemblance partielle sont donc bien les probabilits conditionnelles
annonces 6 :

hi (ti )
P = Pr[i|ti ]
jRt h j (ti )
i

Par ailleurs, en reprenant lquation de base des modles PH, il vient :

hi (ti )
Pr[i|ti ] = P (4.10)
jRt h j (ti )
i

h0 (ti )r(xi )
=P (4.11)
jRt h0 (ti )r(xj )
i

exp (xi > )


=P >
(4.12)
jRt exp (xj )
i

6. Par exemple, avec 3 individus risque A, B et C ayant des probabilits de connatre


lvnement une dure donne gales respectivement P(A), P(B) et P(C). Si les indivi-
dus sont indpendants, la probabilit de survenue de lvnement a cette dure est donc
P(A)+P(B)+P(C). Par ailleurs, P(A)=P(A|A ou B ou C)P(A ou B ou C) et donc P(A|A ou B
ou C)=P(A)/(P(A)+P(B)+P(C).
4.1. LE MODLE DE COX ET SON ESTIMATION 109

On note avec la dernire galit que la probabilit quun individu


connaisse lvnement un temps ti ne dpend plus de la dure elle-mme,
mais seulement de lordre darrive des vnements. En consquence La
valeur de la vraisemblance partielle est invariante une transformation
monotone des dures, ce qui peut permettre ventuellement davancer un
argument de robustesse en faveur du modle de Cox 7 .
Cette vraisemblance partielle scrit donc :
n
Y

exp (xi > ) i
PL = P (4.13)
>
i=1 jRt exp (xj )
i

Lavantage de recourir PL est videmment que cela limine la rfrence


au risque de base h0 (t) et que donc il nest plus ncessaire de parier sur une
distribution des temps de survie comme il fallait le faire avec lapproche
paramtrique. Cet aspect a videmment fortement contribu la popularit
de cette modlisation.
Il existe cependant un cot : en comparant les expressions de la vrai-
semblance (4.8) et de la vraisemblance partielle (4.9), on peut noter que les
coefficients sont prsents dans les termes omis par PL : les estimateurs ob-
tenus par maximisation de la vraisemblance L ne sont pas identiques ceux
obtenus par maximisation de la vraisemblance partielle PL, ces derniers de-
vant tre moins efficaces puisquils sont obtenus en faisant une impasse sur
de linformation pertinente. Pour autant, on peut montrer quils vrifient
deux proprits des estimateurs du maximum de vraisemblance : ils sont
consistants et asymptotiquement gaussiens.

Afin dillustrer les dveloppements prcdents on peut suivre un exemple


de calcul de dune vraisemblance partielle Supposons que lon ait un chan-
tillon compos de cinq individus (A, B, C, D, E) avec les temps dvnements
respectifs (5, 8 , 2, 3 , 9) , le signe signalant une dure censure droite. On
observe donc 3 dures pour lesquelles un vnement sest ralis :

au temps t1 = 2, lvnement ayant concern lindividu C alors que


lensemble des individus risqus tait Rt1 = {A, B, C, D, E}. Le terme
associ ce temps t1 dans PL sera donc :

r(xC )
r(xA ) + r(xB ) + r(xC ) + r(xD ) + r(xE )
7. ces temps tant seulement ncessaires pour identifier les individus risque chaque
date de survenue de lvnement
110 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

au temps t2 = 5, lvnement concernant lindividu A alors que


lensemble des individus risqus cette dure est Rt2 = {A, B, E}. Le
terme associ ce temps t2 dans PL sera donc :
r(xA )
r(xA ) + r(xB ) + r(xE )
Enfin, un dernier vnement se produit au temps t3 = 9 pour lindi-
vidu E alors quil ntait plus que la dernire personne encore risque
et donc Rt3 = {E}. Le terme associ ce temps t3 dans PL sera donc :
r(xE )
r(xE )
Au final, sur cet chantillon, la vraisemblance partielle aura ainsi lexpres-
sion suivante :
r(xC ) r(xA )
PL =
r(xA ) + r(xB ) + r(xC ) + r(xD ) + r(xE ) r(xA ) + r(xB ) + r(xE )
Les estimateurs des sont obtenus en maximisant la log-vraisemblance
partielle au moyen dun algorithme de Newton-Raphson. Il est conseill de
suivre le dtail des itrations via loption itprint de la commande model.
Lorsquune divergence des estimateurs est observe, il peut alors tre utile
de mettre en oeuvre la correction de Firth.

4.1.2 La correction de Firth en cas de monotonicit de PL


Il sagit dune configuration que vous pouvez rencontrer en pratique.
Elle se manifeste par des valeurs absolues de lun o de plusieurs des co-
efficients estims extrmement grandes. Son origine vient de ce quune
o une combinaison des variables explicatives permet une sparation com-
plte de la variable explique. Nous allons prendre un exemple simple :
une seule variable explicative, sexe, code 0 pour les hommes et 1 pour
les femmes , 3 individus dans lchantillon, aucune censure et les donnes
prsentes dans la table(4.1). Dans ce cas, nous avons un seul coefficient 1
estimer, et la vraisemblance partielle maximiser scrit

e1 1 e1 1 e1 0
PL =
e1 1 + e1 1 + e1 0 e1 1 + e1 0 e1 0
e21
=
3e 1 + 2e21 + 1
4.1. LE MODLE DE COX ET SON ESTIMATION 111

individu dure sexe


1 1 0
2 3 0
3 5 1

Table 4.1 Exemple de donnes illustrant un cas de monotonicit de la


vraisemblance partielle

et
PL e21 (3e1 + 2)
= >0
1 (3e1 + 2e21 + 1)2
En consquence, pour maximiser PL, va tendre vers linfini. A titre dexer-
cice, vous pouvez vrifier que si nous avions utilis le codage oppos,
savoir, sexe=0 pour les hommes et 1 pour les femmes, alors la drive de la
vraisemblance partielle obtenue serait ngative, i.e. pour la maximisation,
tendrait vers . Dans cet exemple, la sparation parfaite tient ce que
les dures longues sont exclusivement le fait des femmes.
Dans ce cas, Firth a propos de maximiser une vraisemblance partielle qui
incorpore un terme de pnalit reposant sur la matrice dinformation de
Fisher estime. La log-vraisemblance pnalise est donne par

1
log(PL ) = log(PL) + log(|I()|) (4.14)
2
log(PL)
avec I() = 2 . On peut montrer que log(PL ) est concave en mme
lorsque log(PL) est monotone. En consquence, les valeurs qui maximisent
log(PL ) restent finies mme en cas de parfaite sparation 8 . Certains auteurs,
comme Allisson, prconisent mme lemploi systmatique de la correction
de Firth : les estimateurs obtenus sur petits chantillons par maximisation
de log(PL ) seraient plus prcis et permettraient le calcul dintervalles de
confiance plus fiables que ceux drivs via la maximisation de log(PL).

En pratique dans PHREG, il suffit dajouter loption firth la com-


mande model. Nhsitez pas lire lexemple consacr la correction de
Firth donn dans laide de la proc PHREG. Retenez cependant que lemploi
de cette option invalide les intervalles de confiance construits avec les sta-
tistiques de Wald sur les ratios de risque au moyen des commandes contrast
et hazardratio discuts un peu plus loin.
8. Le choix de ce terme de pnalit est fond par une argumentation dconomtrie
baysienne que lon ne peut pas expliciter ici.
112 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

4.1.3 La prise en compte dvnements simultans

En principe, les dures tant supposes tre les ralisations dune ala-
toire continue, la probabilit que deux individus ou plus connaissent lv-
nement tudi au mme instant est nulle. En pratique cependant les donnes
sont souvent releves selon une certaine discrtisation du temps (donnes
hebdomadaires, mensuelles, etc...) de sorte quil est courant quune mme
dure de survie soit affrente plusieurs individus. Fondamentalement
cela ne complique pas srieusement les critures prcdentes, simplement
le nombre de calculs peut devenir tel si on utilise la contribution exacte de
ces individus la vraisemblance partielle que des approximations ont t
proposes dont trois sont implmentes sous PHREG. Le plus simple est
de prsenter ces ajustements au moyen dun exemple. Supposons que pour
une certaine dure deux individus A et B aient connu lvnement et que
trois autres C, D, E soient risque. Pour simplifier les critures, on notera
ri = exp (> xi ), i = A, B, C, D, E.

TIES=EXACT : On considre que lgalit des dures pour A et B


nest pas relle mais est associe uniquement limprcision de la
collecte des donnes. Dans la ralit, A doit avoir connu lvnment
avant B ou B doit lavoir connu avant A. Avec loption EXACT,
tous les cas possibles sont considrs. Ainsi, si on considre que A
connat lvnement avant B, alors lorsque lon traite le cas de A, il y
a 5 individus risque et lorsquon traitera de B, il ny aura plus que 4
individus risqus puisque A est cens avoir disparu. La probabilit
dobserver les deux vnements simultanment sera donc :

! !
rA rB
(4.15)
r A + r B + r C + r D + rE rB + rC + rD + rE

mais il est tout aussi plausible que B ait connu lvnement avant A
et dans ce cas cette probabilit serait :

! !
rB rA
(4.16)
rA + rB + rC + rD + rE rA + rC + rD + rE

Les deux classements tant possibles, la contribution de la dure en


question la vraisemblance partielle est finalement gale :
4.1. LE MODLE DE COX ET SON ESTIMATION 113

! !
rA rB
r A + r B + r C + r D + rE rB + rC + rD + rE
! !
rB rA
+ (4.17)
rA + rB + rC + rD + rE rA + rC + rD + rE

Si 3 individus A, B et C ont la mme dure dvnement pour 5


individus risqus, nous aurions eu six termes :
! ! !
rA rB rC
r A + r B + r C + r D + rE
rB + rC + rD + rE rC + rD + rE
! ! 
rA rC rB
+
rA + rB + rC + rD + rE rB + rC + rD + rE rB + rD + rE
! ! 
rB rA rC
+
rA + rB + rC + rD + rE rA + rC + rD + rE rB + rD + rE
! ! 
rB rC rA
+
rA + rB + rC + rD + rE rA + rC + rD + rE rA + rD + rE
!  
rC rA rB
+
rA + rB + rC + rD + rE rA + rB + rD + rE rB + rD + rE
!  
rC rB rA
+ (4.18)
rA + rB + rC + rD + rE rA + rB + rD + rE rA + rD + rE

Plus gnralement, si k individus ont le mme temps dvnement,


alors la vraisemblance partielle pour ce temps sera compos de k!
termes. Dans ces conditions, le temps de calcul peut devenir pna-
lisant. Par exemple, avec k=10 on aura 3.628.800 termes calculer.
Dans des conditions relles dtudes, le nombre dvnements si-
multans peut devenir beaucoup plus important, si bien que lon
conoit aisment la ncessit de recourir des approximations de ce
calcul exact 9
9. En reprenant les notations de Kalbfleisch et Prentice, si on a k temps dvnements
ordonns t1 < t2 < . . . < tk , que di vnements se produisent au temps ti , i = 1, . . . , k,
que lon note Pi lensemble des di ! permutations possibles des di vnements du temps
ti , P = {p1 , . . . , pdi } un lment de Pi , et R(ti , P, k) = R(ti ) {p1 , . . . , pk1 }, alors lexpression
gnrale de (4.17) o (4.18) est :
1
XY di


1 X


ri+
r l
, (4.19)
di ! PQ j=1
i lR(tl ,P,j)
114 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

TIES=BRESLOW. La vraisemblance partielle est approxime par


k
Q
Y jDti r j
PLBRESLOW = hP idi (4.20)
i=1 jR(ti ) r j

o o Dti = {i1 , i2 , . . . , idi } sont les indices des di individus pour qui
lvnement se ralise en ti . Cette approximation vite notamment
davoir rvaluer les dnominateurs des diffrents termes de la
vraisemblance partielle. Par exemple, si on reconsidre le cas des 5
individus prcdents, avec 2 vnements simultans, on aura, la
place de (4.17) lvaluation de
2rA rB
(rA + rB + rC + rD + rE )2
Du fait de la simplicit des calculs, cette mthode est une des plus po-
pulaires. Cest dailleurs cette approximation qui est mise en oeuvre
par dfaut dans la proc PHREG. La littrature souligne cependant
quelle conduit des estimations des coefficients qui peuvent tre
fortement biaiss vers zro notamment lorsque le nombre dvne-
ments concomitants di est lev relativement leffectif risque en
ti .
TIES=EFRON. Il sagit ici est de corriger le dnominateur utilis
dans lapproximation de Breslow. Si on compare celui-ci celui du
calcul exact, on peut sapercevoir quil est lvidence trop lev.
Lide dEfron est dintroduire la moyenne des risques des individus
ayant connu lvnement et non pas leur niveau de risque total.
Formellement lexpression de la log-vraisemblance devient :
k
Q
Y jDti r j
PLEFRON = Qdi hP j1 P
i (4.21)
i=1 j=1 lRt
r l d i lD t
r l
i i

Avec le mme exemple que prcdemment, on aura ainsi la place


de (4.17)
2rA rB
(rA + rB + rC + rD + rE )(0.5rA + 0.5rB + rC + rD + rE )
La littrature sur le sujet saccorde pour conseiller lutilisation de
lapproximation dEfron celle de Breslow : mme si son temps
P di
o ri+ = j=1
x>j
4.1. LE MODLE DE COX ET SON ESTIMATION 115

dexcution est plus lev, elle semble fournir des estimations des
coefficients toujours plus proches de ceux obtenus avec la mthode
exacte.
TIES=DISCRETE. Cette option se dmarque fondamentalement des
trois prcdentes du fait que le temps est ici considr comme tant
discret : si des vnement concomitants sont observs, cest quils se
sont rellement produits simultanment et il ny a plus aucune raison
de chercher imaginer des classements dans leur ordre darrive.
Rappelons quau temps ti nous avons di individus, dont les indices
sont reprs par Dti = {i1 , i2 , . . . , idi }, qui ont connu lvnement tu-
di alors quil y avait Rti individus risqus. La probabilit que se soit
prcisment ces individus rfrencs par Dti qui aient connu lv-
nement est donc la probabilit de prendre di individus parmi tous
les individus risque, soit :
Q
jDt r j
P Q i (4.22)
Pi jPi r j

Le dnominateur tant la somme sur toutes les faons possibles de


prendre di lments parmi tous ceux risque en ti . Dans lexemple
de nos 5 individus avec deux vnements concomitants, ces deux
vnement aurait pu tre
(A,B),(A,C),(A,D),(A,E),
(B,C),(B,D),(B,E),
(C,D),(C,E),
(D,E).
Pour valuer (4.22) il faudrait calculer la somme des probabilits de
chacun de ces couples, puis diviser la probabilit associ lvne-
ment observ, soit (A,B) par cette somme. La vraisemblance partielle
dans ce cas, originellement galement propose par Cox devient
alors : Q
k
Y jDt r j
PLDISCRETE = P Q i (4.23)
i=1 Pi jPi r j

La difficult avec cette option est relative au temps de calcul nces-


saire pour valuer le dnominateur lorsque di est lev.

Pour rsumer, le choix entre les diverses options prcdentes doit dabord
se faire en fonction dune rponse la question suivante : le temps est-
il vraiment discret, les vnements concomitants se ralisent-ils effective-
ment au mme instant ? ou est-il continu, les vnements apparemment
116 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

concomitants se produisant en fait des dures diffrentes mais caches


notamment en raison du mode de collecte des donnes ? Une rponse posi-
tive la premire question doit logiquement entraner le choix de loption
TIES=DISCRETE, sachant que les temps de calculs peuvent alors devenir
rdhibitoires. Une rponse ngative cette mme question menant lune
des trois autres options. Entre celles-ci, le choix de TIES=EXACT simpose
si le nombre dvnements simultans nest pas trop lev, si le temps de
calcul devient excessif, et si le nombre dindividus risque est faible par
rapport aux nombre dindividus risque, alors BRESLOW et EFRON vont
card(Dt )
donner pratiquement des rsultats identiques. Lorsque card(Rti ) devient re-
i
lativement lev alors loption TIES=EFRON doit tre prfre malgr un
temps de calcul plus important que BRESLOW.
Pour clore cette section, signalons que mme si le temps est discret, loption
TIES=DISCRETE nest pas obligatoirement la panace. Nous verrons dans
une section ultrieure exposant les travaux de Shumway comment on peut
estimer un modle de dure temps discret en passant par la proc logis-
tique et remplacer avantageusement la vraisemblance partielle de la proc
PHREG et son option TIES=DISCRETE par une vraisemblance complte.

4.1.4 Spcification de lquation estimer, commandes Model et


Class
La commande Model est obligatoirement prsente dans un appel de
PHREG. Cest par elle que lon va indiquer quels sont les temps dvne-
ments expliquer, sil sagit de temps censurs ou non, et la liste des va-
riables explicatives. La commande Class est facultative, on sait quelle est
particulirement utile lorsque lon dsire estimer limpact de variables ca-
tgorielles. Cependant, son implmentation dans la proc PHREG permet
une meilleur matrise de la catgorie qui est mise en rfrence notamment
par rapport ce qui est fait dans la proc LIFEREG o la base est toujours la
dernire catgorie, celle-ci tant dfinie par loption ORDER.

La commande Model

On va trouver deux formes possibles pour la commande Model, lune


traditionnelle, identique celle dj vue dans la proc LIFEREG, lautre, plus
rcemment implmente dans SAS relve dune approche en termes de pro-
cessus de comptage est sur certains aspects beaucoup plus souple que la
prcdente. Le choix de lune ou lautre forme nest pas anodin puisque la
4.1. LE MODLE DE COX ET SON ESTIMATION 117

structure des donnes en est directement affecte. Par exemple, avec la pre-
mire nous aurons en principe un seul enregistrement par individu prsent
dans lchantillon de travail, alors que la seconde rclamera gnralement
plusieurs enregistrements par individu.
1. La premire version. On prcise la nom de la variable contenant les
temps dvnements, ventuellement le signe * suivi du nom dune
autre variable et une liste de valeurs de censure entre parenthses : si
pour un individu lobservation de la deuxime variable appartient
cette liste, alors, pour cet individu le temps indiqu est un temps
dvnement censur droite. Si elle ny appartient pas, alors lv-
nement sest ralis au temps indiqu. Suit ensuite le signe = puis la
liste des variable explicatives des dures. Ainsi :
model time = x1 x2;
model time*cens(0,1,3) = x1 x2;
Dans le premier exemple il ny a pas de censure. Dans le second, si
censi {0, 1, 3} alors timei correspond une dure censure droite,
sinon, lvnement sest effectivement ralis en timei pour lindividu
de rang i.
2. La seconde version est adapte une structure de donnes de type
processus de comptage : chaque enregistrement prcise les bornes t1 et
t2 dun intervalle de dures de la forme ]t1 , t2 ], ouvert gauche et
ferm droite cest dire tel quun vnement qui se ralise en t1
nappartient pas cet intervalle alors quil y appartient sil survient
en t2 y est incluse. La variable de censure a le mme comportement
que dans la version prcdente mais nest relative qu la dure t2 .
Dans ce format, un individu donn est souvent dcrit par plusieurs
enregistrements sil est observ sur plusieurs sous-priodes. Soit par
exemple, un client masculin (variable genre code 1) qui a t suivi
pendant 24 mois aprs un premier achat. Il a repass une commande
8 mois aprs, puis une autre 20 mois aprs cet achat initial. A la fin
des 24 mois, il na plus repass de commande. Cette personne sera
dcrite par trois enregistrements :

b1 b2 cens genre
0 8 1 1
8 20 1 1
20 24 0 1

La commande sera alors de la forme


118 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

model (t1 , t2 )*cens(0) = genre . . .;

Un avantage important de ce second style est la facilit de prise en


compte dexplicatives non constantes dans le temps. Cette possibilit
sera examine plus en dtail par la suite, mais pour illustration,
supposons que dans la base de donnes il y ait une variable contact
(code 1, si le client a t visit, 0 sinon). Si le client prcdent a reu
un reprsentant pendant les mois 0 8, puis pendant les mois 20
24, on aurait les donnes du tableau suivant, avec la commande

b1 b2 cens genre contact


0 8 1 1 1
8 20 1 1 0
20 24 0 1 1

associe :
model (t1 , t2 )*cens(0) = genre contact . . .;
On notera enfin que si la borne basse dun intervalle de dures, t1
est souvent la borne haute de lintervalle immdiatement prcdent,
ce nest pas obligatoire : les intervalles peuvent tre discontinus.

La commande Class
Applique une variable catgorielle, elle va crer automatiquement
un ensemble dindicatrices qui pourront tre intgres dans lquation
estimer. Pour lessentiel, elle vite simplement le passage par une tape
Data dans laquelle on crerait les indicatrices en question. A priori son
emploi simplifie la construction de lquation estimer, limite les risques
derreur et facilite la maintenance du programme puisquun recodage de la
variable catgorielle initiale est automatiquement pris en compte, sans que
lon ait reprendre les codes de ltape Data.
Le point essentiel est videmment de connatre les modalits de cration
des indicatrices et quelles valeurs leurs sont attribues pour pouvoir inter-
prter correctement les rsultats des ajustements. Par ailleurs, mme dans le
cas simple o une indicatrice binaire, 0/1, est cre, il faut bien videmment
savoir ce que signifient le "1" et le "0". Le design des indicatrices est gr par
loption PARAM. Nous allons examiner seulement les deux valeurs les plus
courantes donnes option en supposant lexistence de deux variables :
Groupe, avec les modalits "A", "B"et "C",
4.1. LE MODLE DE COX ET SON ESTIMATION 119

Genre, binaire 0/1 avec le format : 1 "Femmes",0 "Hommes"


1. PARAM=GLM. Soit la commande
class groupe genre / param=glm;
Dans ce cas, la Class Level Information table, affiche dans lout-
put est celle de la table 4.2. Elle prcise que 3 indicatrices ont t
cre pour la variable Groupe, la premire valant 1 pour toutes
les personnes appartenant la catgorie A, 0 sinon, la seconde
gale 1 pour toutes les persones de la catgorie B, 0 sinon et la
troisime valant 1 pour les personnes de la catgorie C, 0 sinon.
Deux indicatrices obissant au mme principe ont galement t
cres pour la variable Genre, la premire valant 1 si la personne
est une femme, 0 si cest un homme, et la seconde gale 0 si
la personne est une femme, 1 si cest un homme. Rappelez-vous
que par dfaut loption ORDER=FORMATTED est active Si la suite
de cette commande Class on utilise comme explicatives les va-
riables Group et Genre, alors la dernire catgorie de chacune est
utilise comme base, soit ici la catgorie "C" et le genre "Hommes".
On retrouve exactement le comportement de linstruction Class
de la proc LIFEREG. En particulier, pour changer la catgorie de
rfrence, il faut recoder les variables Groupe et Genre, ou leur
appliquer un nouveau format, de sorte que ORDER=FORMATTED
classe en dernire catgorie celle que lon dsire mettre en base.
Une autre possibilit est dutiliser loption ref=first, et dans ce
cas la premire catgorie de chaque variable est mise en base 10 .
Ainsi, avec les donnes de notre exemple, mettra en base les
femmes de la catgorie "A" avec
class groupe genre / param=glm ref=first;
Dans le tableau prsentant les rsultats de lestimation, on repre
la catgorie de rfrence du fait que son coefficient est exactement
gal zro, sans cart-type estim.
2. PARAM=REF. Du fait de son anciennet, le codage Param=glm
est souvent connu. On peut cependant penser que les avantages
du codage param=ref, notamment pour dsigner la catgorie de
rfrence, vont faire quelle va devenir assez rapidement la para-
mtrisation la plus utilise. Cest dailleurs la valeur par dfaut
10. On peut aussi utiliser param=glm ref=last; qui ne fait que reproduire le comporte-
ment par dfaut de param=glm;.
120 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Class Value Design


Groupe A 1 0 0
B 0 1 0
C 0 0 1
Genre Femmes 1 0
Hommes 0 1

Table 4.2 Class Level Information table associe PARAM=GLM

de loption param=.
On vient de voir que dans le cas dune variable catgorielle com-
prenant c modalits, loption param=glm crait c variables indica-
trices, puis PHREG forait zro le coefficient de lindicatrice de
rfrence. Loption param=ref va crer seulement c1 indicatrices
en ne crant pas celle qui est mise en rfrence explicitement par
lutilisateur 11 . Pour ce faire, dans la commande Class on doit
naturellement lister les variables catgorielles considrer, mais
aussi la modalit de rfrence pour chacune delle. Ainsi les deux
commandes :

class groupe(ref=B) genre(ref=Hommes) /


param=ref ;
class groupe(ref=B) genre(ref=Hommes) ;

sont quivalentes 12 et conduisent la Class Level Information


table 4.3

11. Cette modalit de rfrence napparatra donc pas dans la table des rsultats de
lajustement.
12. quivalentes puisque param=ref est utilis par dfaut. Habituez-vous cependant
faire apparatre explicitement la valeur des options, cela facilite la comprhension lors des
relectures ultrieures du programme que lon vient dcrire, et limite les sources derreur
notamment lorsque les valeurs par dfaut changent lorsquon passe dune procdure
lautre. Par exemple, dans SAS 9.4, comme on la signal, linstruction Class de la proc
LIFEREG a comme dfaut param=glm, alors que cette mme instruction a pour dfaut
param=ref dans la proc PHREG. Rappelons que dans la proc LOGISTIC, Class a comme
dfaut param=effect, o les indicatrices sont codes -1 dans la modalit de rfrence. Ainsi,
dans notre exemple, class groupe/param=effect crerait 2 indicatrices selon la Class
Level Information table suivante :

Class Value Design


Groupe A 1 0
B 0 1
C -1 -1
4.2. LES RATIOS DE RISQUE 121

Class Value Design


Groupe A 1 0
B 0 0
C 0 1
Genre Femmes 1
Hommes 0

Table 4.3 Class Level Information table associe PARAM=REF

4.2 Les ratios de risque


4.2.1 Interprtation des coefficients et Ratios de Risque
Nous avons dj vu lcriture de base du modle de COX pour un
individu quelconque dcrit par ses caractristiques x1 , x2 , . . . , xk , :

h( t) = h0 (t)r(x)
= h0 (t) exp (> x)
= h0 (t) exp(1 x1 + 2 x2 + . . . + k xk ) (4.24)

cas dune explicative x j continue. Il vient :

dh(t) = h0 (t)dr(x)
r(x)
= h0 (t) dx j
x j
= j [h0 (t)r(x)]dx j (4.25)

Le terme entre crochets tant positif, le signe de limpact dune ex-


plicative sur le risque est le mme que le signe du coefficient de cette
explicative. Le lien tant non linaire, lampleur de limpact ne doit
cependant pas tre confondue avec la valeur de ce coefficient.
cas dune explicative discrte : on effectue directement le calcul avec
les valeurs des modalits. Soit x j une variable prenant deux valeurs
a ou b , alors lcart de risque entre deux individus ne se distinguant
que par cette valeur de x j est donn par :

h(t) = h0 (t)r(x)
= h0 (t)[r(x)|x j = b] r(x)|x j = a] (4.26)

La prsence de h0 (t) fait que lon prfre mesurer limpact dune va-
riable sur le risque en termes relatifs. En effet, pour deux individus, l et m
122 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

identiques en tous points, sauf au regard de la jime explicative, le ratio de


risque est donn par :

hl (x)|x j = a)
RR =
hm (x)|x j = b)
e j a
=
e j b
= e j (ab) (4.27)

Si les deux valeurs xlj et xmj sont spare dune unit, on a videmment

RR = e j (4.28)

soit encore, toujours pour une modification unitaire de lexplicative, une


variation relative du risque gale e j 1. Par exemple, si j = 0.5, alors le
ratio de risque vaut 0.60, ce qui signifie indiffremment
quune augmentation dun point de lexplicative x j provoque une
baisse de 40% (=0.60-1) du risque, toutes autres variables explicatives
inchanges,
o que le risque dun individu pour lequel lexplicative en question
augmente dun point reprsente 60% du risque quil supportait avant
laugmentation.
On conoit donc aisment que le rendu des rsultats dune estimation
dun modle de Cox fasse plus souvent rfrence aux ratios de risque, im-
mdiatement intelligibles, quaux coefficients des explicatives eux-mmes.
Lorsque le ratio de risque peut se calculer sans ambigut, PHREG affiche sa
valeur et on dispose dans la commande model de loption risklimits fai-
sant apparatre les bornes dun intervalle de Wald sur le ratio dans le tableau
des rsultats de lestimation. Pour le calcul des ratios dans les cas plus com-
plexes, deux instructions sont disponibles depuis SAS 9.2 : Hazardratio et
Contrast. La dernire est la plus gnrale : tout ce que fait Hazardratio
peut tre galement ralis avec Contrast, linverse ntant pas vrai. La
premire est en revanche cense tre plus simple dutilisation,

4.2.2 Commandes Hazardratio et Contrast


Vous avez compris quun ratio de risque est une mesure du risque sup-
port par un individu relativement un autre. A lissue de lajustement dun
4.2. LES RATIOS DE RISQUE 123

modle de Cox ayant k explicatives, le risque estim pour deux individus


quelconque i et j est respectivement de :

h ti = h 0 (t) exp(1 xi1 + 2 xi2 + . . . + k xik ),


h t j = h 0 (t) exp(1 x j1 + 2 x j2 + . . . + k x jk ),

et lvaluation du ratio de risque de i relativement j est simplement :

c i/ j = exp(1 [xi1 x j1 ] + 2 [xi2 x j2 ] + . . . + k [xik x jk ])


RR (4.29)

ou encore, en notant xi et x j les caractristiques des individus i et j, et le


vecteur des coefficients estims, i.e :

xi = (xi1 , xi2 + . . . , xik )>


x j = (x j1 , x j2 + . . . , x jk )>
= (1 , 2 , . . . + k )>

c i/ j = exp(> [xi x j ]]
RR (4.30)
Son calcul est donc particulirement simple et le plus difficile est sans
doute chercher dans la syntaxe des instructions

Linstruction Contrast
Avec cette instruction, on devra indiquer la valeur du coefficient de
pondration de chacun des coefficients estims. Pour cela, il faut naturel-
lement savoir identifier lexplicative correspondante chaque coefficient.
Cela est videmment simple pour les variables continues dans la mesure
ou le nom de la variable identifie galement son coefficient. En revanche,
en prsence de variables catgorielles, le nom de la variable va souvent
renvoyer plusieurs indicatrices et donc plusieurs coefficients. Dans ce cas,
linstruction Contrast exige que lon ait parfaitement compris le fonction-
nement des options PARAM= et REF= de la commande CLASS. Dans ce qui
suit, nous utiliserons toujours le systme dindicatrices cres par loption
PARAM=REF.

Afin dillustrer la mise en oeuvre de Contrast, on va supposer nou-


veau que nous cherchions expliquer le risque au moyen des explicatives
suivantes :
124 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Une variable "Groupe" ayant trois modalits, ou catgories, "A", "B"


et "C",
Une variable "Genre", binaire 0/1 sur laquelle on a appliqu le format :
1 "F",0 "H",
Une variable continue "Age"

Supposons lexcution des deux commandes ci-dessous. Notez lintroduc-


tion dinteractions entre Groupe et Genre.

class group(ref=B) genre(ref=H) / param=ref ;


model time*cens(0) = age groupe genre groupe*genre;
Lquation ajuste est donc :
log(ht ) = log(h0t ) + age AGE + a (Group=A) + c (Group=C) + f (Genre=F)
+ a f (Group=A & Genre=F) + c f (Group=C & Genre=F)] (4.31)

avec entre parenthse la valeur dune indicatrice valant 1 si la variable est


gale la modalit prcise, 0 sinon. On a bien deux indicatrices associes
la variable Groupe, avec la catgorie "B" en rfrence, une indicatrice asso-
cie Genre, avec les hommes en rfrence, et les deux indicatrices associes
aux interactions. Soit, dans lordre de sortie des rsultats :

Un coefficient pour la variable "Age",


Deux coefficients pour la variable "GROUP", le premier affrent lin-
dicatrice (Groupe=A), le second affrent lindicatrice (Groupe=C)
Un coefficient pour la variable "Genre" affrent lindicatrice (Genre=F)
Deux coefficient pour la variable dinteraction "Groupe*Genre", le
premier associ aux femmes du groupe A, le second aux femmes du
groupe C.
En dautres termes, aux variables "Age" ou "Genre" devront tre associ
un seul coefficient de pondration. A la variable "Groupe" il faudra pr-
ciser la valeur de deux pondrations, et se souvenir quelles sappliquent
dans lordre au coefficient de lindicatrice (Groupe=A) puis au coefficient
de (Groupe=C). Enfin, il faudra aussi prciser deux pondrations pour la
variable "Genre*Groupe", la premire touchant le coefficient de lindica-
trice (Groupe=A & Genre=F), la seconde celui de lindicatrice (Groupe=C
& Genre=F).
Construisons maintenant des exemples dappel de Contrast.
1. Comment volue le risque avec lge ? Si lindividu i est identique
lindividu j en tout point lexception de lge : il est un an plus
4.2. LES RATIOS DE RISQUE 125

vieux. On a videmment, daprs (4.29) ou (4.30)



RRi/ j = eage

Linstruction Contrast associe est la suivante :


Contrast "RR, 1 an de plus" age 1 group 0 0 genre 0 groupe*genre 0 0
/ estimate=exp;

que lon pourra simplifier en


Contrast "RR, 1 an de plus" age 1 / estimate=exp;
On peut en effet ne pas faire apparatre les variables pour lesquelles
tous les coefficients associs sont affects dune pondration nulle.
Loption estimate=exp demande Contrast de travailler sur lex-
ponentielle de la combinaison linaire des . En son absence, elle
afficherait le rsultat de la combinaison linaire elle-mme, cest
dire 13 log(RRi/ j ) = > [xi x j ], mais on sait que lon prfre gnrale-
ment raisonner sur les ratios de risque, plutt que sur les coefficients
eux-mmes.

Assez souvent pour les variables continues, on veut apprcier lvo-


lution du risque pour des variations suprieures lunit, par exemple,
quel est le ratio de risque entre deux personnes identiques lexcep-
tion de lge, i tant plus g de 5 ans que j ? Dans ce cas, toujours
selon (4.29)

RRi/ j = eage [Agei Age j = e5age = (eage )5
et la commande Contrast correspondante est :
Contrast "RR, 5 ans de plus" age 5 / estimate=exp;
2. On veut comparer le risque affrent des hommes identiques
lexception de leur groupe dappartenance A,B ou C. Les quations
de dfinition des ratios de risque qui nous intressent sont alors :

RRA versus B, genre=H = exp[a ],


RRA versus C, genre=H = exp[a c ]
RRC versus B, genre=H = exp[c ]

et les instructions contrast correspondantes :


13. Cf. (4.30.
126 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Contrast A versus B, Hommes group 1 0 / estimate=exp;


Contrast A versus C, Hommes group 1 -1 / estimate=exp;
Contrast C versus B, Hommes group 0 1 / estimate=exp;
Notez que lon peut, dans le fichier de sortie, faire afficher un texte
entre quotes. Gnralement, cette tiquette rappelle la signification
du test affich.
3. On veut comparer le risque affrent des femmes identiques entre
elles lexception de leur groupe dappartenance A,B ou C. Il vient :

RRA versus B, genre=F = exp[a + a f ]


RRA versus C, genre=F = exp[a + a f c c f ]
RRC versus B, genre=F = exp[c + c f ]

et les instructions contrast correspondantes :


Contrast A versus B, Femmes group 1 0 Group*genre 1 0
/ estimate=exp;
Contrast A versus C, Femmes group 1 -1 Group*genre 1
-1 / estimate=exp;
Contrast C versus B, Femmes group 0 1 Group*genre 0 1
/ estimate=exp;
En plus du ratio de risque, Contrast donne un intervalle de confiance 14
100(1)%, o est un seuil de risque gr par loption Alpha=xxx.
On peut aussi tester lgalit des risques des individus i et j, soit
H0 :RRi/ j = 1 versus RRi/ j , 1, via des tests LRT, Wald, Lagrange 15 .
Ainsi, les trois prcdentes instructions Contrast vont faire appa-
ratre, entre autres rsultats, trois tests de Wald, chacun 1 degr de
libert. Le dernier, par exemple, aura comme hypothse nulle, lga-
lit des risques de femmes du mme ge, les unes appartenant au
groupe C, les autres au groupe B. Notez enfin quil serait possible de
tester lhypothse jointe dgalit des risques de femmes du mme
ge indpendamment de leur groupe, soit, pour un ge (quelconque)
donn :

14. Construit partir du Chi2 de Wald. On rappelle que cet intervalle est invalid par
lutilisation de loption firth dans la commande model.
15. La syntaxe est la suivante :
Contrast ... / alpha= test= mot-clef;
o mot-clef {NONE, ALL, LR, WALD, SCORE} et || < 1. Par dfaut test=wald. Les bornes
de lintervalle de confiance sont galement calcles avec une statistique de Wald.
4.2. LES RATIOS DE RISQUE 127

HO : risque des femmes du groupe A = risque des femmes du groupe B


&
risque des femmes du groupe A = risque des femmes du groupe C
&
risque des femmes du groupe C = risque des femmes du groupe B

Il suffirait pour cela de regrouper les trois commandes Contrast prc-


dentes en une seule, en sparant leurs arguments par une virgule. Soit :

Contrast A versus B, A versus C, C versus B, Genre=Femmes


group 1 0 Group*genre 1 0 ,
group 1 -1 Group*genre 1 -1 ,
group 0 1 Group*genre 0 1 / estimate=exp;

La statistique, sous H0, aurait une distribution de 2 2 degrs de li-


bert 16 .

Linstruction Hazardratio
A priori plus simple utiliser que linstruction Contrast dans la mesure
o elle ne suppose pas la connaissance de la structure et des valeurs des
indicatrices cres par Class : elle rclame le nom de la variable pour
laquelle on veut calculer le ou les ratios de risque, et les valeurs des autres
variables qui vont conditionner le calcul
1. Cas dune variable continue : il sagit du cas le plus simple on a vu
que pour une modification dune unit, le ratio de risque associ est
simplement e , o est le coefficient de la variable. Dans la table de
sortie standard affichant les rsultats de lestimation dun modle,
la colonne intitule "Hazard Ratio" donne dj les estimations de
ceux-ci prcisment pour une augmentation dune unit de lex-
plicative concerne. Les valeurs affiches 17 sont donc simplement
les exponentielles des coefficients indiqus en premire colonne
du mme tableau. Vous pouvez cependant tre amens calculer
un rapport de risque pour des augmentations non unitaires . Par
exemple si lge est une explicative, il peut tre plus intressant de
calculer le ratio de risque entre deux personnes qui diffrent de 5 ou
10 annes, plutt que dune seule. Dans ce cas, il suffit dexcuter la
16. Pourquoi 2 degrs de libert ?
17. Lorsquil sagit du coefficient dune variable dont limpact dpend de la valeur dune
autre explicative, typiquement en cas dinteractions explicites dans la commande Model,
PHREG ne calcule pas, et naffiche donc pas, de ratio de risque pour cette variable.
128 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

commande hazardratio en prcisant dans loption units= la valeur


de la variation dont vous dsirez apprcier limpact. Vous avez ga-
lement la possibilit de rclamer la construction dun intervalle de
confiance via loption cl= un seuil (1 ), et de prciser la valeur de
votre seuil de risque dont la valeur par dfaut est comme toujours,
de 5%. Par exemple :
hazardratio age / units=5 alpha=0.10 cl=wald;
hazardratio age / units=10 cl=pl;
hazardratio 5 ans de plus age / units=5 cl=both;
Vous constatez dans ces exemples que PHREG peut fournir deux
estimations diffrentes pour les bornes de lintervalle de confiance 18 .
(a) La premire, que vous connaissez, est rclame par le mot clef
wald. Elle repose sur la proprit de normalit asymptotique des
estimateurs des coefficients estims par maximisation dune
vraisemblance, et sur la proprit dinvariance de ces estima-

teurs qui assure quasymptotiquement e est galement gaussien,
puisquestimateur du maximum de vraisemblance de e . Il suffit
donc de calculer lcart-type se du rapport de risque connaissant
lcart-type de via la mthode delta pour finalement obtenir lin-

tervalle cherch comme e q1/2 se , o q1/2 est la quantile
dordre 1 /2 de la gaussienne standardise.
(b) La seconde, associe au mot clef pl, pour "Profile Likelihood"
est fond sur un travail de Venzon et Moolgavkar et est cense
fournir des estimateurs des bornes dintervalle plus robustes que
les prcdentes, notamment lorsquon travaille avec de petits
chantillons et que lon doute de la normalit des estimateurs 19 .
Leur solution repose sur lapproximation asymptotique du test
LRT par un 2 , le gain provenant du fait que le test LRT appro-
cherait sa distribution asymptotique plus rapidement que le test
de Wald.
Dans le dernier des trois exemples prcdents on demande laffi-
chage des deux types destimations des bornes dun intervalle de
confiance 95%.
18. Encore une fois, lemploi de loption firth dans la commande model conduit des
bornes dintervalle du type Wald errones.
19. les estimations des bornes des intervalles "Profile-likelihood" sont obtenues au
moyen dun processus itratif. En cas de difficult, il est possible dintervenir sur ce processus
via des options PLCONV=, PLMAXIT=, PLSINGULAR=. Voir laide de PHREG pour plus de dtails
ce sujet.
4.2. LES RATIOS DE RISQUE 129

2. Cas dune variable catgorielle Il sagit alors dapprcier lvolution


du risque lorsque deux individus sont semblables en tout point lex-
ception de leur catgorie dappartenance. Dans ce cas, linstruction
demande que lon prcise loption dif= avec deux valeurs possibles,
dif=all qui demande le calcul des ratios de risque de toutes les
catgories de la variables prises deux deux, ou dif=ref qui va-
lue les ratios de risque de chacune des catgories relativement la
seule catgorie de rfrence. Si ces ratios dpendent des modalits
o valeurs dautres variables, il suffit de prciser avec loption at
les modalits o les valeurs pour lesquelles on dsire faire le calcul
du ou des ratios de risque. Supposons toujours les commandes :
class group(ref=B) genre(ref=H) / param=ref ;
model time*cens(0) = age group genre groupe*genre;
Si nous dsirons comparer pour des hommes du mme age, le risque
quil y a a appartenir aux divers groupes A, B et C, il suffira de faire :
hazardratio Hommes, compare A,B,C Group / diff=all at (genre=H);

La comparaison des risques de femmes appartenant aux groupes A


et C celui des femmes de mme ge de la catgorie B, qui est en
base, sera obtenue avec :
hazardratio Femmes, compare A et C B Group / diff=ref at (genre=F);

Pour comparer les risques des hommes et des femmes de la catgorie


A par exemple, on fera :
hazardratio Hommes versus Femmes, Groupe A Genre / diff=ref at
(groupe=A);

3. cas dune interaction continue*catgorielle. Supposons la suite de


commandes qui introduit une telle interaction :
class group(ref=B) genre(ref=H) / param=ref ;
model time*cens(0) = age group genre age*genre;
Lquation estime est alors :
log(ht ) = log(h0t ) + age AGE + a (Group=A) + c (Group=C) + f (Genre=F)
+ a,age [Age (Genre=F)] (4.32)

Supposons que lon veuille comparer les risques entre hommes et


femmes gs de 25 ans. La commande Contrast serait :
ContrastFemmes vs Hommes, 25 ans genre 1 age*genre 25;
130 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Linstruction Hazardratio quivalente tant 20 :


Hazardratio Femmes vs Hommes, 25 ans genre / diff=ref at (age=25);

4.2.3 Des exemples de sorties


Afin dillustrer quelques uns des dveloppements qui prcdent, nous
allons reprendre les donnes contenues dans le fichier uis_small dj analy-
ses au moyen de la procdure LIFEREG. Lquation alors ajuste est celle
correspondante la commande model ci-aprs, qui est naturellement main-
tenant excute au sein de la proc PHREG. Toujours des fins dillustration,
nous avons galement intgr des formats sur les variables treat et site. Soit :

proc format;
value prog 1="long" 0="court";
value lieu 1="B" 0="A";
run;
proc phreg data=uis;
format treat prog.;
format site lieu.;
class treat(ref="court") site(ref="A") / param=ref;
model time*censor(0) = age ndrugtx treat site age*site /
risklimits;
contrast "RR, 20 ans, site B versus A" site 1 age*site 20 /
estimate=exp;
contrast "RR, 30 ans, site B versus A" site 1 age*site 30 /
estimate=exp;
contrast "RR, + 5 ans, site A" age 5 / estimate=exp;
contrast "RR, +5 ans, site B" age 5 age*site 5 / estimate=exp;
hazardratio "RR, 20 ans, site B versus A" site / diff=ref at
(age=20) cl=both;
hazardratio "RR, 30 ans, site B versus A" site / diff=ref at
(age=30) cl=both;
hazardratio "RR, 5ans de plus, site A" age / units=5 at
(site="A") cl=both;
hazardratio "RR, 5ans de plus, site B" age / units=5 at
(site="B") cl=both;
run; quit;
20. Pour encore plus dexemples, voyez Paul T. Savarese et Michael J. Patetta, An Over-
view of the Class, Contrast and Hazardratio Statements in the SAS 9.2 PHREG Procedure,
Paper 253-2010, SAS Global Forum 2010.
4.2. LES RATIOS DE RISQUE 131

Table 4.4 PHREG : Exemples de sortie - Tableau des paramtres estims

Les rsultats de la commande model concernant les coefficients estims


sont prsents dans la table 4.4. Je vous laisse interprter ces rsultats, et
retrouver les valeurs affiches pour les ratios de risque. Notez quen raison
de linteraction de lge et du site, PHREG naffiche pas ce ratio pour ces
deux variables, ni pour le produit crois. La raison en est bien videm-
ment quavec cette spcification, le risque associ lge dpend du site
et rciproquement : il est ncessaire de spcifier les valeurs de ces deux
variables pour calculer des ratios de risque. Cest prcisment ce que lon
fait avec les commandes contrast et hazardratio. Notez quen deuxime co-
lonne, PHREG indique la modalit dont le coefficient est estime. Il sagit
par exemple du site "B", ce qui tait videmment attendu puisque nous
avons spcifi que le site "A" devait tre mis en base 21 .

Les rsultats associs aux 4 instructions contrast sont prsents dans


la table 4.5. La premire indique que le risque de rechute pour un individu
de 20 ans hospitalis dans le centre "B" reprsente 56% du risque dune
personne de 20 ans hospitalis dans le site "A". A 30 ans, la seconde instruc-
tion estime que ce risque est remont 80%. La troisime value le risque
de rechute dune personne qui, hospitalis dans le site A, aurait 5 ans de
plus quune autre personne ayant les mmes caractristiques et galement
hospitalise en "A" : le risque de la premire est estim 80% du risque de
la seconde. La dernire instruction contrast refait les mmes calculs mais
pour deux personnes hospitalises dans le site "B". Dans ce cas, le risque de
deux personnes spares par 5 annes seraient gaux 22 . Les tests de Chi2
associs indiquent que les ratios de risque sont significativement diffrents
de lunit aux seuils usuels lexception du quatrime 23 .
21. En labsence de la proc format, cest le programme long et le site B qui auraient t
mis en base (codage=1, versus codage 0 pour le programme court, et le site A).
22. A titre dexercice, retrouvez la syntaxe de ces instructions
23. Ce que lon peut videmment deviner en notant que la valeur 1 est dans lIC de la
quatrime instruction mais nappartient pas aux trois premiers IC.
132 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Table 4.5 PHREG : Exemples de sortie - Rsultats associs aux instructions


contrast

Table 4.6 PHREG : Exemples de sortie - Rsultats associs aux instructions


hazardratio

Dans la table 4.6 on trouve les rsultats des instructions hazardratio.


Celles-ci correspondent dans lordre aux mmes interrogations que celles
considres via les commandes contrast prcdemment discutes 24 . Il est
donc logique que les estimateurs des ratios de risque soient identiques
dans les deux tables. La seule diffrence concerne lapparition des bornes
des intervalles de confiance PL. On constate dailleurs quelles ne dcalent
pratiquement pas, dans cet exemple, de celles obtenues avec Wald.

4.3 Lestimation de la survie de base


Lestimation de la survie de base et importante puisque cest partir
delle que lon va pouvoir estimer les fonctions de survie de tout individu
ayant les caractristiques dcrites dans le vecteur des explicatives x. On

24. Toujours titre dexercice, vous devriez pouvoir reconstruire leur syntaxe, et au
passage remarquez la plus grande facilit dans la prise en compte de la variable dinterac-
tion : elle doit tre explicitement traite avec contrast, elle est automatiquement gre par
hazardratio.
4.3. LESTIMATION DE LA SURVIE DE BASE 133

connat dj les relations liant survie, risque instantan et risque cumul :


( Z t )
S(t) = exp h()d = exp{H(t)}
0
et donc, dans le cadre du modle de Cox :
( Z t )
>
S(t, x) = exp h0 () exp [ x]d (4.33)
0
( Z t )exp [> x]
= exp h0 ()d (4.34)
0
exp [> x]
= S0 (t) (4.35)
 R 
t
o S0 (t) = exp 0 h0 ()d est la survie de base, i.e. la survie affrente
un individu pour lequel toutes les explicatives seraient nulles.

PHREG propose trois estimateurs non paramtriques de cette survie de


base :
1. Lestimateur de Breslow :
Cest une extension de lestimateur de Nelson-Aalen en prsence de
variables explicatives. Le nombre attendu dvnements au temps ti
est gal la somme des risques instantans affrents aux individus
P >
risque en ti : E(di ) = jRt h0ti e x j . Si on galise cette valeur attendue
i
la valeur observe, il vient 25 :
di
h 0ti = P > x j
(4.36)
jRti e
La fonction de risque de base cumule estime est alors donne par
X
H 0t = h 0ti (4.37)
i|ti <t

25. Hanley (2008) prcise lgamment le lien qui existe entre lquation (4.36) et les-
timateur usuel de Kaplan-Meier. Dans ce dernier, il ny a pas dexplicatives, tous les in-
dividus sont supposs homognes, et le risque serait estim par di /card(Rti ). La prise en
compte des ratios de risque au dnominateur revient retrouver lquivalent dun effec-
tif dindividus homognes partir densembles dindividus htrognes. On reprend son
exemple : soit un modle ayant une seule explicative, sexe=0 si la personne est une femme,
1 sinon, et son coefficient estim = 0.4054, avec donc exp () = 1.5. Si un temps dv-
nement ti on a 50 femmes et 60 hommes risque alors, le dnominateur de (4.36) est gal
(50 1 + 60 1.5) = 140. i.e. ce temps, on a lquivalent de 140 femmes. Lestimateur KM
dans cette population homogne constitue uniquement de femmes serait gal di /140, et
cest cette quantit qui est recre par (4.36).
134 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

On utilise enfin lquation qui relie risque cumul et survie pour


obtenir lestimateur de la survie de base :

S 0t = eH0t (4.38)

Notez que les estimateurs prcdents sont valus sur les temps
dvnements effectifs : H 0t et S 0t sont des fonctions en escaliers.
2. Lestimateur de Flemming-Harrington :
Introduit partir de SAS 9.4, il modifie lestimateur de Breslow
en cas dvnement simultans. Alors que dans le prcdent les
individus concerns ont une pondration unitaire, de sorte que le
numrateur de 4.36 est gal di , ils vont ici recevoir des pondrations
diffrencies.
3. Lestimateur Product-Limit :
On considre un modle temps discret et on note 0i la probabi-
lit conditionnelle de connatre lvnement une dure ti pour un
individu en base, i.e. un individu pour lequel les explicatives sont
toutes de valeur nulle. On sait que la survie dun individu ayant des
>
caractristiques x j est donne par S j (t) = S0 (t)exp( x j ) et, si k est la
nombre total dvnements observs, la vraisemblance est donne
par 26
Y k Y Y
> x j > x j
L= (1 e0i ) e0i (4.39)
i=1 jDi jRi Di

Si on prend comme estimation de les valeurs obtenues par maximi-


sation de la vraisemblance partielle alors, en labsence dvnements
simultans, la maximisation de cette vraisemblance par rapport 0i
a pour solution :

e> xi
i
x
e
0i = 1 P
(4.40)
( x j )
>
jRi e

26. Un individu ayant les caractristiques x j a une probabilit de connatre lvnement


aprs ti sachant quil ne la pas encore connu avant ti donne par :
>
S(ti ) S0 (ti )exp( x j ) exp(> x j )
= = 0i
S(ti1 S0 (ti1 ) exp(> x j )

exp(> x j )
et donc une probabilit de ralisation de lvnement en ti gale 1 0i
4.3. LESTIMATION DE LA SURVIE DE BASE 135

En prsence dvnements simultans, il ny a pas de solution ex-


plicite et une mthode itrative doit tre mise en oeuvre pour la
maximisation de L.
Pour finir, une fois les 0i estims, lestimateur de la survie de base
est gal : Y
S0t = 0i (4.41)
i|t(i)t

En pratique, lorsque les effectifs des ensembles dindividus ayant les mmes
temps dvnements ne sont pas trop grands par rapport ceux des indivi-
dus risque, les courbes de survie calcules par ces trois estimateurs sont
gnralement proches.

Le choix entre lune o lautre des procdures destimation est prcis


au moyen de loption method= dans la commande BASELINE, selon :
method=BRESLOW pour la premire,
method=FH pour la deuxime, et
method=PL pour lestimateur Product-Limit
Par dfaut, lestimateur retenu est BRESLOW.

La commande BASELINE permet de rfrencer un fichier contenant les


valeurs des explicatives pour lesquelles on dsire estimer la fonction de
survie. Par dfaut, les calculs sont effectus en prenant la moyenne dchan-
tillon des explicatives continues et les modalits de rfrence pour les va-
riables catgorielles. En consquence, comme on sait que la survie de base
est obtenue pour des valeurs nulles des explicatives, il faut viter ce com-
portement par dfaut et donc crer effectivement le fichier utilis en input
par BASELINE. Si on reprend lexemple prcdent, lobtention de la survie de
base S0t et du risque cumul de base seffectuera au moyen des commandes
suivantes :

cration du fichier contenant les caractristiques des individus pour


lesquels on veut la survie estime

data base0;
input age ndrugtx treat site;
format treat prog.;
format site lieu.;
cards;
0 0 0 0
136 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

0 0 0 0
;
run;

appel de phreg avec model=... pour lestimation de notre quation. La


commande baseline prend ensuite les donnes de la table prcdente,
grce covariate= base0, et cr la table survie0, qui contiendra, pour
chaque temps dvnements effectif, les estimations de la survie de base,
variable Sbreslow et du risque cumul, variable Hbreslow calcules
avec lestimateur de Breslow.
proc phreg data=uis;
format treat prog. site lieu.;
class treat(ref="court") site(ref="A") / param=ref;
model time*censor(0) = age ndrugtx treat site;
baseline out=survie0 covariates=base0 survival=Sbreslow
cumhaz=Hbreslow / method=breslow;
run;
quit;
En rptant ces calculs avec les options method=pl et method=fh, on
obtient les survies et les risques cumuls de base estims avec les deux
autres procdures. Les graphes de ces fonctions sont fournis dans la figure
4.1. Dans cet exemple, et comme cela est gnralement le cas, les valeurs
estimes par ces trois mthodes sont proches et conduisent des courbes
qui se superposent presque parfaitement.

4.4 Lanalyse stratifie avec le modle de Cox


On se rappelle que le modle de Cox est un modle risque
proportionnel : le ratio de risque entre deux individus i et j dont les
caractristiques sont donnes respectivement par xi et x j est
>
hit h0t e( xi ) (> [xi x j ])
RRi/ j = = = e
h jt h0t e( x j )
>

Si les explicatives sont invariantes dans le temps, alors ce ratio est une
constante relativement aux dures : si le ratio de risque entre i et j est gal
3 pour une dure de 3 mois, il doit tre gal 3 pour une dure de 12
mois, de 24 mois, etc...Il peut arriver que cette hypothse paraisse errone :
en gnral, cela survient notamment lorsque lon a une htrognit au
4.4. LANALYSE STRATIFIE AVEC LE MODLE DE COX 137

Figure 4.1 Graphes de la survie et du risque cumuls de base obtenus avec


les 3 procdures destimation

sein de la population tudie, par exemple une diffrenciation de la


clientle selon le sexe, le statut familial, le type de contrat, etc...On peut
par exemple imaginer que le ratio de risque entre hommes et femmes soit
une certaine valeur pour des dures courtes, puis que les comportements
des individus diffrent de sorte que pour des dures moyennes et leves
ce ratio se modifie. En matire de contrat, on peut supposer que la
fidlisation moyen/long associe un type de contrat ne soit pas la mme
pour un autre type : si lvnement tudi est le non renouvellement du
contrat, alors le ratio de risque calcul sur deux clients ne possdant pas le
mme contrat peut se modifier avec les dures, invalidant lhypothse PH.
Dans ces cas de figure, on peroit lintrt dune analyse stratifie : elle va
autoriser la modification du ratio de risque entre les individus
appartenant des strates diffrentes. Labandon de lhypothse PH est
cependant partiel, puisquelle continuera dtre valide pour les membres
dune mme strate. Imaginons ainsi que le variable de stratification soit le
sexe. Lanalyse stratifie va autoriser une modification du ratio de risque
entre hommes et femmes selon les dures, mais elle continuera
dimposer la constance du ratio de risque entre deux femmes ainsi que sa
138 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

constance entre deux hommes, et qui plus est, au mme niveau dans les
deux cas : si le ratio est gal 3 entre deux femmes ayant certaines
caractristiques, il sera aussi de 3 entre deux hommes ayant les mmes
caractristiques et cela sur toutes les dures possibles. Pour obtenir ce
rsultat, lanalyse stratifie va imposer des coefficients identiques sur les
explicatives mais va estimer des risques de base spcifiques chaque
strate. Ainsi, dans le cas de deux strates A et B, nous avons :


h0,A (t) exp(1 xi1 + 2 xi2 + . . . + k xik ) si i A,

hti =

h0,B (t) exp(1 xi1 + 2 xi2 + . . . + k xik ) si i B.

Dans ces conditions, si deux individus i et j sont dans la mme strate,


alors :
>
RRi/ j (t) = e( [xi x j ])
et nous savons dja que ce ratio est une constante si les explicatives sont
elles-mmes invariantes dans le temps : lhypothse PH est bien vrifie.
En revanche, si i A et j B alors

h0,A (t) (> [xi x j ])


RRi/ j (t) = e (4.42)
h0,B (t)

Les risques de base pouvant voluer diffremment selon les dures, le


terme h0,A (t)/h0,A (t), et en consquence RRi/ j , ne sont sont plus tenus dtre
des constantes sur lchelle des dures.
Techniquement, une fonction de vraisemblance partielle est construite sur
chaque strate avec le mme jeu de coefficients pour les explicatives. Les
estimateurs sont obtenus par maximisation du produit de ces
vraisemblances partielles, et des estimations non paramtriques du risque
de base sont ensuite ralises au sein de chacune des strates.
Un inconvnient de cette leve partielle de lhypothse PH est quon ne
dispose pas avec cette mthode dune mesure quantifie de limpact de la
variable de stratification sur le risque : une variable dont les modalits
dfinissent les strates ne peut en effet pas apparatre dans la liste des
explicatives, puisque cest une constante dans les divers sous-ensembles
quelle dfinit : son impact est transfr dans la composante risque de
base.
Un intrt de cette mthodologie est quelle peut tre utilise pour tirer
une information visuelle sur le respect de lhypothse PH, i.e., on peut
raliser des ajustements stratifis pour ventuellement rvler quil ntait
pas ncessaire de stratifier. Lide est la suivante : sous lhypothse PH les
4.4. LANALYSE STRATIFIE AVEC LE MODLE DE COX 139

risques sont proportionnels pour deux individus ayant des


caractristiques constantes dans le temps mme sils nappartiennent pas
la mme strate. Ainsi, si Z est la variable de stratification possdant deux
modalits "A" et "B", et pour deux individus i et j tels que i A et j B,
alors sous hypothse de risque proportionnel :
hi (t) = h j (t)
soit encore Si (t) = S j (t) et donc log( log(Si (t)) = log() + log( log(S j (t)).
Au final, sous lhypothse PH, les courbes de survie estimes pour les
individus i et j devraient tre parallles entre elles dans un graphique
ayant les dures en abscisse et leurs transformations log log en ordonne.
Il suffit donc de crer deux individus i et j appartenant des strates
diffrentes, de demander PHREG de fournir une estimation de leurs
courbes de survie, doprer une transformation simple et de finir par un
graphique. On illustre la procdure au moyen du fichier uis utilis dans
une sous-section prcdente. Comme variable de stratification nous allons
utiliser la variable de site, deux modalits 0 et 1, sur laquelle opre un
format (0 "A", et 1 "B"). Le point de dpart consiste donc en la cration
dun fichier de donnes, contenant nos deux individus. Arbitrairement,
nous allons prendre deux personnes de 40 ans (age=40), ayant dj subis
quatre traitements dans le pass (ndrugtx=4) et soumis dans le cadre de
lvaluation actuelle un traitement court (treat=0). La premire est affect
au site "A", la seconde au site "B". Pralablement la cration de ce fichier
nous rappelons les formats utiliss.
proc format;
value prog 1="long" 0="court";
value lieu 1="B" 0="A";
run;
data verifPH;
input age ndrugtx treat site
format treat prog.;
format site lieu.;
cards;
40 4 0 0
40 4 0 1
;
run;
Ltape suivante consiste demander lestimation du modle via la
commande model. Par rapport aux estimations qui prcdent, nous avons
140 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

donc retir toute rfrence la variable site dans la liste des explicatives
puisquil sagit de la variable de stratification. Il suffit ensuite de rclamer
lestimation de la survie des individus dont les valeurs des explicatives
sont dans le fichier verifPH. Cest ce que va faire la commande BASELINE
du programme ci-dessous. Celle-ci prend en entre le contenu de verifPH
(option covariate=nom du fichier contenant les valeurs dsires pour les
explicatives 27, 28 ), et cr en sortie le fichier surverif (option out=nom de
fichier), qui contiendra les estimateurs rclams ainsi que les valeurs des
explicatives du fichier rfrenc par covariate, de sorte pouvoir aisment
retrouver dans la nouvelle table quel individu se rapporte telle ou telle
estimation. Dans le cas prsent le mot clef loglogs demande la
sauvegarde, sous le nom lls de la transforme log log(S t ). Loption
rowid=site dans baseline permettra daffecter les observations cres, et
donc les courbes affiches par sgplot, chacun des sites 29 .

proc phreg data=uis;


format treat prog.;
format site lieu.;
class treat(ref="court") / param=ref;
model time*censor(0) = age ndrugtx treat;
strata site;
baseline out=surverif covariates=verifPH loglogs=lls
/rowid=site;
run;
quit;

On obtient alors les estimations de la table 4.7. On observera que les


estimations des coefficients des explicatives restantes ne sont
pratiquement pas affectes par la leve de la contrainte de lhypothse PH
sur la variable de site (voir la table 4.5). Pour finir, je vous laisse juge de
dcider du paralllisme des deux courbes du graphe 4.2, et donc de la
validit o non de cette hypothse.

27. Notez que dans la commande baseline si vous ne spcifiez pas de fichier via
covariate=, PHREG va prendre par dfaut un individu qui aura comme caractristiques
pour les explicatives numriques la valeur moyenne de chaque variable dans la strate, et la
modalit de rfrence pour chaque variable catgorielle.
28. Notez galement que baseline peut naturellement semployer sans strata : on peut
par exemple demander des estimations de la survie, o du risque cumul pour des individus
types partir dune estimation non stratifie.
29. Pour une raison que jignore, il faut intercaler une proc sort avant lappel de sgplot.
En son absence, celle-ci relie le premier et le dernier point des deux courbes.
4.5. EXPLICATIVES NON CONSTANTES DANS LE TEMPS 141

Table 4.7 Paramtres estims avec la commande strata site

Figure 4.2 log log(S[t|site="A"]) versus log log(S[t|site="B"])

proc sort data=surverif;


by site time;
run;
proc sgplot data=surverif;
series y=lls x=time / group=site ;
run;

4.5 Explicatives non constantes dans le temps


Une possibilit apprciable du modle de Cox est dautoriser des variables
explicatives dont les valeurs se modifient avec les dures tudies.
Techniquement, cette facilit vient du fait que la construction de la
vraisemblance partielle se fait sur chaque temps dvnement effectif et
que pour un temps donn, seuls les individus risque sont considrs. En
consquence, si on est en mesure de construire, pour chaque individu
risque et pour chaque dure effective, les valeurs des explicatives, il ny a
pas de difficult particulire la prise en compte dexplicatives non
constantes.
On peut illustrer la motivation introduire de telles variables au moyen
142 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

statut duree duree


id _ini _evenement _statut
1 0 8 .
2 1 12 10
3 0 9 8
4 1 7 5

Table 4.8 Exemple de variables explicatives non constantes

dun exemple simple. Supposons quon tudie un vnement pour lequel


on souponne que le risque de survenue est li au statut familial des
personnes concerns. Soit la variable binaire "statut_ini" code 1 pour les
personnes vivant en couple lors de leur entre dans lchantillon et 0
sinon. Lchantillon initial est donc constitu de clibataires et dindividus
maris. Au fur et mesure que le temps scoule, des vnements dintrt
vont se raliser, dfinissant les dures effectives sur lesquelles la
vraisemblance partielle sera estime, mais paralllement, des personnes
clibataires peuvent se marier, dautres peuvent divorcer et donc le statut
familial dun individu est susceptible de se modifier avec les dures
dvnement imposant dajuster en consquence le contenu de la variable
"couple". Supposons que lon dispose des variables "duree_evenement",
contenant les dures de survenue de lvnement tudi, "duree_statut",
contenant la dure de survenue dun changement de statut, code valeur
manquante sil ny a pas de changement de statut sur la fentre
dobservation. Ces deux variables tant naturellement mesures sur la
mme chelle des temps. Toujours pour simplifier, on suppose quaucun
temps dvnement nest censur 30 et un seul changement de statut
familial sur la priode dobservation. Les autres explicatives x1 , . . . , xk sont
invariantes dans les temps.
La table 4.8 donne quelques exemples dindividus qui pourraient tre
dans lchantillon de travail.
Le premier est entr en tant que clibataire, il a connu lvnement aprs 8
mois et est rest clibataire sur toute la dure de ltude. Le quatrime tait
mari au dbut de ltude, a divorc aprs 5 mois et a connu lvnement
aprs sept mois.
Deux possibilits sont offertes pour prendre en compte ces explicatives
non constantes dans PHREG : lune adopte en entre une structure de

30. Dans le cas contraire, il suffirait dintroduire une indicatrice de censure sur "du-
ree_evenement"
4.5. EXPLICATIVES NON CONSTANTES DANS LE TEMPS 143

id t1 t2 cens statut x1 ... xk


1 0 8 1 0 x11 ... x11
2 0 10 0 1 x12 ... x12
2 10 12 1 0 x12 ... x12
3 0 8 0 0 x13 ... x13
3 8 9 1 1 x13 ... x13
4 0 5 0 1 x14 ... x14
4 5 7 1 0 x14 ... x14

Table 4.9 Explicatives non constantes, structure des donnes en entre de


type processus de comptage

donnes de type processus de comptage, lautre cre les variables


explicatives par programme au sein de la procdure.

4.5.1 donnes entres selon un processus de comptage


Comme discut lors de la prsentation de la commande model, on aura au
besoin plusieurs enregistrements par individus et une variable de censure,
ici cens, code 1 si lvnement tudi cest ralis, et 0 sinon.
Lorganisation des observations pour nos quatre individus est dcrite dans
la table 4.9. Dans cette table, la variable statut est lexplicative dcrivant
le statut familial sur chaque intervalle de dure. La commande model
correspondante sera de la forme :

model (t1, t2)*cens(0) = statut x1 ...xk;

4.5.2 Explicatives non constantes cres par programme


Nous aurons dans ce cas un seul enregistrement par individu avec des
observations telles que prsentes dans la table 4.8.
Nous indiquons dans la table 4.10 les valeurs que doit prendre la variable
statut pour construire la vraisemblance partielle chaque temps
dvnement effectif et pour chacune des personnes repres par leur
identifiant.
Lappel de PHREG adapt pourrait tre le suivant. 31 :

31. Si lvnement et le changement de statut surviennent la mme dure, on va consi-


drer arbitrairement que le changement de statut prcde lvnement.
144 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

duree
_evenement id=1 id=2 id=3 id=4
7 0 1 0 0
8 0 1 1 
9  1 1 
12  0  

Table 4.10 Valeurs attendues pour "statut" pour chaque individu selon les
dures dvnement. La case est marque  si lindividu nest plus risque.

proc phreg;
model duree_evenement= statut x1 x2 . . . xk;
if duree_statut>duree_evenement or missing(duree_statut)=1
then statut=statut_ini;
else statut=1-statut_ini;
run;

4.6 Tests de validation

Valider un modle est un exercice sans fin du fait du nombre de directions


regarder. Quelques aspects doivent cependant tre systmatiquement
examins :
La qualit de lajustement,
La spcification retenue
Le test de lhypothse PH
La dtection des outliers et des observations influentes
Plusieurs rsidus se rvlent alors utiles pour lexamen de ces questions :
les rsidus de martingale pour ltude de la spcification de lquation, les
rsidus de dviance pour la recherche des observations mal expliques par
le modle correspondant des outliers, les rsidus du score pour celle des
observations influentes et les rsidus de Schoenfeld pour juger de la
validit de lhypothse PH. Avant de prsenter ces divers rsidus, nous
commenons par rappeler des tests dj connus permettant de juger de la
qualit de lajustement au regard de la pertinence des explicatives
retenues.
4.6. TESTS DE VALIDATION 145

Table 4.11 Tests de nullit de lensemble des coefficients

4.6.1 La qualit de lajustement

La pertinence peut tre apprcie soit au niveau de lensemble des


explicatives, soit individuellement.
Tests de significativit de lensemble des coefficients : les trois
statistiques usuelles, likelihood Ratio, Lagrange et Wald, sont
affiches par PHREG. Ainsi, dans lexemple qui clt la section
prcdente, la table 4.11 est obtenue et on rejette naturellement la
nullit simultane des 8 coefficients.
Tests de nullit individuel sur chaque coefficient : des tests de Wald
sont prsents dans la table affichant les estimations 32 . PHREG sort
galement une table intitule "Type 3 tests", qui pour les variables
continues et les variables deux modalits, dont videmment une
seule est prsente dans la rgression, ne fait que dupliquer les
statistiques de la table prcdente. Elle devient utile pour les
variables entres avec la commande Class ayant k modalits avec
k > 2 : dans ce cas, un test de Wald k 1 degrs de libert est
prsent, lhypothse teste tant la nullit des coefficients affrents
aux k 1 indicatrices prsentes, i.e. que les k 1 modalits prsentes
ont le mme impact que celle mise en rfrence, ou encore quil
nest pas utile de distinguer les individus selon les modalits de la
variable en question.
On pourrait galement utiliser les rsidus de Cox-Snell et refaire le
test graphique prconis aprs estimation dun modle
paramtrique par la proc LIFEREG. Il est cependant gnralement
admis dans la littrature quils ne sont pas dune grande utilit avec
le modle de Cox. Comme nous allons le voir par la suite, dans ce
modle on va considrer dautres rsidus, qui pour certains sont
des transforms de Cox-Snell.
Pour comparer diffrents ajustements on dispose galement des
critres de slection AIC dAkaike et SBC de Schwarz.

32. Pour un exemple, voir la table 4.12.


146 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

4.6.2 Etude de spcification : rsidus de martingales, rgression


locale et sommes partielles cumules
Soit N_i(t) le nombre dvnements qua connu lindividu i sur la priode
[0, t]. Pour cet individu, le nombre dvnement prvus par le modle est
Hi (t) = exp(> xi )H 0 (t). Pour des explicatives invariantes dans le temps, les
rsidus de martingale sont donns par :

i (t) = Ni (t) Hi (t)


M (4.43)
= Ni (t) exp(x i )H 0 (t) (4.44)
= Ni (t) + log S i (t) (4.45)

Ce rsidu est donc simplement lcart, mesur sur une dure t et pour
lindividu i, entre le nombre dvnements subis et le nombre
dvnements prvus par lquation ajuste.
Dans un modle de Cox Ni (t) vaut typiquement 0 ou 1 et, compte-tenu du
domaine de ralisation de S i (t), les rsidus de martingales appartiennent
] , 1], leur distribution est donc fortement asymtrique. Positifs, ils sont
le fait dindividus ayant connu lvnement trot tt, ngatifs ils signalent
des individus qui survivent plus longtemps que prvu lvnement 33 .
Le graphe de ces rsidus fait apparatre gnralement deux nuages de
points distincts qui distinguent individus censurs et non censurs. A des
fins dillustration, nous donnons dans la figure 4.3 le graphe de ces rsidus
obtenu en excutant le code ci dessous, repris des exemples prcdents qui
demande la cration de la table res contenant en plus des donnes
initiales les variables rmart et index contenant respectivement les
rsidus de martingales et > x.

proc phreg data=uis;


format treat prog.;
format site lieu.;
class treat(ref="court") site (ref=A) / param=ref;
model time*censor(0) = age treat site;
output out=res resmart=mart xbeta=index;
run;
quit;
proc sgplot data=res;
33. Par exemple, si un individu i connat lvnement un temps t tel que H i (t) = 5.4,
i.e. le modle lui prvoit 5.4 vnements cette dure ti , alors son rsidu de martingale est
M i (t) = 1 5.4 = 4.4.
4.6. TESTS DE VALIDATION 147

Figure 4.3 Rsidus de martingales versus index > x, individus censurs


et non censurs

yaxis grid;
refline 0 / axis=y;
scatter y=mart x=index / group=censor;
run;

On peut montrer que ces rsidus vrifient E[Mi ] = 0 et cov(Mi , M j ) = 0, i.e.


ils sont centrs et orthogonaux entre eux. Leur intrt est daider au choix
de la transformation appliquer une variable explicative continue 34 :
soit x1 cette variable, la question est de savoir si on doit lintgrer, par

exemple, comme x1 , log x1 , x1 , x21 ,... Pour cela, deux dmarches peuvent
tre mise en oeuvre :
1. Rgressions locales : la premire dmarche exploite un rsultat de
Therneau, Grambsch et Flemming que lon peut rsumer comme
suit : si lindex scrit sur une transforme de x1 , et donc
h(t) = h0 (t) exp [1 f (x1 )] o f () est une fonction lisse, alors une
rgression non paramtrique, de type LOESS par exemple, des
rsidus de martingales tirs dun ajustement o ne figure pas x1 , sur
x1 renseigne sur la fonction f () dans la mesure o E[Mi ] = c f (x1i ), c
tant une constante dpendant de la proportion dindividus
censurs. En pratique on ralise donc les tapes suivantes :
(a) ajustement dune quation sans x1 , sauvegarde des rsidus de
martingales,
(b) rgression LOESS de ces rsidus sur x1 ,
(c) graphe des rsidus lisss en fonction de x1 pour en tirer une
indication visuelle sur la fonction f (),
34. Ils ne sont daucune utilit pour les variables catgorielles
148 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

(d) intgration de f (x1 ) dans la liste des explicatives. 35


Afin dillustrer cette dmarche, nous reprenons le code prcdent :
on remarque que la variable ndrugtx qui indique le nombre de
traitements dj subi par un individu avant dintgrer lchantillon
de travail est absente de la liste des variables explicatives. Nous
allons la considrer comme tant une variable continue. Les rsidus
de martingales obtenus en son absence ont t sauvegards dans la
table res sous le nom mart. Il suffit alors dexcuter la rgression
locale :
proc loess data=res;
model mart=ndrugtx;
run;
La figure 4.4 est affiche. A sa vue, on peut raisonnablement retenir
une fonction linaire au moins aprs les 5 premires valeurs de
ndrugtx. En consquence, on ajoute la variable en niveau la liste
des explicatives, on sauvegarde les nouveaux rsidus de
martingales et, si lintgration par le niveau est satisfaisant, on doit
maintenant obtenir une droite horizontale dans le graphiques des
rsidus lisss : la valeur de ndrugtx ne devrait plus contenir
dinformation utile pour le rsidu correspondant :
E[M_i|ndrugtxi ] = E[M_i] = 0. Si on excute :
proc phreg data=uis;
format treat prog.;
format site lieu.;
class treat(ref="court") site (ref=A) / param=ref;
model time*censor(0) = age treat site ndrugtx;
output out=res resmart=mart xbeta=index;
run;
quit;
proc loess data=res;
model mart=ndrugtx;
run;
On obtient alors la figure 4.5 dans laquelle le lissage sest bien
rapproch de lhorizontale. On remarque cependant une
35. Sachant que dans la plupart des tudes on rechigne mettre des transformes non
linaires des variables comme explicatives en raison de la difficult interprter la transfor-
me en question. Par exemple, que signifie x2 , o x ? Pour cette raison on prfre souvent
discrtiser la variable continue qui nentrerait pas sous forme linaire.
4.6. TESTS DE VALIDATION 149

Figure 4.4 Lissage des rsidus de martingales par rgression LOESS,


variable NDRUGTX absente

Figure 4.5 Lissage des rsidus de martingales par rgression LOESS,


variable NDRUGTX prsente en niveau

dcroissance du lissage avec ndrugtx qui laisse penser quune


transformation concave, de type log(ndrugtx) est susceptible de
faire mieux que le simple niveau. Lexcution des commandes
suivantes cre la nouvelle variable, lintgre dans la liste des
explicatives du modle de Cox, sauvegarde les rsidus de
martingales, et estime la rgression LOESS qui aboutit la figure
4.6.
data uis2;
set uis;
lndrugtx=log(ndrugtx);
run;
proc phreg data=uis;
format treat prog.;
format site lieu.;
class treat(ref="court") site (ref=A) / param=ref;
150 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Figure 4.6 Lissage des rsidus de martingales par rgression LOESS,


variable LOG(NDRUGTX) prsente

model time*censor(0) = age treat site lndrugtx;


output out=res resmart=mart xbeta=index;
run;
quit;
proc loess data=res;
model mart=lndrugtx;
run;

La transformation logarithmique semble un peu plus approprie


que la prise du niveau de la variable ndrugtx. Nous allons
rexaminer ce choix de spcification en utilisant les sommes
partielles de rsidus de martingales.
2. Sommes partielles de rsidus de martingales : la commande
ASSESS implmente les recommandations de Lin, Wei, and Ying.
Pour une explicative continue quelconque, par exemple x1 , on peut
1 (x) comme
construire la squence de sommes partielles W

n
X
1 (x) =
W i
I(x1i < x)M (4.46)
i=1

Si le modle estim est satisfaisant alors la squence W 1 (x) peut tre



approxime par un processus gaussien centr W1 dont lexpression
est complexe 36 mais qui peut tre simul. La commande ASSESS va
grapher un certain nombre de ces processus simuls, 20 par dfaut,
et reprsenter sur le mme graphe la suite observe W 1 (x), en

36. Cf. laide de Proc PHREG, section Details - Assessment of the Proportional Hazards
Model pour les curieux.
4.6. TESTS DE VALIDATION 151

mettant en abscisse la variable x1 . A ce stade, laide la


spcification est seulement visuelle : lexplicative x1 est considre
comme bien spcifie si la trajectoire W 1 (x) ne se dmarque pas des
trajectoires simules W 1 (x), i.e. se situe dans la rgion du plan qui
est balay par les simuls. En revanche si W 1 (x) est en dehors o
trop proche des frontires suprieure o infrieure de cette rgion
on sera amen essayer une autre transformation sur lexplicative.
Limpression visuelle peut tre conforte par le calcul dun test de
type Kolmogorov-Smirnov qui approxime au moyen de 1000
simulations de trajectoires W 1 la probabilit que

supx |W1 (x)| supx |W1 (x)| . Naturellement, labsence de rejet est
favorable la spcification retenue. Ce test est activ par le mot clef
RESAMPLE.
On illustre la dmarche suivre en reconsidrant le choix ndrugtx
versus log(ndrugtx) abord prcdemment. Si nous insrons la
commande ASSESS dans lestimation faisant intervenir ndrugtx
en niveau
model time*censor(0) = age treat site ndrugtx;
assess var=(ndrugtx) npaths=40 resample;
On rcupre le graphe et la table de la figure 4.7. Si on linsre dans
lquation ayant log(ndrugtx) en explicative :
model time*censor(0) = age treat site lndrugtx;
assess var=(lndrugtx) npaths=40 resample;
on obtient la figure 4.8.
Dans les deux cas, loption npath=40 rclame que 40 sommes
simules W 1 soient reprsentes. Dans cet example, il ny a pas de
rponse nettement privilgie sur le plan visuel, et ce nest quen
prenant un seuil de risque de 10%-11% que le test KS permettrait de
donner la prfrence la transformation en log.

4.6.3 Reprage des outliers : les rsidus de dviance, les


statistiques DFBETA et LD.
On sait que les rsidus de martingales possdent une distribution
fortement asymtrique gauche. En consquence il est malais de
rpondre une question telle que : un rsidu de martingale fortement
ngatif est-il atypique o parfaitement raisonnable ? En raison de cette
difficult dinterprtation, pour dtecter les outliers on va utiliser des
transforms des rsidus de martingales.
152 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Figure 4.7 Sommes partielles des rsidus de martingales


Commande ASSESS - variable NDRUGTX prsente en niveau

Figure 4.8 Sommes partielles des rsidus de martingales


Commande ASSESS - variable Log(NDRUGTX) prsente
4.6. TESTS DE VALIDATION 153

Les rsidus de dviance :


Ils sont dfinisdfinis comme :
s
Ni () M i (t)
D i (t)]
i (t) = sign[M i (t) Ni ()) log
2[(M ] (4.47)
Ni ())

PHREG calcule un rsidu de dviance par individu 37 . Dans cette


transforme, les deux fonctions racine et log se conjuguent pour rduire la
taille des rsidus de martingale ngatifs et augmenter celle des rsidus
positifs : on cherche ainsi obtenir une distribution plus symtrique
autour de zro et possdant une variance unitaire. Leur interprtation est
similaire celles des rsidus OLS dans un ajustement des moindres
carrs : les individus ayant un rsidu de dviance lev en valeur absolue
sont susceptibles dtre mal expliqus par lquation ajuste et de
correspondre des outliers. Lorsque de tels individus sont dtects, la
premire chose faire est de vrifier les donnes qui les concernent. Si ces
dernires ne sont pas errones, il faut dcider de maintenir o non les
individus en question dans lchantillon de travail. Les statistiques
DFBETA et LD peuvent alors aider cette prise de dcision.
Les rsidus de deviance sont sauvegards par lemploi de loption
resdev= dans la commande output. Dans notre exemple pour les
rcuprer, avec les rsidus de martingales et lindex estim, dans un fichier
dnomm res. il suffit deffectuer :

model time*censor(0) = age treat site ndrugtx;


output out=res resmart=mart xbeta=index resdev=dev;

Il est alors ais dobtenir la figure 4.9 et par exemple dtudier plus
spcifiquement les individus pour lesquels les rsidus de dviance sont,
en valeur absolue, suprieurs 2. En comparant les figures 4.3 et 4.9 vous
pouvez constater que ces individus atypiques sont effectivement plus
aisment identifiables, loeil nu, sur le rsidus de dviance que sur les
rsidus de martingales.

Les statistiques DFBETA et LD :


Ces deux statistiques vont mesurer limpact sur les rsultats de
lestimation de chaque observation. La premire observe les modifications
37. En consquence, ils ne sont pas calculs lorsque les donnes sont entres selon un
processus de comptage.
154 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Figure 4.9 Rsidus de dviance versus index > x, individus censurs et


non censurs

des coefficients estims des variables explicatives selon quune


observation est inclue o non dans lchantillon. la seconde value la
variation de la valeur de la vraisemblance estime.
1. Si on note \i lestimation de obtenue lorsque la ime observation
est retire de lchantillon et celle obtenue en sa prsence, alors la
statistique dintrt est gale DFBETAi = (\i ).
Cest donc un
vecteur a k composante pour chaque individu de lchantillon.
En regardant les composantes de DFBETA, il est videmment
possible davoir une information concernant linfluence de tout
individu sur le coefficient estim de chaque explicative, et donc de
reprer ceux pour lequel cet impact apparatrait comme tant
draisonnable et donc susceptible dtre supprim de la base de
donnes. Linconvnient majeur de cette dmarche est quil faut
restimer le modle autant de fois quil y a dindividus dans dans la
base. Afin dviter cela, PHREG met en oeuvre une approximation
qui vite les recalculs :

Li
DFBETA = I1 () (4.48)

o L i est lestimation obtenue sur lchantillon complet du rsidu


du score pour la ime observation 38 .
38. Important : lorsque les donnes sont entres selon les modalits des processus de
comptage, i.e. plus dun enregistrement par individu, alors les rsidus du score et, par voie
de consquence, DFBETA, sont valus par enregistrement. En consquence, pour retrouver
la mesure DFBETA propre un individu donn, il faut additionner les valuations partielles
le concernant en passant par une tape PROC MEANS comme cela est fait dans lexemple
64.7 Time-Dependent Repeated Measurements of a Covariate dans la documentation de
PHREG.
4.6. TESTS DE VALIDATION 155

Un graphique par composante de DFBETA doit ensuite permettre


de rvler les individus ayant le plus de poids dans lestimation de
chaque coefficient, davoir une apprciation de leurs impacts et en
consquence de permettre de statuer sur llimination ou non des
individus concerns de la base de donnes utilise pour
lestimation du modle.
2. La statistique LD reprend la mme logique que prcdemment. Elle
va simplement juger du poids dun individu en valuant la
modification de la log-vraisemblance quentrane son retrait de
lchantillon. On peut la percevoir comme une statistique donnant
une information plus globale que DFBETA qui sintressait au
coefficient de chacune des explicatives.
Avec les notations prcdentes, LD mesure la variation de la
vraisemblance par :

LDi = 2[L(\i ) L()]


(4.49)

Linconvnient est, comme prcdemment, que son calcul requiert


un nombre destimations du modle gal la taille de lchantillon.
Pour viter ces calculs, PHREG fait encore appel une
approximation :

>
LDi = Li I1 ()
Li (4.50)
Ces statistiques sont sauvegardes dans la table rfrence dans la
commande output= au moyen des options
DFBETA = liste de noms en nombre infrieur ou gal au nombre
dexplicatives de la commande model, k. Si la taille de la liste, k0 est
infrieure k, seules les variations des k0 premiers coefficients sont
sauvegardes.
LD= nom de variable. Cette variable contiendra les variations de la
fonction de vraisemblance associ au retrait de chaque observation.

4.6.4 Tests de lhypothse PH - Introduction dinteractions avec


le temps, Rsidus de Schoenfeld et sommes de
transformes de rsidus de martingale
Test de lhypothse PH par introduction dinteractions avec le temps :
La facilit de construction par programme de variables dpendantes des
dures permet de construire aisment un test de lhypothse PH sur les
156 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

explicatives invariantes dans le temps o dont les carts de valeurs entre


individus diffrents ne changent pas avec les dures. Pour en comprendre
la logique, considrons un cadre trs simple, avec une seule explicative x1 .
Lhypothse PH correspond au fait que si x1 est invariant dans le temps 39 ,
alors :

h j (t) h0 (t) exp(1 x1j )


= = exp(1 [x1j x1i ]) = constante (4.51)
hi (t) h0 (t) exp(1 x1i )
Lobjectif du test sera de vrifier cette constance lorsque x1j , x1i . Pour cela
on ajoute dans les explicatives une variable dinteraction entre le temps et
x1 , par exemple le produit x1 t. Il vient alors :
h j (t) h0 (t) exp(1 x1j + 2 x1j t)
= = exp(1 [x1j x1i ] + 2 [x1j x1i ]t) (4.52)
hi (t) h0 (t) exp(1 x1i + 2 x1i t)
Il est alors vident que dans cette version augmente, on ne retrouve le
rsultat 4.51, cest dire la constance du ratio de risque uniquement si
2 = 0. Lorsque ce nest pas le cas, le ratio se dforme avec les dures ce
qui invalide alors lhypothse PH pour lexplicative x1 . En pratique, dans
ce dernier cas on devrait laisser la variable dinteraction, x1 t, dans la
liste des explicatives
On peut illustrer la dmarche en reprenant le fichier uis utilis dans les
prcdents exemples. On va maintenant tester la validit de lhypothse
de risque proportionnel pour les variables treat, qui distingue entre
traitement court et traitement long, age, et ndrugtx qui indiquent
respectivement lge de lindividu lors de lentre dans le programme de
soin tudi et le nombre de traitements dont a bnfici un individu avant
son incorporation dans ce programme. Les commandes dappel de PHREG
pourraient alors ressembler 40 :

proc phreg data=uis;


format treat prog.;
format site lieu.;
class treat(ref="court") site(ref=A) / param=ref;
model time*censor(0) = age ndrugtx treat site age_logt
ndrugtx_logt treat_logt site_logt;
39. En fait, limportant est que les carts x1j x1i soient constants dans le temps. Cela
est videmment vrai si x1 est une constante pour chaque individu mais ce nest pas une
condition ncessaire pour la ralisation du test.
40. SAS conseille, pour des raisons numriques, dutiliser une interaction non pas avec t,
mais avec log t, ici nous avons essay les deux versions.
4.6. TESTS DE VALIDATION 157

Table 4.12 Test de lhypothse PH - Variables dinteraction avec les dures

Table 4.13 Test de lhypothse PH - Variables dinteraction avec les dures

age_logt = age*log(time);
ndrugtx_logt = ndrugtx*log(time);
treat_logt = treat*log(time);
site_logt=site*log(time);
run;
quit;

Les rsultats de la table 4.12 sont alors obtenus. Lorsque le temps nest pas
transform par passage aux logarithmes, nous arrivons aux rsultats de la
table 4.13. Aux seuils usuels de risque, nous ne pouvons rejeter la validit
de lhypothse PH pour les trois variables age, ndrugtx et site. La
conclusion diffre pour la dure du traitement selon quune
transformation logarithmique est applique (dans ce cas, non rejet de PH)
ou non (rejet de PH). Si on veut prendre ce dernier rsultat en compte, il
faudrait alors laisser la variable treat*time parmi les explicatives.

Les rsidus de Schoenfeld :

Soit ti le temps de survenu de lvnement tudi pour lindividu i, soit xij


la valeur de la jime explicative pour cet individu, et soit Rti lensemble des
individus risque en ti . Le rsidu de Schoenfeld associ lindividu i et
158 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

la jime explicative, est donn par :


X
sij = xij xrj pr,ti , avec (4.53)
rRti

exp > xr
pr,ti = P (4.54)
>
rR exp xr
ti

o pr,ti est la vraisemblance estime que lindividu r risque connaisse


lvnement en ti . Le rsidu de Schoenfeld est donc un cart entre la valeur
dune explicative observe sur un individu qui connat lvnement une
certaine dure et une moyenne pondre des valeurs de cette explicative
observes cette mme dure sur tous les individus alors risque.
On notera que ces rsidus ne sont dfinis que pour les individus non
censurs, et pour chacune des explicatives : si on a k explicatives, on
associe chaque individu un vecteur de k rsidus de Schoenfeld, i.e.,

s i = (si1 , si2 , . . . , sik )>

Leur intrt provient du fait quils sont fonction de lcart entre les
coefficients j , j = 1, . . . , k du modle de Cox et les coefficients
j,t , j = 1, . . . , k dun modle de Cox coefficients variables avec les dures
E[sij ] = j,ti j En consquence, pour chaque explicative xj, j = 1 . . . , k, ils
vont permettre de statuer, au moins visuellement, sur le test H0 : j,ti = j
versus H1 : j,ti , j , i.e. constance versus non constance des coefficients en
fonction des dures et donc sur la validit de lhypothse PH, celle-ci
supposant leur constance.
Pour cela, on va grapher les rsidus de Schoenfeld en fonction des dures,
avec donc un graphe par explicative. Sous H0, ils devraient tre
alatoirement distribus autour de zro. Pour faciliter la lecture des
graphes, on prfre travailler avec les rsidus de Schoenfeld standardiss :

si
ri = ne I1 () (4.55)

est lestimation de la matrice de variance-covariance des


o I1 ()
coefficients et ne le nombre total dvnements observs dans
lchantillon.
La sauvegarde des rsidus de Schoenfeld seffectue au sein de la
commande OUTPUT au moyen de loption RESSCH= nom1 nom2 . . . nomk , et
pour les rsidus de Schoenfeld normaliss, par WTRESSCH= nom1 nom2 . . .
nomk . Notez quavec une srie de rsidus par explicative, il faut prciser
4.6. TESTS DE VALIDATION 159

Figure 4.10 Rsidus de Schoenfeld normaliss associs age

une liste de noms pour ces rsidus. On retrouve ici les mmes rgles
quavec les statistiques DFBETA : sil y a k explicatives dans lquation
estime et si la longueur de la liste de noms est k1 < k, alors seuls les
rsidus associs aux k1 premire explicatives de la commande MODEL sont
sauvegards.
On peut ensuite ajuster une rgression locale sur chaque srie de rsidus,
lhypothse nulle tant favorise par lobtention dune horizontale. Par
ailleurs, la forme du lissage peut servir dindication quant la faon dont
le coefficient varie avec les dures.
On illustre la dmarche avec les donnes de lexemple prcdent et en
nous intressant la constance des coefficients de age et ndrugtx. Lappel
PHREG pourrait ainsi incorporer les lignes suivantes 41 :
model time*censor(0) = age ndrugtx treat site;
output out=res wtressch=wtsch_age wtsch_lndrugtx;
et se poursuivre par :
proc loess data=res;
model wtsch_age=time;
run;
proc loess data=res;
model wtsch_ndrugtx=time;
run;
On obtient finalement les graphes 4.10 et 4.11
Dans cet exemple, on ne constate pas de dviation importante par rapport
lhorizontale, ce qui joue en faveur du respect de lhypothse PH pour
les deux variables tudies.
41. Pensez alors mettre les explicatives age et ndrugtx en premire et seconde position
dans la commande model.
160 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Figure 4.11 Rsidus de Schoenfeld normaliss associs ndrugtx

Les sommes de transformes de rsidus de martingales :


t
A chaque date dvnement t on peut dfinir les valeurs dun processus U
k,1
comme
n
X

U(t) = i (t)
xi M (4.56)
i=1

o xi = (xi1 , xi1 , . . . , xik )> contient les valeurs des caractristiques de


lindividu i mesures sur les k explicatives du modle, et M i (t) la valeur
estime du rsidu de martingale pour cet individu au temps t dont les
lments standardiss sont donns par :
h i1/2
c j = I1 ()
U jj U j (t), j = 1, . . . , k (4.57)

Sous lhypothse nulle de validit de lhypothse PH, ces processus


standardises peuvent tre approxims par des processus gaussiens
centrs U c j , j = 1, . . . , k. Lide est de comparer la trajectoire observe sur

les Uc j un certain nombre de trajectoires simules U c j . Sous H0=validit
de lhypothse PH, la trajectoire observe doit se fondre dans les
trajectoires simules. Comme dans lors de ltude de spcification discut
prcdemment, linformation visuelle est conforte par un test de type KS
tel quun significance level infrieur au seuil de risque choisit doit
conduire au rejet de lhypothse PH.
Ces graphes et tests sont raliss pour chacune des variables explicatives
via la commande ASSESS dans laquelle il faut simplement faire apparatre
le mot clef PH pour que ce soit cette hypoths PH qui fasse lobjet de la
commande.
Pour illustrer la dmarche, nous allons reconsidrer lhypothse PH sur
toutes les explicatives du dernier programme. Il suffit donc de lui ajouter
4.6. TESTS DE VALIDATION 161

Figure 4.12 Commande ASSESS, Test hypothse PH - variable age

Figure 4.13 Commande ASSESS, Test hypothse PH - variable NDRUGTX

la ligne

assess ph / npaths=40 resample;

On rcupre les graphes 4.12, 4.13, 4.14 et 4.15, dans chacun desquels 40
trajectoires simules sont reprsentes en plus de lobserve, ainsi que le
test KS gnr par loption resample. En ce qui concerne ce dernier, la
table rcapitulative 4.14 est galement fournie. On constate que cette
mthode ne remet pas en cause lhypothse de risques proportionnels sauf
pour la variable relative la dure du traitement, confirmant ainsi un
rsultat antrieur (Cf. table 4.13) obtenu laide de la prise en compte
dinteractions avec les dures.
162 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

Figure 4.14 Commande ASSESS, Test hypothse PH - modalit long de


la variable Treat
H

Figure 4.15 Commande ASSESS, Test hypothse PH - modalit B de la


variable Site

Table 4.14 Commande ASSESS - rcapitulatif des tests KS


4.7. LA SLECTION AUTOMATIQUE DES VARIABLES EXPLICATIVES 163

4.7 La slection automatique des variables


explicatives
Avec PHREG il est possible de slectionner automatiquement les variables
explicatives retenir dans lestimation finale du modle parmi une liste de
variables candidates. Si cette particularit semble intressante pour
construire rapidement le modle final, il faut toujours avoir lesprit ses
insuffisances. La plus importante est labsence complte de rfrence la
thorie dans le choix du modle retenu. Linterprtation des rsultats
obtenus peut donc savrer particulirement dlicate puisque seules les
proprits statistiques des observations sont utilises. Par ailleurs rien
nassure la robustesse du modle slectionn : il suffit de changer
dchantillon pour quventuellement la liste des explicatives retenues soit
compltement bouleverse. Au minimum il est donc utile que les variables
candidates aient elles-mmes fait lobjet dune slection fonde
thoriquement.
Pour autant ces mthodes ne manquent pas compltement dintrt.
Supposons que plusieurs variables soient en thorie a priori pertinentes
pour expliquer la fonction de risque mais quexistent entre elles de fortes
corrlations de sorte que lon ne puisse pas dterminer thoriquement
quel sous-ensemble suffit lexplication du phnomne et quelles
variables, conditionnellement la prsence dexplicatives dj retenues,
peuvent tre dlaisses. Dans ce cas de figure il ne semble pas
draisonnable de fonder le choix sur des techniques de slection
automatique. Il est cependant possible que diffrentes techniques
conduisent des slections diffrentes. PHREG en propose cinq dont
seulement quatre nous intressent ici puisque loption SELECTION=NONE,
qui est prise par dfaut, rclame lestimation du seul modle contenant la
totalit des explicatives spcifies par lutilisateur. Les quatre autres sont
FORWARD, BACKWARD, STEPWISE, et SCORE.

1. SELECTION=FORWARD : PHREG estime le modle avec


constante et les premires k0 explicatives de la liste de k variables,
o k0 est fix par loption START=k0 ou INCLUDE=k0 . Par dfaut
k0 = 0. Ensuite la procdure recherche parmi les variables restantes
la plus significative et lajoute au modle si son seuil de
significativit est infrieur au seuil fix par SLENTRY=. Une fois
entre dans le modle la variable nest jamais retire. La dmarche
est reprise avec le modle k0 + 1 explicatives. Elle sarrte lorsque
la plus significative des variables restantes a un seuil de
164 CHAPITRE 4. LAPPROCHE SEMI-PARAMTRIQUE

significativit suprieur la valeur exige par SLENTRY.


2. SELECTION=BACKWARD : la procdure estime le modle ayant
la totalit des explicatives (ou seulement les k0 premires si loption
START=k0 est utilise). A laide dun test de Wald, la moins
significative est retire ds lors que son seuil de significativit est
suprieur la valeur exige par SLSTAY=. La procdure arrte
lorsque plus aucune variable nest autorise sortir.
3. SELECTION=STEPWISE : la procdure sexcute comme avec
loption FORWARD la diffrence qune variable entre une
tape de la slection peut sortir du modle si une tape ultrieure,
et donc aprs prise en compte de nouvelles explicatives, son seuil
de significativit passe au-dessus de la valeur requise par SLSTAY.
4. SELECTION=SCORE. PHREG recherche pour un nombre
dexplicatives fix (par dfaut 1, puis 2, etc.) les "meilleurs" modles
au sens du test de Lagrange de nullit des coefficients. Les nombre
dexplicatives minimal et maximal sont grs respectivement par
les options START= et STOP= . Le nombre de "meilleurs" modles
est gr par loption BEST= . Par exemple, BEST=2 START=3,
STOP=5 recherche les 2 meilleurs modles dans la totalit des
modles possibles 3, puis 4, puis 5 explicatives prises parmi la
liste initiale k lments. Loption STOP grant la taille maximale
du modle peut tre utilise dans tous les modes de slection.