Cours de L'analyse de Survie

Cours de L’analyse de survie
Master II Actuariat
1 Introduction
L’analyse de survie est une branche des statistiques qui cherche à modéliser le
temps restant avant la mort pour des organismes biologiques (l’espérance de vie)
ou le temps restant avant l’échec ou la panne dans les systèmes arti…ciels, ce que
l’on représente graphiquement sous la forme d’une courbe de survie. On parle
aussi d’analyse de la …abilité en ingénierie, d’analyse de la durée en économie ou
d’analyse de l’histoire d’événements1 en sociologie. La représentation des don-
nées de survie se fait souvent sous la forme graphique d’une courbe de survie.
Plus généralement, l’analyse de survie implique la modélisation du facteur temps
dans la probabilité d’occurrence des événements, notamment grâce à des con-
cepts tels que le taux de défaillance instantané ou la loi de …abilité d’un système.
L’analyse de survie a été généralisée à la modélisation d’événements non pas
uniques mais récurrents dans le temps, comme peuvent l’être par exemple les
rechutes en cas de maladie, voire à des systèmes plus complexes encore soumis
à des risques multiples qui peuvent dépendre les uns des autres, etc.
La première méthode d’analyse de survie, la méthode actuarielle, est apparue
en 1912. Elle est utilisée dans le domaine médical pour la première fois en 1950.
La seconde méthode, dite de Kaplan-Meier, est apparue en 1958.
Buts d’une analyse de survie
Inférence statistique sur des délais de survie.
- Estimation et interprétation de fonction de survie.
- Comparaison de fonctions de survie.
- Etablissement d’une relation entre des covariables explicatives et des délais
de survie.
Remark 1 Quand le critère étudie est la survenue d’un évènement en tout ou

rien.
2 Donnée (délai, Temps) de survie (surviral time)

De…nition 2 Délai de survenue d’un évènement d’intéret (end-point), en tout
ou rien.
Tout délai entre deux dates d’intéret par exemple: décés.
Vivant ! décés
Example 3 - âge au diagnostic.

- Délai entre traitement et réponse.
- Intervalle libre sans maladée.
- Délai de rechute aprés rémission.
- Délai de survie aprés inclusion dans une étude clinique.
1
Probabilités
Soit T une variable aléatoire continue
Quelques paricticularités de T
- T > 0 positive.
- La loi de probabilité non symétrique mais asymétrique à droite.
- Parfois non observée (cencurée).
Conséquence
On peut suposer que les données de survie gaussiennes.
Soit en utilisant transformation (exemple log(T )), ou utiliser une loi de prob-
abilité mieu adaptée.
2.1 Densité de probabilité

De…nition 4 Si T une variable aléatoire continue,
P [t T < t + st]
f (t) = lim
st!0 st
Si T une variable aléatoire discret,
f (t) = P [T = t]
2.2 Fonction de répartition

De…nition 5 Réprésente la fraction d’individus ayant présenté l’évènement avant
ou en t (Distribution fonction)
Z t
F (t) = p [T t] = f (u)du
0
2.3 Fonction de survie

De…nition 6 Représente la fraction d’individus en core en vie en t (survivor
function)
S(t) = 1 F (t) = P [T > t]
2.4 Fonction de risque instantané (force de mortalité, fonc-

tion de hasard)
De…nition 7 Si T une variable aléatoire continue: densité conditionnelle
P [t T t + stnT t]
h(t) = lim
st!0 st
Si T une variable aléatoire discret,
h(t) = P [T = tnT t]
2
2.5 Fonction de risque cumulé
De…nition 8 Z t
H(t) = h(u)du
0
2.6 Relation entre les cinq fonctions

- F 0 (t) = f (t) = S 0 (t)
- S(t) = 1 F (t)
f (t)
- h(t) = S(t)
- H(t) = ln(S(t))
3 Quelques quantités associées à la loi de survie

3.1 Les quantités de la durée de survie
Pour 0 < p < 1, on dé…nit le quantile tp et la fonction q(p); p 2 (0; 1) comme
tp q(p) = infft : F (t) pg
Quand F (t) est strictement croissant et continu alors,
tp = q(p) = F 0 (p); 0<p<1
3.2 Moyenne et variance de la durée de survie

Le temps moyen de survie E(X) ainsi que sa variance V ar (X) sont des quantités
importantes Z 1
E(X) = S(t)dt
0
Z 1
V ar(X) = 2 tS(t)dt (E(X))2
0
4 Modèles paramétriques
4.1 Modèle exponentiel
La fonction de risque instantané
h (t) =
La fonction de survie
Z t
S(t) = expf H(t)g = exp du = exp( t)
0
3
Densité
1
f (t) = h(t) S(t) = exp( t); E(T ) =
Pieme percentile
F (tp ) = p = 1 expf tp g
ln(1 p) = tp
ln(1 p)
) tp = 0<p<1
4.2 Modèle exponentiel linéaire

Fonction de risque instantané:
h(t) = + t
(TD, trouver les autres fonctions)

Il existe d’autres modèles à savoir:
4.3 Modèle de Gompertz

h(t) = exp( + t)
4.4 Modèle de Weibull (1939)

1
h(t) = ( t)
4.5 Modèle lognormal

2
On dit que T log normal si log(T ) N( ; )
Fonction de survie
at
S(t) = 1 G log
où a = exp( ); G(y) est la fonction de répartition d’une loi normale standard.
4.6 Modèle log logistique

On dit que T log logistique si T est logistique la fonction de survie
1
S(t) =
1 + ( t)p
4
5 Censure
De…nition 9 La délai d’évènement (exact) n’est pas toujours observé.
5.1 Censure à droite

Non observation de l’évènement sur la période de suivi T > c:
5.2 Censure à gauche

Non connaissance de la date d’évènement T < c (déja survenu lors l’observation).
5.3 Censure par intervalle

évènement survenu entre 2 dates C1 < T < C2
5.4 Censure à droite

Le processus d’évènement de l’individu i n’est observé que sur un sous ensemble
Ei de la forme [0; Ci ], la plus fréqente (T > c), de 3 types:
- Fixé (Type I)
- Séquentielle (Type II)
- Aléatoire (Type III)
5.5 Censure à droite …xé

De…nition 10 Durée d’observation …xée à l’avance, identique pour tous les
malades.
Données Soit fXi ; i ; i = 1; :::; N g où Xi = min(Ti ; ); i = 1fTi = g :

- Si les sujets sous évènement en …n d’observation, temps de censure Ci = :
- Interêt: études d’exprémentation animale.
5.6 Censure à droite séquentielle

De…nition 11 Interuption du suivi aprés r (…xé apriori) évènements, revient
à …xer la proportion d’observation censurées à l’avance.
Données Soit fXi ; i ; i = 1; :::; N g où Xi = min fTi ; T r g ; i = 1fTi T rg

- Intérêt: études de …abilité de matériel.
5.7 Censure à droite aléatoire

De…nition 12 Temps de censure aléatoire
Données Soit fXi ; i ; i = 1; :::; N g où Xi = min (Ti ; Ci ) ; i = 1fTi Ci g

Par exemple: essai thérapeutique.
5
Example 13 Censure à droite: Au moment t, on sait que l’évènement s’est
produit, mais on ne sait pas quand exactement
HDM Vrais début AEG Consultation d’ecouverte temps
du maladie de la maladie
# # #
!
Date origine
Date de l’origine de la survie étudiée.
Date dernières nouvelles
Date la plus récente où on a recueille les renseignements concernant l’état
du sujet.
Date de point
Date à laquelle on a décidé d’analyser les résultats de l’étude.
Durée de surveillance
Délai entre date d’origine et date dernières nouvelles.
Observation censurée
Non évènement à la date de point.
6 Troncature
Si un concept di¤érent de la censure.
Censure: observation incomplète d’une population entière.
Toncature: observation complète d’une population incomplète.
Remark 14 Troncature à gauche plus simple à manipuler que troncature à

droite.
7 Modèle statistique paramétrique

7.1 Estimation en observe de censure
Soient n délais de survie indépendants T1 ; :::; Tn où le modèle statistique est
(Rn ; ffT; g ; 2 )
Example 15 (d’application)
Modèle exponentiel
(Rn ; f exp ( t)g ; 2 )
La fonction de vraisemblance
n
T1 ;:::;Tn ( ) = i=1 exp ( Ti )
n
!
X
n
= exp Ti
i=1
6
donc
n
X
Ti
log T1 ;:::;Tn ( ) = ln e
i=1
n
X
= n ln ( ) Ti
i=1
Alors l’estimateur du maximum de vraissemblance b de qui rend maximum

de la fonction de ln-vraissemblance.
On résoud donc en
( @ ln ( Pn
T1 ;:::;Tn ( ) n
@ =0 i=1 Ti = 0
@ 2 ln T1 ;:::;Tn (b)
, @ 2 ln T1 ;:::;Tn ( )
2 <0 @ 2
= n2
@
P b)
@ 2 ln T1 ;:::;Tn (
On trouve b = n
Ti
= T et @ 2
= n
2 < 0 ) b est E.M.V de
T
:
7.2 Intervalle de con…ance

Pour = 5%;
" r r #
2 b Z1 2
V b ; b + Z1 2
V b
Remark 16 On trouve la même chose pour un modèle paramétrique en présence

de censure aléatoire non informative.
8 Modèle non paramétrique

8.1 Estimation en observe de censure
Soit (Rn ; ffT; g ; 2 )
- Aucune hypothèse sur forme de h (t) :
- Estimateur de F (t) : fonction de répartition empirique des Ti ;
n
1X
Fb(t) = 1fTi tg
n i=1
fonction en exalier monotone croissante de 0 à 1:

- Estimateur de S(t) = 1 F (t);
X n
b = 1
S(t) 1fTi >tg
n i=1
fonction en exalier monotone decroissante de 1 à 0:
7
Example 17 Survie aprés ostéosarcome avec métastases pulmonaires n = 11
sujets.
Tous décédés sur la période de survi (pas censure).
Temps de décés observés 11; 13; 13; 13; 13; 13; 14; 14; 15; 15; 17:
Temps 11 13 14 15 17
E¤ ectif 1 5 2 2 1
b = 1 Pn 1fT >tg
Estimateur de S(t) = 1 F (t) : S(t) n i=1 i
Temps nombre décés nombre décés cumulés S(t) b

11
0 0 0 11 = 1
11 1
11 1 1 11 = 0:909
13 5 6 0:455
14 2 8 0:273
15 2 10 0:091
17 1 11 0
8.2 Estimateur en présence de censure

Soient n délais de survie indépends T1 ; :::; Tn :
n délai de censure indépendants C1 ; :::; Cn :
n observations indépendants (Xi ; i ) ; i = 1; :::; n; où Xi =
min (Ti ; Ci ) :
n indicateurs de censure i = 1fXi Ci g = 1fXi =Ti g ; i = 1; :::; n:
Censure aléatoire
Modèle partiel
Identi…er conditions minimales pour le mécanisme de censure qui permettent
une inférence correcte pour les délais de survies:
- Concept statistique de censure non informative.
- Concept probabiliste de censure indépend.
8.2.1 Modèle actuarielle (life table estimale) (Bohner 1912)

Pricipale: On divise la période d’observation en n intervalles de temps (non
nécessairement égaux), t0j ; t0j+1 :
On note dj et Cj , les nombres respectivement de décés et de censures sur
t0j ; t0j+1 :
On note nj , le nombre d’individus à risque au début de t0j ; t0j+1 :
On suppose la censure distribée de façon uniforme sur l’intervalle d’où ou
début de nombre d’individus à risque sur t0j ; t0j+1 :
Cj
n0j = nj
2
On en déduit l’estimateur de S(t) :
n0j dj
S (t) = j=1;:::;k
n0j
8
avec t0k t t0k+1 ; k = 1; :::; n:
Etude de survie aprés myélome multiple n = 48
n0j dj
Intervalle t0j dj Cj nj n0j n0j S (t)
1 0 16 4 48 46 0:6522 0:6522
2 12 10 4 28 26 0:6154 0:4013
3 24 1 0 14 14 0:9286 0:3727
4 36 3 1 13 12:5 0:7600 0:2832
5 48 2 2 9 8 0:7500 0:2124
6 60 4 1 5 4:5 0:1111 0:0236
T otal 36 12
Programation R
R: KMsurv package
- tis <- c(0,12,24,36,48,60,NA)
- nsubs <- c(48,28,14,13,9,5)
- nlost <- c(4,4,0,1,2,1)
- nevent <- c(16,10,1,3,2,4)
- lifetab(tis,nsubs[1],nlost,nevent)
9 Estimation non paramétrique de h(t) (Méth-

ode actuarielle)
On peut estimer h(t) en utilisant la méthode actuarielle
d
h (t) = 0 dj j ; où j = t0j+1 t0j est la longuer de l’intervalle.
nj 2 j
10 Intérêts et limites
La méthode actuarielle est adaptée aux situations de données censures par in-
tervalle.
- On a une perte d’information si les données censurées à droite, surtout
lorsque le nombre de sujets est faible (en pratique < 30).
- Cette méthode est simple notament en présence d’un échontillion de trés
grande taille.
9
11 Estimateur de Nelson-Aalen du taux de hasard
cumulé
11.1 Présentation générale
Le fait que Z t
1
M (t) = N (t) R(u)h(u)du
0
1 Rt
soit une martingale suggère de proposer N (t) comme estimateur de 0 R(u)h(u)du:
R t 1R(u)>0
Mais alors le processus 0 R(u) dM (u) est également une martingale, et on
a par construction de M :
Z t1 Z t1 Z t
R(u)>0 R(u)>0
dM (u) = dN 1 (u) h(u)du
0 R(u) 0 R(u) 0
Z t1
R(u)>0
= dN 1 (u) H(t)
0 R(u)
Rt 1
b
Ainsi H(t) = 0 R(u)>0 dN 1 (u) est un estimateur naturel de H:
R(u)
Cet estimateur s’appelle l’estimateur de Nelson-Aalen. Il a été proposé
initialement par NELSON (1972). On peut en donner une autre justi…ca-
tion, en remarquant que la fonction de hasard cumulé véri…e, par construction
H(u+du) H(u) t h(u)du;et h(u)du = P [sortie entre u et u+du = en vie en u]:
Un estimateur naturel de cette quantité est donc
1 1 1
N (u + du) N (u) dN (u)
=
R(u) R(u)
si R(u) > 0; de sorte qu’en sommant sur un décompage de [0; t] su¢ sament …n
pour chaque subdivision contienne au plus un saut on obtient
Z t1
b R(u)>0
H(t) = dN 1 (u) (*)
0 R(u)
Rt
avec N 1 (t) = 0 C(u)dN (u); C(u) = 1[0;C[ (u) et N (u) processus ponctuels
par exemple N (u) = 1X<u :
On peut mettre la formule ( ) sous la forme suivant:
X N (Ti )
b
H(t) =
fi=Ti tg
R(Ti )
En posant dt = N (t) le nombre de décés en t et r(t) = R(t) l’e¤ectif sous

risque juste avant t; on peut ainsi réecrire l’équation ci-dessus sous la forme
intuitive suivant:
10
X d(Ti ) X di
b
H(t) = =
r(Ti ) n i+1
fi=Ti tg Ti t
Proposition 19 On peut écrire que
b (t)
E H H (t)
Proof. En e¤et,
Z t 1R(u)>0
b (t) =
H dM (u) + R(u)h(u)du
0 R(u)
car Z t
1
N (t) = M (t) + R(u)h(u)du
0
Comme M est une martingale, il vient en prenant l’espérence des deux mem-
bres de l’équation ci-dessus
Z t 1R(u)>0
b (t)
E H = E dM (u) + R(u)h(u)du
0 R(u)
Z t 1R(u)>0
= E dM (u) + R(u)h(u)du
0 R(u)
= E 1R(u)>0 h(u)du
Mais
E 1R(u)>0 = P R(u) > 0 = 1 P R(u) = 0
donc
Z t Z t
b (t)
E H = h(u)du P R(u) = 0 h(u)du
0 0
Z t
= H(t) P R(u) = 0 h(u)du
0
On a ainsi etabli que
^ (t)
E H H (t) c:f:d
11
11.2 Variance de l’estimateur de Nelson-Aalen
Il résulte l’àpproximation e¤ectuée à la section précédente que l’accroissement
1
du processus N (t) entre t et t + u suit approximativement une loi de poisson
de paramètre Z t+u
R(s)h(s)ds t R(t)h(t)u
t
on en déduit que, conditionnellement à
" 1 1
#
N (t + u) N (u) h(t)u
R(t); V ar t
R(u) R(t)
b
qui conduit …nalement à proposer comme estimateur de la variance de H:
1
X N (Ti )
b (t) =
Vb H
fi=Ti tg
R(Ti )2
qui peut écrire avec les notations simpli…ées

X d(Ti )
b (t) =
Vb H 2
fi=Ti tg
(n i + 1)
Example 20 Freireich, en 1963; a fait un essai thérapentique pour comparerles

durées de rémission, en se maines, de patients, de lencémie selon qu’ils ont reçu
ou non un médicament appelé 6MP, le groupe ténion à reçu un placebo. Les
résultats obtenus sont les suivants:
6MP: 6; 6; 6; 6+ ; 7; 9+ ; 10; 10+ ; 11+ ; 13; 16; 17+ ; 19+ ; 20+ ; 22; 23; 25+ ; 32+ ; 32+ ; 34+ ; 35+ :
Placebo: 1; 1; 2; 2; 3; 4; 4; 5; 5; 8; 8; 8; 8; 11; 11; 12; 12; 15; 17; 22; 23.
Les nombres suivis de signe (+) correspondent à des données censurés:
Rechutes ti ri di di Hb (t) d2i V H b (t)
ri ri
1 2 3 6 21 3 0:143 0:143 0:007 0:007
5 7 17 1 0:059 0:202 0:003 0:010
7 10 15 1 0:067 0:268 0:004 0:008
10 13 12 1 0:083 0:352 0:007 0:011
11 16 11 1 0:091 0:443 0:008 0:015
15 22 7 1 0:143 0:585 0:020 0:029
16 23 6 1 0:167 0:752 0:028 0:048
Le groupe traité avec 6MP
12
Rechutes ti ri di di b (t)
H di b (t)
V H
ri ri2
1 2 1 21 2 0:095 0:095 0:005 0:005
3 4 2 19 2 0:105 0:201 0:006 0:010
5 3 17 1 0:059 0:259 0:003 0:014
6 7 4 16 2 0:125 0:384 0:008 0:021
8 9 5 14 2 0:143 0:527 0:010 0:032
10 ! 13 8 12 4 0:333 0:861 0:028 0:059
14 15 11 8 2 0:250 1:111 0:031 0:091
16 17 12 6 2 0:333 1:444 0:056 0:146
18 15 4 1 0:250 1:694 0:063 0:209
19 17 3 1 0:333 2:027 0:111 0:320
20 22 2 1 0:500 2:527 0:250 0:570
21 23 1 1 1:000 3:527 1:000 1:570
Le groupe traité avec le placebo
Conclusion 21 On constat notament que le taux de hasard cumulé H(t) des

groupes traité est sensiblement supèrieure a celui du groupe non traité ce qui
losse supposer une certaine e¢ cacité du traitement.
12 Estimateur de Kaplan-Meier de fonction de

survie
On peut remarqué que l’estimateur de Nelson-Aalen de taux de hasard cumulé
fournit un estimateur naturel de la fonction de survie en exploitant la relation
S(t) = exp ( H (t))
On est ainsi conduit à propré comme estimateur de la fonction de survie
b = exp
S(t) b (t)
H
cet estimateur est connu sous la non d’estimateur de Harrington et Fleming. Sa

variance peut être obtenue grâce à la méthode delta détaillé ci-aprés.
La méthode delta consiste à remarque que, si une variable aléatoire X est
proche de + Z avec petit et Z centrée réduite, pour une fonction x ! f (x)
se¢ sament régulière, en e¤ectuant le développement limité
df ( )
f ( + h) t f ( ) + h
dx
on trouve que
2
df (u) 2 df (u)
V ar (f (X)) t V ar f ( ) + Z =
dx dx
avec Z N (0; 1)
13
Cette méthode nous permet d’obtenir un estimateur de la variance de cet
estimateur.
Ici, en prenant f (x) = e x ; ona
V Sb = Sb2 V H
b
ce qui conduit à
2 3
X d (ti ) 5 X d (ti )
Vb Sb (t) = exp 4 2 2
n i+1 (n i + 1)
i=ti t i=t ti
toute fois, cet estimateur peut être amélioré, ce qui amène à introduire
l’estimateur se Kaplan-Meier.
12.1 Présentation générale

L’estimateur de Kaplan-Meier (1958) peut également être introduit via les proces-
sus ponctuels, en remarquant que la fonction de survie de base du modèle est
l’unique solution de l’équation intégrale suivant
Z t
S (t) = 1 S u h (u) du
0
1
En remplaçant h (u) du par son estimateur dN (u)
R(u)
introduit à la section
précédente. Dans ce cas, on peut proposer un estimateur de la fonction de
survie
Z t 1
dN (u)
Sb (t) = 1 Sb u
0 R (u)
A l’aide de l’estimateur de Nelson- Aalen on a:
Sb (t) = s<t 1 b (s)

sH
où sHb (s) = Hb (s) H b (s )

L’estimteur de Kaplan-Meier s’apprie sur la remarque suivante: la probabil-
ité de survie on déla de t > s peut s’écrire:
S (t) = P [T > t = T > s] P [T > s] = P [T > t = T > s] S (s)
posons
Pi = P T > T(i) = T > T(i 1)
est la probabilité de survie sur l’intervalle T(i) ; T(i 1) par rapport qu’on était
vivant à l’instant T(i 1) un estimateur naturel de qi = 1 pi est qbi = drii = n di+1
i
…nalement, l’estimateur de Kaplan-Meier s’écrit:

D(i)
1
Sb (t) = ti t 1
n i+1
14
absence d’exaequo.
On obtient l’expression suivant de l’estimateur
di
Sb (t) = ti t 1 D(i) = 1
ri
Remark 22 1- Si D(i) = 1, alors il y a sortie par décés donc di = 1 et dans le

cas contraire l’observation est censuré et di = 0 (présence d’exaequo).
2- On utilise la version continue à droite de la fonction de survie. Dans
ce cas, l’expression ci-dessus reste valable en remplaçant le terme T(i) t par
T(i) < t:
Example 23 (Dnnées de Freireich)

On compare les résultats obtenus par les méthodes de Kaplan-Meier et de
Nelson-Aalen.
Rechutes ti ri di drii Hb N A (t) SbKM (t) ln SbKM (t)
1 2 3 6 21 3 0:143 0:143 0:857 0:154
5 7 17 1 0:059 0:202 0:807 0:215
7 10 15 1 0:067 0:268 0:753 0:284
10 13 12 1 0:083 0:352 0:690 0:371
11 16 11 1 0:091 0:443 0:627 0:466
15 22 7 1 0:143 0:585 0:538 0:620
16 23 6 1 0:167 0:752 0:448 0:803
On constate que:
- le taux de Hasard cumulé obtenu par la méthode de Kaplan-Meier est
supérieure aux taux de Hasard cumulé obtenu de l’estimateur de Nelson-Aalen
b KM (t) > H
H b N A (t)
- Si on utilise l’estimateur de Harringtion et Flemming de la fonction de

survie
Sb (t) = exp b N A (t)
H
on trouve de même qu’il est systématiquement supérieure à l’estimateur de

Kaplan-Meier.
SbN A (t) > SbKM (t)
Remark 24 Le choix de l’estimateur reste relatif et d’aprés le contexte. Mais,

quelques auteurs favorisent l”estimateur de Kaplan-Meier car il a des bannes
propriétés.
12.2 Variance de l’estimateur de Kaplan-Meier

L’expression
di
Sb (t) = Ti t 1
ri
15
permet d’écrire:
X di X
ln Sb (t) = ln 1 = ln (1 qbi )
ri
Tii t Ti t
Si on suppose en 1er approximation l’indépendance des variables ln (1 qbi ) ; comme

la loi de ri qbi est binomiale de paramètres (ri ; pbi ) ; on a par la méthode delta
(Green-Wood)
2
d ln (b
pi ) qbi
V (ln pbi ) t V (b
pi ) =
dp ri (1 qbi )
Ce qui contuit à proposer comme estimateur de la variance de ln Sb (t) :
X qi X di
Vb ln Sb (t) = =
ri (1 qbi ) ri (ri di )
Ti <t Ti t
En applicant la méthode delta, à la fonction logariyme, on obtient …nalement

h i2 X di
Vb Sb (t) = Sb (t)
ri (ri di )
Ti t
Cet estimateur est l’estimateur de Green-Wood.
13 Comparaison d’echantillons
13.1 Approche non paramétrique
On se place dans la situation où l’on souhaite comparer les durées de vie re-
spectives de deux échantillons indépendants. Plus précisement, on dispose de
deux échantillons indépendants, éventuellement censurés, et l’on souhaite tester
l’hypothèse nulle d’égalité des fonctions de survie des deux échantillons.
En l’absence de censure, on dispose des classiques testes de Rang (Test de
Wilcoxon, test de Savaye), que l’on va adapter à la présence de censure.
Rappel: (Principe des tests de Rang)
On dispose de deux séries d’observations E1 et E2 ; de tailles respectives
n1 et n2 . On note n = n1 + n2 et l’on range la séquence des valeurs ob-
servées (x1 ; :::; xn ) par order croissant x1 < ::: < xn :Le principe d’une statistique
linéaire de Rang est d’arttibeur une pondération (unscore) i à l’observation xi
de rang i dans le classement commun des deux Péchantillons. P
On construit alors deux statistiques: R1 = i2E1 i et R2 = i2E2 i :Comme
Pn
R1 + R2 = i=1 i et comme et déterministe, il est indi¤érent de travailler sur
l’une on l’autre des deux statistiques, en pratique on retient celle associée à
l’échantillon le plus petit.
E n choisissant i = i; on obtient lePtest de Wilcoxon le test de Savage est
n 1
quant à lui associé aux choix i = 1 j=1 n j+1 :
16
13.2 Adaptation des tests de Rang au cas censuré
L’adaptation des tests précédentss au cas censuré conduit à introduire la suite
ordonnée des instants de décés observés (non censurés) dans l’échantillon comme
que l’on notera t1 < ::: < tN . A chaque instant ti on désigne dij le nombre de
décés et rij l’e¤ectif sans risque dans le rgoupe j. L’e¤ectif sans risque est calculé
avant les sorties ti , de sorte que les vivants aprés ti sont en nombre rij dij .
On peut synthétiser cela dans le tableau suivant:
Décés en ti survivants aprés ti Total
Groupe1 di1 ni1 di1 ni1
Groupe2 di2 ni2 di2 ni2
Groupe3 di ni d i ni
Sous l’hypothèse nulle d’égalité des distributions de survie dans les deux
groupes, à chaque instant ou doit avoir égalité des proportions, des décés dans
les deux groupes. La variable aléatoire dij est distribuée selon une loi hyper-
nij
géométrique H ni ; di ; ni ; puisque l’on compte le nombre de décés dans le
groupe nj choisis parmi les dj décés totaux, la probabilité d’appartenance en
n
groupe nj etant p = niji et la taille de la population étant nj :
donc
dj nij
E (dij ) =
nj
et
(nj dj ) ni1 ni2
V (dij ) = dj
(ni 1) n2i
Ces observations conduisent à construire des statistique fondées sur des
sommes pondérés des dij E (dij ) ; qui sont asymptotiquement gaussiennes.
Entrotant par (wi ) les pondérations retenues, on utilise …nalement des statis-
tiques de la forme:
hP i2
N nij
i=1 wi dij dj nj 2
'j = PN (# = 1)
2 (ni di )ni1 ni2
i=1 wi di (nj 1)n2 i
dégré de liberté = 1 loi de khi-deux.

On notera:
XN
2 (ni di ) ni1 ni2
= wi2 di
i=1
(nj 1) n2i
13.3 Test du long-Rank

Pour simpli…e la tâche on choisit wi = 1; il conduit au test dit du “long Rank”.
Dans ce cas, le numérateur de la statistique de test 'i est le carré de la di¤érence
entre le nombre de décés observés et le nombre de décés.
17
Théoriques, sous l’hypothèse nulle (H0 ) : SG1 (t) = SG2 (t)
2
Djth Djobs
'j = 2
Ce test généralise au cas de données le test de savage. On peut noter que

sous l’hypothèse nulle
D1obs + D2obs = D1th + D2th
La statistique suggéré est:
2
D1th D1obs D2th D2obs
'= + (# = 1)
D1th D2th
13.4 Test de Gehan

Gehan propose de retenir wi = ni :
On utilise le données de Freireiclu:
6M P (G1 ) Placebo(G2 ) Total
Durée ni1 ai1 ni2 ai2 ni d i
1 21 0 21 2 42 2
2 21 0 19 2 40 2
::: ::: ::: ::: ::: ::: :::
22 7 1 2 1 9 2
23 6 1 1 1 2
On obtient les résultats dans le tableau ci-aprés:
Testlong-Rang Test Gehan
Durée pondération coe¢ cient variance pondération coe¢ cient variance
1 1 1:00 0:49 42 42:00 860:49
2 1 1:05 0:49 40 42:00 777:54
::: ::: ::: ::: ::: ::: :::
22 1 0:56 0:30 9 5:00 24:50
23 1 0:71 0:20 7 5:00 10:00
' = 16:79 ' = 13:46
Pour = 5% 2 (1; 0:05) = 3:84; alors 'obs > 'tablee , On rejette l’hypothèse
(H0 ) :
Ce qui con…rme le comportement di¤ érent des deux groupes.
Références
References
[1] David Collett. Modelling Survival Data in Medical Research, Second Edition.
Boca Raton: Chapman & Hall/CRC. 2003. (ISBN 978-1-58488-325-8)
18
[2] Regina Elandt-Johnson and Norman Johnson. Survival Models and Data
Analysis. New York: John Wiley & Sons. 1980/1999.
[3] Jerald F. Lawless. Statistical Models and Methods for Lifetime Data, 2nd
edition. John Wiley and Sons, Hoboken. 2003.
[4] Terry Therneau. "A Package for Survival Analysis in S".

http://www.mayo.edu/hsr/people/therneau/survival.ps
[5] "Engineering Statistics Handbook", NIST/SEMATEK,
itl.nist.gov Survival Analysis - Commercial Usage
http://www.discover-right.com/images/survival_analysis_-
_understanding_and_implementation.pdf [archive]
[6] Rausand, M. and Hoyland, A. System Reliability Theory: Models, Statistical
Methods, and Applications, John Wiley & Sons, Hoboken, 2004.
[7] Richards, S. J. A handbook of parametric survival models for actuarial use.
Scandinavian Actuarial Journal informaworld.com
19

Cours de L'analyse de Survie

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de L'analyse de Survie

Transféré par

Droits d'auteur :

Formats disponibles

Cours de L’analyse de survie

Remark 1 Quand le critère étudie est la survenue d’un évènement en tout ou

2 Donnée (délai, Temps) de survie (surviral time)

Example 3 - âge au diagnostic.

2.1 Densité de probabilité

2.2 Fonction de répartition

2.3 Fonction de survie

2.4 Fonction de risque instantané (force de mortalité, fonc-

2.6 Relation entre les cinq fonctions

3 Quelques quantités associées à la loi de survie

tp q(p) = infft : F (t) pg

Quand F (t) est strictement croissant et continu alors,

tp = q(p) = F 0 (p); 0<p<1

3.2 Moyenne et variance de la durée de survie

4.2 Modèle exponentiel linéaire

(TD, trouver les autres fonctions)

4.3 Modèle de Gompertz

4.4 Modèle de Weibull (1939)

4.5 Modèle lognormal

où a = exp( ); G(y) est la fonction de répartition d’une loi normale standard.

4.6 Modèle log logistique

5.1 Censure à droite

5.2 Censure à gauche

5.3 Censure par intervalle

5.4 Censure à droite

5.5 Censure à droite …xé

Données Soit fXi ; i ; i = 1; :::; N g où Xi = min(Ti ; ); i = 1fTi = g :

5.6 Censure à droite séquentielle

Données Soit fXi ; i ; i = 1; :::; N g où Xi = min fTi ; T r g ; i = 1fTi T rg

5.7 Censure à droite aléatoire

Données Soit fXi ; i ; i = 1; :::; N g où Xi = min (Ti ; Ci ) ; i = 1fTi Ci g

Remark 14 Troncature à gauche plus simple à manipuler que troncature à

7 Modèle statistique paramétrique

(Rn ; f exp ( t)g ; 2 )

Alors l’estimateur du maximum de vraissemblance b de qui rend maximum

7.2 Intervalle de con…ance

Remark 16 On trouve la même chose pour un modèle paramétrique en présence

8 Modèle non paramétrique

fonction en exalier monotone croissante de 0 à 1:

fonction en exalier monotone decroissante de 1 à 0:

Temps nombre décés nombre décés cumulés S(t) b

8.2 Estimateur en présence de censure

8.2.1 Modèle actuarielle (life table estimale) (Bohner 1912)

9 Estimation non paramétrique de h(t) (Méth-

En posant dt = N (t) le nombre de décés en t et r(t) = R(t) l’e¤ectif sous

Proposition 19 On peut écrire que

On a ainsi etabli que

qui peut écrire avec les notations simpli…ées

Example 20 Freireich, en 1963; a fait un essai thérapentique pour comparerles

Conclusion 21 On constat notament que le taux de hasard cumulé H(t) des

12 Estimateur de Kaplan-Meier de fonction de

S(t) = exp ( H (t))

On est ainsi conduit à propré comme estimateur de la fonction de survie

cet estimateur est connu sous la non d’estimateur de Harrington et Fleming. Sa

12.1 Présentation générale

Sb (t) = s<t 1 b (s)

où sHb (s) = Hb (s) H b (s )

S (t) = P [T > t = T > s] P [T > s] = P [T > t = T > s] S (s)

…nalement, l’estimateur de Kaplan-Meier s’écrit:

Remark 22 1- Si D(i) = 1, alors il y a sortie par décés donc di = 1 et dans le

Example 23 (Dnnées de Freireich)

- Si on utilise l’estimateur de Harringtion et Flemming de la fonction de

on trouve de même qu’il est systématiquement supérieure à l’estimateur de