Académique Documents
Professionnel Documents
Culture Documents
Master II Actuariat
1 Introduction
L’analyse de survie est une branche des statistiques qui cherche à modéliser le
temps restant avant la mort pour des organismes biologiques (l’espérance de vie)
ou le temps restant avant l’échec ou la panne dans les systèmes arti…ciels, ce que
l’on représente graphiquement sous la forme d’une courbe de survie. On parle
aussi d’analyse de la …abilité en ingénierie, d’analyse de la durée en économie ou
d’analyse de l’histoire d’événements1 en sociologie. La représentation des don-
nées de survie se fait souvent sous la forme graphique d’une courbe de survie.
Plus généralement, l’analyse de survie implique la modélisation du facteur temps
dans la probabilité d’occurrence des événements, notamment grâce à des con-
cepts tels que le taux de défaillance instantané ou la loi de …abilité d’un système.
L’analyse de survie a été généralisée à la modélisation d’événements non pas
uniques mais récurrents dans le temps, comme peuvent l’être par exemple les
rechutes en cas de maladie, voire à des systèmes plus complexes encore soumis
à des risques multiples qui peuvent dépendre les uns des autres, etc.
La première méthode d’analyse de survie, la méthode actuarielle, est apparue
en 1912. Elle est utilisée dans le domaine médical pour la première fois en 1950.
La seconde méthode, dite de Kaplan-Meier, est apparue en 1958.
Buts d’une analyse de survie
Inférence statistique sur des délais de survie.
- Estimation et interprétation de fonction de survie.
- Comparaison de fonctions de survie.
- Etablissement d’une relation entre des covariables explicatives et des délais
de survie.
1
Probabilités
Soit T une variable aléatoire continue
Quelques paricticularités de T
- T > 0 positive.
- La loi de probabilité non symétrique mais asymétrique à droite.
- Parfois non observée (cencurée).
Conséquence
On peut suposer que les données de survie gaussiennes.
Soit en utilisant transformation (exemple log(T )), ou utiliser une loi de prob-
abilité mieu adaptée.
P [t T < t + st]
f (t) = lim
st!0 st
Si T une variable aléatoire discret,
f (t) = P [T = t]
h(t) = P [T = tnT t]
2
2.5 Fonction de risque cumulé
De…nition 8 Z t
H(t) = h(u)du
0
4 Modèles paramétriques
4.1 Modèle exponentiel
La fonction de risque instantané
h (t) =
La fonction de survie
Z t
S(t) = expf H(t)g = exp du = exp( t)
0
3
Densité
1
f (t) = h(t) S(t) = exp( t); E(T ) =
Pieme percentile
F (tp ) = p = 1 expf tp g
ln(1 p) = tp
ln(1 p)
) tp = 0<p<1
h(t) = + t
h(t) = exp( + t)
4
5 Censure
De…nition 9 La délai d’évènement (exact) n’est pas toujours observé.
5
Example 13 Censure à droite: Au moment t, on sait que l’évènement s’est
produit, mais on ne sait pas quand exactement
HDM Vrais début AEG Consultation d’ecouverte temps
du maladie de la maladie
# # #
!
Date origine
Date de l’origine de la survie étudiée.
Date dernières nouvelles
Date la plus récente où on a recueille les renseignements concernant l’état
du sujet.
Date de point
Date à laquelle on a décidé d’analyser les résultats de l’étude.
Durée de surveillance
Délai entre date d’origine et date dernières nouvelles.
Observation censurée
Non évènement à la date de point.
6 Troncature
Si un concept di¤érent de la censure.
Censure: observation incomplète d’une population entière.
Toncature: observation complète d’une population incomplète.
Example 15 (d’application)
Modèle exponentiel
La fonction de vraisemblance
n
T1 ;:::;Tn ( ) = i=1 exp ( Ti )
n
!
X
n
= exp Ti
i=1
6
donc
n
X
Ti
log T1 ;:::;Tn ( ) = ln e
i=1
n
X
= n ln ( ) Ti
i=1
7
Example 17 Survie aprés ostéosarcome avec métastases pulmonaires n = 11
sujets.
Tous décédés sur la période de survi (pas censure).
Temps de décés observés 11; 13; 13; 13; 13; 13; 14; 14; 15; 15; 17:
Temps 11 13 14 15 17
E¤ ectif 1 5 2 2 1
b = 1 Pn 1fT >tg
Estimateur de S(t) = 1 F (t) : S(t) n i=1 i
Cj
n0j = nj
2
On en déduit l’estimateur de S(t) :
n0j dj
S (t) = j=1;:::;k
n0j
8
avec t0k t t0k+1 ; k = 1; :::; n:
Example 18 (d’application)
Etude de survie aprés myélome multiple n = 48
n0j dj
Intervalle t0j dj Cj nj n0j n0j S (t)
1 0 16 4 48 46 0:6522 0:6522
2 12 10 4 28 26 0:6154 0:4013
3 24 1 0 14 14 0:9286 0:3727
4 36 3 1 13 12:5 0:7600 0:2832
5 48 2 2 9 8 0:7500 0:2124
6 60 4 1 5 4:5 0:1111 0:0236
T otal 36 12
Programation R
R: KMsurv package
- tis <- c(0,12,24,36,48,60,NA)
- nsubs <- c(48,28,14,13,9,5)
- nlost <- c(4,4,0,1,2,1)
- nevent <- c(16,10,1,3,2,4)
- lifetab(tis,nsubs[1],nlost,nevent)
10 Intérêts et limites
La méthode actuarielle est adaptée aux situations de données censures par in-
tervalle.
- On a une perte d’information si les données censurées à droite, surtout
lorsque le nombre de sujets est faible (en pratique < 30).
- Cette méthode est simple notament en présence d’un échontillion de trés
grande taille.
9
11 Estimateur de Nelson-Aalen du taux de hasard
cumulé
11.1 Présentation générale
Le fait que Z t
1
M (t) = N (t) R(u)h(u)du
0
1 Rt
soit une martingale suggère de proposer N (t) comme estimateur de 0 R(u)h(u)du:
R t 1R(u)>0
Mais alors le processus 0 R(u) dM (u) est également une martingale, et on
a par construction de M :
Z t1 Z t1 Z t
R(u)>0 R(u)>0
dM (u) = dN 1 (u) h(u)du
0 R(u) 0 R(u) 0
Z t1
R(u)>0
= dN 1 (u) H(t)
0 R(u)
Rt 1
b
Ainsi H(t) = 0 R(u)>0 dN 1 (u) est un estimateur naturel de H:
R(u)
Cet estimateur s’appelle l’estimateur de Nelson-Aalen. Il a été proposé
initialement par NELSON (1972). On peut en donner une autre justi…ca-
tion, en remarquant que la fonction de hasard cumulé véri…e, par construction
H(u+du) H(u) t h(u)du;et h(u)du = P [sortie entre u et u+du = en vie en u]:
Un estimateur naturel de cette quantité est donc
1 1 1
N (u + du) N (u) dN (u)
=
R(u) R(u)
si R(u) > 0; de sorte qu’en sommant sur un décompage de [0; t] su¢ sament …n
pour chaque subdivision contienne au plus un saut on obtient
Z t1
b R(u)>0
H(t) = dN 1 (u) (*)
0 R(u)
Rt
avec N 1 (t) = 0 C(u)dN (u); C(u) = 1[0;C[ (u) et N (u) processus ponctuels
par exemple N (u) = 1X<u :
On peut mettre la formule ( ) sous la forme suivant:
X N (Ti )
b
H(t) =
fi=Ti tg
R(Ti )
10
X d(Ti ) X di
b
H(t) = =
r(Ti ) n i+1
fi=Ti tg Ti t
b (t)
E H H (t)
Proof. En e¤et,
Z t 1R(u)>0
b (t) =
H dM (u) + R(u)h(u)du
0 R(u)
car Z t
1
N (t) = M (t) + R(u)h(u)du
0
Comme M est une martingale, il vient en prenant l’espérence des deux mem-
bres de l’équation ci-dessus
Z t 1R(u)>0
b (t)
E H = E dM (u) + R(u)h(u)du
0 R(u)
Z t 1R(u)>0
= E dM (u) + R(u)h(u)du
0 R(u)
= E 1R(u)>0 h(u)du
Mais
E 1R(u)>0 = P R(u) > 0 = 1 P R(u) = 0
donc
Z t Z t
b (t)
E H = h(u)du P R(u) = 0 h(u)du
0 0
Z t
= H(t) P R(u) = 0 h(u)du
0
^ (t)
E H H (t) c:f:d
11
11.2 Variance de l’estimateur de Nelson-Aalen
Il résulte l’àpproximation e¤ectuée à la section précédente que l’accroissement
1
du processus N (t) entre t et t + u suit approximativement une loi de poisson
de paramètre Z t+u
R(s)h(s)ds t R(t)h(t)u
t
on en déduit que, conditionnellement à
" 1 1
#
N (t + u) N (u) h(t)u
R(t); V ar t
R(u) R(t)
b
qui conduit …nalement à proposer comme estimateur de la variance de H:
1
X N (Ti )
b (t) =
Vb H
fi=Ti tg
R(Ti )2
12
Rechutes ti ri di di b (t)
H di b (t)
V H
ri ri2
1 2 1 21 2 0:095 0:095 0:005 0:005
3 4 2 19 2 0:105 0:201 0:006 0:010
5 3 17 1 0:059 0:259 0:003 0:014
6 7 4 16 2 0:125 0:384 0:008 0:021
8 9 5 14 2 0:143 0:527 0:010 0:032
10 ! 13 8 12 4 0:333 0:861 0:028 0:059
14 15 11 8 2 0:250 1:111 0:031 0:091
16 17 12 6 2 0:333 1:444 0:056 0:146
18 15 4 1 0:250 1:694 0:063 0:209
19 17 3 1 0:333 2:027 0:111 0:320
20 22 2 1 0:500 2:527 0:250 0:570
21 23 1 1 1:000 3:527 1:000 1:570
Le groupe traité avec le placebo
b = exp
S(t) b (t)
H
avec Z N (0; 1)
13
Cette méthode nous permet d’obtenir un estimateur de la variance de cet
estimateur.
Ici, en prenant f (x) = e x ; ona
V Sb = Sb2 V H
b
ce qui conduit à
2 3
X d (ti ) 5 X d (ti )
Vb Sb (t) = exp 4 2 2
n i+1 (n i + 1)
i=ti t i=t ti
toute fois, cet estimateur peut être amélioré, ce qui amène à introduire
l’estimateur se Kaplan-Meier.
posons
Pi = P T > T(i) = T > T(i 1)
est la probabilité de survie sur l’intervalle T(i) ; T(i 1) par rapport qu’on était
vivant à l’instant T(i 1) un estimateur naturel de qi = 1 pi est qbi = drii = n di+1
i
14
absence d’exaequo.
On obtient l’expression suivant de l’estimateur
di
Sb (t) = ti t 1 D(i) = 1
ri
15
permet d’écrire:
X di X
ln Sb (t) = ln 1 = ln (1 qbi )
ri
Tii t Ti t
X qi X di
Vb ln Sb (t) = =
ri (1 qbi ) ri (ri di )
Ti <t Ti t
13 Comparaison d’echantillons
13.1 Approche non paramétrique
On se place dans la situation où l’on souhaite comparer les durées de vie re-
spectives de deux échantillons indépendants. Plus précisement, on dispose de
deux échantillons indépendants, éventuellement censurés, et l’on souhaite tester
l’hypothèse nulle d’égalité des fonctions de survie des deux échantillons.
En l’absence de censure, on dispose des classiques testes de Rang (Test de
Wilcoxon, test de Savaye), que l’on va adapter à la présence de censure.
Rappel: (Principe des tests de Rang)
On dispose de deux séries d’observations E1 et E2 ; de tailles respectives
n1 et n2 . On note n = n1 + n2 et l’on range la séquence des valeurs ob-
servées (x1 ; :::; xn ) par order croissant x1 < ::: < xn :Le principe d’une statistique
linéaire de Rang est d’arttibeur une pondération (unscore) i à l’observation xi
de rang i dans le classement commun des deux Péchantillons. P
On construit alors deux statistiques: R1 = i2E1 i et R2 = i2E2 i :Comme
Pn
R1 + R2 = i=1 i et comme et déterministe, il est indi¤érent de travailler sur
l’une on l’autre des deux statistiques, en pratique on retient celle associée à
l’échantillon le plus petit.
E n choisissant i = i; on obtient lePtest de Wilcoxon le test de Savage est
n 1
quant à lui associé aux choix i = 1 j=1 n j+1 :
16
13.2 Adaptation des tests de Rang au cas censuré
L’adaptation des tests précédentss au cas censuré conduit à introduire la suite
ordonnée des instants de décés observés (non censurés) dans l’échantillon comme
que l’on notera t1 < ::: < tN . A chaque instant ti on désigne dij le nombre de
décés et rij l’e¤ectif sans risque dans le rgoupe j. L’e¤ectif sans risque est calculé
avant les sorties ti , de sorte que les vivants aprés ti sont en nombre rij dij .
On peut synthétiser cela dans le tableau suivant:
Décés en ti survivants aprés ti Total
Groupe1 di1 ni1 di1 ni1
Groupe2 di2 ni2 di2 ni2
Groupe3 di ni d i ni
Sous l’hypothèse nulle d’égalité des distributions de survie dans les deux
groupes, à chaque instant ou doit avoir égalité des proportions, des décés dans
les deux groupes. La variable aléatoire dij est distribuée selon une loi hyper-
nij
géométrique H ni ; di ; ni ; puisque l’on compte le nombre de décés dans le
groupe nj choisis parmi les dj décés totaux, la probabilité d’appartenance en
n
groupe nj etant p = niji et la taille de la population étant nj :
donc
dj nij
E (dij ) =
nj
et
(nj dj ) ni1 ni2
V (dij ) = dj
(ni 1) n2i
Ces observations conduisent à construire des statistique fondées sur des
sommes pondérés des dij E (dij ) ; qui sont asymptotiquement gaussiennes.
Entrotant par (wi ) les pondérations retenues, on utilise …nalement des statis-
tiques de la forme:
hP i2
N nij
i=1 wi dij dj nj 2
'j = PN (# = 1)
2 (ni di )ni1 ni2
i=1 wi di (nj 1)n2 i
17
Théoriques, sous l’hypothèse nulle (H0 ) : SG1 (t) = SG2 (t)
2
Djth Djobs
'j = 2
Example 25 (d’application)
On utilise le données de Freireiclu:
6M P (G1 ) Placebo(G2 ) Total
Durée ni1 ai1 ni2 ai2 ni d i
1 21 0 21 2 42 2
2 21 0 19 2 40 2
::: ::: ::: ::: ::: ::: :::
22 7 1 2 1 9 2
23 6 1 1 1 2
On obtient les résultats dans le tableau ci-aprés:
Testlong-Rang Test Gehan
Durée pondération coe¢ cient variance pondération coe¢ cient variance
1 1 1:00 0:49 42 42:00 860:49
2 1 1:05 0:49 40 42:00 777:54
::: ::: ::: ::: ::: ::: :::
22 1 0:56 0:30 9 5:00 24:50
23 1 0:71 0:20 7 5:00 10:00
' = 16:79 ' = 13:46
Pour = 5% 2 (1; 0:05) = 3:84; alors 'obs > 'tablee , On rejette l’hypothèse
(H0 ) :
Ce qui con…rme le comportement di¤ érent des deux groupes.
Références
References
[1] David Collett. Modelling Survival Data in Medical Research, Second Edition.
Boca Raton: Chapman & Hall/CRC. 2003. (ISBN 978-1-58488-325-8)
18
[2] Regina Elandt-Johnson and Norman Johnson. Survival Models and Data
Analysis. New York: John Wiley & Sons. 1980/1999.
[3] Jerald F. Lawless. Statistical Models and Methods for Lifetime Data, 2nd
edition. John Wiley and Sons, Hoboken. 2003.
19