Académique Documents
Professionnel Documents
Culture Documents
ARMEL YODÉ
2 Modèles paramétriques 15
2.1 Censure et vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Censure à droite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1.1 Censure de type I : fixée C i = C . . . . . . . . . . . . . . . . . . . . 16
2.1.1.2 Censure de type II . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1.3 Censure de type III : aléatoire . . . . . . . . . . . . . . . . . . . . 16
2.1.2 Censure à gauche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3 Censure par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Troncature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Ajustement du modèle de Gompertz Makeham par une méthode de régression . 19
2
TABLE DES MATIÈRES 3
3.1.3.2 Convergence et normalité asymptotique . . . . . . . . . . . . . . 23
3.1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Estimation de la fonction de survie par la méthode actuarielle . . . . . . . . . . 29
3.3 Estimation non paramétrique de la fonction de hasard intégrée . . . . . . . . . . 31
3.3.1 Estimateur de Breslow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.2 Estimateur de Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Estimateur de Fleming-Harington de S X . . . . . . . . . . . . . . . . . . . . . . . 31
3.5 Comparaison des durées de vie de deux groupes indépendants . . . . . . . . . . 32
5 Tables de mortalité 45
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.2 Table de mortalité réglementaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 Table de mortalité d’expérience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.4 Zone CIMA (Conférence Interafricaine des Marchés d’Assurance) . . . . . . . . 46
5.5 Tables de mortalités propectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.5.1 Diagramme de Lexis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.5.1.1 Modèles de Lee Carter (1992) . . . . . . . . . . . . . . . . . . . . . 51
5.5.1.2 Modèle log-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.5.1.3 Modèle log-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6 Exercices 54
Chapitre
1.1 Introduction
Les modèles de durée apparaissent dans de nombreux domaines :
• medecine :
— durée de vie des patients après un infarctus ;
— durée de rémission (on parle de rémission lorsqu’une affection cède du terrain et
que l’état du patient s’améliore temporairement) ;
— durée séparant le diagnostic d’une maladie et la guérison ;
• assurance :
— durée de vie humaine ;
— durée en invalidité et en incapacité ;
— durée d’un arrêt de travail ;
— durée entre deux sinistres ;
— durée avant une ruine ;
— durée avant un rachat ;
• crédit : durée avant un défaut de paiement ;
• économie :
— durée de vie d’une entreprise,
— durée avant la faillite d’un individu
• ...
Définition 1.1.1. On appelle variable de durée de vie une variable aléatoire réelle T positive
représentant le temps écoulé avant la survenue d’un évènement bien défini.
La variable aléatoire T est la période allant de l’instant du début d’observation jusqu’à l’ap-
parition de l’événement d’intérêt.
Il existe quatre types de dates.
• La date d’origine ou état initial qui marque le début de la période de suivi.
• La date d’évènement qui correspond à l’instant où l’évènement d’intérêt se produit.
• La date de fin de suivi désigne la date à laquelle s’arrête le suivi.
• La date de dernière nouvelle désigne celle à compter de laquelle on ne dispose plus
d’informations sur les personnes.
Il existe trois types de données :
1. les données complètes : le temps de décès est observé ; la donnée représente la durée
de vie.
4
1.2. CARACTÉRISATION D’UNE VARIABLE DE SURVIE 5
2. les données censurées : la durée de vie commence ou se termine sur une partie souvent
en dehors de la période de suivi
3. les données tronquées : la durée de vie n’est observable que sur une partie de [0, +∞[
Le premier individu est dit non censuré ; l’évènement a été observé. Le deuxième individu est
censuré : il n’a pas connu l’évènement. Le troisième individu a été perdu de vue. Il n’a pas
connu l’évènement. Il est dit aussi censuré.
P( t ≤ T < t + ε)
f ( t) = lim = −S ′ ( t).
ε→0 ε
Pour t fixé et ε assez petit, ε f ( t) représente la probabilité de subir l’événement dans un petit
intervalle de temps après l’instant t.
Nous avons
Z ³∞ ´
e ( x) = P T x > t dt
0
Z +∞
1
= S ( t + u) dt
S ( x) 0
Z +∞
1
= S ( u) du.
S ( x) x
L’espérance de vie résiduelle est le nombre moyen d’années vécues par un individu d’âge
x entre l’âge x et l’âge limite ω. Si nous observons pour une année donnée, le nombre de
survivants l x , l x+1 , . . . , l ω d’âges respectifs x, x + 1, . . . , ω d’une population supposée avoir la
même loi de durée de vie T , alors il est courant d’estimer e( x) par la formule discrète :
1 ωX −x
eb( x) = l k+ x .
l x k=1
Cette formule peut aussi s’écrire sous la forme suivante, en considérant que les l x sont pro-
portionnels aux S ( x) :
1 ωX −x ωX
−x
eb( x) = S ( k + x) = k px.
S ( x) k=1 k=1
1.2. CARACTÉRISATION D’UNE VARIABLE DE SURVIE 7
On considère à l’interieur d’un groupe homogène, à un instant pris comme origine, l’en-
semble des individus d’âge x en nombre L x . On suppose qu’ils décèdent indépendamment les
uns des autres. Soit la variable aléatoire définie par :
(
1 si l’individu i est vivant à la date t
X i ( t) =
0 sinon
Définition 1.2.6. On appelle nombre probable (ou nombre moyen) de vivants à l’âge x + t la
quantité
l x + t = E( L x + t ) = L x × t p x .
Ainsi, on obtient
l x+ t Nombre moyen de vivants à l’âge x + t
t px = = .
Lx Nombre d’individus d’âge x à l’origine
Remarque 1.2.1. Etant donné un individu d’âge x et supposé vivant à l’époque t, c’est à dire
à l’âge x + t, quelle est la probabilité qu’il décède entre les dates t et t + ε ? Pour répondre à cette
question, nous avons besoin de la fonction de hasard µ t+ x de T x . Nous avons alors
t p x − t+ε px
P( t < T x < t + ε|T x > t) = .
t px
1 l′
lim P( t < T x ≤ t + ε|T x > t) = − x+ t = µ x+ t .
ε→0 ε l x+ t
• Le taux instantanné de mortalité à l’âge x est
l ′x
µx = − .
lx
• Le taux instantanné de mortalité à l’âge x durant l’année t, c’est à dire à l’âge x + t est :
l ′x+ t
µ x+ t = − .
l x+ t
Remarque 1.2.2. La fonction de hasard est très utilisée pour la carctérisation d’une variable
de durée. Les 5 formes les plus usuelles de la fonction de hasard sont
1. constante (le système ne vieillit pas (durée de vie exponentielle))
2. croissant (le système se détériore (vieillisement))
3. décroissant (le système s’améliore)
4. en cloche
T
5. en baignoire .
S
Remarque 1.2.3. Si X prend ses valeurs dans N alors la loi de probabilité de X est décrite
par
p k = P(T = k), k ∈ N.
La fonction de survie est donnée pour tout k ≥ 0 par
S ( k ) = P( T > k ) =
X
p j.
j ≥ k+1
A toute variable aléatoire T absolument continue, on peut associer une variable aléatoire
discrète en considérant la partie entière de T . C’est ce que l’on fait lorsqu’on considère par
approximation l’âge d’un individu en année par exemple. En pratique, on est aussi amené à
faire l’inverse : on estime une loi discrète, car on dispose seulement de données discrétisées
par année par exemple et on veut ensuite calculer les taux de décès à n’importe quel âge.
Il faut alors faire des hypothèses pour passer d’une expression discrète à une expression en
temps continu. Parmi les méthodes classiques, citons :
— la linéarisation de la fonction de survie sur chaque intervalle [ k, k + 1[.
— l’hypothèse de constance de la fonction de hasard sur [ k, k + 1[, pour chaque k ∈ N, qui
conduit à la forme exponentielle, pour t ∈]0, 1[,
t qx = 1 − (1 − q x ) t .
10 CHAPITRE 1. MODÈLES PROBABILISTE DE DURÉES
En effet, si nous supposons que h( x + s) = h( x) pour x entier et s ∈]0, 1[ alors pour tout
t ∈]0, 1[
1 − t qx = t px
³ Z t ´
= exp − h( x + s) ds
³ 0 ´
= exp − h( x) t .
D’où le résultat.
Nous avons
S ( t) = exp(− H ( t)).
λα
f ( t) = tα−1 e−λ t 1R+ ( t)
Γ(α)
• Lorsque α = 1, on a Γ(1, λ) = E (λ).
• Lorsque 0 < α < 1, le risque instantané est décroissant.
• Lorsque α > 1, le risque instantané est croissant.
h( t) = γ1 × γ2t .
Ici γ1 est la mortalité de base et γ2 est l’influence de l’âge. La distribution de Gompertz tient
uniquement compte du décès dû au vieillissement.
h( t) = γ0 + γ1 × γ2t .
Exercice 1.3.1. Supposons que le décès peut survenir de deux causes indépendantes, l’acci-
dent ou le vieillissement. La durée de vie d’un individu est alors de la forme :
T = min( X , Y )
où X est une durée jusqu’à un décès accidentel et Y une durée jusqu’à un décès dû au vieillisse-
ment. Nous supposons que X est une variable aléatoire de loi exponentielle de paramètre λ. La
fonction de hasard de X est h X ( t) = λ et Y est une variable aléatoire de Gompertz de fonction
de hasard h Y ( t) = βγ t .
1. Montrer que Y a pour fonction de répartition
³ β¡ ¢´
FY ( x) = 1 − exp − e lx − 1 , l = ln(γ), x ≥ 0.
l
Pour la suite de l’exercice, nous supposons les valeurs des paramètres α, β et l fixés :
α = 7.6655.10−4 , β = 6.1041.10−6 et l = 0.11511. Les valeurs de X , Y et T sont exprimées
en années.
12 CHAPITRE 1. MODÈLES PROBABILISTE DE DURÉES
2. Expliquer comment simuler une réalisation de la variable aléatoire Y .
3. Ecrire un algorithme pour simuler M = 10000 réalisations (T1 , . . . , T M ) de la variable
aléatoire T .
— En déduire un algorithme pour estimer par la méthode Monte Carlo E(T ) et P(T ≥
75), ainsi qu’un intervalle de confiance au niveau de confiance 0.95.
— Application numérique : donner les valeurs numériques obtenues pour E(T ) et P(T ≥
75) ainsi que les intervalles de confiance pour E(T ) et P(T ≥ 75) au niveau de confiance
0.95.
— Montrer que
S T ( k) ≤ E(T ) ≤
X X
S T ( k).
k≥1 k≥0
Exercice 1.3.2. Soient α > 0, β > 1 et Y une variable aléatoire de fonction de répartition
1
FY ( x) = ¡ x ¢−β x ≥ 0.
1+ α
Montrer que la fonction de hasard associée h Y est unimodale, croissante puis décroissante.
Cette loi est utilisée pour modéliser la mortalité due au cancer après diagnostic ou traitement.
Cela est-il cohérent avec la propriété de h Y ?
π(v) × S ( t, v)
π t ( v) = Z
π(v)S ( t, v) dv.
V
1.3. QUELQUES LOIS CLASSIQUES 13
La fonction de survie est :
S̄ ( t) = P( X > t)
= E(E(1 X > t | v))
= E[P( X > t | v)]
Z
= S ( t, v)π(v) dv
= Eπ (S ( t, v))
La fonction densité de probabilité dans la population totale est
Z
f¯( t) = f ( t, v)π(v) dv
V
= Eπ ( f ( t, v))
La fonction de hasard est :
f¯( t)
h̄( t) =
S̄ ( t)
Z
f ( t, v)π(v) dv
V
= Z
S ( t, u)π( u) du
V
f ( t, v) S ( t, v)π(v)
Z
= Z dv
V S ( t, v)
S ( t, u)π( u) du
V
f ( t, v)
Z
= π t (v) dv
V S ( t, v)
Z
= h( t, v)π t (v) dv
V
= Eπt ( h( t, v)).
Exercice 1.3.3. Supposons que la loi de la variable de durée est pour l’individu de la sous-
population P v , v > 0 une loi de Weibull
β
S ( t, v) = e−vt 1 t≥0 β > 0.
De plus, on suppose que le paramètre d’hétérogénéité suit une loi Gamma Γ(α, !).
1. Calculer π t .
2. Calculer h̄.
3. Etudier la monotonie de h̄.
T i = min( X i , Z ).
2 Modèles paramétriques
Début Fin
Non censuré
Censuré (1)
Censuré (2)
?
16
2.1. CENSURE ET VRAISEMBLANCE 17
2.1.1.1 Censure de type I : fixée C i = C
La durée réllement observé est T i = min( X i , C ). Ici, C est une constante fixée.
La contribution d’une observation non censurée à la vraisemblance est :
P( t i ≤ T i < t i + dt i , ∆ i = 1) = P( t i ≤ X i < t i + dt i , X i = 1 ≤ C )
= P( t i ≤ X i < t i + dt i ) = f X ( t i , θ ) dt i
étant donné que l’on peut toujours supposer dt i suffisamment petit pour que t i + dt i ≤ C .
La contribution d’une observation censurée à la vraisemblance est donnée par :
P( t i ≤ T i < t i + dt i , ∆ i = 0) = P( t i ≤ C < t i + dt i , X i ≥ C )
= P( X i ≥ C )
= S X (C ).
Ainsi, dans le cas où ∆ i = 0, comme T i = C , il n’y a pas de densité mais la probabilité que la
probabilité que lévénement est égale à S X (C ).
La vraisemblance du modèle associée aux observations ( t 1 , δ1 ), . . . , ( t n , δn ) est égale à
n ³
Y ´δ i ³ ´1−δ i
L(θ , ( t 1 , δ1 ), . . . , ( t n , δn )) = f X ( t i , θ) S X ( t i , θ) .
i =1
Exercice 2.1.1. Nous observons durant un intervalle de temps [0, C ] la durée de fonctionne-
ment jusqu’à une panne de n appareils neufs à t = 0, de "durée de vie" de loi exponentielle de
paramètre θ > 0. Exprimer θ par la methode du maximum de vraisemblance.
Lorsque la censure est non informative, c’est à dire que la loi de probabilité de la censure ne
dépnd pas du paramètre λ, nous avons
n h
Y iδ i h i1−δ i
L(θ , ( t 1 , δ1 ), . . . , ( t n , δn )) ∝ f X ( t i , θ) S X ( t i , θ) .
i =1
Exercice 2.1.2. Soit λ et β des paramètres strictement positifs inconnus. Nous considérons
une situation de censure aléatoire à droite : nous observons (T i , ∆ i ), i = 1, . . . , n, où :
³ ´
T i = inf X i , C i ∆ i = 1{ X i ≤C i }
dans laquelle les variables X i sont indépendantes de loi exponentielle de paramètre λ et les
censures C i sont indépendantes des durées X i , indépendantes entre elles et de loi exponentielle
de paramètre βλ.
1. Proposer une méthode pour estimer β et λ et déterminer des estimateurs βb et λ b par la
m]’ethode choisie.
1
2. simuler un échantillon (T i , ∆ i ), i =!, . . . , n pour λ = 1, β = 2 et n = 1000. Comparer
numériquement (βb, λ
b) à (β, λ).
2.2. TRONCATURE 19
2.1.2 Censure à gauche
La censure à gauche correspond au cas où l’individu a déjà subi l’évènement avant qu’il
soit observé. On sait seulement que la date de survenue de l’évènement est inférieure à une
certaine date connue. Pour chaque individu, on peut associer le couple de variables aléatoires
(T i , δ i ) :
T i = max( X i , C i ) ∆ i = 1{ X i ≥C i } .
Remarque 2.1.1. La censure à gauche et la censure à droite peuvent être observées simulta-
nément. On dispose de deux censures C 1i et C 2i , l’une à droite et l’autre à gauche avec C 1 < C 2 .
Au lieu de X , on observe le triplet (T i , ∆1i , ∆2i ) avec ∆1i = 1{ X i ≤C 1 } et ∆2i = 1{ X i ≤C 2 } et
i i
1
C i
si X ≤ C 1i
T = Xi si C 1i < X i ≤ C 2i
2
Ci si C 2i < X i
2.2 Troncature
Une variable X est tronquée par un sous-ensemble de R+ , si au lieu de X , on observe X
uniquement si X ∈ A .On dit qu’il y a troncature à gauche lorsque la variable d’intérêt n’est
pas observable lorsqu’elle est inférieure à un seuil c > 0 et qu’il y a troncature à droite lorsque
la variable d’intérêt est supérieure à un seuil C > 0. Le phénomène de troncature est différent
de la censure, puisque dans ce cas on perd complètement l’information sur les observations
en dehors de la plage : dans le cas de la censure, on a connaissance du fait qu’il existe une
information, mais on ne connait pas sa valeur précise, simplement le fait qu’elle excède un
seuil ; dans le cas de la troncature on ne dispose pas de cette information. La distribution
observée est la loi conditionnelle à l’événement { X ∈ A }.
Exemple 2.2.1. On suppose que A = [ c, C ] avec 0 < c < C . La fonction de survie tronquée
La troncature s’observe dans le cas d’un contrat d’arrêt de travail avec une franchise : les
arrêts de durée inférieure à la franchise ne sont pas observés et on ne dispose donc sur eux
d’aucune information.
20 CHAPITRE 2. MODÈLES PARAMÉTRIQUES
h( t) = α + βγ t .
Nous supposons que nous disposons des observations suivantes pour une année donnée, pour
des âges entiers x compris entre x0 et x1 :
— N x : nombre d’individus d’âge x.
— d x : nombre de décès à l’âge x.
dx
Nous définissons les taux bruts de mortalité par qbx = N x
.
L’objectif est maintenant d’ajuster ces taux bruts de mortalité avec un notre modèle pa-
ramétrique q x (θ ). Il faut donc estimer les paramètres du modèle. Dans le cas du modèle de
Gompertz-Makeham, nous avons θ = (α, β, γ) (3 paramères à estimer).
D’après (2.3.1), nous avons
β
ln(1 − q x (θ )) = −α − (γ − 1)γ x . (2.3.2)
ln(γ)
ln(1 − q x (θ )) ≈ − q x (θ )
β
q x (θ ) ≈ α + (γ − 1)γ x
ln(γ)
β
(γ − 1)2 γ x
q x+1 (θ ) − q x (θ ) ≈
ln(γ)
³ ´ ³ β ´
ln q x+1 (θ ) − q x (θ ) ≈ x ln(γ) + ln (γ − 1)2 .
ln(γ)
³ ´
C’est une approximation lináire entre ln q x+1 (θ ) − q x (θ ) et l’âge x :
³ ´
ln qbx+1 (θ ) − qbx (θ ) = ax + b + Wx
e b ln(γb)
b
b = e ab
γ β
b= .
(γ
b − 1)2
On déduit l’estimateur α
b de α par la formule (2.3.2).
Exercice 2.3.1. Appliquer cette méthode aux données démographiques d’un pays pour une
année donnée (données HMD par exemple).
Chapitre
1X n
Sbn ( t) = 1{ X i > t } .
n i=1
21
22 CHAPITRE 3. MODÈLES NON PARAMÉTRIQUES
On observe un échantillon i.i.d. (T1 , ∆1 ), . . . , (T n , ∆n ). Pour estimer S X , on ne peut pas se
contenter de prendre uniquement les données non censurées, c’est à dire les décès. En ef-
fet,
Pn
i =1 1{T i > x,∆ i =1} p.s P( x < X ≤ C )
Sen ( x) = Pn −−−−−−→ .
i =1 1 {∆ i =1 } n−→+∞ P( X ≤ C )
³ ´ Z Z
P x<X ≤C = 1{ x< t≤ c} f X ( t) f C ( c) dtdc
Z ∞ hZ c i
= f C ( c) f X ( t) dt dc
Z0 ∞ ³
x
´
= f C ( c) S X ( x) − S X ( c) dc
0
Z ∞
= S X ( x) − f C ( c)S X ( c) dc
0
³ ´ Z Z
P X ≤C = 1{ x≤ c} f X ( t) f C ( c) dtdc
Z ∞ hZ c i
= f C ( c) f X ( t) dc
0
Z ∞0
= S X (0) − f C ( c)S X ( c) dc
Z ∞ 0
= 1− f C ( c)S X ( c) dc.
0
R∞
P( x < X ≤ C ) S X ( x) − 0 f C ( c)S X ( c) dc
= R∞ ̸= S X ( x) en général !
P( X ≤ C ) 1 − 0 f C ( c)S X ( c) dc
On observe un échantillon d’individus à des instants donnés t 0 = 0 < t 1 < . . . < t k−1 < t k = ∞.
A chaque instant t j , on note
— m j,k le nombre de décès dans l’intervalle I j =] t j−1 , t j ]
— c j,k le nombre de censurés dans l’intervalle I j =] t j−1 , t j ]
— n j,k le nombre de sujets exposés (en vie) à l’instant t j−1 (ni décédés, ni censurés :
X > t j−1 , C > t j−1 )
— q j,k la probabilité de décéder dans l’intervalle I j sachant que l’individu est en vie à
l’instant t j−1 .
m j,k
qb(1)
j,k
= .
n j,k − c j,k
3.1. ESTIMATEUR DE KAPLAN-MEIER (1958) 23
n o ³ ´ ³ ´
Pour tout j 0 ∈ 1, . . . , k , t 0 < t 1 < . . . < t j 0 −1 < t j 0 , comme P X > t 0 = P X > 0 = 1, nous avons
S X ( t j 0 ) = P( X > t j 0 )
= P( X > t j 0 , X > t j 0 −1 , . . . , X > t 0 )
³ ´ ³ ´ ³ ´
= P X > t0 × P X > t1 | X > t0 × P X > t2 | X > t0 , X > t1 ×
³ ´
. . . × P X > t j 0 | X > t j 0 −1 , X > t j 0 −2 , . . . , X > t 0
³ ´ ³ ´ ³ ´ ³ ´
= P X > t 0 × P X > t 1 | X > t 0 × P X > t 2 | X > t 1 × . . . × P X > t j 0 | X > t j 0 −1
j0 ³ ´
P X > t j | X > t j−1
Y
=
j =1
j0 ³
Y ´
= 1 − q j,k
j =1
1
S X ( t) = 1 − p
1 + c 0 S C ( t)
K ³ m i ´1t∗( i) ≤t b
p.s
Sb(1)
Y
k,n
( t) −−−−−−−−−−→ 1− = S K M ( t)
k−→+∞,δk →0 i =1 ni
où t∗(1) , . . . , t∗(K ) sont les K valeurs distinctes des durées non censurées ordonnées parmi t 1 , . . . , t n ,
Xn
m i est le nombre de décès (non censurés) à la date t∗( i) , n i = 1 t j ≥ t∗ est le nombre de su-
( i)
j =1
jets exposés à la date t∗( i) .
Cet estimateur est aussi appelé estimateur "produit-limite". Il est
constant par intervalles, les sauts ayant lieu en chaque t∗( i) . Il est càdlàg et S K M ( t) = 0 lorsque
t > t∗(K ) , la plus grande des durées non censurées observées.
24 CHAPITRE 3. MODÈLES NON PARAMÉTRIQUES
Remarque 3.1.2. Autre justification. Soient t∗(1) < t∗(2) < . . . < t∗(K ) les temps de décès or-
donnés de l’échantillon, m 1 , . . . , m K respectivement les nombres de décès au temps t∗(1) , . . . , t∗(K )
(les données censurées ne sont pas prises en compte). L’estimateur de Kaplan-Meier découle de
l’idée suivante : survivre après un temps t∗( i) , c’est être en vie juste avant t∗( i) et ne pas mourir
au temps t∗( i) . Nous avons donc
où p l = P( X > t∗(l ) | X ≥ t∗(l ) ) = P( X > t∗(l ) | X > t∗(l −1) ) représente la probabilité pour un individu
de survivre au délà de l’instant t∗(l ) sachant qu’il était vivant juste avant t∗(l ) ; p l est estimée par
nl − ml ml
= 1− .
nl nl
Ainsi, n l − m l représente le nombre d’individus vivant et pas censurés après l’instant t∗l que
l’on divise par le nombre d’individus vivant et pas censurés juste avant l’instant t∗l .
L’estimateur de Kaplan-Meier de la fonction de survie S ( t) est donc défini par
Y ³ mi ´
1− si t ≥ t∗1 n ³ m i ´1t∗( i) ≤t
∗
S K M ( t) = i : t i ≤ t
b n i =
Y
1− .
1 t < t ∗
i =1 ni
1
1³Xn X n Se( t) ´
Se( t) = 1{ T i > t } + 1{T i ≤ t,∆ i =0} .
n i=1 i =1 Se(T i )
Proposition 3.1.1. L’estimateur de Kaplan-Meier est l’unique estimateur cohérent de la fonc-
tion de survie S X .
mi
ar (SbK M ( t)) = (SbK M ( t))2
X
V
. (3.1.1)
i : t∗ ≤ t n i ( n i − m i )
i
En effet, on a
X ³ mi ´
ln(SbK M ( t)) = ln 1 − .
i : t∗ ≤ t ni
i
³ mi ´
Si on suppose en première approximation l’indépendance des variables ln 1 − ,
ni
nous obtenons
mi ´
µ ¶ µ ³ ¶
X
var ln(SbK M ( t)) = var ln 1 −
i : t∗i ≤ t ni
X ³ ³ m i ´´
≈ var ln 1 −
i : t∗ ≤ t ni
i
mi
µ ¶
X
var ln(SbK M ( t)) ≈ (3.1.2)
i : t∗ ≤ t n i ( n i − m i )
i
La delta-method :
var ( f ( Z )) ≈ var ( Z )( f ′ (E( Z )))2 .
Ainsi, nous obtenons :
1
µ ¶ ³ ´
var ln(SbK M ( t)) ≈ var SbK M ( t) × (3.1.3)
S 2 ( t)
De (3.1.2) et (3.1.3), on déduit l’estimateur de Greenwood (3.1.1) de la variance de SbK M ( t). Le
résultat (3.1.3) s’obtient, de manière théorique, de la propriété de normalité asymptotique de
l’estimateur de Kaplan-Meier.
De plus, un intervalle de confiance au niveau 1 − α pour S X ( t) est :
h r ³ ´ r ³ ´i
S K M ( t) − t 1−
b α V ar S K M ( t) , S K M ( t) + t 1−
b b α V
ar SbK M ( t)
2 2
Données 6 M-P
A la main
m
t∗i mi ni 1− ni Sb( t∗i )
i
6 3 21 0.857 0.857
7 1 17 0.941 0.807
10 1 15 0.933 0.753
13 1 12 0.917 0.690
16 1 11 0.909 0.627
22 1 7 0.857 0.538
23 1 6 0.833 0.448
Avec le logiciel R
> library(survival)
> temps_6MP<-c(6, 6, 6,6,7, 9, 10,10, 11,13, 16, 17, 19,20,22,23,25,32,32,34,35)
> event_6MP<-c(1, 1, 1, 0, 1,0,1,0,0,1,1,0,0,0,1,1,0,0,0,0,0)
> DonneesMP6=Surv(temps_6MP, event_6MP)
> temps_placebo<-c(1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23)
> DonneesMP6
> plot(S6MP)
1.0
0.8
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30 35
> Temps=c(6,6,6,6,7,9,10,10,11,13,16,17,19,20,22,23,25,
+ 32,32,34,35,1,1,2,2,3,4,4,5,5,
+ 8,8,8, 8,11,11,12,12,15,17,22,23)
> Statut=c(1,1,1,0,1,0,1,0,0,1,1,0,0,0,
+ 1,1,0,0,0,0,0,1,1,1,1,1,1,1,1,
+ 1,1,1,1,1,1,1,1,1,1,1,1,1)
> Groupe=c(rep("6MP",21),rep("P",21))
> Donnees=data.frame(Temps,Statut,Groupe)
> Donnees
28 CHAPITRE 3. MODÈLES NON PARAMÉTRIQUES
Temps Statut Groupe
1 6 1 6MP
2 6 1 6MP
3 6 1 6MP
4 6 0 6MP
5 7 1 6MP
6 9 0 6MP
7 10 1 6MP
8 10 0 6MP
9 11 0 6MP
10 13 1 6MP
11 16 1 6MP
12 17 0 6MP
13 19 0 6MP
14 20 0 6MP
15 22 1 6MP
16 23 1 6MP
17 25 0 6MP
18 32 0 6MP
19 32 0 6MP
20 34 0 6MP
21 35 0 6MP
22 1 1 P
23 1 1 P
24 2 1 P
25 2 1 P
26 3 1 P
27 4 1 P
28 4 1 P
29 5 1 P
30 5 1 P
31 8 1 P
32 8 1 P
33 8 1 P
34 8 1 P
35 11 1 P
36 11 1 P
37 12 1 P
38 12 1 P
39 15 1 P
40 17 1 P
41 22 1 P
42 23 1 P
Groupe=6MP
time n.risk n.event survival std.err lower 95% CI upper 95% CI
6 21 3 0.857 0.0764 0.720 1.000
3.1. ESTIMATEUR DE KAPLAN-MEIER (1958) 29
7 17 1 0.807 0.0869 0.653 0.996
10 15 1 0.753 0.0963 0.586 0.968
13 12 1 0.690 0.1068 0.510 0.935
16 11 1 0.627 0.1141 0.439 0.896
22 7 1 0.538 0.1282 0.337 0.858
23 6 1 0.448 0.1346 0.249 0.807
Groupe=P
time n.risk n.event survival std.err lower 95% CI upper 95% CI
1 21 2 0.9048 0.0641 0.78754 1.000
2 19 2 0.8095 0.0857 0.65785 0.996
3 17 1 0.7619 0.0929 0.59988 0.968
4 16 2 0.6667 0.1029 0.49268 0.902
5 14 2 0.5714 0.1080 0.39455 0.828
8 12 4 0.3810 0.1060 0.22085 0.657
11 8 2 0.2857 0.0986 0.14529 0.562
12 6 2 0.1905 0.0857 0.07887 0.460
15 4 1 0.1429 0.0764 0.05011 0.407
17 3 1 0.0952 0.0641 0.02549 0.356
22 2 1 0.0476 0.0465 0.00703 0.322
23 1 1 0.0000 NaN NA NA
1.0
6MP
P
0.8
Survival Probability
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30 35
Time
S ( t) = P( X ≥ t)
= P( X ≥ t| X ≥ a j−1 )P( X ≥ a j−1 ).
Q j = P( X ≥ a j | X ≥ a j−1 ).
m j−1
qj = 1− .
ej
3.2. ESTIMATION DE LA FONCTION DE SURVIE PAR LA MÉTHODE ACTUARIELLE31
• Si dans [a j−1 , a j [, il n’y a aucune donnée censurée alors le nombre n j de sujets
vivants en a j est égal au nombre n j−1 de sujets vivants en a j−1 moins le nombre
m j−1 de sujets décédés dans [a j−1 , a j [ :
m h−1
µ ¶
Y
SbAC ( t) = 1− .
a h ≤t eh
³ ´ ³ ´2 X m h−1
V
ar SbAC ( t) = SbAC ( t) .
a h ≤ t e h ( e h − m h−1 )
Exercice 3.2.1. Les données suivantes correspondent à des temps d’évènement. Les données
pour lesquelles il y a une censure à droite sont indiquées par "+" : 2, 5, 7+ , 4, 6, 9+ , 3, 5+ , 8, 10,
13+ , 6, 11, 4+ , 12+ , 4. On considère maintenant les intervalles [0, 4[, [4, 8[, [8, ∞[. Construisez
l’estimateur de la fonction de survie selon la méthode actuarielle.
32 CHAPITRE 3. MODÈLES NON PARAMÉTRIQUES
b (1) ( t) est
Un estimateur de la variance de H
³ ´
b (1) ( t) =
X mi
Var H .
i : t∗ ≤ t i i − m i )
i
n ( n
Remarque 3.3.1. On montre que, sous certaines conditions, l’estimateur de Nelson-Aalen est
uniformément consistant, asymptotiquement normal et asymptotiquement sans biais.
Sous l’hypothèse H0 , on doit avoir égalité des proportions de décès dans les deux
groupes et la variable aléatoire D i j qui donne ´ de décès dans le groupe j
³ le nombre
ri j
à l’instant t∗( i) suit la loi Hypergéométrique H r i , m i , ri . Nous avons
ri j ri − mi
E(D i j ) = m i V ar (D i j ) = m i r i1 r i2 r 2i .
ri ri − 1
De plus,
D i j − E(D i j )
p ≈ N (0, 1).
var (D i j )
ri j 2
hP ³ ´i
k
i =1 ω i di j − mi
ri
Uj = ≈ χ2 (1) (3.5.1)
Pk
ω 2 m r i −m i r i1 r i2
i =1 i i r i −1 r 2i
theorique 2
(D observe
j
−Dj )
Uj = Pk r i −m i r i1 r i2 .
i =1 m i r −1 i r 2i
Le test du log-rank est le test le plus couramment employé, notamment lorsque les deux
fonctions de survie ne se croisent pas.
• Test de Wilcoxon généralisé (ou Breslow) : w i = r i . Les décès précoces ont un poids plus
important.
theorique
D 1observe D1
r i1 ×m i r i −m i r i1 r i2
= ki=1 d i1
P Pk Pk
= i =1 ri i =1 m i r i −1 r 2i
Modèles semi-paramétrique de
4 Cox
4.1 Introduction
Le modèle à hasards proportionnels est un modèle dans lequel on se donne une fonction
de survie de base S 0 et l’on fait l’hypothèse que la fonction de survie du phénomène observé
est de la forme
³ ´θ
S ( t |θ ) = S 0 ( t ) où le paramètre θ > 0 est inconnu.
′
h t | Z i , β = h 0 ( t) e β Z i
¡ ¢
où
p
• Z i = ( Z 1i , . . . , Z i ) est le vecteur de covariables pour l’individu i ;
• β = (β1 , . . . , β p )′ ∈ R p est inconnu ; le paramètre β j représente l’effet de la covariable Z j
sur la survie ;
• h 0 ( t) est une fonction non négative, indépendante de Z appelée risque de base ; cette
fonction est la même pour tous les individus ; aucune supposition paramétrique n’est
faite sur cette fonction et c’est la partie non-paramétrique du modèle.
′
• la fonction eβ Z i est le risque relatif et constitue la partie paramétrique du modèle ;
35
36 CHAPITRE 4. MODÈLES SEMI-PARAMÉTRIQUE DE COX
h( t| Z i )
Si l’on a deux individus, l’un caractérisé par Z i et l’autre par Z s alors le rapport h( t| Z s ) =
β′ ( Z i −Zs )
e mesure le risque relatif à tout moment t de connaître l’évènement pour l’individu
i par rapport au risque pour l’individu s. On remarque que ce rapport est constant dans le
temps.
Remarque 4.1.1. L’interprétation est faite en fixant les autres variables. Soit Z = ( Z 1 , . . . , Z p )′
le vectuer des covariables. Considérons la covariable Z 1 .
— Si Z 1 est une variable qualitative, par exemple
(
1 1 si l’individu est un homme
Z =
0 si l’individu est une femme
Z i = (1, Z 2 , . . . , Z p )′ Z = (0, Z 2 , . . . , Z p )′ .
eβ1 est le rapport de risque entre un homme et une femme toutes les choses égales par
ailleurs :
• si β1 > 0, eβ1 > 1 et le risque que l’événement d’intérêt se produise est plus élevé chez
les hommes que chez les femmes ;
• si β1 < 0, eβ1 < 1 et le risque que l’événement d’intérêt se produise est plus faible chez
les hommes que chez les femmes ;
• si β1 = 0, eβ1 = 1 et le risque que l’événement d’intérêt se produise est le même chez
les hommes que chez les femmes.
— Si Z 1 est une variable continue, β1 peut être interprèté en terme de rapport de risque
quand la variable Z 1 augmente d’une unité :
³ ´
h 0 ( t) exp β1 × ( Z 1 + 1) + β2 Z 2 + . . . + β p Z p
³ ´ = eβ1
h 0 ( t) exp β1 Z + β2 Z + . . . + β p Z
1 2 p
• si β1 > 0, eβ1 > 1, le risque que l’événement d’intérêt se produise augmente quand Z 1
augmente (et diminue quand Z 1 diminue) ;
• si β1 < 0, eβ1 < 1 et le risque que l’événement d’intérêt se produise augmente quand
Z 1 diminue (et diminue quand Z 1 augmente) ;
• si β1 = 0, eβ1 = 1 et la variable Z 1 n’a pas d’impact sur le risque instantané.
¢ Yn ³ ´δ i ³ ´1−δ i
L ( t 1 , δ1 ), . . . , ( t n , δn ), β = f X ( t i , β)S C ( t i , β) f C ( t i , β)S X ( t i , β)
¡
.
i =1
¢ Yn ³ ´δ i ³ ´1−δ i
L ( t 1 , δ1 ), . . . , ( t n , δn ), β ∝ f X ( t i , β) S X ( t i , β)
¡
i =1
n ³
Y ´δ i
= h X ( t i , β) S X ( t i , β)
i =1
n ³ ′
´δ i Z′ β
h0 ( t i ) e Z i β e− H0 ( t i ) e
i
Y
=
i =1
³ ¡ n
¢´ X ³ ´ Xn ′
ln L ( t 1 , δ1 ), . . . , ( t n , δn ), β = δ i ln( h 0 ( t i )) + Z ′i β − H0 ( t i ) e Z i β .
i =1 i =1
³ ¡ ¢´ n n ³ ´ Xn ′
δ i (α − 1) ln( t i ) + Z ′i β − tαi e Z i β
X X
ln L ( t 1 , δ1 ), . . . , ( t n , δn ), β = ln(α) δ i +
i =1 i =1 i =1
Les estimateurs α
b et βb son sont solutions du système :
³ ¡ ¢´
∂ ln L ( t 1 , δ1 ), . . . , ( t n , δn ), β n n ′
δ i Z ik − tαi Z ik e Z i β = 0
X X
= 0≤k≤ p
∂βk i =1 i =1
³ ¡ ¢´
∂ ln L ( t 1 , δ1 ), . . . , ( t n , δn ), β 1X n n n ′
ln( t i ) tαi e Z i β = 0.
X X
= δi + δ i ln( t i ) −
∂α α i=1 i =1 i =1
¢ Yn ³ ´δ i ³ ´1−δ i
L ( t 1 , δ1 ), . . . , ( t n , δn ), β = f X ( t i , β)S C ( t i , β) f C ( t i , β)S X ( t i , β)
¡
.
i =1
¢ Yn ³ ´δ i ³ ´1−δ i
L ( t 1 , δ1 ), . . . , ( t n , δn ), β ∝ f X ( t i , β) S X ( t i , β)
¡
i =1
n ³ ′ ′
´δ i ³ Z ′ β ´1−δ i
h 0 ( t i ) e Z i β e Z i β H0 ( t i ) e− H0 ( t i ) e
i
Y
=
i =1
Cette fonction de vraisemblance ne peut pas être maximisée lorsque h 0 et H0 restent incon-
nue. Cox a proposé en 1972 une fonction de vraisemblance partielle qui ne dépend pas de h 0 .
Soient 0 = t∗0 < t∗1 < . . . < t∗k les temps de décès ordonnés. Définissons
n o
C i = ensemble des censures entre t∗i−1 et t∗i
n o
D i = ensemble des décès à l’instant t∗i
× P(C 3 | C 1 ∩ C 2 ∩ D 1 ∩ D 2 ) × P(D 3 | C 1 ∩ C 2 ∩ C 3 ∩ D 1 ∩ D 2 )
×...
× P(C k | C 1 ∩ . . . ∩ C k−1 ∩ D 1 ∩ . . . ∩ D k−1 )
× P(D k | C 1 ∩ . . . ∩ C k ∩ D 1 ∩ . . . ∩ D k−1 )
k k
P D i | C 1 ∩ . . . ∩ C i ∩ D 1 ∩ . . . ∩ D i−1 ) P(C i | C 1 ∩ . . . ∩ C i−1 ∩ D 1 ∩ . . . ∩ D i−1 )
Y ¡ ¢Y
=
i =1 i =1
³ ´ Yk
P (C i , D i ), i = 1, . . . , k ≍ P Di | Ri
¡ ¢
i =1
4.3. ESTIMATION DE β LORSQUE H0 EST INCONNUE 39
4.3.1 Vraisemblance partielle : temps de décès distincts
Nous supposons qu’il n’y a pas d’ex aequo (temps de décès distincts), les événements D i
sont des singletons, D i = { j i },
h X ( t∗i | Z j i , β)
P( D i | R i ) = n
1 t j ≥ t∗ h X ( t∗i | Z j , β)
X
i
j =1
Z ′j β
h 0 ( t∗i ) e i
= n
Z ′j β
1 t j ≥ t∗ h 0 ( t∗i ) e
X
i
j =1
Z ′j β
e i
= n
X Z ′j β
1 t j ≥ t∗ e
i
j =1
′
eβ Z j i
′
k
Y n ³
Y eβ Z i ´δ i
L Cox (β) = n
= n
′ ′
i =1
1{ t j ≥ t∗ } eβ Z j i =1
1{ t j ≥ t ∗ } e β Z j
X X
i i
j =1 j =1
qui converge en loi vers la loi de khi-deux à s degrés de liberté notée χ2 ( s). La région critique
du test au niveau α est n o
W = T RV > χ2 ( s)1−α .
L’idée de Wald est que si g(βb) ≃ 0 alors on accepte H0 . La variable de décision est
³ ´′ h³ ∂ g ´ ³ ∂ g ´′ i−1 ³ ´
T W = n g(β̂) (β̂) I −1 (β̂) (β̂) g(β̂)
∂β ∂β
où la matrice ∂g
1 (β) ∂ g 1 (β)
∂β1
... ∂β p
∂g
.. .. ..
=
∂β . . .
∂ g s (β) ∂ g s (β)
∂β1
... ∂β p
est de rang s pour tout β. Sous l’hypothèse H0 , T W converge en loi vers la loi de khi-deux à s
degrés de libertés notée χ2 ( s). La région critique du test au niveau α est
n o
W = T W > χ2 ( s)1−α .
1 ³ ∂ ln(L(βb0 )) ´′ −1 b0 ³ ∂ ln(L(βb0 )) ´
TS = I (β ))
n ∂β ∂β
converge en loi vers la loi de khi-deux à s degrés de libertés notée χ2 ( s). La région critique du
test au niveau α est n o
W = T S > χ2 ( s)1−α .
translatées l’une de l’autre, c’est à dire, ont un écart constant au cours du temps, pour des
individus ayant des modalités différentes pour les variables explicatives. Dès lors, les repré-
sentations graphiques des estimations de Kaplan-Meier des fonctions de survie pour chaque
valeur Z distincte doivent être des courbes approximativement parallèles sur une échelle log-
log complémentaire.
Dans le cas continu, l’approche est similaire ; elle consiste à partitionner la variable et à la
traiter comme une variable qualitative.
′
Z ik eβ Z j
X
j ∈R i
³ ´
r ik = δ i Z ik − ; 1 ≤ i ≤ n, 1 ≤ k ≤ p
β′ Z j
X
e
j ∈R i
avec
— R i l’ensemble des individus qui sont encore dans la base au moment du décès de l’in-
dividu i ;
— Z ik la valeur de la kième covariable associée à l’individu i .
Nous définissons alors les résidus standardisés r ∗ik qui sont les résidus divisés par l’écart-type
des résidus. Si l’hypothèse des risques proportionnels est vérifiée, alors les résidus doivent
être distribués de la même manière au cours du temps. Une façon de le vérifier est de tracer,
pour chaque variable Z k , le nuage des points ( t i , r ∗ik ), pour les individus décédés. Si aucune
tendance n’est observée, l’hypothèse de hasard proportionnel est acceptée.
Un test statistique consiste à tester la nullité du coefficient de corrélation entre les r ∗ik et t i .
r ∗ik = β0 + β1 t i + ε i
> data(pbc,package="survival")
> head(pbc)
id time status trt age sex ascites hepato spiders edema bili chol
1 1 400 2 1 58.76523 f 1 1 1 1.0 14.5 261
2 2 4500 0 1 56.44627 f 0 1 1 0.0 1.1 302
3 3 1012 2 1 70.07255 m 0 0 0 0.5 1.4 176
4 4 1925 2 1 54.74059 f 0 1 1 0.5 1.8 244
5 5 1504 1 2 38.10541 f 0 1 1 0.0 3.4 279
6 6 2503 2 2 66.25873 f 0 1 0 0.0 0.8 248
albumin copper alk.phos ast trig platelet protime stage
1 2.60 156 1718.0 137.95 172 190 12.2 4
2 4.14 54 7394.8 113.52 88 221 10.6 3
3 3.48 210 516.0 96.10 55 151 12.0 4
4 2.54 64 6121.8 60.63 92 183 10.3 4
5 3.53 143 671.0 113.15 72 136 10.9 3
6 3.98 50 944.0 93.00 63 NA 11.0 3
La base comporte 418 observations de patients, dont 312 ont participé à une expérience
aléatoire afin de tester la validité du médicament (drug : 1 = D-pénicillamine ; 2 = placebo).
Les 106 autres patients ont accepté, en parallèle de ce protocole, de fournir plusieurs infor-
mations et de se faire suivre régulièrement. Qu’ils participent ou non à l’expérience, le suivi
des patients prend fin en juillet 1986. Au cours de la période d’étude, certains patients ne dé-
velopperont pas de complications (status=0), se feront tranplanter un nouveau foie (status=1)
ou décèderont (status=2). La variable time précise ainsi le nombre de jours écoulés entre le
début du suivi du patient et juillet 1986, la date de la transplantation ou du décès. Dans ce
document, nous nous intéressons à la durée de vie avant le décès ; les personnes greffées se-
ront considérées comme censurées. Sous R, il faut pour cela déclarer un objet de "survie" avec
la fonction Surv comme suit Surv(time,status==2).
La maladie, peu fréquente, touche principalement des femmes (elles constituent 89% des
patients de l’échantillon) et débute en moyenne vers 50 ans. Elle peut ne pas causer de symp-
tômes dans sa phase initiale de telle sorte que l’âge est souvent endogène à la durée de la ma-
ladie. Néanmoins, plusieurs examens peuvent être pratiqués pour diagnostiquer la maladie,
notamment des analyses sanguines. Parmi les anomalies qui peuvent alors être constatées,
on note, par exemple, une présence d’autant plus élevée de bilirubine (bili en mg/dl) dans le
sang que la maladie est en phase avancée, et des altérations du taux d’albumine (albumin
en mg/dl) et de taux de prothrombine (protime). Enfin, la présence d’oedèmes plus ou moins
sévères est aussi le signe d’une maladie déjà avancée (edema : 0 = absence, 0.5 = modéré,
1 = présent malgré l’utilisation d’un traitement diurétique). Toutes ces informations sont
présentes dans la base de données et enregistrées au début du suivi, de telle sorte que les
covariables du modèle sont constantes dans le temps.
L’estimation du modèle de Cox peut être effectuée sous R par la fonction coxph du package
survival, dont la syntaxe complète est donnée ci-dessous.
> summary(fit.pbc)
Call:
coxph(formula = Surv(time, status == 2) ~ age + factor(edema) +
log(bili) + log(protime) + log(albumin), data = pbc, ties = "efron")
−2
−3
−4
−5
edema=0
edema=0.5
edema=1
−6
Time
1
0
−1
Log(−Log(H(t)))
−2
−3
−4
age=(20,40]
−5
age=(40,60]
age=+60
Time
Chapitre
5 Tables de mortalité
5.1 Introduction
Une table de mortalité est un outil de mesure des probabilités de décès, de survie et de
l’espérance de vie selon l’âge et le sexe dans une population donnée. Il existe deux types de
tables de mortalité :
— La table de mortalité réglementaire : il s’agit de tables élaborées le plus souvent
par les pouvoirs publiques ou par des organismes privés à partir des statistiques de
décès observées sur la population.
— La table de mortalité d’expérience : elle est construite par et pour les assureurs.
En France, les tables de mortalité réglementaires sont établies par l’Institut National de
la Statistique et des Etudes Economiques (INSEE) sur la base de la population française
globale. Parmi ces tables, certaines correspondent à des tables de génération et d’autres à des
tables du moment.
46
5.3. TABLE DE MORTALITÉ D’EXPÉRIENCE 47
Définition 5.5.1. Soit x un entier. Le taux de décès brut à l’âge x durant l’année t est défini
par :
Définition 5.5.2. le taux de mortalité q( t, x) est la probabilité qu’un individu d’âge exact x à
l’instant exact t décède durant l’intervalle de temps [ t, t + 1[.
La force de mortalité (ou fonction de hasard) µ( t, x) (notée aussi classiquement h( t, x) dans les
mod‘eles de durée) est le taux instantané de mortalité, qui vérifie
³ ´
P décéder entre t et t + dt, à l’âge x ≃ µ( t, x) dt.
• L’âge révolu correspond à l’âge exact au dernier anniversaire et donc à la partie entière
de l’âge exact.
• L’âge atteint (dans l’année) est la différence entre le millésime de l’année de décès et
le millésime de l’année de naissance :
Remarque 5.5.1. On considère un individu né le 1er juillet 2000 à 0h00 et il est décédé le
20 janvier 2002 à 12h00. L’âge exact de cet individu à son décès est de 1 an 6 mois 20 jours
12 heures et 0 seconde. Il a été déterminé en faisant la différence entre le moment du décès
(le moment de référence pour lequel l’âge est établi) et le moment de la naissance (le point de
départ depuis lequel l’âge est décompté). L’âge exact est donc simplement le temps précis qui
s’est écoulé entre la naissance de l’individu et le moment de référence.
Le décès est survenu à l’âge révolu de 1 an ; l’âge révolu correspond donc à l’âge exact
au dernier anniversaire ou, autre définition, à la partie entière de l’âge exact au moment de
référence.
Pour obtenir l’âge au décès en âge atteint, il suffit de retirer le millésime de l’année de
la naissance (2000) de celui où le décès est survenu (2002), ce qui donne 2. En différence de
millésimes, l’âge au décès de l’individu concerné était donc de 2 ans.
L’âge révolu sur un diagramme de Lexis est représenté comme suit : à un instant t, le
nombre de lignes ayant traversé le segment vertical de couleur orange donne le nombre d’in-
dividus ayant x années à l’instant t.
50 CHAPITRE 5. TABLES DE MORTALITÉ
Sur un diagramme de Lexis, l’âge atteint est représenté comme suit : le nombre de lignes
traversant le segment horizontal de couleur orange donne le nombre d’individus ayant l’âge
x entre t et t + 1.
Il est également possible de représenter le nombre de décès par âge atteint. Le nombre de
lignes s’arrêtant dans le carré de couleur orange correspond au nombre de décès d’individus
d’âge x entre t et t + 1.
5.5. TABLES DE MORTALITÉS PROPECTIVES 51
Dans un diagramme de Lexis, une droite modélise la durée de vie d’un individu né à
l’âge 0 en g et décédé à l’âge x en t. Nous pouvons utiliser les diagrammes de Lexis pour
visualiser les générations à prendre en compte dans le calcul d’un taux de décès par année et
par génération. Pour calculer un taux de décès à l’âge x l’année t, il faut prendre en compte
les individus, qui atteignent le rectangle [ t, t + 1[×[ x, x + 1[.
Nous voyons que cette estimation concerne les individus issus des générations g − 1 et g. L’ex-
position L x,t correspond alors au temps accumulé que passent les individus des générations
g et g − 1 dans le rectangle [ t, t + 1[×[ x, x + 1[. Ce temps est de couleur verte dans le graphique
précédent.
52 CHAPITRE 5. TABLES DE MORTALITÉ
ln(µ t,x ) = α x + β x κ t ,
où
— α x (composante spécifique à l’âge) rend compte du comportement moyen du taux cen-
tral de mortalité (pris en logarithme) au cours du temps ;
— κ t (composante temporelle) traduit quant à elle l’évolution temporelle de la mortalité.
On pourra remarquer que, dans le cadre des projections, c’est la modélisation de ce κ t
qui permettra d’explorer de nouveaux modèles. Chez Lee et Carter (1992), il s’agissait
d’une marche aléatoire et depuis Renshaw et Haberman (2003) il est classiquement
modélisé par un processus ARIMA.
— β x (composante propre à l’âge croisée avec l’effet temporel) décrit l’évolution du taux
central de mortalité (pris en logarithme) à l’âge x relativement aux autres âges
d
ln(µ t,x ) = β x .
dt
Si on observe des µ∗t,x , on considère le modèle
ln(µ∗t,x ) = α x + β x κ t + ε xt .
On suppose que ε xt est un terme d’erreur qui reflète les particularités propres à l’âge x ou à
la date t qui ne sont pas capturées par le modèle. Par hypothèse, nous avons E(ε xt ) = 0.
2. Estimation de κ t et β x . Posons
³ ´
Z = Z xt avec Z xt = ln(µ∗t,x ) − α
bx .
³ ´ v
b = βbx = P 1
³ ´ p ³X ´
β κ b t = λ1
b= κ v1 j u 1
x j v1 j t
j
′ ′
où u 1 (resp. v1 ) est le vecteur propre de Z Z (resp. ZZ ) associé à la plus grande valeur
propre λ1 avec Z = ln(µ bt,x ) − α
bx .
3. On peut améliorer l’estimation en utilisant le fait que l’on souhaite faire coincider
les nombres de décès par âges observés avec les valeurs données par le modèle. Pour
chaque t
xM xM
obs th
= L xt µ∗xt
X X X
D xt = D xt
x= x m x= x m x
xM
obs
L xt eαb x +βx κb t .
X X
D xt =
b
x= x m x
En posant
X³ ´
F (κ) = L xt eαb x +βx κb t − D xt
obs
,
b
F (k i )
k i+1 = k i − i≥1 k o k.
b
F ′ (k i )
avec
tM
1 X
k̄ t = k.
e
t M − t m + 1 t= t m
Il faut aussi corriger les α
b x pour que la somme α x + β x k t reste inchangée :
α
b x + βbx k
et → α
b x + βbx k̄ t + βbx ( k
e t − k̄ t ) α∗t = α
b x + βbx k̄ t .
βb β
bx
β∗x = P α∗x = β
X
bx − k.
b
x βx tM − tm + 1 t
b
L’approximation étant assez fiable, sauf aux âges élevés. Nous considérons alors une régres-
sion standard par rapport au temps t, pour chaque âge x :
Les paramètres α x et β x peuvent être estimés par la méthode des moindres carr és ordinaires.
Chapitre
6 Exercices
Exercice 2. Une durée de vie T a pour densité : f ( t) = β2 t exp(−β t)1 t≥0 où β > 0.
1. Déterminez sa fonction de survie.
2. Déterminez le hasard instantané.
³ ´
3. Déterminez la distribution de T − u | T > u pour u > 0.
Exercice 3. T est une durée de vie continue, S ( t) est sa fonction de survie, f ( t) la fonction de
probabilité, h( t) la fonction de hasard. Voici trois hypothèses usuelles valables pour k ∈ N :
— Uniform Death Distribution (UDD) : t 7→ f ( k + t) est constante sur [0, 1[
— Constant Force of Mortality (CFM) : t 7→ h( k + t) est constante sur [0, 1[
1
— Balducci (BAL) : t 7→ est affine sur [0, 1[
S ( k + t)
1. Montrez sous chaque hypothèse il existe λ : R → R telle que λ ◦ S ( k + t) est affine en t
2. Pour x ∈ N et 0 < t ≤ 1, on note t q x = P(T ≤ x + t|T > x) et q x =1 q x
(a) Montrez que sous l’hypothèse UDD : t q x = tq x .
(b) Montrez que sous l’hypothèse BAL : 1 − t q x+ t = (1 − t) q x .
Exercice 4. Voici les durées de vie en jours de 21 patients atteints d’une infection virale : 6,
6, 6, 6+, 7, 9+, 10, 10+, 11+, 13, 16, 17+, 19+, 20+, 22, 23, 25+, 32+, 32+, 34+, 35+
1. Représentez l’estimateur de Kaplan-Meier de la fonction de survie
2. Déterminez et représentez le hasard cumulé issu de l’estimateur de Neslon-Aalen.
55
56 CHAPITRE 6. EXERCICES
Exercice 5. Considérons un groupe de n individus d’âges (θ1 , . . . , θn ) et de durée de maintien
résiduelle ( X 1 , . . . , X n ) indépendantes et marginalement distribuées selon une loi de Pareto
de deuxième espèce :
S i ( t) = θ α
i (t + θi )
−α
t ≥ 0.
1. Soit un individu d’âge θ dans ce groupe. Expliciter sa fonction de hasard h et sa fonc-
tion espérance de vie résiduelle e. Que peut-on en déduire quant à la pertinence du
modèle proposé ?
2. Expliciter la fonction de survie de cet individu conditionnée par le fait qu’il sera en vie
dans x années. Que peut-on en déduire ?
3. Supposons que ce groupe de n individus soit observé jusqu’à son extinction et notons
x = ( x1 , . . . , xn ) les durées de survie observées. Donnez l’estimateur du maximum de
vraisemblance de α.
4. Supposons à présent que le groupe n’est plus observé que pendant c années. Don-
nez l’estimateur du maximum de vraisemblance de α à l’aide des observations t =
( t 1 , . . . , t n ) où t i = min( x i , c)
Exercice 6. On considère les durées (guérison en semaines) de patients à qui l’on a adminis-
tré deux types de traitements :
— Groupe 1 : 5, 6, 6+ , 7, 8, 9+ , 10
— Groupe 2 : 1+ , 2+ , 4, 5, 5+ , 6, 7+
. Tester l’égalité des deux survies des deux groupes à un risque α = 5%.
Exercice 7. Voici la durée de vie de survie en jours de 21 patients atteints d’une infection
virale :
6, 6, 6, 6+ , 7, 9+ , 10, 10+ , 11+ , 13, 16, 17+ , 19+ , 20+ , 22, 23, 25+ , 32+ , 32+ , 34+ , 35+ .
e θ ( x) = Eθ ( X − x | X > x).
Exercice 11. Les données suivantes décrites par Freireich (1963) ont été obtenues lors d’un
essai thérapeutique ayant pour but de comparer les durées de rémission (exprimées en se-
maines) de sujets atteints de leucémie selon qu’ils ont reçu de la 6-mercaptopurine (notée
6-MP) ou un placebo. Les données suivies du signe + correspondent à des patients qui ont
été perdus de vue à la date fournie. L’essai a été réalisé en double aveugle, ce qui signifie
que ni le patient, ni le médecin ne sont informés de l’attribution du traitement ou du pla-
Traitement Durée de rémission
cebo 6‘MP 6,6,6,6+ ,7,9+ ,10,10+ ,11+ ,13,16,17+ ,19+ ,20+ ,22,23,25+ ,32+ ,32+ ,34+ , 35+
Placebo 1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23
Exercice 13. On s’intéresse au remboursement anticipé des crédits, c’est à dire au fait qu’un
emprunteur rembourse sa dette avant l’échéance initialement prévue au moment de l’accord
de prêt. Pour cela on dispose d’informations collectées jusqu’au 31 décembre 2007. En parti-
culier le client A a contracté un emprunt le premier janvier 2002 d’une durée de 10 ans et
continue de rembourser régulièrement. Le client B a contracté un emprunt le premier jan-
vier 2000 pour une durée de 8 ans et 6 mois et a respecté les clauses initiales. Le client C
s’est endetté pour 15 ans le premier janvier 2003, il est décédé le 30 septembre 2007 alors
qu’il remboursait régulièrement son emprunt. Le client D a procédé le 31 mars 2006 au rem-
boursement anticipé d’un crédit à 5 ans ouvert le premier janvier 2004. Au moyen de ces
informations, indiquez pour chacun de ces 4 clients quelle valeur de la durée doit être prise
en compte pour l’analyse, indiquez également si cette durée est censurée et précisez si l’éven-
tuelle censure est déterministe ou aléatoire.
Exercice 14. les données suivantes correspondent à des temps d’évènement. Les données
pour lesquelles il y a une censure à droite sont indiquées par "+" : 2, 5, 7+ , 4, 6, 9+ , 3, 5+ , 8, 10,
13+ , 6, 11, 4+ , 12+ , 4. On considère maintenant les intervalles [0, 4[, [4, 8[, [8, ∞[. Construisez
l’estimateur de la fonction de survie selon la méthode actuarielle.
Exercice 15. On considère une variable de durée de vie T ayant une densité f ( t) et une
fonction de survie S ( t).
1. Qu’est ce qu’une variable de durée de vie ?
58 CHAPITRE 6. EXERCICES
2. Montrer que Z ∞
E(T ) = S ( t) dt.
0
36
S ( t) = .
( t + 6)2
59