CHAOUBI ABDELAZIZ
NOTES DE COURS
(Version provisoire)
2017-2018
1
I.N.S.E.A.
3ème Année I.E.
Filières : Act-Finance, Stat-Démo, Stat-Eco
Professeur : Abdelaziz CHAOUBI
Objectif
Le but de ce cours est d’asseoir sur des bases solides les techniques nécessaires à
l’analyse statistique des durées de vie.
Contenu
Références
1) Lawless, J. (1982), Statistical Models and Methods for Lifetime Data, New York, Wiley.
2) Droesbeke, J.J., Bernard, F. et Tassi, P. (1989), Analyse Statistique des Durées de Vie
(modélisation des données censurées). Economica.
2
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
Introduction
Notons aussi que ce type d’analyse statistique a trouvé son extension dans l’analyse
des biographies ou de modélisation des événements du parcours ou de l’histoire de vie.
Généralement, de l’information additionnelle pourra être obtenue (en plus des durées
de vie) pour chaque individu. Celle-ci peut être très variée : caractéristiques physiques, âge,
sexe, milieu de résidence, …etc. Ces variables explicatives pourront alors être mises en
relation avec des durées de vie en spécifiant un modèle et en estimant les paramètres de celui-
ci. En général les techniques de régression conventionnelles ne sont cependant pas utilisables
à cause de la censure.
Les données de durées de vie sont des données positives qu’on représentera par des
variables aléatoires T1 , T2 ,.....Tn . On notera par la suite T la durée de vie d’un individu (ou de
l’unité statistique en question). T est une variable aléatoire dont la fonction de répartition F a
pour support IR+. Cela limite à priori la classe des modèles paramétriques utilisables dans
3
l’analyse des durées de vie, mais on pourra toujours transporter une variable aléatoire sur IR+
à l’aide d’une transformation convenable. En pratique cette variable représente la durée passé
dans un état donné (chômage, célibataire) et/ou celle séparant deux événements (changement
de compagne d‘assurance, changement d’emploi, …).
Fonction de survie
La fonction de survie est définie, autant dans le cas discret que continu, comme étant la
probabilité qu’un individu survie au delà du temps t :
S (t ) P(T t )
f (t ) S (t ) .
Dans quelques contextes, particulièrement celui impliquant la durée de vie de fabrication des
articles, S (t ) est référée comme fonction de sûreté.
S (t ) , S (0) 1 et t limS (t ) 0 .
Cette fonction est généralement préférée à la fonction de répartition parce qu’elle permet plus
facilement l’incorporation de données censurées.
1. Modèle continu
f (t ) P(t T t t T t )
h(t ) lim .
S (t ) t
4
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
h(t ) spécifie le taux instantané de décès ou d’échec (ou de sortie de l’état) au temps t étant
donné que l’individu survie jusqu’au temps t. en particulier h(t )t est la probabilité
approximative de décès dans l’intervalle t , t t .
t t S (t t0 )
S (t / t0 ) exp( 0 h(u)du)
t0 S (t )
1
S (t ) t
- Et si lim uS (u ) 0 , alors (t ) S (u )du .
u
2. Modèle discret
Considérons maintenant le cas où T est discrète pouvant prendre les valeurs , avec
probabilités
Pj P(T t j ) , j = 1,2,…
S (t ) P(T t ) Pj .
j:t j t
h(t ) est donnée dans ce cas par
5
h(t j ) P(T t j T t j )
P(T t j ) S (t j 1 ) , (5)
1
S (t j ) S (t j )
f (t1 ) P(T t1 )
h(t1 ) f (t1 )
S (t1 ) P(T t1 )
f (t 2 ) P(T t 2) P(T t 2 ) P(T t 2 )
h(t 2 )
S (t 2 ) P(T t 2) 1 P(T t1 ) 1 h(t1 )
f (t 3 ) P(T t 3) P(T t 3) P(T t 3) (5)
h(t 3 )
S (t 3 ) P(T t 3) 1 P(T t1 ) P(T t 2 ) (1 h(t1 ))(1 h(t 2 ))
f (t j ) f (t j )
h(t j ) j 1
S (t j )
(1 h(t ))
i 1
i
on déduit par itération, que S (t ) peut s’écrire en fonction de h(t ) sous la forme
suivante :
j
S (t ) 1 h(ti ) , t j t t j 1 . (6)
i 1
De (3) et (6), on déduit que la fonction de risque cumulée est donnée dans le cas
discret par
j
H (t ) Log (1 h(ti ) ) , t j t t j 1
i 1
L’utilisation de la fonction de risque h(t ) est très fréquent dans l’analyse des
durées de vie. L’étude de son évolution en fonction du temps est très important
au niveau de l’interprétation, puisque elle décrit les variations de la probabilité
de décès ou d’échec (ou de sortie de l’état) en fonction du temps.
La fonction de risque h(t ) est très utile dans l’analyse des durées de vie. En
particulier dans certaines applications, une information a priori sur le taux de
sortie de l’état peut être disponible, ce qui facilitera le choix du modèle pour
les durées de vie. Par exemple il pourra exister des raisons de restreindre le
choix des modèles à ceux dont h(t ) ou ayant toute autre caractéristique.
Une telle restriction pourra alors suggérer parfois la loi des observations.
Exemples :
T : durée de chômage
Les chômeurs de longue durée ont plus de difficultés à retrouver un emploi.
h(t ) quand t .
6
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
h(t )
t
T : durée de vie d’une machine
Plus la machine est vieille plus le taux de panne augmente. Donc la probabilité de
panne augmente avec l’âge. Ainsi le phénomène d’usure pourra être modélisé par
une fonction h(t ) croissante.
En pratique, h(t ) est une fonction qui peut prendre des allures assez variées.
Parmi toutes les formes possibles une est spécialement importante ; celle où
h(t ) est constante. Elle correspond au cas où la variable T est distribuée
suivant la loi exponentielle de paramètre si T est continue ou bien la loi
géométrique si elle est discrète.
h(t ) , t IR
t
S (t ) exp( h(u )du )
0
t
e
h(t j ) , j
P(T t j ) (7)
S (t j )
on sait que
j
S (t ) (1 h(t i )
i 1 (8)
(1 ) j , t t j 1
ceci implique
P(T t j ) h(t j ) S (t j )
(9)
j 1
(1 ) , j 1,2,3,....
7
On dit que la distribution exponentielle (géométrique) vérifie la propriété d’indépendance
temporelle.
Cela signifie qu’à n’importe quelle date, la probabilité de sortir de l’état en question est la
même, sachant qu’on a vécu sur cet état jusque là.
Proposition une distribution possède la propriété d’indépendance temporelle ssi elle est
exponentielle si T est continue (géométrique si T est discrète).
T~exponentielle ( ) f (t ) e t , t 0
S (t ) e t , t 0
h(t ) , t 0
où 0 . Dans l’analyse de fiabilité, h(t ) est constante en t, signifie que les items dont
la survie suit une loi exponentielle sont toujours « aussi bons que neufs » puisqu’un item
âgé de t a la même probabilité de tomber en panne dans l’instant qui suit q’un item neuf
(d’âge 0).
2) Loi de Weibull
T~Weibull ( , ) f (t ) (t ) 1 e (t ) , t 0
S (t ) e (t ) , t 0
h(t ) (t ) 1, t 0
Weibull (1, ) Exponentielle( )
4) Loi Log-normale
8
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
t 1
f (t; , ) 1
1 t 2 où e ,
1
S (t )
1 t
t 1
h(t ) 0 .
1 t t
9
Supposons maintenant une situation où l’observation des durées ne se fait pas
immédiatement lors de l’entrée des individus dans l’expérience. Il peut arriver
que certains des individus trouvent un emploi entre leur entrée dans
l’expérience et le moment où on commence à prendre les observations. Le fait
que ces individus ont trouvé du travail dans cet intervalle de temps est alors
connu, mais les temps précis de chômage, eux, sont inconnus ; pour cette
raison, on ne possédera qu’une borne supérieure pour la durée de chômage de
ces individus. Il est aussi possible que certains individus soient au chômage au
début de la période d’observation, sans connaître leurs durées de chômage
avant le début de la période d’observation. Il est alors raisonnable de croire
que la durée de chômage déclarée sous estime la durée réelle de recherche
d’emploi. Il s’agira cette fois dans les deux cas de censure à gauche.
Une différence majeure entre ces deux types de censures réside dans le fait que
pour le type I, le nombre de durée est une variable aléatoire alors que pour le
type II, le temps que dure l’expérience est une variable aléatoire. La censure à
droite est le type le plus courant dans l’analyse des urées de vie.
10
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
t1
, t 2*
,
t 3l , t3r
durée observée durée censurée à droite durée censurée par int ervalle
1. Durée observée
La vraisemblance d’une durée observée est tout simplement la
probabilité que l’événement apparaît au temps t1
Dans le cas général, nous supposons que nous avons un échantillon de taille n
contenant les trois types de durées. Notons par
D : l’ensemble des durées observées
C : l’ensemble des durées censurées à droite
IC : l’ensemble des durées censurées par intervalle
La vraisemblance basée sur cette échantillon est donnée par
m0 k mj
L S (t 0i 0, ) [ S (t j , ) S (t j 0, )] S (t jl 0, )
i 1 j 1 l 1
Si S (t ) est continue au point t j , alors S (t j , ) S (t j 0, ) 0 et
L0
S (t ) est discontinue aux durées de vie observée.
j 1
S (t j ) (1 i )
i 1
comme S (t ) est décroissante, alors t j t jl implique S (t j 0) S (t jl 0) ,
S (t jl ) est maximisée en prenant S (t j 0) S (t jl 0)
S (t 0l ) 1 , pour l 1,..., m0
La vraisemblance devient
12
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
k mj
dj
L [ S (t j ) S (t j 0)] S (t jl 0)
j 1
l 1
k j 1
dj d m j m
j (1 l ) j (1 j ) j
j 1 l 1
k j 1
dj k d m j m
j (1 l ) j (1 j ) j
j 1 j 1l 1
k j 1
d j m j mj
considérons (1 l ) (1 j )
j 1l 1
= (1 1 ) m1
= (1 1 ) m2 d 2 (1 2 ) m2
= (1 1 ) m3 d 3 (1 2 ) m3 d 3 (1 3 ) m3
= (1 1 ) m4 d 4 (1 2 ) m4 d 4 (1 3 ) m4 d 4 (1 4 ) m5
. . . .
. . . .
. . . .
k k
m1 m j d j m2 m j d j
= (1 1 ) j 2
(1 2 ) j 3
......( 1 k ) m
k
= (1 1 ) n1 d1 (1 2 ) n2 d 2 ......(1 k ) nk d k
k
n j d j
= (1 j )
j 1
Après cette simplification la vraisemblance devient
k dj n j d j
L j (1 j )
j 1
Pour maximiser L nous avons besoin de l’estimation de S(t)
k
ln( L) [d j j (n j d j ) ln(1 j )]
j 1
ln( L) d j n j d j dj
0 ˆ j
j j 1 j nj
13
dj
Sˆ (t ) (1 ˆ j ) (1
nj
)
j t j t j t j t
Cherchons maintenant la variance asymptotique de l’estimateur de vraisemblance Sˆ (t ) . Pour
le calcul de la variance var(Sˆ (t )) nous avons besoins des variances suivantes :
1. var(d j )
2. var(ˆ j )
3. var(log(Sˆ (t ))
Rappelons la méthode delta, la plus utilisée dans le calcul de la variance :
2
g ( x)
var(g ( x)) var(x)
x
1. d j n j est une variable aléatoire Bin(n j , j ) , donc var(d j ) n j j (1 j )
2.
d j
var(ˆ j ) var
nj
1
var(d j )
n 2j
j (1 j )
nj
ceci implique
ˆ j (1 ˆ j )
var̂(ˆ j )
nj
d j (n j d j )
n 3j
14
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
3.
var(log(1 ˆ j ))
j t j t
2
log(1 ˆ j )
var(1 ˆ j )
ˆ
(1 j )
j t j t
1
ˆ 2
var(1 ˆ j )
j t j t (1 j )
nous déduisons de ces calculs
1
vâr(log( Sˆ (t )) ˆ 2
vâr(1 ˆ j )
j t j t (1 j )
1
dj 2
var(ˆ j )
j t j t (1 )
nj
1 d j (n j d j )
d
j t j t (1 j ) 2 n 3j
nj
dj
n j (n j d j )
j t j t
Calculons maintenant var(Sˆ (t ))
var(Sˆ (t )) var(exp(lo g(Sˆ (t ))))
2
exp(log( Sˆ (t )))
ˆ var(log(Sˆ (t )))
log(S (t ))
exp(log( Sˆ (t )))2 var(log(Sˆ (t )))
Sˆ (t ) var(log(Sˆ (t )))
2
nous déduisons
vâr( Sˆ (t )) Sˆ (t )
2
dj
n j (n j d j )
j t j t
15
4.2 Estimation de la fonction de densité
Rappelons que
f (t ) h(t )S (t )
fˆ (t i ) hˆ(t i ) Sˆ (t i )
ainsi nous pouvons estimer f (t i ) par i 1
ˆ i (1 ˆ j )
j 1
4.3 Estimation de la fonction de risque cumulée H(t)
H (t ) log(S (t )) (1)
et
H (t ) h(t j ) (2)
j t j t
Si on utilise la première définition, alors l’estimateur de la fonction H(t)
Hˆ (t ) log(Sˆ (t ))
dj
1 n
log
j t j t j
Si on utilise la deuxième définition, alors H(t) pourra être estimer par
~ dj
H (t ) hˆ(t j ) nj
j t j t j t j t
~ ~
H (t ) est appelé estimateur « Nelson-Aalen ». H (t ) est une approximation de
premier ordre de l’estimateur Hˆ (t ) . On montre aisément que ces deux estimateurs sont
asymptotiquement équivalents.
Sˆ (t ) N (S (t ), vâr( Sˆ (t )) ,
l’intervalle de confiance linéaire de niveau 1 pour S (t 0 ) est donnée par
Sˆ (t ) z vâr( Sˆ (t )), Sˆ (t ) z vâr( Sˆ (t ))
0 0 0 0
2 2
16
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
où z est le quantile d’ordre de la distribution normale N (0,1) . Notons que cette
2
2
approximation normale n’est pas bonne.
2 (t 0 )
ˆ
log log S (t 0 )) N log logS (t 0 )) ,
log(S 0
ˆ (t )) 2
ceci donne comme intervalle approximatif de niveau 1 pour S (t 0 ) :
ˆ
1
S (t 0 ) , Sˆ (t 0 )
z (t 0 ) dj
où exp / 2 et 2 (t )
0 n (n d )
log(Sˆ (t 0 )) j t j t0 j j j
E (T ) S (t )dt
0
pourra être estimer par
k
̂ Sˆ (t )dt (t j t j 1 )Sˆ (t j ) .
0 j 1
La variance de cet estimateur est donnée
2 dj
t max ˆ
vˆ( ˆ ) S (t )dt
t n j (n j d j )
j D j
où t max est la plus grande durée de vie.
17
Si non t p n’est pas unique
Exemple
0 , t 1
1 / 2 , 1 t 2
F (t )
3 / 4 , 2 t 3
1 , t 3
Cherchons le quantile d’ordre 0,7. La définition précédente n’est pas bonne pour
le cas discret. Redéfinissons le pème quantile comme étant la valeur telle que
F (t p ) p
Avec cette définition, toute valeur supérieure ou égale à 2 satisfait cette définition.
Pour avoir l’unicité, nous définition le pème quantile, la valeur t p définie par
t p inf t : F (t ) p
avec cette définition, le quantile d’ordre 0,7 est égale à 2.
Le pème quantile en terme de la fonction de survie est donné par
tˆ p inf t : Sˆ (t 0) 1 p
Intervalle linéaire
Intervalle basé sur la transformation logarithmique
I1 I2 Ij Ik
a0 a1 a2 aj-1 aj ……………ak-1 ak
18
Pr. CHAOUBI Abdelaziz Analyse des durées de vie
Pj
Notons par P j S (a j ) la probabilité de survivre après a j et par p j 1 q j .
P j 1
j
Nous avons P0 1 , P j pi , q j représente la probabilité conditionnelle qu’un
i 1
individu soit décédé dans I j sachant qu’il est survivant dans I j 1
Dj
qˆ j
Wj
Nj
2
j
Di
pˆ j (1 )
W
i 1
Ni i
2
4.9 Estimation de la fonction de densité
V. Modèles paramétriques
VI. Modèles de régression paramétriques
VII. Modèles semi-paramétriques
19