Vous êtes sur la page 1sur 463

Moulay El Mehdi Falloul

Actuariat et management des risques

1
2
Introduction

L’actuariat est une science qui applique les mathématiques et les statistiques
pour évaluer les risques en a assurances, en finance et dans d’autres disciplines et
professions. Les Actuaires sont des professionnels possédant les qualifications
requises dans ce domaine par le biais de l’acquisition des compétences dans le
domaine de l’actuariat. Dans de nombreux pays, les actuaires doivent démontrer
leur compétence en passant d’une série d’examens professionnels rigoureux.
L’actuariat comprend un certain nombre de disciplines interdépendants dont les
probabilités, les mathématiques, les statistiques, la finance, l’économie, l’économie
financière et la programmation informatique. Historiquement, les actuaires ont
utilisé des modèles déterministes dans la construction des tables et des primes. La
science a connu de changements révolutionnaires au cours des 30 dernières années
en raison de la prolifération des ordinateurs de haute vitesse et de l’union des
modèles stochastiques actuariels avec la théorie de la finance moderne.
Habituellement le travail d’un actuaire (l’actuariat) conduit à l’identification et
à la quantification des montants qui représentent à une date donnée une somme
d’argent ou que peuvent mettre en jeu une responsabilité financière future. Des
modèles stochastiques peuvent être utilisés pour déterminer une distribution et les
paramètres de la distribution (par exemple, la valeur moyenne probable).
Récemment la portée du domaine actuariel s’est étendue pour inclure les conseils
d’investissement, et même la gestion d’actifs.
Cet ouvrage est divisé en 4 grandes parties, la première partie est consacrée aux
statistiques et quelques méthodes d’évaluation utilisée en actuariat, La deuxième
partie porte sur les risques en assurance et les modèles actuarielles usuels. La
troisième partie traite des tables de mortalités et de quelques méthodes
stochastiques utilisées en actuariat. La quatrième partie traite sur la réglementation
Solvabilité 2 et ses aspects pratiques.

3
4
Partie I

Méthodes statistiques
et d’évaluation en actuariat

5
6
Chapitre 1
La Value at Risk (VaR)

1. Introduction
Définir et mesurer les risques n’est pas une tâche simple pour les institutions
financières notamment les banques. Pour cela il doit y avoir une mesure du risque
pertinente, applicable à toute situation pas justement pour une action ou un swap
de taux d’intérêt, mais également aux portefeuilles de ces mêmes instruments ou
d’instruments reliés ainsi qu’aux portefeuilles contenant une variété d’instruments
différents avec leurs risques sous-jacents. En second lieu, une mesure du risque de
marché adéquate doit pouvoir tenir compte de tous les facteurs de risque possibles,
par exemple une variation de prix, la convexité, la volatilité, la corrélation, la perte
de valeur due au temps, le taux d’actualisation, etc. Troisièmement, la mesure doit
considérer ces facteurs de risque de manière cohérente et logique ; ces facteurs
doivent être réunis en un dénominateur commun qui mesure le risque de marché
de chaque instrument ainsi que le risque agrégé du portefeuille total. La VaR est
une mesure qui semble satisfaire à ces critères, sachant bien évidemment qu’elle se
base sur l’étude du passé pour prédire les évolutions futures des cours ainsi que dans
son calcul l’horizon est toujours fixé et donné mais pour cela il faut plus ou moins
affiner les calculs et étudier les facteurs de risques d’une manière détaillée pour que
cette méthode en question soit fiable.
La Value-at-Risk (VaR) donne au gestionnaire du risque financier la pire perte
prévue dans des conditions de marché moyenne sur un certain intervalle de temps
à un niveau de confiance donné. En d’autres termes, la VaR donne au gestionnaire
des risques le sens de ce qu’il peut s’attendre à perdre potentiellement dans un
intervalle de temps donné, en supposant des conditions de marché « normales ».

7
2. Une solution générale au problème de base VaR
La solution au problème de la VaR généralisée peut être décrite comme suit.
Supposons qu’il y a un portefeuille composé d’actifs 1,2, 3,…, N. Di dollars sont
investis dans des actifs i, de sorte que la valeur totale du portefeuille est D1 + D2 +…
N
+ DN = = D
i 1
i = D dollars. Supposons que le retour d’une journée sur l’actif i est

normalement distribué avec la valeur attendue E [ri] et la variance  i . En outre, la


2

covariance entre les rendements de 1 jour d’actifs i et j est donnée par  ij . Compte
tenu de cette information, trouver la VaR 1 jour à un niveau de 5 % de confiance.
Tout d’abord, déterminer le rendement attendu et la variance de l’ensemble du
portefeuille. La première étape est de calculer la pondération de chaque actif. La
proportion du portefeuille de rendement attendu des actifs attribuable à i
Di
est  i = . Ce sont les facteurs de pondération de l’actif.
D1  D2  ...  DN
 1   E[r1 ] 
   
2   E[r2 ] 
Soit K =   3  et U =  E[r ] 
   3 
     
   E[r ]
 N   N 
Maintenant, Nous formalisons une combinaison linéaire de variables
aléatoires, où les variables aléatoires sont les rendements attendus de 1 jour pour
chaque actif, et les coefficients sont les facteurs de pondération de l’actif.
n n
Tirant profit des propriétés des espérances tels que E[ i X i ] =
i1
  E[ X ]
i 1
i i

et la méthode matricielle pour obtenir cette espérance. On obtient le résultat


suivant :
 E[r1 ] 
 
N  E[r2 ] 

N
E[portefeuille] = E[  i ri ] = KTU =  1  2  3   N   E[r3 ]  =   i E [ ri ] =  p
i 1   i 1
  
 E[r ] 
 N 
.
Ensuite, nous devons calculer la variance du portefeuille total. En d’autres
termes, nous devons calculer la variance de la combinaison linéaire de variables
aléatoires. La variance de la combinaison linéaire des variables aléatoires est donnée

8
par
n n n
Var (  X ) =  Var(X ) + 2   Cov( X , X
i1
i i
i 1
i
2
i
i j
i j i j ).

Nous pouvons modifier les conditions de notre problème :


N N N
 2p = Var (   i ri ) =   i2Var (ri ) + 2   i j Cov(ri , rj )
i 1 i 1 i j
N N
=  
i 1
i
2
i
2
+2   i j
i j ij

 1    12  12  13   1N 
   
2    21  22  23   2N 
Pour calculer  p , soit K =   3  et Σ =    3 N 
 31  32  3
2 2
 
         
   
 N   N1  N 2  N 3   N2 
n
Puisque Var (  X ) = K ΣK, Par conséquent, on obtient
i1
i i
T

N
 2p = Var (   i ri ) = KTΣK = 1  2   N 
i 1

  12  13
2
  1N   1 
 1
  
  21  22  23   2N  2 
   3 N   .
 31  32  3
2
 3 
         
   
 N1  N 2  N 3   N2   N 
Maintenant que nous avons l’espérance et la variance pour le rendement global
du portefeuille, nous pouvons trouver la VaR. Nous supposons que le rendement du
portefeuille est normalement distribué avec une moyenne et une variance, qui sont
tous deux chiffres que nous avons calculés. Puisque nous voulons calculer la VaR à
un niveau de confiance de 5 %. Mathématiquement, nous résolvons r * tel que :
r*
1 ( x   p ) 2 2 2p

 p 2
e dx = 0.05.

9
Fig. 1.Courbe de la loi Normale de Gauss

Beaucoup de logiciels mathématiques ont une fonction de NORMINV à


résoudre pour r *.Par conséquent, supposons que nous avons trouvé r * tel que
r*
1 ( x   p ) 2 2 2p

 p 2
e dx = 0,05.

Habituellement, r * est un petit décimal négatif. 100 r * est un pourcentage, et


peut être considérée comme la perte d’une journée pour cent de sorte que, dans des
conditions normales de marché, le portefeuille perd plus de 100 % r * seulement
5 % du temps. Par conséquent, la valeur d’une journée à risque à un niveau de
confiance de 5 % est r * .

3. La Value at risk et la cvar


Dans la littérature, il existe trois méthodes principales pour l’estimation de la
VaR, qui sont : la méthode de l’analyse historique, la méthode variances –
covariances et la technique de simulation de Monté Carlo.

3.1 La méthode variances-covariances


La méthode variances-covariances a été proposée par JP Morgan en 1994. Cette
méthode se base sur l’hypothèse de la normalité de la distribution de la valeur de
portefeuille.
Dans ce cas la variable aléatoire V (t)  V (t) V (0) est distribuée suivant
 
une loi normale N E  V (t )  ,   V (t )  , alors la Var au niveau de probabilité
(1-∝ se calcule de la manière suivante :
P  V  VaRa   1  

10
  V  E (V )  VaR  E (V ) 
Il s’ensuit que P    1
  ( V )   ( V ) 
VaR  E (V )
Il en résulte que  Z
 (V )
Donc
VaR  E (V )  Z (V )
où Z  représente le quantile d’ordre 
3.2 La méthode historique
La méthode historique est une méthode très simple qui permet d’estimer la
VaR fondée sur la distribution empirique des données historiques de rendements.
La méthode historique ne pose aucune contrainte sur la distribution de
rendements, ainsi les cours passés doivent refléter les cours futurs de notre
portefeuille.
Pour estimer la VaR, tout d’abord on classe par ordre croissant toutes les
observations à considérés puis on identifie le centile qui, en fonction de seuil de
confiance choisi correspond à la VaR historique.
Par exemple, si on dispose d’un échantillon de 1000 observations historiques
de rendements et un niveau de confiance de 95 %, la VaR est donnée par la valeur
du rendement qui correspond à la 50éme de données observée.

3.3 La méthode de Monte Carlo


La méthode de simulation Monte Carlo consiste à simuler plusieurs
trajectoires ou scénarios possibles d’un actif financier en choisissant le modèle
décrivant sont évolution d’une manière très fiable.
Elle suppose que ce modèle suit une loi paramétrique connue dont les
paramètres sont estimés en se basant sur les données historiques.
La VaR obtenue pour un niveau de confiance donné est le quantile sélectionné
correspondant au scénario choisi.
La VaR représente plusieurs avantages tels que la facilité de comparaison et
d’interprétation. Cependant, des études comme celles de Szergo ont montré que la
VaR ne prend pas en compte le montant des pertes excédant la VaR. Ainsi la VaR
n’est pas sous-additive, cela veut dire qu’une diversification n’implique pas un
risque réduit.
Pour surmonter les limites de VaR, une nouvelle mesure de risque appelée la
VaR conditionnelle (VaR), définie comme la perte attendue dépassant la VaR peut
être adoptée. C’est la valeur moyenne des pertes qui excédent la VaR.

11
La CVaR est exprimé comme suit :
1
1
1   
CVaR ( X )  VaR ( X )d

2 – La VaR de portefeuille d’actions


On sait bien que dans le cas où la variable aléatoire V (T )  V (T ) V (0) est

distribuée suivant la loi normale N  V (T )  ,   V (T )  , la VaR au niveau de
probabilité  est donnée par :
VaR   E  V (T )       V (T ) 

Ainsi, le calcul des deux paramètres de l’équation au dessus, c’est-à-dire E


  Vi  , V ar   Vi   
et cov Vi , V j pour toutes les actions Ai  i  1,..., n  ce
n(n 1)
qui donne lieu au calcul de 2n  paramètres au total.
2
Ceci constitue l’inconvénient de cette équation en terme de charge de calcul.
Pour remédier à ce problème, nous proposons d’employer le modèle de marché
qui est plus simple et plus utilisé.
Soient Vi (t ) et V (t) respectivement le cours de l’action i et la valeur du
portefeuille de n actions investies sur un marché déterminé à l’instant t.
Notions par xi la proportion investie dans l’action Ai . Il s’ensuit que :
n
V  t    xiVi (t )
i 1

La valeur de portefeuille à l’horizon T est donnée par :


n n
V  t    xiVi (t )   xi Vi (0)  V (T ) 
i 1 i 1

Or le rendement Ri de l’action i  i  1,..., n  :

Vi (T )  Vi (0) Vi (T )
Ri (T )  
Vi (0) Vi (0)
Alors on obtient :
n
V (T )   xi Vi (0)  Ri (T )Vi (0) 
i 1

12
Il en résulte que :
n
V (T )   xiVi (0) 1  Ri (T )
i 1

Sous l’hypothèse de validité du modèle de marché :



 

R i (T )  r0  i  Rm (T )  r0 
 
pour tout i=1, …, n.
Il s’ensuit que :

 

E  V (T )  V (0)  r0   ( Rm (T )  2r0  
 
Et

 n
Vi (0) xi  2 
2

Var  V (T )  V (0)   m    
2 2
  i 
 i 1  V (0) 

Où  est donné par :
n n

 i xiVi (0)   x V (0)


i i i
 i 1
n
 i 1

V (0)
 x V (0)
i 1
i i

On sait que sous l’hypothèse de la normalité, la VaR au niveau de probabilité


 pour le portefeuille est donnée par :
VaR   E  V (T )       V (T ) 
Il en résulte que :

  
 2 n
Vi (0) xi  2 
2

VaR  V (0)    r0   ( Rm (T )  2r0 )       m     i 


   i 1  V (0) 

Pour la modélisation de l’évolution des prix futurs des actions, nous utilisons
souvent la distribution log-normale.
dVt
Par l’utilisation du lemme d’Itô, la solution de l’équation   dt   dz et
Vt

13
dVt
celle de l’équation   dt   dz s’exprime comme suit :
Vt

 V (T )   1 2
log  m     m   m  T   m TZ m
 Vm (0)   2 

Où Z m suit la loi normale réduite N (0,1)

 V (T )   1 2 1 2
log  i    i   m   i  T   im TZ m   i TZ i
 Vi (0)   2 2 

Avec les Zi (i  1,..., n) sont des variables aléatoires suivent la loi normale
centrée réduite, mutuellement indépendantes et indépendantes de Z m .

Supposons que Vm (0)  1 . Comme :

E Vm (T )   exp   mT 

Alors on obtient :
 VS m (T )  2 T
log     m   m TZ m
 E (Vm (T ))  2
Il s’ensuit que :
 V (T )   2T 2 
log  m   N   m ,  mT 
 E (Vm (T ))   2 
Donc pour tout quantile bilatéral   /2 de la loi normale réduite, on a :

P    / 2  Z m    / 2   1  
Par consequent :
 T T T 
P   m2   m T  / 2   m2   m TZ m   m2   m T  / 2   1  
 2 2 2 
Ou encoure
 T  V (T )  2 T

P   m2   m T  / 2 log  m    m   m T  / 2   1  
 2  E (Vm (T ))  2 
Il en résulte que :

14
 E Vm (T )exp  m2 T2  m 
T   /2  
 
 
P  Vm (T )   2 T 
 1
E Vm ( T )  exp   m  m T   /2 
  2 

Ce résultat nous permet de construire un intervalle de confiance pour la
variable aléatoire Vm à l’horizon T à un niveau de probabilité 1-  donné :

P Vm (T ) min  Vm (T )  Vm (T ) max   1  

  2T
Vm (T ) max  E Vm (T )  exp   m 2   m T   /2 
 

V (T )  E V (T )  exp   2 T   T  
 m min m  m m  /2
 2

Le rendement aléatoire de marché Rm (T) est donné comme suit :


Vm (T )
Rm (T )  Vm (0)

Alors

Vm (0)(1  Rm (T )) Vm (0)  Vm (T ) Vm (T )  T 


  exp   m2   m TZ m  .
E (Vm (T )) E (Vm (T )) E (Vm (T ))  2 
 2T 
Il en résulte que Rm (T )   
 exp   m 2   m TZ m   1
E (Vm (T ))
Vm (0)

Donc

E (Vm (T ))  V (0)(1  Vm (T )   Vm (T ) 


E m E   1  E  Vm (T )   1
Vm (0)  Vm (0)   Vm (0) 
Vt Vt t  Vt
Or   m t   m Z tm où Z tm N (0, t ).
Vt Vt
Pour t , t  t    0, T  on a E  Rm (T )    mT . Alors on obtient :
 T 
Rm (T )  ( mT  1) exp   m2   m TZ m   1
 2 
Supposons que les relations d’équilibre de l’équation
  2

df      dt   dz sont vérifiées et considérons le modèle de marché décrit
 2 

15
n n
1
par l’équation Var ( R ( x )) 
n2
 
i 1 j 1
ij alors on a :
i j
n
V (T )   xiVi (0) 1   i   i ( Rm (T )  r0T )   i (T ) 
i 1

Remplaçons Rm (T ) par sa formule, on obtient :


n
  2T  
V (T )   xV i i (0) 1   i  i  mT  1 exp  m   m TZ m    i (T ) 
i 1   2  
n
xiVi (0) n
xV (0)
Posons Y= 
i 1 V (0)
 i (T )  
i 1
X i i (T ) où X i  i i
V (0)
En remplaçant  i par ( i   , m ) T, alors on a :
 n    2T   
V (T )   xV i i (0) 1  iT  i mT  i  m  1) exp     TZ m   1  r0T    V (0)Y
 i 1    2   

En utilisant les relations d’équilibres de modèle de Merton, il en résulte.


n    2T   
V (T )   xV i i (0) 1  r0T  i  mT  1)exp   m   m TZm  1  r0T    V (0)Y
 i1    2   
n n

  x V (0)   x V (0)
i i i i
Posons   i 1
n
 i 1

V (0)
 x V (0)
i 1
i

   T   
V (T )  V (0) 1  r0T   (mT  1)exp   m2   m TZm  1  2r0T   Y 
   2   
Supposons que le portefeuille soit suffisamment diversifié, tel que :
n
xiVi (0)
Y   i  0.
i 1 V (0)
Alors on obtient :

   T  
V (T )  V (0) 1  r0T   (  mT  1) exp   m2   m TZ m   1  2r0T  
   2  
xV
i i (0)
Les variables aléatoires Yi   i sont indépendantes, avec
V (0)
Selon le théorème de Alan [4] on a :

16
xi2 Vi (0) 
2
 

 E Yi 2      2i 
V (0) 
2
i 1 i 1


Alors Y  0
i 1
i
p.s

Soit  a /2 le quantile bilatéral de la loi normale réduite, alors

P   a / 2  Z m   a / 2   1   .

Si   0 alors P V (T ) min  V (T )  V (T ) max   1  

   T  
V (T ) min  V (0) 1  r0T   (  mT  1) exp   m2   m T  /2   1  2r0T  
   2  
et
   T  
V (T )ùax  V (0) 1  r0T    (  mT  1) exp   m2   m T  /2   1  2r0T  
   2  
Il en résulte que :

P V (0)  V (T ) max  V (0)  V (T )  V (0)  V (T ) min   1  

Donc la VaR pour le portefeuille à l’horizon T, au niveau de probabilité 1- 


est donnée par VaR  V (0)  V (T ) min
ou encore
   T  
VaR  V (0)   r0T    (  mT  1) exp   m2   m T  / 2T   1  2r0T  
   2  
Si   0 alors VaR  V (0)  V (T )max
Donc
   T  
VaR  V (0)   r0T    (  mT  1) exp   m2   m T  /2T   1  2r0T  
   2  
4. Quelques observations
Il est important de noter la grande quantité de données nécessaires pour
entreprendre un calcul de la VaR. Dans le problème généralisé, les rendements
attendus et les variances de chaque actif, ainsi que les covariances entre les actifs. Avec
la puissance de l’informatique moderne, il est relativement facile d’obtenir ces valeurs.
Normalement, un gestionnaire de risque aura accès à des données historiques de

17
rendements pour chaque actif, de sorte que seules quelques lignes de code sont
nécessaires pour calculer les rendements attendus, les écarts et les covariances.
Il est également important de noter que la VaR est un modèle très polyvalent.
Bien qu’on utilise dans notre étude une distribution normale, pratiquement toute
distribution peut être mise en œuvre. Cela donne au gestionnaire des risques la
possibilité d’adapter un modèle de la VaR pour les caractéristiques spécifiques du
portefeuille implémenté.
Enfin, une tendance intéressante dans la gestion des risques a été le mouvement
vers des distributions de probabilités qui ont des « queues de plus épaisses » (c’est-à-
dire. Distributions qui donnent plus de poids à périphériques, des événements multi-
sigma). Une réalisation majeure de la récente crise financière a été que les retombées
financières ne sont pas toujours modélisées par une distribution normale ou une autre
distribution bénigne. Les événements extrêmes, souvent appelés « cygnes noirs », ont
tendance à se produire plus fréquemment que ces distributions seraient à prévoir.

4.1 Construction de la base de données et résultats


4.1.1 Constitution de l’échantillon
Les données utilisées sont les actions de la banque d’affaires marocaines CIH,
le cours de change dollar américain /dirham marocain et le bond de trésor de 5 ans.
Elles sont extraites de la base de données de BMCE Capital. La période
d’observation s’étale du 26 mars 2004 jusqu’à 27 mars 2009 (un échantillon
continu). On calcule la VaR 1 jour à un niveau de 5 % de confiance.
Les choix de la période et du nombre de branches sont dictés par la
disponibilité des données.

4.1.2 Evolution et tendances des variables du modèle

Fig. 2. Evolution du cours du bon de trésor de 5 ans

18
Ce graphique présente l’évolution du bons de trésor de 5 ans durant la période
2004 jusqu’à 2009.Ce titre se caractérise par une volatilité évidente. Il montre aussi
la baisse de la valeur après l’année 2007.

Fig. 3. Evolution du taux de change US/MAs

Ce graphique présente l’évolution du cours de change dollar américain


/dirham marocain durant la période 2004 jusqu’à 2009. Ce titre se caractérise par
sa volatilité.

CIH
900

800

700

600

500

400

300

200

100

0
2004 2005 2006 2007 2008

Fig. 4. Evolution du cours de l’action CIH

Ce graphique présente l’évolution du cours de l’action


ATTIJARIWAFABANK durant la période 2004 jusqu’à 2009. Ce titre se caractérise
par une évolution à la hausse EN 2005 suivi d’une chute en 2006 et reprise en début
de 2008.

19
4.1.2 Résultats de l’étude
Tableau 1.VaR du bon de trésor

Tableau 2. VaR du taux de change USD/MAD

20
Tableau 3. VaR du cours de l’action CIH

La matrice de corrélation entre les 3 titres se présente comme suit :

Tableau 4. Matrice Variance-Covariance


Corrélation – 5Y_US CIH USD_MAD
– 5Y_US 1.000000 – 0.627694 0.261691
CIH – 0.627694 1.000000 – 0.577917
USD_MAD 0.261691 – 0.577917 1.000000

A partir de la matrice variance covariance, la VaR de notre portefeuille se


calcule comme suit :
VaR p   x2   y2   z2  2 yx  2 zx  2 zy

VaRp   x2   y2   z2  2r y x  2r z x  2r z y

VaRp   5730^29266^233000^2   2*5730*9266*0.26   2*33000*573*0.62   2*33000*0.57


VaR p  34811

21
4.1.3 Résultats graphiques

20

15

10

-5

-10

-15

-20
2006M07 2007M01 2007M07 2008M01 2008M07 2009M01

NVARS_CIH CIH

Fig. 5. Graphique de la Normal VaR de l’action CIH

Fig. 6. Graphique de la Normal VaR du taux de change US_MAD

Fig. 7. Graphique de la Normal VaR du cours du Bon de trésor

22
Conclusion
La Value-at-Risk (VaR) donne au gestionnaire du risque financier la pire perte
prévue dans des conditions de marché moyenne sur un certain intervalle de temps
à un niveau de confiance donné. En d’autres termes, la VaR donne au gestionnaire
des risques le sens de ce qu’il peut s’attendre à perdre potentiellement dans un
intervalle de temps donné, en supposant des conditions de marché « normales ». La
VaR présente cependant certaines limites, en effet Limite technique liée à la
distribution de la perte qui n’est pas forcément normale, par exemple leptokurtique
qui implique donc des évènements extrêmes plus fréquents que pour la loi normale.
La VaR est aussi une fonction non convexe, ce qui fait que fusionner deux
portefeuilles ne réduit pas forcément le risque. Ainsi elle ne constitue pas une
Mesure Cohérente de Risque. De plus, la VaR indique la perte potentielle maximale
à un horizon de temps pour un niveau de confiance donné. Ainsi, la VaR ne donne
aucune indication sur les valeurs prises une fois le seuil passé.

23
24
Chapitre 2
L’évaluation des produits dérivés
et structuré de crédits

L’évaluation des produits dérivés de crédit est au centre des préoccupations des
intervenants du marché et de la recherche scientifique.
Dans ce sens, les institutions financières ont développé des modèles internes
permettant d’évaluer les produits dérivés de crédit. Entre autres, nous connaissons
des modèles basés sur des méthodes statistiques et des modèles basés sur des
méthodes de portefeuille. Dans le premier cas, nous pouvons citer par exemple des
méthodes de notation ou rating ; la note d’une dette réflète la probabilité de défaut
de son émetteur ainsi que la sévérité de perte de son détenteur.
Dans le second cas, on synthétise en une valeur (value at risk ou VAR) le risque
qu’encourt une institution financière du fait de son exposition au risque de crédit. Très
peu de travaux théoriques publiés se sont interessés à l’évaluation de produits dérivés
de crédit. Les principaux modèles considèrent que la date de défaut d’un agent
économique est imprévisible : une variable aléatoire à intensité. Schönbucher (2000)
s’intéresse à la tarification des produits dérivés sur le risque de défaut référencés sur un
seul débiteur et des produits dérivés sur le risque de marge de crédit. Duffie (1998),
donne une méthode générale d’évaluation de produits dérivés de crédit “first-to-
default”, c’est-à-dire de contrats financiers dont l’objet est de se défaire du premier
défaut d’un panier de signatures. Kijima et Muromachi (2000) s’intéressent à deux types
de contrats ; le premier, qualifié de swap de type F, est un cas particulier de swap “first-
to-default” ; le second, qualifié de swap de type D, protège son détenteur contre les deux
premiers défauts d’un panier de débiteurs. Enfin, Bielecki et Rutkowski (2001)
développent une méthode générale d’évaluation de dérivés de crédit dont l’objet est de
se défaire des i premiers défauts d’un panier de signatures. Ils généralisent notamment
les résultats de Duffie (1998) et de Kijima et Muromachi (2000).1

1
Idriss Tchapda Djamen, ÉVALUATION DES PRODUITS DÉRIVÉS DE CRÉDIT, Institut de
Science Financi`ere et d0Assurances (ISFA).(2003)

25
1. L’évaluation du risque de crédit
Trois facteurs sont placés au cœur de l’évaluation du risque de crédit : la
probabilité de défaut, la corrélation entre temps de défaut et le taux de
recouvrement.

1.1. La probabilité de défaut(PD)


La mesure de la probabilité de défaut est au centre de l’évaluation du risque de
crédit d’un produit dérivé de crédit. Intuitivement, il est facile de distinguer deux
approches pour évaluer la probabilité de défaut :
– L’évaluation par le biais des données historiques ;
– L’évaluation par les modèles mathématiques.
L’évaluation de la probabilité de défaut par les données historiques a long
temps joué un rôle majeur dans l’évaluation du risque de crédit mais cette approche
a été confronté à quelques reproches :
– La rareté de l’événement de crédit a souvent mis en avant le reproche selon
laquelle ces estimations étaient limitées.
– Les probabilités historiques étant un indicateur du passé, les acteurs
financiers ont souvent contesté l’exactitude de ces données en tant qu’un indicateur
futur.
Les modèles mathématiques ont pris une grande place dans le monde de la
finance en général et dans celui des produits dérivés en particulier au cours des
dernières années.
Aujourd’hui nous distinguons deux familles de modèles dans l’évaluation du
risque de crédit :
– Les modèles structurels qui représentent le défaut comme un événement
endogène défini à partir de la structure du capital ;
– Les modèles sou formes réduites qui représentent le défaut et les événements
de crédit comme des événements exogènes, dont le modèle spécifie la probabilité
de survenance.
Nous consacrerons toute une section pour l’étude de ces modèles.
Aujourd’hui, le marché reconnait quartes méthodes d’évaluation de la
probabilité de défaut :
– La probabilité de défaut implicite d’un CDS ;
– La probabilité de défaut à partir du prix d’une obligation ;
– La probabilité de défaut à partir d’une matrice de transition ;
– la probabilité de défaut à partir des modèles structurels.

26
Il faut bien noter que cette liste des méthodes n’est pas exhaustive, elle met en
lumière les principales techniques utilisées à ce jour par les acteurs des marchés
financiers

1.1.1 La Probabilité de défaut implicite d’un CDS


Pour une courbe de défaut donnée, la courbe de swap spread peut être calculée.
Cette méthode se base sur le processus inverse autrement dit, à partir d’une
courbe se swap spread, on calcule la courbe de défaut. C’est méthode est plus
connues sous le nom de « bootsrapping ».
Donnons un exemple pour illustrer cette méthode. Rappelons que si on
considère une période d’observation, la perte espérée d’un CDS, PE, est déterminée
par la formule suivante :

P étant la probabilité de défaut et RR le taux de recouvrement en cas de


l’occurence du défaut. On suppose qu’il ya indépendance entre le taux de défaut et
le taux de recouvrement. En l’abscence de frictions dans le marché, le Primium S
du CDS (ou perte espéreé actualisée au taux sans risque) devrait égal à :

Géneralisons ce procédé à un CDS de maturité M utilisant une intrensité de


défaut λ. La marge de crédit ou spread du CDS est a lors payé cahque période M (i),
i = 1, …, n avec M (n)= M et la probabilité de défaut à la période M (i) est de :

Si on évalue la valeur actuelle de la jambe de défaut2 du CDS (Default Leg)


comme étant :

2
La jambe de défaut représente la somme totale versée par le vendeur à l’assuré.

27
Et la valeur actuelle de la jambe de premium (Premium Leg PL) comme étant :

Y (i) étant le taux sans risque pour la période M (i), et S (M) le premium payé
par l’acheteur de protection pour le CDS de maturité M.
Le breakeven spread d’un CDS est défini comme étant la valeur du spread da la
jambe fixe (premium leg) qui vient annuler la valeur actuelle d’un CDS. En d’autres
termes, le breakeven spread est la valeur S pour laquelle :

On en déduit la relation suivante :

Il suffit de connaitre le taux de recouvrement et d’avoir la courbe de taux sans


risque pour extraire l’équation de l’intensité de défaut et estimer la probabilité de
défaut.

1.1.2 La probabilité de défaut à partir du prix d’une obligation


Cette méthode consiste à extraire la probabilité de défaut du prix d’une
obligation.
Prenons un exemple pour illustrer cette méthode. Soit P la probabilité de
défaut de l’obligation, RR le taux de recouvrement et r le taux de défaut sans risque.
Si le prix de l’obligation est de B, la neutralité du risque implique :

De l’équation précédente, on peut aisément extraire la probabilité de défaut :

En généralisons le raisonnement précédent au cas d’une obligation à N


périodes de remboursement est d’un montant nominal de 100. Le prix B (t) de cette
obligation à la période t est égal à la somme des flux futurs actualisés :

28
Avec rit le taux sans risque pour chaque période.
Supposons que la probabilité de défaut est constante pour chaque période :
pt1 = pt2= pt3=… = ptn, si le taux de recouvrement RR et le coupon payé sont
les mêmes pour chaque période, on peut alors écrire que :

En connaissant le prix B (t) actuel de l’obligation, le taux de recouvrement, le


coupon et le taux sans risque, on peut extraire la probabilité de défaut.

1.1.3 La probabilité de défaut à partir d’une matrice de transition


Comme nous l’avons déjà mentionné dans le chapitre précèdent, les agences
de Rating publient régulièrement des matrices de transition qui indiquent le
pourcentage d’obligations sur une période donnée (en l’occurrence 1 an) qui sont
passées d’un rating i à un rating j.
Donnons un exemple, cette matrice nous indique Si une obligation est notée
AAA en début d’année, la probabilité que son rating ne change pas, c’est-à-dire
reste AAA est de 90.81 %, par ailleurs, la probabilité que son rating se dégrade à
BBB est de 0.06 % et la probabilité que cette même obligation fasse défaut est nulle.
Rating AAA AA A BBB BB B CCC default
AAA 90.81 % 8.33 % 0.68 % 0.06 % 0.12 % 0.00 % 0.00 % 0.00 %
AA 0.70 % 90.65 % 7.79 % 0.64 % 0.06 % 0.14 % 0.02 % 0.00 %
A 0.09 % 2.27 % 91.05 % 5.52 % 0.74 % 0.26 % 0.01 % 0.06 %
BBB 0.02 % 0.33 % 5.95 % 86.93 % 5.30 % 1.17 % 0.12 % 0.18 %
BB 0.02 % 0.14 % 0.67 % 7.73 % 80.53 % 8.84 % 1.00 % 1.06 %
B 0.00 % 0.11 % 0.24 % 0.43 % 6.48 % 83.46 % 4.08 % 5.20 %
CCC 0.22 % 0.00 % 0.22 % 1.3 % 2.38 % 5.00 % 64.85 % 19.79 %
default 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 100 %

Cette matrice de transition permet de déterminer les probabilités cumulatives


qu’une obligation de rating i migre à un rating j à la fin de la nième année.
Pour cela supposons que les probabilités suivent une chaine de Markov, c’est-
à-dire que les migrations d’un coté comme de l’autre sont indépendantes d’une
année sur l’autre.
En multipliant la matrice de transition par elle-même une fois (M2), nous

29
obtiendrons les probabilités cumulatives de migrations à la fin de la 2éme année.
En la multipliant par elle-même (n-1) fois, nous obtiendrons la probabilité
cumulative de migration de rating i à j à la fin de la nième année. Si nous prenons
la dernière colonne sur cette matrice de transition, celle-ci représente la probabilité
pour une obligation d’être en défaut.
Ainsi en suivant ce principe nous pouvons déterminer les probabilités de
défaut cumulatives à la fin de la nième année.
Exemple des probabilités de défaut pour chaque rating sur 30 ans à partir de la
matrice de transition ci-dessus.

Du tableau précédent nous pouvons lever les remarques suivantes :


– Les probabilités marginales de chaque année, c’est-à-dire les accroissements
des probabilités cumulatives, différent selon le rating. Ainsi, les probabilités
marginales des ratings élevés augmentent avec le temps, celle des rating faibles
augmentent durant les premières années puis baissent par la suite. Ceci montre
qu’une obligation avec un mauvais rating aura autant plus de chance de survivre, si
elle survie durant ses premières années. (Le rating CCC dans le graphique suivant
illustre bien ce comportement).

30
Figure 21 : Les probabilités cumulatives des ratings

Paul SAINT-PASTEUR, les dérivés de crédit, ESCEM Tours Poitiers 2008

1.1.4 La probabilité de défaut à partir des modèles structurels


Cette étude fera l’objet de la sous-section en bas.
Ces méthodes d’évaluation ont fait l’objet de nombreuses critiques quant à leur
exactitude,
– Les données historiques utilisées dans les matrices de transitions se sont vues
reprochés de ne pas être un bon indicateur des valeurs futures, quoi que cette
méthode est bien d’actualité ;
– Les méthodes décrites ci-dessus utilisent des probabilités risque neutre qui
supposent l’absence d’arbitrage sur les marchés et reflètent l’aversion au risque des
investisseurs, incluant généralement un risque premium. Les probabilités risque
neutre sont jugées trop pessimiste par rapport à ses concurrentes (les probabilités
objectives) et sont peut être aujourd’hui l’une des raisons de la sous évaluation du
risque de crédit relatif à un actif car pas assez conservatrices. Las situation actuelle
pourrait exiger l’addition d’un premium encore plus sévère à la valeur de la
probabilité risque neutre, cependant il ne faut pas tomber dans une généralisation
de cette correction qui est très exigeante en terme de capital réglementaire ou de
provisions réglementaires en cas de pertes potentielles.

1.2. L’évaluation de la corrélation entre temps de défaut


La corrélation est un paramètre fondamental dans l’évaluation du risque de
crédit relatif à un actif financier au même titre que la probabilité de défaut.
L’évaluation de cette variable se justifie par le fait que les sous-jacent de dérivés
de crédit sont souvent diversifiées. En d’autre termes, l’objet de la méthode est

31
d’évaluer la probabilité au sein du sous-jacent entraine un ou plusieurs autres.
La corrélation entre temps de défaut est donc une mesure de l’intensité qu’un
certain nombre de défauts arrivent ensemble.
Prenant un produit structuré CDO pour illustrer la corrélation de défaut.
La première hypothèse à mettre en valeur pour expliquer et évaluer la
corrélation est d’admettre que cette dernière n’affecte en rien la perte espérée
globale du portefeuille mais affectera la distribution de pertes sur le passif.
Le graphique suivant montre bien les changements de la courbe de
distributions des pertes lorsque l’on fait varier la corrélation

Figure 22 : Courbes de distribution et corrélation

La corrélation permet de calculer le niveau de perte qu’une tranche peut


supporter. Elle est dont une valeur déterminante du fair spraid que devrait payer
une tranche.
Le changement de corrélation modifie la valeur des tranches entre elles dans la
mesure où, pour un coefficient de corrélation ρ donné indique que certaines
tranches perdront de la valeur au profit d’autres.
La méthode des « copules gaussiennes » est considérée comme La méthode
standard actuelle de pricing des tranches des produits dérivés de crédit, elle lie les
temps de défaut des actifs sous-jacent par des séries de variables aléatoires corrélées.
Il y a trois types de variables à déterminer pour pricer une tranche :
– les spreads de chaque actif sous-jacent dans le portefeuille
– les caractéristiques de la tranche à pricer : les points d’attachement, la largeur
de la tranche ;

32
– Enfin, il faut estimer une méthode pour intégrer la corrélation de défaut entre
les actifs du portefeuille sous-jacent ;
Pour introduire la corrélation de défaut, supposons que chaque actif Xi du
portefeuille sous-jacent soit défini par :

Zc et εi (les variables explicatives) sont des variables aléatoires indépendantes et


normalement distribuées avec pour moyenne 0 et variance 1. Xi (la variable
expliquée) est elle aussi normalement distribuée avec pour espérance 0 et variance
1. Zc s’interprète comme étant le facteur commun (exemple contexte économique
général) et εi comme étant le composant idiosyncratique de la variable Xi (spécifique
à chaque actif). En d’autres cette relation peut se lire de la façon suivante : un actif
peut faire défaut pour des raisons générales dues à L’état de l’économie ou encore
pour des raisons liées à son propre environnement.
La corrélation entre et Xj est aiaj est appelée corrélation copula. L’actif Xi est
relié au temps de défaut ti par la relation suivante :

Ou N est la fonction de la distribution cumulative normale est Qi est la fonction


de distribution cumulative de ti, le facteur Zc évalue la dépendance des défauts entre
les actifs. Si on suppose que Zc a une valeur donnée, la probabilité de survie de l’actif
i par la relation suivante :

Maintenant que la corrélation a été a introduite, nous allons voir les méthodes
qui existe afin de l’évaluer. Il faut noter que ces méthodes sont semblables à celle du
modèle Black & Scholes. Les acteurs du marché utilisent le niveau des prix des
produits dérivés pour déterminer une corrélation implicite.
Il existe deux méthodes d’évaluation de la corrélation implicite :
– La corrélation composée (compound correaltion) ;
– la corrélation de base.
Le principe de la méthode de la corrélation composée, étant de fixer le spread
du produit de dérivé de crédit (de la tranche dans notre exemple) pour déterminer
la corrélation qui d’après le modèle décrit ci-dessus correspond à ce niveau de
spread.
Cette méthode est critiqué pour la raison suivante : Si certaines tranches (la

33
tranche senior) perdent systématiquement de la valeur lorsque la corrélation
augmente alors que d’autres en gagnent (la tranche equity), les tranches mezzanines
entretiennent une relation incertaine avec la corrélation et peuvent prendre comme
perdre de la valeur.
C’est pourquoi une autre méthode a été établie. Il s’agit de la méthode de
corrélation de base développé par Mc Ginty & Ahluwalia de JP Morgan.
Cette méthode interprète chaque position comme une position long/short.
Considérons une position dont les points d’attachements et de détachement
respectivement 4 % et 8 %. Si on souhaite déterminer la perte espérée de cette
tranche on peut écrire cette relation :
E[L (4 ; 8)] = E[L (0 ; 8)] – E[L (0 ; 4)]
Dans cette relation, le détenteur d’une position dont les points d’attachements
et de détachements sont (4 ; 8) est dans la même situation qu’il se trouvait long
d’une posision (0 ; 8) et short d’une position (0 ; 3). Les tranches equity, étant
longues corrélation (ce qui signifie qu’elles prennent de la valeur lorsque la
corrélation augmente), il est plus facile d’évaluer la corrélation pour les tranches
equity (0 ; 4) et (0 ; 8). Les points 4 et 8 sont appelés les points d’attachements de
des corrélations de base (0 ; 4) et (0 ; 8).
La courbe de corrélation de base est donc l’unique série de corrélation de
tranches equity cohérente avec les prix observés.
Il existe une remarque semblable à celle qu’on peut trouver sur le smile de la
volatilité des options. En effet suivant l’endroit ou en se place dans le capital
structure, la corrélation est différente. Ce comportement est appellé base correlation
skew.

1.3 Le taux de recouvrement


Au même titre que la probabilité de défaut et la corrélation, le taux de
recouvrement est considéré comme un paramètre fondamental dans la
détermination du risque de crédit.
Comme nous l’avons bien précisé dans les chapitres précédents ce taux mesure
la part du montant de l’exposition au moment du défaut que la contrepartie sera à
même de rembourser.
Prenons un exemple simple pour comprendre son application, un investisseur
détenteur d’une position longue d’obligation pour un montant de 1.000.000 de
dollars, sachant que la probabilité de défaut est de 10 % est le taux de recouvrement
est de 40 %, la perte espérée peut se déduit de la façon suivante :
1.000.000 * 10 %* (1 – 40 %) = 60000 dollars

34
Si le taux de recouvrement baisse et atteint 30 %, dans ce cas la perte espérée
sera de :
1.000.000 * 10 % * (1 – 30 %)= 70000 dollars
Soit la perte espérée a accusé une augmentation de 16.67 %
Pour évaluer le taux de recouvrement, on recourt le plus souvent à la méthode
d’étude des résultats historiques. D’après une étude réalisée par Til Schumerman,
économiste à la Federal Reserve Bank (FED) de Newy ork, publié dans son article
« What do we know about loss given default »3, il constate que la distribution du
taux de recouvrement est bimodale. En effet comme c’est bien montré sur le
graphique juste au dessous, on distingue deux modes dans la distribution du
recouvrement : les taux de revouvrement sont soit assez faibles, soit assez élevés, la
partie faible étant nettement plus importante.

Figure 23 : Caractéristiques de la distribution des taux de recouvrements

Probability Distribution of Recovries, 1970-2003 : All bonds and loans


(Moody’s)
Cette étude justifie le fait que la séniorité du titre et sa nature (emprunt ou
obligation) ont un impact significatif sur la distribution du taux de recouvrement.
Selon la même étude, il s’est avéré qu’un autre élément peut avoir une influence
sur la distribution du taux de recouvrement. En effet, le cycle économique, qu’il soit
en récession ou en expansion modifie la courbe de distribution. Le graphique
suivant montre bien cette influence :

3
http://www.newyorkfed.org/research/economists/schuermann/Schuermann_LGDWhat_do_we_
know_1.5.pdf.

35
Figure 24 : Distribution des taux de recouvrements et cycles économiques

Probability Distribution of Recovries, 1970-2003 : All bonds and loans


(Moody’s)
D’après le même article de Til Schumerman, Altman et Kishore (1996) ont
prouvé à leur tour que le taux de recouvrement était fonction de l’industrie du sous-
jacent. Les résultats de cette étude figure sur le tableau suivant :

Tableau n 6 : Taux de recouvrement et industrie du sous-jacent

Industry and Impact, from Altman and Kishore (1996)


Nous avons présenté les trois paramètres au cœur de l’évaluation du risque de
crédit que supporte un produit dérivé de crédit, dans ce qui suit nous passerons en
revue un panorama des approches de modélisation du risque de crédit.

36
2. Les modèles d’évaluation des produits dérivés et structurés de crédit
2.1 Le modèle structurel de Merton
Le fameux article de de Black & Scholes publié en 1973 intitulé « The pricing
of options and Corporate Liabilities » présentait déjà le point de vue selon laquelle
la dette d’une entreprise peut être analysée et évaluée comme une option sur la
valeur de celle-ci. Ce point de vue, développé ensuite par Merton et d’autres,
représente le défaut comme un évenément endogène défini à partir de la structure
du capital d’une firme, d’où le nom de « modéles structurels » qui est souvent donné
a ce type de modèles.
Cette section est consacrée à la description du modèle structurel de Merton.
Le modèle de Merton destiné à évaluer le risque de crédit d’une entreprise fait
appel au modèle Black and Scholes, se base sur le levier financier de cette dernière.
Illustrant le modèle de Merton par l’exemple suivant :
Soit une entreprise X dont le bilan se constitue d’actions et d’une émission
d’obligations zéro-coupon. Ces deux éléments ont les caractéristiques suivantes :
– Le nombre d’actions est de n dont le prix initial est de S0 ;
– la valeur des obligations émises est de F, de maturité T et dont le prix initial
et de B0
La valeur V de la firme en t = 0 est donc égale à la somme des valeurs des actions
et de la dette :

Le modèle de Merton se fonde sur l’hypothèse selon laquelle les capitaux


propres d’une entreprise sont analogues à une option d’achat sur les actifs de cette
entreprise. Selon Merton, lorsque la valeur VT d’une entreprise, qui suit un
processus de diffusion, est inférieure à la valeur de sa dette, alors l’entreprise est en
défaut.
En prêtant à l’entreprise, les créanciers se sont portés acquéreurs de l’entreprise
et on vendu une option call aux actionnaires puisque si l’entreprise venait à faire
faillite, ils en deviendraient les propriétaires.
A l’inverse si l’entreprise est en mesure de rembourser la valeur de sa dette, les
actionnaires exerceront alors leur option call.
Ainsi, la valeur à maturité de la dette émise par la firme s’exprime comme

Si la valeur nominale des obligations F est supérieur à la valeur de l’entreprise,


cette dernière est alors en défaut et la valeur des obligations est égale à la valeur de

37
l’entreprise VT. Si l’entreprise est solvable, alors l’entreprise rembourse la valeur de
sa dette BT = F.
On reconnait bien l’écriture de l’option d’achat CT de maturité T dont le prix
d’exercice est de F :

En remplaçant cette équation dans celle sui lui précède, on obtient :

Soit encore pour t = 0

Ce qui traduit bien le fait que les créanciers sont propriètaires de l’entreprise
mais ont vendu une option d’achat.
Si on adopte un raisonnement simillaire en se plçant du côté des actionnaires
en tant que propriétaire de l’entreprise ayant emprunté un montant F et acheté une
option put pour se protéger du risque que présente la dette. Nous aurons :

Avec le put PT de maturité T et de prix d’exercice F :

On a cette fois BT = F – PT soit encore t = 0 Bo = Fe-rt (r étant le taux sans


risque)
Cette dernière équation nous permet d’écrire l’obligation risquée est égale au
prix d’une obligation sans risque moins le prix d’un put. Ce dernier peut être
assimilé à une prime de risque.
Sachant que, d’après les formules Black & Scholes, le prix d’un put européen P
est de :

En substituant dans l’équation précédente, on déduit que :

Tout ce qui est entre les crochet représente le facteur d’escompte d’une
obligation.
Si on suppose la composition des intérêts comme continue, on a alors le tauc
de rendement de l’obligation risquée rB :

38
La prime de risque liée à cette entreprise sera donc

L’une des premières limites de ce modèle est le fait qu’il suppose que le défaut
n’arrive qu’à l’échéance de la dette. Ce point a pu être amélioré par Black et Cox
(1976) en permettant la survenance le défaut à tout moment à maturité.
D’autres études empiriques ont montré que les modèles structurels impliquait
des marges de crédit inférieurs à celles constatées sur le marché (Jones, Mason et
Ronsefeld, 1984).En d’autre terme ces modèles sous-estiment le risque de crédit
qu’il évaluent.
Il existe une deuxième famille de modèles que l’on dit à forme réduites et qui
reposent sur la distribution des pertes d’une entreprise dans un monde risque
neutre.

2.2 Le modèle à forme réduite


Comme nous l’avons annoncé précédement, les modèles basé sur la « valeur de
la firme » présentent plusieurs limites fondamentales :
– Ils réduisent le risque de crédit au risque de marché, lui-même lié à la
volatilité des actifs de la firme. Ceci implique en particulier un lien étroit entre lme
risque des actions et le risque obligataire d’un même émetteur ;
– Le facteur de risque principal, la « valeur de la firme », n’est pas une grandeur
observable sur les marchés, ce qui complique l’estimation et l’utilisation de ces
modèles ;
– Il est difficile d’y intérgrer des facteurs de risques supplémentaires tels que le
risque de taux d’intérêt, tout en gradant un niveaux de complexité raisonnable ;
A ces limites conceptuelles s’ajoutent des problèmes de mise en œuvre : étant
donné que la « valeur de la firme » ne peut être observé directement, l’estimation
des paramètres de ces modèles n’est pas aisée.
Les modèles à formes réduites, appelés aussi modèles à intensité, ont été
introduites pour pallier à ces critiques. Introuduits en 1995 par Jarrow and Tunbull,
ces modèles n’exigent la détermination de paramètres sur la valeur de l’entreprise.
Par ailleur l’autre différence dans ce type de modèles est que le défaut est une
variable aléatooire et donc totalement imprévisible. Pour donner plus de précision,
le temps de défaut est défini de manière exogène.
Une version simple de ce modèle a été présenté dans les différentes méthodes

39
utilisées pour évaluer la probabilité de défaut. Nous la rappelons içi.
D’après ce modèle, l’occurrence du défaut suit un processus Poissonien
d’intensité constante
λ. Rappelons que par définition,
Un processus de Poisson avec intensité λ est un processus de renouvellement dont
la distribution des durées de vie est la loi exponentielle.
Un processus de renouvellement est défini comme étant
Un processus de dénombrement pour lequel les durées de vie sont des variables
aléatoires indépendantes et identiquement distribuées.
Une loi exponentielle de paramètre λ > 0 est définie comme étant une loi
continue avec densité :

La fonction de répartition FT de la loi exponentielle se définit comme suit :

Ainsi, dans le cas des modèles à formes réduites, on pose λ l’intensité de défaut.
Soit la première occurrence du défaut, on alors la probabilité de survie qui s’écrit
comme suit :

Généralement, l’intensité de défaut est modélisée comme un processus


stochastique pour refléter que l’intensité de défaut d’un emprunteur peut fluctuer à
travers le temps.
Nous rappelons ci après la formule générale qui permet de déterminer le fair
spraid d’un CDS de maturité M :

Les modèles à intensité présentent une plus grande flexibilité dans leur

40
utilisatiuon car les paramètres qu’ilexigent sont donnés par le marché Cet avantage
que présentent ces modèles est peut être l’une des raisons pour lesquelles les acteurs
de marché qui cherchent à pricer des produits dérivés de crédit ou qui cherchent à
ce hedger utilisent plutôt les modèles à intensité de défaut.
Les modèles développés ci-dessus traitent le cas d’un seul émetteur. Lorsqu’il
s’agit d’évaluer des dérivés de crédit portant sur un panier de multiples entités de
référence ou de quantifier l’exposition au risque de portefeuille, il faut non
seulement modéliser le risque de crédit de chaque émetteurs, mais également les
probabilités de défaut simultané de ces différentes entités risquées.
L’objet de cette section est de présenter des modèles de portefeuille, développés
dans cet objectif.

2.3 Modèles de portefeuilles de crédit


Alors que les modèles décrits ci-dessus se focalisent sur le cas d’un seul
émetteur de dettes, la gestion des portefeuilles de crédit soulève de nouvelle
dificultés dans la mesure ou ces paniers regroupent des expositions à un grand
nombre d’émetteurs, répartis dans différents seceteurs et catégorie de risque. Ces
portefeuille benéficient d’un effet de diversification évident qu’il s’agit de
comprendre et de modèliser, à travers la modèlisation de corrélations de défaut, et
plus généralement de la dépendance entre qualités de crédit des différents
émetteurs.
Un premier objectif qui a contribué fortement au développement des modèles
de portefeuille de crédit a été l’exigence pour les banques de calculer le risque de
perte qu’elles encourent du fait de leur exposition au risque de crédit. Pour ce faire,
à l’instar des pratiques en vigeur pour les risques, la norme utilisée dans ce domaine
est de calculer une Credit VaR, mesure défini comme un quantile de distribution
des pertes dues à l’exposition au risque de crédit. Le calcul du Credit VaR repose
généralement sur étapes complémentaires :
– Dans une première étape, on génére une distribution de probabilités des
risque de pertes au niveau d’un portefeuillede crédits, pour un horison
d’investissement donné (un an par exemple) ;
– Dans une deuxième étape, on calcule le montant du capital économique à
mettre en regard d’une telle position.4

4
Le capital économique peut être défini étant le montant de fonds propres nécessaires afin de couvrir
les pertes non anticipé su un portefeuill de de crédits dont la probabilité de survenance dépasse un
certain seuil (exemple 1 %). Le montant du cpaital économique dépend donc de la volatilité des pertes
et des probabilités de défaut.

41
Pour ce faire, il est nécessaire de prendre en considération l’ensemble des
ressources d’exposistion au risque de créditet de modéliser les dépendances entre
les évenements de défaut associés. Sur le plan thèorique ; tous les actifs incorporant
un risque de crédit devraient donc être intégrés dans le calcul de la Credit VaR du
portefeuille : créances bancaires, obligations, lettres de crédit, expositions liées au
mark to market favorable de transactions de swaps et autre produits dérivés.
Etant donné la taille importante de ces portefeuilles et la compléxité des
problèmatiques, une approche systèmatique est apparue comme nécessaire dés le
commencement de la recherche, ce qui a conduit au développement de plusiseurs
logiciels commerciaux qui proposeent chacun une méthodologie pour représenter
les corrélations de défaut dans les portefeuilles.
Il existe plusieurs modèles de portefeuille qui qui résouent la problèmatique
d’évaluation du risque de crédit, les modèles pionniers en la matière sont Credit
Metrics développé le 2 Avril 1997 par la Banque Américaine JP Morgan et Credit
Risk + développé en octobre 1997 par
Dredit Suisse Financial Prodcuts (CSFP), la filiale de la banque Credit Suisse
sur les marchés dérivés. D’autres modèles et approches ont depuis été développés,
notamment par les agences de notation. Nous présenton dans ce qui suit un modèle
de portefeuille utilisée par les agences de notation pour déterminer leur notations.
D’après un article du professeur Michel Aglietta, « De la crise financière à
l’enjeu d’une meilleur évaluation des crédits structurés »5 : Le modèle de référence
utilisé a pour architecture la théorie des options aussi bien pour le pricing (Finger
(1999), Mc Ginty & Ahluwalia (2004)), la gestion des risques ou encore le calcul du
montant de fonds propres réglementaires dans le cadre de Bâle II (Gordy 2003)). Il
suppose qu’une signature est en défaut dès qu’elle se trouve en situation
d’insolvabilités. En d’autres termes dès que la valeur de ses actifs devient inférieure
à celle de ses dettes. Dans sa formulation, on écrit le rendement des actifs d’une
firme comme une équation factorielle :

Ou
εi : facteur spécifique normalement distribué
X : facteur systématique s’interprétant comme le cycle économique
ρ : la corrélation de la signature au cycle

5
Un article rédigé par le professeur Français Michel Aglietta (professeur de sciences économiques à
l’Université Paris-X Nanterre) en collaboration avec deux autres chercheurs Ludivic Moreau et Adrian
roche et qui peut être téléchargé sur le site suivante :
http://congres.afse.fr/docs/629210delacrisefinanciereagliettamoreauroche.pdf

42
D’après la définition du défaut, on écrit

Bi étant le seuil de défaut de la firme


A l’aide la première équation, on en déduit

Les notations jouent toujours un rôle central, car Bi qui est une distance au
défaut exprimée en rendement, est déduit des tables statistiques des faillites. Soit :

A ce stade, on procède à un calcul la distribution de perte du panier titrisés par


la simulation Monte Carlo. Elle consiste à tirer aléatoirement (selon la loi normale)
les facteurs titrisés une centaine de milliers de fois les facteurs aléatoires et à
sommer les pertes obtenus pour chaque tirage.
Une fois la distribution est obtenue, les agences de rating déterminent leurs
notations pour chaque tranche en fixant le point de subordination pour lequel la
probabilité de taux de défaut associé correspondant à celle répertoriée dans les
matrices de transition sur corporate.
Supposons par exemple que ces matrices indiquent un taux de défaut de 3 %
les tranches notées A, alors dans le cadre de la distribution ci-après, on détermine
que le taux de défaut satisfaisant une telle probabilité est de 28 %. Le point
d’attachement de la tranche doit être de ce niveau pour n’être atteinte que dans 3 %
des cas et notée A.
Figure 25 : Distribution de pertes d’un panier titrisés et subordination

Source : M. Aglietta, L. Moreau, M. Roche, de la crise financière à l’enjeu d’une meilleur évaluation
des crédits structurés Université Paris X Nanterre Avril 2008.

43
Les modèles de crédit déterminent la probabilité de défaut et prévoient le
montant des pertes non attendues sur le portefeuille de crédit au seuil de confiance
choisi par le modélisateur. Ces pertes sont couvertes par des fonds propres
économiques. Etant donné le caractère stratégique de ces prévisions, il est
nécessaire de s’assurer de leur qualité et de leur relative stabilité. Cela est d’autant
plus important que, quel que soit la méthodologie choisie, deux grandes critiques
sont généralement adressés aux modèles de portefeuille de risque de crédit :
– La première concerne l’estimation des coefficients de corrélation. Pour des
raisons pratiques, il est impossible de calculer l’ensemble des coefficients de
corrélation entre les crédits d’un même portefeuille. Si le portefeuille est composé
de N crédits, cela reviendrait à calculer N (N-1) corrélations pour les seuls
probabilités de défaut. Il faut, en conséquence, soit faire des choix discrétionnaires,
soit procéder à des regroupements de crédits en classes de risque. Ces options
n’évitent pas un certain arbitrage ;
– La seconde critique a trait au fait que les modèles de risque de crédit mesurent
le risque en utilisant des valeurs estimés ou, si l’on préfère approchées, et non des
valeurs réelles. Même estimés avec les outils les plus perfectionnés, ces modèles
comportent une erreur, ce qui peut avoir effet de sous-estimer le risque.6

2.4 Les Tests des modèles d’évaluation du risque de crédit


Par nature les modélisations ne peuvent être parfaites. Elles aboutissent à une
représentation partielle de la réalité et sont construites sur la base d’historiques. La
performance des modèles est donc susceptible d’évoluer fortement, en raison, soit
de l’évolution des comportements par rapport à l’historique, soit de l’apparition de
situation de crise. La première rend nécessaire de procéder à des back-testing des
modèles, la seconde à des opérations de stress-testing.

2.4.1 Le back-testing
Le principe de ce type de test est que, de façon continue, le comportement réel
des pertes sur les crédits est comparé au comportement prévu par le modèle étudié,
le principe du back-testing des modèles de risque de crédit sont les mêmes utilisés
dans le cadre de risque de marché. Toutefois, la nature du risque et celles des
données imposent des aménagements particuliers.
Selon les modèles, le back-testing peut prendre des formes différentes, dont on
peut citer les exemples suivants :
– Il s’agit, par exemple, de vérifier que le pourcentage de défaut par tranche de

6
Michel Dietsch, Joel Petey, Mesure et gestion du risque de crédit dans les institutions financière,
Revue Banque édition, 2003

44
risque ne s’écarte pas du pourcentage prévu ;
– Il s’agit aussi de s’assurer que le nombre de dépassements de la limite fixée
par la VaR au cours du temps ne dépasse passe pas un seuil.
Ce dernier cas peut être illustré à travers le graphique ci-dessous :
Figure 26 : back-testing d’une VaR avec un niveau de confiance de 95 %

Source : Michel Dietsch, Joel Petey, Mesure et gestion du risque de crédit dans les institutions
financière, Revue Banque édition, 2003

Sur le graph, on voit bien que la VaR est dépassé 2 mois sur 30, c’est-à-dire
dans 7 % des cas. Dans ce cas, on doit rejeter le modèle en raison de cette défaillance
de prévisions.
En matière de risque de crédit, le back-testing est rendu délicat du fait de
l’horizon temporel des modèles. En matière de risque de marché, l’horizon de
temps est de l’ordre de temps est de l’ordre de quelques jours et les données permet
de procéder au back-testing sur 250 jours de bourse ou plus. En matière de risque
de crédit, l’horizon de temps est de en général d’un an et les banques ne peuvent
procéder à des vérifications sur des données couvrant plusieurs cycles, ce qui leur
imposerait de disposer en l’occurrence de plusieurs dizaines d’observations
annuelles.

45
46
Chapitre 3
Statistique des modèles non paramétriques

1. Introduction
1.1. Généralités
On peut souhaiter, dans un certain nombre de situations, ne pas faire
d’hypothèse a priori sur la forme de la loi de survie ; on cherche donc à estimer
directement cette fonction, dans un espace de dimension infinie ; ce cadre
d’estimation fonctionnelle est le domaine de l’estimation non paramétrique. Sous
réserve de disposer de données en quantités suffisantes, on peut alors obtenir des
estimations fiables de la fonction de survie, et des fonctionnelles associées.
Dans le contexte usuel d’un échantillon i.i.d. non censuré T1 , ..., T n  , on
dispose de l’estimateur empirique de la fonction de répartition
n
1
Fn ( t ) 
n
 1
i 1
ti  t 
Cet estimateur possède un certain nombre de « bonnes

propriétés » bien connues : il est sans biais, convergent et asymptotiquement


gaussien. Plus précisément, la convergence est uniforme au sens presque sur, et on
a le « théorème central limite » suivant :
n ( Fn ,  F )  W
Où W est un processus gaussien centré de covariance
 (s, t )  F (s)  F (t )  F (s) F (t ). Ce
résultat découle directement du
théorème de Donsker dans le cas de la loi uniforme7 et du fait que F ( T ) suit une
loi uniforme sur  0 ,1  L’objectif de l’estimation empirique dans les modèles de

7
Le processus limite étant alors le pont brownien, processus gaussien centré de covariance
s  t  st

47
durée est de rechercher un estimateur vérifiant des propriétés équivalentes en
présence de censure. Pour ce faire, on commence par introduire la présentation des
modèles de durée à partir de processus ponctuels, qui facilite ensuite l’obtention
d’un certain nombre de résultats via les résultats limite sur les martingales.

1.2. Notations
Dans la suite on note F la fonction de répartition du modèle non censuré, G la
fonction de répartition de la censure et T  X  C la variable censurée. On note
également :
S 0 ( t )  T  t , D  0 ), S 1 ( t )  P (T  t, D  1) e t

S ( t )  S 0 ( t )  S 1 ( t )  p ( T  1))(1  G ( t )).

2. Modèles de durée et processus ponctuels


L’étude d’une durée de survie s’effectue en général en étudiant la loi de la
variable X , associée à la fonction de survie S. On se propose ici de raisonner
différemment et de considérer le processus ponctuel naturellement associé à
X , N ( t ) , égal à 0 tant que l’événement n’a pas eu lieu, puis 1 âpre
X , ( t )  1 X  t . Lorsque l’on prend en compte la censure, on construit de même
N 1 ( t )  1  X  t , D  1. le processus des sorties non censurées8.
La présentation faite ici est heuristique et a pour ambition de faire comprendre
les mécanismes en jeu. Le lecteur intéressé par la formalisation mathématique
rigoureuse des outils évoqués pour se reporter à l’article fondateur de GILL [1980]
ou à l’ouvrage de FLEMING et HARRINGTON [1991], ou encore pour une
présentation en français à DACUNHA-CASTELLE et DUFLO [1983].
Cette approche fait largement appel à la théorie des martingales, dont les
résultats essentiels sont rappelés ci-après.

2.1. Rappels sur les martingales


On dit qu’un processus (M t ) adapté à une filtration ( Ft ) t  0
est une martingale s’il est à trajectoire continues à droites avec des limites à
gauche (càd-làg), et vérifie :
E  M     t  0 et
t E  M t F s   M s  s  t . Une martingale peut
être vue comme un processus d’erreurs, au sens où d’une part son espérance est

8
On reprend les notations du support sur les modèles paramétriques, avec X la variable non censurée,
et le couple (T, D) en situation de censure droite.

48
constante (on pourra donc toujours supposer qu’elle est nulle) et d’autre part les
incréments d’une martingale sont non corrélés :
cov( M t  M s , M v  M u )  0, 0  s  t  u  v.
Si la condition de constance de l’espérance conditionnelle est affaiblie et que le
processus est croissant en espérance conditionnelle au sens où
E(M t Fs )  M ss  t , on dit que M est une sous-martingale. Par l’inégalité
de Jensen, si M 2 est une martingale alors est une sous-martingale puisque
E ( M t2 Fs )  ( E ( M t Fs )) 2  M s2 s  t .
Afin de poursuivre la formalisation, il est nécessaire d’introduire une nouvelle
définition :
Définition : Un processus prévisible est une variable aléatoire mesurable définie
sur l’espace produit  0,      , P  muni de la tribu P engendrée par les
ensembles de la forme
s , t     F s . La tribu des évènements prévisibles est engendrée par les
processus adaptés à la filtration ( F t  ) t  0 avec F t    F s et à
st

trajectoires continues à gauche.


De manière intuitive, on peut dire qu’un processus prévisible est un processus
dont la valeur en t est connue « juste avant » t. Ainsi un processus continu à gauche
(et adapté) est prévisible du fait de la propriété de continuité. Ces différents outils
conduisent à la décomposition de Doob-Meyer d’un processus X càd-làg adapté9,
qui exprime qu’un tel processus est la différence de deux sous-martingales (locales)
si et seulement si il existe une unique décomposition de X sous la forme
X  A  M avec A un processus prévisible à variation bornée (au sens où
t

 d A s  s u p  Ati  Ati  1   avec D l’ensemble des subdivisions de


0 D

 0, t ) et M une martingale (locale) centrée. On en déduit en particulier que si


M est une martingale, M 2 possède un compensateur prévisible, que l’on note
M (que l’on prendra garde de ne pas confondre en général avec la variation
quadratique  M )

2.2. Application aux modèles de durée


Rappelons la définition d’un processus ponctuel :

9
Voir par exemple DACUNHA-CASTELLE et DUFLO [1983].

49
Définition : un processus ponctuel  N ( t ), t  0  est un processus à valeurs
entières adapté à une filtration  F t t  0 tel que N (0)  0, N ( t )   presque
sûrement et tel que les trajectoires soient continues à droite, constantes par
morceaux et ne présentent que des sauts d’amplitude  1 . En pratique on
considérera souvent pour ( F t ) t  0 la filtration naturelle associée à N , soit
Ft    N ( u ), 0  u  t   N avec N les évènements P-négligeables.
Le processus de Poisson fournit un exemple de processus ponctuel ; le
processus N ( t )  introduit ci-dessus est un cas simple dans lequel le processus
ne saute qu’une fois.
Les processus ponctuels sont à trajectoires positives et croissantes, donc à
variation bornée, et on peut alors définir pour un processus adapté X ( t )
t
l’intégrale comme une intégrale de Stieljes, trajectoire par

0
X (u )d N (u )

trajectoire. Par exemple, en présence de censure le processus d’évènements non


censurés N 1 ( t )  1 T  t , D  1 peut s’écrire :
t
N (t )   C (u ) d N
1
(u )
0

Avec C ( u )  1 0 , C  ( s ) . La censure agit donc comme un filtre. Comme un


processus ponctuel est une sous-martingale (puisqu’il est croissant), on lui associe
son compensateur prévisible, qui est donc un processus prévisible croissant, de
sorte que la différence entre le processus ponctuel et son compensateur soit une
martingale. De manière plus formelle on a le résultat suivant : Proposition : Si un
processus ponctuel ( N ( t ), t  0 ) adapté à la filtration  F t t  0 est tel que
E N ( t )    , alors il existe un unique processus croissant continu à droite
 tel que  (0 )  0 E   ( t )    et M ( t )  N ( t )   ( t ) est une
martingale.
t
Lorsque  peut se mettre sous la forme  ( t )    (u ) du , le processus
0

s’appelle l’intensité du processus ponctuel. Par exemple le compensateur d’un


processus de Poisson homogène est  ( t )   t , ou, de manière équivalente,
l’intensité d’un processus de Poisson homogène est constante égale à  D’un point
de vue heuristique, la décomposition N ( t )   ( t )  M ( t ) exprime que le
processus N « oscille » autour de la tendance prévisible  de sorte que la différence
entre le processus d’intérêt N et sa tendance soit assimilable à un résidu, dont on

50
maîtrise les variations. L’équation N ( t )   ( t )  M ( t ) eut ainsi se lire comme
« observations = modèle + terme d’erreur ». On a en particulier E ( N t )  E (  t ) .
On cherche maintenant à déterminer le compensateur prévisible du processus
N ( t )  1  X  t . On note N (t  )  lim N ( µ ) la limite à gauche de Nt et
µt

on s’intéresse à la loi de la variable aléatoire N ( t ) , en ayant noté formellement


P  dN t  1 N ( t  )  , avec d N ( t ) « petit ». La variable aléatoire N ( t ) ne peut
prendre que la valeur 0 et 1. Par définition de la fonction de survie et de la fonction
de hasard, on a :
P  d N t  1 N ( t  1)   h ( t ) d t Avec la probabilité S ( t )
Et
P  dN t  1 N ( t  1)   0 Avec la probabilité 1  S ( t )
En effet, si N ( t  )  1, la sortie s’est déjà produite et le processus ne peut plus
sauter. Cet événement se produit avec la probabilité 1  S ( t ) . Le processus N ne
peut sauter entre t et t  d t que si N ( t  )  0 (événement de probabilité
S ( t )) et la probabilité de saut est h ( t ) d t . On pose alors  ( t )  h ( t )1 X  t  ,
produit de la fonction de hasard en t et de l’indicatrice de présence juste avant
t , Y ( t )  1  X  t  . Le processus  ( t ) est prévisible et Y ( t )  1 est équivalent à

N ( t  )  0 . Donc P  dN t  1 N (t  )    (t ) dt , ou encore de manière


équivalente E ( d N t N ( t  ))   ( t ) d t . . Les remarques ci-dessus impliquent
que :
Modèles de durée
t t
M (t )  N (t )    (u ) du  N (t )   h(u )Y (u ) du  N (t )  H (t  T )
0 0

est une martingale centrée puisque E (dM t N (t))  0 et que l’intensité


de processus N peut se calculer selon :
1
 ( t )  lim P  N ( t  µ )  N ( t )  1 Ft   .
u0 µ µ

Le processus  ( t ) est donc l’intensité de processus N ( t ) , qui est aléatoire.


Conditionnellement au « passé immédiat », l’accroissement de N ( t ) entre t
et t  d t suit donc une loi de Bernouilli de paramètre  ( t ) d t .
A titre d’illustration, on trouve, dans le cas d’une loi exponentielle les allures
suivantes de N , M et H :

51
On peut montrer de même que le compensateur prévisible du processus
d’évènements non censurés N 1 ( t )  1 T  t , D  1 s’écrit :
t
 (t )  
1
R (u )h (u ) d u ,
0

Avec R ( t )  1T  t  l’indicatrice de présence à risque avant t (ie la fonction


valant 1 si l’individu n’est ni mort ni censuré ; on rappelle en effet que comme
T  X  C , T  t    X  t , C  t ). On est donc passé du modèle
statistique où l’on se donnait le couple  T , D  comme informations observées au
modèle composé de  N 1 , R  .
Dans le cas d’une population, dont on suppose que tous les individus ont la
même fonction de hasard h , on associe à chaque membre de la population un
processus d’évènement non
Modèles de durée Censuré N i1 ( t )  1 ainsi que l’indicatrice de
T j  t , D i  1
présence sous risque, comptabilisant les individus ni morts ni censurés
R1( t )  1 T  t et
 on
 construit les processus agrégés
j

n n
R (t )  
i 1
Ri ( t ) et N 1 (t )  N
i 1
1
i ( t ). Ils comptabilisent respectivement

l’effectif sous risque et le nombre d’évènements survenus non censurés.


On se trouve donc en présence d’un modèle à « intensité multiplicative »
(AALEN [1978]), en ce sens que le processus de comptage N 1 possède une intensité
qui se met sous la forme :
 (t )  R (t ) h (t )
Avec R un processus observable (prévisible) et h la fonction de hasard,

52
inconnue et à estimer. Ces processus vont permettre d’introduire simplement les
estimateurs non paramétriques usuels.

3. Les estimateurs non paramétriques dans les modèles de durée


On notera en préambule que la distribution peut être, comme on l’a vu,
caractérisée par différentes fonctions : fonction de hasard, fonction de hasard
cumulée, fonction de répartition, densité… Il est évident que l’estimation de la
fonction de hasard est du même degré de complexité que l’estimation de la densité ;
on se tournera donc de manière privilégiée vers l’estimation empirique du hasard
cumulé ou de la fonction de survie, a priori plus simple. L’estimation de la fonction
de hasard nécessitera alors de régulariser l’estimateur de la fonction de hasard
cumulée, qui sera en général discontinu. Ces aspects ne sont pas abordés ici10.
Les deux estimateurs principaux dans ce contexte sont l’estimateur de Nelson-
Aalen du taux de hasard cumulé et l’estimateur de Kaplan-Meier de la fonction de
survie.

3.1. L’estimateur de Nelson-Aalen11 du taux de hasard cumulé

3.1.1. Présentation générale


t
Le fait que M ( t )  N 1 ( t )   R (u ) h (u ) du soit une martingale centrée
0
t
1
suggère de proposer N ( t ) comme estimateur de 0
R (u )h (u )d u

t 1 R ( u )  0 
Mais alors le processus 
0
R (u )
d M ( u ) est également une martingale et on

a par construction de M :
t 1R ( u )  0 t 1R ( u )  0 t 1R ( u )  0
 dM ( u )   dN ( u )   dN 1 ( u )  H ( t )
1

0
R (u ) 0
R (u ) 0
R (u )
pour autant que t soit tel que R ( t )  0 . Ainsi
t 1R ( u )  0
Hˆ ( t )   d N 1 ( u ) est un estimateur naturel de H . Cet estimateur
0
R (u )
s’appelle l’estimateur de Nelson-Aalen. Il a été proposé initialement par NELSON
[1972]. On peut en donner une autre justification, en remarquant que la fonction

10
Le lecteur intéressé pourra consulter DROESBEKE et al. [1989].
11
L’étude originale de Nelson-Aalen porte sur la durée de fonctionnement de ventilateurs.

53
de hasard cumulé vérifie, par construction : H (u  du )  H (u )  h (u ) du
Et ( h ( u ) d u  P un estimateur naturel de cette quantité est donc
N 1 (u  du )  N 1 (u ) dN 1 (u )
 si R ( u )  0, de sorte qu’en sommant sur un
R (u ) R (u )
découpage de  0 , t  suffisamment fin pour chaque subdivision contienne au plus
t 1 R ( u )  0 
un saut on obtient : Hˆ ( t )   d N 1 ( u ) ce qui est bien l’expression
0
R (u )
précédente. Comme les processus considérés ici sont purement à sauts on peut, en
notant  N ( t )  N ( t ) N ( t  ), mettre cette expression sous la forme :
 N (Ti )
 Hˆ ( t )   R (Ti )
i / T i  t

En posant d ( t )   N ( t ) le nombre de décès en t et r ( t )  R ( t )


l’effectif sous risque juste avant t, on peut ainsi réécrire l’équation ci-dessus sous la
forme intuitive suivante :
d (Ti ) di
Hˆ ( t )     n  i  1'
,
i / T i  t  r ( T i ) Tit

la seconde égalité n’étant vrai que si il n’y a pas d’ex-æquo. La fonction Ĥ est
continue à droite. On peut vérifier que cet estimateur est biaisé et sous-estime en
moyenne la fonction de hasard cumulée. En effet,
t
 R (u )  0 1 t
R (u )  0 dM (u )  R (u ) h(u )du .
Hˆ (t )  
R (u )
dN (u )  
R (u )
 
0 0

Comme M est une martingale, il vient en prenant l’espérance des deux


membres de l’équation ci-dessus

1  h ( u ) d u . Mais :
t
E  Hˆ ( t )    E R ( u )  0
0

Modèles de durée

E 1R (u )0   P  R (u)  0  1  P  R (u)  0 .


 
On en déduit finalement :
t t t
E  Hˆ (t )    h(u )du   P  R (u )  0 h(u)du  H (t )   P  R (u)  0  h(u )du
0 0 0

ce qui implique que E  Hˆ ( t )   H ( t ) l’estimateur de Nelson-Aalen a


 
bien tendance à sous-estimer la fonction de hasard cumulée du modèle.

54
3.1.2. Variance de l’estimateur de Nelson-Aalen
Il résulte de l’approximation effectuée à la section précédente que
l’accroissement du processus
N 1 (t ) entre t et t  u suit approximativement une loi de Poisson de
tu
paramètre 
t
R ( s ) h ( s ) d s  R ( t ) h ( t ) u . En effet, on avait vu que
1
conditionnellement au « passé immédiat », l’accroissement de N ( t )
entre t et t dt suit donc une loi de Bernouilli de paramètre h ( t ) R ( t ) d t .
La somme sur les différents individus conduit donc à une variable binomiale, que
u
l’on peut approcher par une loi de Poisson en choisissant d t  . On en déduit
n
 N 1 (t  u )  N 1 (t )  h (t )u
donc que, conditionnellement à R ( t ), V   ;
 R (t )  R (t )
d’or on a vu à la section précédente que h ( t ) u pouvait être estimé par
N 1 (t  u )  N 1 (t )
d’où l’estimateur de la variance
R (t )
 N 1 (t  u )  N 1 (t )  N 1 (t  u )  N 1 (t )
Vˆ   , qui conduit finalement à
 R (t )  R (t ) 2
proposer comme estimateur de la variance de Ĥ :
 N 1 (T i )

Vˆ Hˆ ( t )   
i / T i  t  R ( T i )
2

qui peut s’écrire avec les notations simplifiées, en l’absence d’ex aequo :


Vˆ Hˆ ( t )      (n d (iT 1))
i / Ti  t
i
2 .

3.1.4. Propriétés asymptotiques


L’estimateur de Nelson-Aalen est asymptotiquement gaussien ; plus
précisément on a le résultat suivant :
Proposition : si les fonctions de répartition de la survie et de la censure n’ont
aucune discontinuité commune, alors :
n  Hˆ  H  W H

Avec W H un processus gaussien centré de covariance

55
st
d s1 ( u )
 (s, t )  0
S c (u ) 2
avec S c ( t )  (1  F ( t ) ) (1  G ( t ) ) et

S 1 (t )  P (T  t, D  1)

3.2. L’estimateur de Kaplan-Meier de la fonction de survie


On peut remarquer que l’estimateur de Nelson-Aalen du taux de hasard
cumulé conduit à un estimateur naturel de la fonction de survie, en exploitant la
relation S (t )  exp(  H (t )); on peut ainsi proposer comme estimateur de la
fonction de survie
Sˆ ( t )  e x p (  Hˆ ( t ) ) . .
Cet estimateur est l’estimateur de Harrington et Fleming ; sa variance peut être
obtenue par la méthode Delta qui, sous des conditions raisonnables de régularité
2

f permet d’écrire que V ( f ( X ))   


dt
de la fonction ( E ( X ))  V ( X ).
 dx 
X  µ   Z avec  petit et Z centrée réduite, on remarque que
En effet, si
pour une fonction x  f ( x ) suffisamment régulière, en effectuant le
df
développement limité f ( µ  h )  f ( µ )  h ( µ ), on trouve que
dx
 df  df
V ( f ( X ))  V   µ    Z (u )    2 (u ) 2 . En prenant ici f ( x )  e  x on
 dx  dx
trouve que V ( Sˆ )  e  2 E ( H )V ( Hˆ )  Sˆ 2 V ( Hˆ ) , ce qui conduit à l’estimateur
ˆ

de la variance :
 d (ti ) 
 
Vˆ Sˆ ( t )  exp   2 

 
d (ti )
n  i  1  i / t j  t  n  i  12
 i / t j  t 
Toutefois, cet estimateur peut être amélioré, ce qui amène à introduire
l’estimateur de Kaplan-Meier.

3.2.1. Présentation générale


L’estimateur de Kaplan-Meier (KAPLAN et MEIER [1958]) peut également
être introduit via les processus ponctuels, en remarquant que la fonction de survie
de base du modèle est l’unique solution de l’équation intégrale suivante :
t
S (t )  1  
0
S (u  )h (u ) d u

L’équation ci-dessus exprime simplement le fait que la somme des survivants

56
en t et des individus sortis avant t est constante. Lorsque la fonction de survie est
continue, la démonstration est immédiate en effectuant le changement de variable
v  I n S ( u ) , dv  h(u)du .
En remplaçant h ( u ) d u par son estimateur d N 1 ( u ) introduit à la
R (u )
section précédente on peut proposer un estimateur de la fonction de survie en
cherchant une solution à l’équation :
t
d N 1 (u )
Sˆ ( t )  1   ˆ
S (u  ) .
0
R (u )
On peut montrer qu’il existe une unique solution à cette équation, et on obtient
alors l’estimateur de Kaplan-Meier de la fonction de survie. Cet estimateur peut
s’exprimer à l’aide de l’estimateur de Nelson-Aalen de la manière suivante :
Sˆ ( t )   
1   Hˆ ( s )
s  t

Où  Hˆ ( s )  Hˆ ( s )  Hˆ ( s  ). . On peut toutefois proposer une
construction explicite plus intuitive de cet estimateur, décrite infra.
La construction heuristique de l’estimateur de Kaplan-Meier s’appuie sur la
remarque suivante : la probabilité de survivre au-delà de t  s peut s’écrire :
S ( t )  P (T  s ) P (T  s )  P (T  t T  s ) S ( s ) . .
On peut renouveler l’opération, ce qui fait apparaître des produits de termes
en P ( T  t T  s ) ; si on choisit comme instants de conditionnement les
instants où se produit un événement (sortie ou censure), on se ramène à estimer
des probabilités de la forme :

Pi  P T  T ( i ) T  T ( i  1 ) 
Pi est la probabilité de survivre sur l’intervalle  T ( i  1 ) , T ( i )  sachant qu’on
était vivant à l’instant T (i1)
Un estimateur naturel de q i  1  p i est
di di
qˆ i   
ri n  i 1
Modèles de durée
Systématiquement supérieur à l’estimateur de Kaplan-Meier. Au delà des
aspects strictement statistiques, des considérations prudentielles pourraient donc
orienter vers le choix d’un estimateur ou d’un autre.

3.2.2. Autre exemple


Sur 10 patients atteints de cancer des bronches on a observé les durées de survie

57
suivantes, exprimées en mois12 : 1 / 3 / 4 + / 5 / 7 + / 8 / 9 / 10 + / 11 / 13 +.
L’estimateur de Kaplan-Meier de la fonction de survie S ( t ) se calcule de la
manière suivante :

3.2.3. Principales propriétés


L’estimateur de Kaplan-Meier possède un certain nombre de « bonnes
propriétés » qui en font la généralisation naturelle de l’estimateur empirique de la
fonction de répartition en présence de censure : il est convergent13,
asymptotiquement gaussien, cohérent et est également un estimateur du maximum
de vraisemblance généralisé. Toutefois, cet estimateur est biaisé positivement. La

12
Le signe + indique une observation censurée
13
Pour autant que la fonction de survie et la distribution des censures n’aient pas de discontinuités
communes.

58
cohérence de l’estimateur signifie que la propriété suivante est vérifiée :
Modèles de durée
1 n n
Sˆ ( t )
Sˆ ( t ) 
n

i 1
1 T i  t )   
i 1
1 T i  t , D t  0 ) 
Sˆ ( T i )
Cette formule signifie que les survivants au-delà de t sont la somme :
 des individus ni morts ni censurés avant t ;
 des individus qui, censurés en Ti avant t, survivent après t avec la
Sˆ ( t )
probabilité conditionnelle .
Sˆ ( T i )
L’estimateur de Kaplan-Meier est l’unique estimateur cohérent de la fonction
de survie (voir DROESBEKE et al. [1989] pour la démonstration de cette propriété).
La notion de « maximum de vraisemblance » doit être adaptée au contexte non
paramétrique de la manière suivante14 :
Définition : soit  est une famille de probabilités sur n (avec la tribu
borélienne) non dominée ;  x   n , et P1 , P2   , on pose
dP1
l ( x , P1 , P2 )  ( x ); on dit alors que
d  P1  P2 
P̂ est GMLE pour P si l ( x , Pˆ , P )  l ( x , P , Pˆ ) . .
On peut alors montrer que l’estimateur Ŝ est GMLE pour S, pour autant que
les lois de la durée de vie non censurée et de la censure soient diffuses, et à condition
que la famille  contienne les lois de probabilité chargeant les points  T i , D i  .
Les autres propriétés sont détaillées ci-après.

3.2.4. Variance de l’estimateur de Kaplan Meier


On propose ici une justification heuristique d’un estimateur de la variance de
l’estimateur de Kaplan-Meier, l’estimateur de Greenwood.
 di 
L’expression Sˆ ( t )   1 
T( t )  t 
 permet d’écrire15 :
ri 
 d 

In Sˆ ( t )   T( t )  t
In  1  i  
 ri 

T( t )  t
In (  1 qˆ i ).

14
On verra en 3.2.6 le lien avec le maximum de vraisemblance dans un contexte paramétrique.
15
Cette formule fournit un estimateur de la fonction de hasard cumulé appelé estimateur de Breslow
de H.

59
Si on suppose en première approximation l’indépendance des variables
I n (  1 qˆ i ) comme la loi de r i Pˆ i est binomiale de paramètres ( r i , p i )
2
d  qˆi
on a par la méthode delta, V (In pˆ i )  V ( Pˆ )  In  pˆ i   
 dp  ri (1  qˆi )
2
 df 
V ( f ( X ))   ( E (X ))  V ( X ) :
 dx 
ce qui conduit à proposer comme estimateur de la variance de Sˆ ( t ) :


Vˆ In Sˆ ( t )    T( t )  t
qˆ i
ri (1  qˆ i )
 
T( t )  t
di
ri ( ri  d i )
En appliquant de nouveau la méthode delta avec pour f la fonction logarithme,
on obtient finalement : Vˆ  Sˆ ( t )   Sˆ ( t ) 2  ( t ) 2
d
Avec  ( t ) 
T
  t ri ( ri  d
i

)
Cet estimateur est l’estimateur de
( t ) i

Greenwood. Il est consistant pour la variance asymptotique de l’estimateur de


Kaplan-Meier.
Il permet avec la normalité asymptotique16 de l’estimateur de Kaplan-Meier de
calculer des intervalles de confiance (asymptotiques) dont les bornes sont, pour la
valeur de la survie en T( i )
   d1 d2 di 
S i   1  µ   (T( i ) )   Si   1  µ    ...  
 1
2  
1
2 r1 ( r1  d1 ) r2 ( r2  d 2 ) ri ( ri  d i ) 

On construit de la sorte des intervalles ponctuels, à t fixé. On peut alors


chercher à construire des bandes de confiance pour la fonction de survie. Nair
propose ainsi en 1984 (cf. KLEIN et MOESCHBERGER [2005]) des bandes de
confiance linéaires de la forme :
n   (t )2
Sˆ ( t ) 
1  n   (t )2
n   (t ) 2
Avec a ( t )  et où les coefficients de confiance
1  n   (t ) 2
c x1 , x 2  sont tabulés (ils sont fournis en annexe de KLEIN et
MOESCHBERGER [2005]).
On peut également observer que ces formules peuvent être utilisées pour
construire des intervalles de confiance pour les taux conditionnels de sortie

16
Voir 3.2.5.

60
qˆ x  1 
Sˆ  x  1  ; en effet, on en déduit de
Sˆ  x 
 di  di
Sˆ ( x )   1 
T( i )  x 
 que
ri 
1  qˆ ( x )  
x  Ti  x  1 ri ( ri  d i )
et donc :

di
Vˆ  qˆ ( x )   (1  qˆ ( x )) 2 
x  Ti  x  1 ri ( ri  d i )
Modèles de durée
d’où immédiatement l’expression d’un intervalle de confiance asymptotique :
 di 
qˆ  ( x)  1  (1  qˆ ( x))  1  µ a 
 1
  . .
x Ti  x 1 ri ( ri  di ) 
 2

3.2.5. Propriétés asymptotiques


L’estimateur de Kaplan-Meier est asymptotiquement gaussien ; précisément
on a le résultat suivant :
Proposition : si les fonctions de répartition de la survie et de la censure n’ont
aucune discontinuité commune, alors :
ˆ
n (S  S )  W s

Avec W s un processus gaussien centré de covariance :


st
d F (u )
 ( s , t )  S ( s ) S (t ) 
0
(1  F ( u ) ) 2 (1  G ( u ) )
..

En particulier lorsque le modèle n’est pas censuré (ie G ( u )  0) on retrouve


le résultat classique présenté en 1.1 ci-dessus. L’intérêt de résultats de convergence
au niveau du processus lui même plutôt que pour un instant fixé est que l’on peut
en déduire des bandes de confiance asymptotique pour l’estimateur de Kaplan-
Meier.
On peut trouver dans GILL [1980] une démonstration de la normalité
asymptotique de Sˆ KM ,

fondée sur la théorie des processus ponctuels. En notant F  1  S et


F  1  Sˆ K M , la bande de confiance qu’il obtient s’écrit :
ˆ
 sup Fˆ (s)  F (s) Vˆ (t )  
ˆ (t )  k
liminf P  x  (1)k (2k  1) (2k 1) x
n
 s   0, t  1  ˆ ( s)
F 1  F  

61
t d N 1 (u )
V ( t )  Sˆ K2 M 0 R ( u ) ( R ( u )   N 1 ( u ) ) estime la variance du
processus gaussien limite Ws .

3.2.6. Version discrétisée : lien avec l’approche paramétrique


Le calcul de l’estimateur de Kaplan-Meier implique que l’on dispose des
données individuelles avec les dates précises de survenance des évènements ; en
pratique, outre que sur des populations importantes le calcul peut être lourd, cette
information n’est pas toujours accessible.
On souhaite alors utiliser cette démarche pour des données regroupées par
période, par exemple en fixant comme unité de temps le mois et en comptabilisant
des sorties d’incapacité mois par mois. C’est la démarche suivie par le BCAC pour
l’élaboration des lois de maintien du décret de 1996. Formellement, si on considère
les instants t1  ..  t N auxquels se produisent les sorties (par exemple les âges
entiers de décès) et que l’on dispose d’un échantillon de taille n pour lequel on a
observé une séquence ( ri , d i ) d’effectifs sous risque et de décès aux dates
t 1  ..  t N N, on peut remarquer que le nombre de sorties Di sur l’intervalle
 t i , t i  1  suit une loi binomiale de paramètres ( ri , h i ) ; h i désigne ici le taux
de hasard à la date t i (homogène à un qx Les sorties dans les intervalles  t i , t i  1 
étant indépendantes les unes des autres, on trouve donc que la vraisemblance de ce
modèle s’écrit :
N
L  
i1
C d
ri
i
h id i ( 1  h i ) r i  di
.

La log-vraisemblance s’écrit donc :


N
In ( L )    C
i 1
di
ri  d i In ( hi )  ( ri  d j ) In (1  hi ) 


et les conditions du premier ordre I n L  0 conduisent aux
 hi
estimateurs :
d i
hˆ i  .
ri
On retrouve donc l’estimateur présenté en 3.2.1 ci-dessus.
Pour que cette démarche soit pertinente, il convient de s’assurer que la
discrétisation ne génère pas de biais important sur l’estimation des taux de sortie :
par exemple dans le cas de l’arrêt de travail, il est connu que les sorties sont très
importantes au cours du premier mois (en pratique environ 50 % des arrêts de

62
travail durent moins de 30 jours). Si donc on adopte un pas mensuel, on prend mal
en compte le rythme élevé des sorties au cours de la première période ; il
conviendrait donc ici de choisir un pas de discrétisation petit. Plus généralement,
le raisonnement ci-dessus est pertinent pour autant que la longueur de chaque
intervalle considéré soit « petite » au regard de la vitesse de variation de la fonction
de survie.

4. Prise en compte de variables explicatives


Lorsque la population étudiée est hétérogène, il est important de prendre en
compte les spécificités de chaque sous-groupe. En supposant que l’hétérogénéité est
la conséquence d’un mélange de sous-populations caractérisées chacune par des
variables observables, on s’intéresse ici à des modélisations de la fonction de hasard
intégrant l’effet des variables
Modèles de durée explicatives. Cette question a déjà été abordée dans un
contexte paramétrique et semi-paramétrique (modèle de Cox), on s’intéresse ici au
cas non paramétrique.
Ce chapitre est inspiré de MARTINUSSEN et SCHEIKE [2006] auquel le
lecteur pourra se reporter pour les démonstrations. Il est également précisé que la
mise en pratique des modèles présentés ici peut être effectuée à l’aide du package
timereg du logiciel R, développé par ces auteurs ou en utilisant le package survival.

4.1. Le modèle additif d’Aalen

La fonction de hasard est supposée s’écrire : h ( t )  X T


( t )  ( t ) avec
X (t )  ( X1 (t ),..., X p (t ))
T

un vecteur de variables explicatives (prévisible) et  ( t ) un processus p-


dimensionnel localement intégrable. On peut de manière équivalente dire que
l’intensité du modèle de comptage sous-jacent s’écrit :
 (t )  R (t ) X T
(t )  (t ) .
On dispose d’un ensemble d’observations N 1
i ( t ), Ri ( t ), X i ( t ) 
1 i  n
et on

cherche à estimer le vecteur  ( t ); en pratique on va être en mesure de construire


t
aisément un estimateur de B ( t )    (u ) du en s’appuyant sur les remarques qui
0

suivent.
On note pour alléger les formules  (t )   1 (t ),..., n (t ))T  et
N 1 (t )   N11 (t ),..., N n1 (t ))  , puis X ( t )   R1 ( t ) X 1 ( t ), ..., R n ( t ) X n ( t ) 
T T

63
qui est une matrice de taille n  p . Avec ces notations on a en désignant par
t
 (t )    ( u ) d u le processus vectoriel de taille
0
n des intensités cumulées,

M ( t )  N 1 ( t )   ( t ) est une martingale. En observant alors que :


dN 1 (t )  X (t )  (t ) dt  dM (t )  X (t ) dB (t )  dM (t )
comme le terme en d M ( t ) est centré et que les incréments de la martingale
sont non corrélés, on peut chercher à estimer les incréments d B ( t ) par des
techniques classiques de régression linéaire. Pour cela on pose :
X  (t )   X T (t ) X (t ) 
1
X T ( t ),
T 
Si X ( t ) X ( t ) est inversible et 0 sinon. X ( t ) s’appelle l’inverse
généralisé de X, qui est une matrice de taille p  n vérifiant
X  ( t ) X ( t )  J ( t ) I p avec J ( t ) qui vaut 1 si l’inverse existe, et 0 sinon. En
pratique lorsque X ( t ) est de plein rang  X T ( t ) X ( t ) est
inversible et on a alors simplement X  ( t ) X ( t )  I p . Il est alors naturel de
proposer comme estimateur de B le processus :
t
Bˆ ( t )   X 
(u )d N 1
(u ) .
0
t t
Le fait que Bˆ ( t )   J ( s ) dB ( s )   X

(s) dM ( s ) assure en effet que B̂
0 0

estime B essentiellement sans biais et on peut de plus montrer sous certaines


conditions techniques peu restrictives que  
n Bˆ  B converge en loi en tant
que processus vers un processus gaussien centré dont on peut de plus calculer la
fonction de covariance.
t
Le calcul de l’estimateur Bˆ ( t )  X

( u ) dN 1 ( u ) se ramène à des calculs
0

de sommes discrètes aux instants de saut du processus N 1 ( t ) De manière plus


précise on a Bˆ ( t ) qui est un vecteur de taille p et :
t
Bˆ j ( t )  X i

ji ( u ) d N i 1 ( u )
0

Mais N ( t ) saute au plus une fois à l’instant Ti et l’incrément à cet instant est
1
i

de 1 (si il y a saut). On en déduit l’expression suivante :

64
 Bˆ j ( t )  
Ti  t
X 
ji (T i )  D i . .

Le calcul nécessite donc la détermination de


X ( T i )  ( X ( T i ) X ( T i ))  1 X
 T T
( T i ) pour toutes les sorties non censurées.

4.2. Variante semi-paramétrique : le modèle de Lin et Ying


Dans les situations d’assurance, les variables explicatives sont en général
constantes au cours du temps (typiquement elles sont associées à une
caractéristique telle que le sexe, la CSP, le niveau du contrat, etc.).
Cela se traduit par la constance des variables X j ( t ) . Ce cas particulier conduit
à un modèle semi-paramétrique, et les méthodes décrites ci-dessus sont légèrement
modifiées. Parmi ces modèles on peut notamment mentionner le modèle de LIN et
YING [1994], dans lequel la fonction de hasard est supposée de la forme :
h (t Z  z )  h0 (t )   T
z. .
LIN et YING [1994] et KLEIN et MOESCHBERGER [2005] montrent qu’à
partir de la décomposition martingale du processus de Poisson, l’estimation des
coefficients du modèle est
  A 1
B ,

D n
1
A   z j  zi  T  Z j  zi , B   d i ( zi  zi ) et
i 1 j Ri i 1
zi 
Ri
 z .,
j Ri
j

La significativité globale du modèle peut être appréciée à partir de la statistique


de Wald qui suit une distribution du Khi-deux à p degrés de libertés (p étant la
dimension de Z représentant les variables explicatives du modèle) sous l’hypothèse
H 0 :   0 , soit :
 2
W   T
V 1
 , ,
n
Où V  A  1CA  1 avec C  d i 1
i ( z i  z i ) T ( z i  z i ). Dans le cas du

test de significativité d’un paramètre, on teste l’hypothèse de nullité chaque


paramètre  j (avec j  1,..., p et   ( y 1 , ...,  p )) et on considère donc
H 0 : j  0 , soit  W2   2
j / V jj .

5. Comparaison d’échantillons : approche non paramétrique


On se place dans la situation où on souhaite comparer les durées de vie
respectives de deux échantillons indépendants. Plus précisément, on dispose de

65
deux échantillons indépendants, éventuellement censurés, et on souhaite tester
l’hypothèse nulle d’égalité des fonctions de survie dans les deux échantillons.
En l’absence de censure, on dispose des classiques tests de rang (test de
Wilcoxon, test de Savage), que l’on va adapter à la présence de censure.

5.1. Rappel : principe des tests de rang17

On dispose donc de deux séries d’observations, E1 et E2 , de tailles respectives


n1 et n2 ; on note n  n 1 e t n 2 ; on range la séquence des valeurs observées
 x1 , ..., xn  par ordre croissant :
x (1 )  ..  x ( n ) . .
Le principe d’une statistique linéaire de rang est d’attribuer une pondération
(un score)  i l’observation x ( j ) de rang i dans le classement commun des deux
échantillons. On construit alors deux statistiques :

R1  
i E 1
i et R2 
i E 2
i .

Comme R 1  R 2   i 1
 i
qui est connue et déterministe, il est indifférent

de travailler sur l’une ou l’autre des statistiques ; en pratique on retient celle associée
à l’échantillon le plus petit.
En choisissant  i  1 , on obtient le test de Wilcoxon ; le test de Savage est
i
1
quant à lui associé au choix  i  1 j 1 n  j 1
.

Enfin, le choix d’un test plutôt que d’un autre peut être guidé par la forme de
l’alternative, en retenant le test (localement) le plus puissant pour une alternative
donnée.

5.2. Adaptation des tests de rang au cas censuré18


L’adaptation des tests précédents au cas censuré conduit à introduire la suite
ordonnée des instants de décès observés (non censurés) dans l’échantillon
commun, que l’on notera t 1  ..  t N . . A chaque instant t j on désigne par d ij
le nombre de décès et rij l’effectif sous risque dans le groupe j. L’effectif sous risque
est calculé avant les sorties en t j , de sorte que les vivants après ti sont en nombre

17
Pour des développements sur le sujet se reporter à CAPÉRAÀ et VAN CUTSEM [1988].
18
Voir par exemple HILL et al. [1996] pour de plus amples développements.

66
rij  d ij . On peut synthétiser cela dans le tableau ci-après :

Décès en ti Survivants après tj Total

Groupe n°1 di1 ri1  di1 ri1


Groupe n°2 di2 ri 2  d i 2 ri2
Ensemble di ri  d i ri
Sous l’hypothèse nulle d’égalité des distributions de survie dans les deux groupes,
à chaque instant on doit avoir égalité des proportions de décès dans les deux groupes,
ce qui a pour conséquence l’indépendance des lignes et des colonnes dans le tableau
ci-dessus. On est donc dans le cas d’un tableau de contingence à marges fixées, et alors
la variable aléatoire d ij est distribuée selon une loi hypergéométrique19
 r 
H  r i , d i , i j  (puisqu’on compte le nombre de décès dans le groupe n j
 ri 
choisis parmi les di décès totaux, la probabilité d’appartenance au groupe n j étant
r
p  ij et la taille de la population étant ri ).
ri
rij
On en conclut que l’espérance et la variance de d ij : E ( d ij )  d i et
ri
ri  d i ri 1 ri 2
V ( d ij )  d i .
ri  1ri 2
Ces observations conduisent à construire des statistiques fondées sur des
sommes pondérées des d i j  E ( d i j ) , qui sont asymptotiquement gaussiennes.
En notant ( w i ) les pondérations retenues, on utilise finalement des statistiques
de la forme :
2
 N  ri j  
  w i  d ij  d i 
 i1  ri  
 
j n
r  d i ri 1 ri 2

i1
w i2 d i i
ri  1 ri 2

qui suit asymptotiquement un  2


(1 ) Dans le suite on notera

19
On rappelle que la loi hypergéométrique H (n, k , p ) est la loi du nombre de boules noires
lors d’un tirage avec remise de k boules dans une urne contenant n boules et les boules noires étant en
proportion p.

67
N
ri  d i ri 1 ri 2
 2
 
i 1
w i2 d i
ri  1 ri 2

5.2.1. Le test du log-rank


La choix le plus simple que l’on puisse imaginer pour les pondérations est
wi  1, il conduit au test dit du « log-rank ». Dans ce cas le numérateur de la
statistique de test  j est le carré de la différence entre le nombre de décès observés
et le nombre de décès théoriques, sous l’hypothèse nulle :

D 
2
th
j  D obs
j
  .
j
 2

Ce test généralise au cas de données censurées le test de Savage. On peut noter


que sous l’hypothèse nulle D 1o b s  D 2o b s  D 1t h  D 2t h , en d’autres termes
la valeur de la statistique de test ne dépend pas du groupe sur laquelle on l’évalue.
La forme de la statistique suggère la formule approchée suivante :

D  D 1o b s  D  D 2o b s 
th 2 th 2
1 2
  
D 1th D 1th
dont on peut montrer qu’elle est inférieure à celle du log-rank (cf. PETO et
PETO [1972]). Sa forme évoque celle d’un Khi-2 d’ajustement usuel. Le test du log-
rank est le test le plus couramment employé.

5.2.2. Le test de Gehan

Gehan (GEHAN E.A. [1965]) propose de retenir w i  ri , ce qui conduit à


pondérer plus fortement les décès les plus précoces. Ce test généralise au cas de
données censurées le test de Wilcoxon. La statistique de test n’admet pas
d’expression simplifiée comme dans le cas du
Modèles de durée log-rank. Il présente l’inconvénient de dépendre assez
fortement de la distribution de la censure.

5.2.3. Exemple : application aux données de Freireich


On reprend ici les deux groupes du protocole utilisé par Freireich. Les calculs
des statistiques de test peuvent être menés à partir du tableau suivant :

68
On obtient les résultats résumés ci-après :

69
On trouve dans les deux cas des p-valeurs très faibles, ce qui confirme le
comportement différent des deux groupes, qui avait déjà été mis en évidence lors
de l’étude des fonctions de risque cumulées respectives.

5.3. Approche par les processus ponctuels


De la même manière que les estimateurs du hasard cumulé ou de la fonction
de survie peuvent être obtenus de manière « naturelle » dans le cadre des processus
ponctuels, ce formalisme peut s’appliquer aux tests présentés ci-dessus. Cette
méthode est détaillée dans GILL [1980].
On se place donc dans la situation où deux groupes sont observés, et on dispose
donc des deux processus d’évènements non censurés N 11 ( t ) et N 21 ( t ) On fait
l’hypothèse que les deux processus ne sautent pas en même temps (ce qui traduit
l’orthogonalité des martingales M 1 et
M 2 ,  M 1, M 2   0 ) . L’idée est, pour un processus K prévisible
positif de considérer le processus :
t t
d N 11 ( u ) d N 21 ( u )
 (t )  
0
K (u )
R1 (u )
 
0
R 2 (u )
t t
dM 1 (u ) dM 2 (u )
Le processus M (t )   K (u )
0
R1 (u )

0
R 2 ( u )
est une martingale et

vérifie de plus :
t
M (t )   (t )  
0
K ( u ) ( h1 ( u )  h 2 ( u ) ) d u . .

Enfin, sous l’hypothèse nulle d’identité de la loi sous-jacente des deux


populations,
M (t )   (t ) .
Les tests classiques s’obtiennent alors en spécifiant le processus K. Ainsi
K ( u )  R1 ( u ) R 2 ( u ) à la conduit à la statistique de Wilcoxon-Gehan et
R1 (u ) R 2 (u )
K (u )  à la statistique du log-rank.
R1 (u )  R 2 (u )
Les résultats généraux sur les processus ponctuels permettent d’obtenir la loi limite
de  (t ) sous l’hypothèse nulle ; plus précisément, on montre que  ( t ) converge en
loi vers une loi normale centrée de variance  2
( t ) un estimateur convergent de la
variance est donné par la variation quadratique de la martingale  (t ) :
2 2
t
 K (u )  t
 K (u ) 
 , t    
1 1
  D N 1 ( u )   D N 2 ( u ).
0  R1 ( u )  0 
R 2 (u ) 

70
Chapitre 4
Statistique des modèles paramétriques
et semi-paramétriques

1. La prise en compte de censure dans les modèles de durée


L’objet de cette section est de déterminer la forme générale de la vraisemblance
d’un modèle de durée censuré en fonction du type de censure et d’illustrer, dans le
cas de la distribution exponentielle, l’impact sur la vraisemblance des phénomènes
de censure20.
En pratique on peut être confronté à une censure droite (si X est la variable
d’intérêt, l’observation de la censure C indique que X  C ) ou à une censure
à gauche (l’observation de la censure C indique que X  C ; les deux types de
censure peuvent s’observer de manière concomitante. L’exemple classique est
donné par la situation suivante : on veut savoir à quel âge X les enfants d’un
groupe donné sont capables d’effectuer une certaine tâche. Lorsque l’expérience
débute, certains enfants d’âge C sont déjà capables de l’accomplir, et pour eux
X  C : il s’agit d’une censure gauche ; à la fin de l’expérience, certains
enfants ne sont pas encore capables d’accomplir la tâche en question, et pour eux
X  C : il s’agit d’une censure droite.
Dans la suite on s’intéressera à la censure droite, courante dans les situations
d’assurance.

1.1. Censure de type I : censure fixe

Soit un échantillon de durées de survie ( X 1 , ..., X n ) et C  0 fixé ; On


rappelle21 que la vraisemblance du modèle associé aux observations

20
Et, marginalement, de troncature, qui seront mentionnés pour mémoire mais pas développés.
21
Voir le document « Introduction ».

71
(T1 , D1 ),..., (Tn , Dn ) avec :

1 si Xi  C
Di  
0 si Xi  C
possède une composante continue et une composante discrète ; elle s’écrit :
n
L ( )   i 1
f  (Ti ) D i S  ( C )1  D i

en d’autres termes lorsqu’on a observé la sortie avant la censure, c’est le terme


de densité qui intervient dans la vraisemblance, et dans le cas contraire on retrouve
le terme discret, avec comme valeur la fonction de survie à la date de censure. La
distribution est donc continue par rapport à Ti et discrète par rapport à D i .
Pour démontrer cette formule, il suffit de calculer
 
P T j   t j , t j  dt j  , d j  d . Comme Di ne peut prendre que les valeurs 0 et
1, on calcule, sur  0, C 

P (Ti   t j , t j  dt j  , Di  1)  P ( X i  C   t j , t j  dt j  , X i  C )

 
 P X i   t j , t j  dt j   f 0 (ti ) dti

(on peut toujours supposer d t i suffisamment petit pour que t i  d t i  C ) et

= P(Ti  t j , t j  dt j  , Di  0)  P( Xi  C  t j , t j  dt j  , Xi  C)  S (C)


Ces deux cas peuvent se résumer en :

P (Ti   t j , t j  dt j  , Di  d i ) f 0 (ti ) d i S (C ) 1di


On peut retrouver cette expression également en observant que :
C
P(Ti  ti , Di  1)  P( X i  ti , X i  C )   f (u )du
ti

Et dans le cas où D i  0 comme alors T i  C il n’y a pas de densité, mais


simplement la probabilité de cet événement est égale à S  ( C )
Comme pour une observation censurée, par définition, Ti  C l’expression
ci-dessus peut se réécrire :

72
n
L ( )   i1
f 0 (T i
) h (T i
) D i

En se souvenant que la densité peut s’écrire en fonction de la fonction de hasard


et de la fonction de survie f 0 ( t )  h ( t ) S  ( t ) on peut également écrire la
vraisemblance sous la forme (à une constante multiplicative près) :
n
L ( )  i1
S  (T i
) h (T i ) D i

Cette expression est donc simplement le produit des valeurs de la fonction de


survie (qui traduit le fait que les individus sont observés au moins jusqu’en Ti ),
pondérée pour les sorties non censurées par la valeur de la fonction de hasard (qui
traduit le fait que pour ces observations la sortie a effectivement lieu à l’instant Ti ).
On utilise en général la log-vraisemblance, égale, à une constante additive près, à :
n
In L ( )    D In ( h (T ))  In ( S  (T )) 
i 1
i i i

A titre d’illustration, on détaille ci-après les cas de l’estimation ponctuelle et de


l’estimation par intervalle dans l’exemple de la loi exponentielle.

1.1.1. Estimation ponctuelle


On considère donc maintenant le cas où la distribution sous-jacente est
n
exponentielle, de paramètre  ; on pose R   i 1
D i le nombre de décès observés :

Comme f  ( t )   e   t , la vraisemblance s’écrit donc


n Di

  e 
1 Di
L ( )    e   Ti  C
,
i 1

ce qui devient :

 n

L( )   R exp    Ti 
 i 1 
On peut incidemment remarquer que la loi de R est discrète, et est une loi
binomiale de paramètres  n ,1  e  C
 : le nombre de sorties non censurées

73
correspond à un tirage dans n valeurs, la probabilité de succès étant égale à
1  e   C  ( P ( T  C ).
n
Si T  T
i 1
i
désigne l’« exposition au risque » totale22, on a ici
R
T  T
i 1
(i )  ( n  R )C ; en annulant la dérivée première de la log-vraisemblance

 R 
l ( )  RIn ( )     T( i )  ( n  R )C  par rapport à  , on trouve que
 i 1 
R
l’estimateur du maximum de vraisemblance (EMV) de  est ˆ  . La
T
statistique exhaustive est donc bi-dimensionnelle, (T , R ) ,
L’estimateur de  est donc le rapport du nombre de décès observés à
l’exposition au risque ; dans un modèle non censuré (obtenu comme cas limite du

modèle censuré lorsque C   ), l’expression ˆ  1 devient ˆ  1 ; en


X X
effet, on observe alors tous les décès, et l’estimateur est le classique « inverse de la
moyenne empirique des durées de vie ».

1.1.2. Estimation par intervalle


On peut utiliser l’efficacité asymptotique de l’estimateur du maximum de
vraisemblance pour déterminer un intervalle de confiance pour l’estimateur. Dans
le cas de la loi exponentielle on peut également remarquer que, si m c ( ) et
 c ( ) désignent l’espérance et l’écart-type de T ,
T  m c ( )
Alors par le théorème central-limite on a n qui converge en loi
 c ( )
vers une loi normale centrée réduite. En effet, les variables aléatoires Ti  X i  C
sont iid, puisque les X i le sont. Les expressions de m c ( ) et  c ( ) peuvent être
obtenues par quelques calculs :

1  e  C
C
* m C ( )   u e   u du  Ce   C 
0

1
* C2 ( )  E (Ti 2 )  ( mC ( )) 2  (1  2 Ce  C  e  2 C )
2
Dans l’hypothèse où la durée de l’expérience C est petite devant la durée de vie

22
T est parfois appelé le « temps global de fonctionnement au cours des essais ».

74
1
a priori de chaque individu , on a  C qui est petit devant 1 et on peut donc

faire un développement limité des exponentielles à l’ordre 3 en C , qui conduit à :
C3
 C2 ( )  . On obtient ainsi une forme relativement simple de région de
3
confiance pour le paramètre  .

1.2. Censure de type II : « arrêt au  iéme décès »


On se place maintenant dans le cas où la date de fin d’observation n’est pas
définie à l’avance, mais où l’on convient d’arrêter l’observation lors de la survenance
de la  iéme sortie. La date de fin de l’expérience est donc aléatoire et est égale à X ( r )
De manière plus formelle, soit un échantillon de durées de survie ( X 1 ,..., X n )
et r  0 fixé ; on dit qu’il y a censure de type II pour cet échantillon si au lieu
d’observer directement
( X 1 ,..., X n ) on observe (T1 , D1 ) , …, (T n , D n ) avec :
1 si Xi  Ti
T i  X i  X ( r ) et D i  
0 si Xi  Ti
Avec X ( r ) la  iéme statistique d’ordre de l’échantillon. ( X 1 , ..., X n ) La
définition de l’indicatrice de censure peut se réécrire,
1 si Xi   Ti
Di   qui est une forme analogue au cas de la censure
0 si Xi  X (r )
fixe avec C  X (r )

La vraisemblance a une forme proche du cas de la censure de type I ; on


remarque pour l’écrire que, dans la partie discrète de la distribution, il convient de
choisir les instants des r sorties parmi les n observations. Cela conduit à écrire :

n!  r 
 f ( X ( i )  S   X ( r ) 
n 1
L ( )  
( n  r )!  i 1 
r
n!
 f  ( T ( i ) ) D i S  T i  i
1 D

( n  r ) ! i 1
Si la loi de référence est la loi exponentielle, on trouve ainsi que :
n!
L ( )   r
e x p (  T )
(n  r )!

75
r
Avec T  T
i 1
(i )  ( n  r )T( r ) ; la statistique T est donc exhaustive pour le

modèle. L’estimateur du maximum de vraisemblance se déduit facilement de


r
l’expression ci-dessus ˆ  . En fait on peut dans ce cas déterminer
T
complètement la loi de T ; précisément :
Proposition : 2 T suit une loi du Khi-2 à 2 r degrés de liberté ou, de manière
équivalente, T suit une loi  ( r ,  ) puisque la loi du Khi-2 à 2r degrés de liberté
est une loi Gamma de paramètres ( r ,1 / 2 ) .
Démonstration : On veut montrer que P (T  x )  P (  22r   2 x ) ;
comme la loi du Khi-2 à 2 r degrés de liberté est une loi Gamma de paramètre
( r ,1 / 2) , sa densité est :
x
1 r 1 2
f (x)  x e ..
2T (r )
On écrit :
n!   r 
p (T  x )   r  exp     ti  (n  r )tr  dt1..dtr ,
( n  r )! Ax   i 1 
 r 1

Avec.  0  t1 ...  t r /

t
i 1
i  ( n  r  1)tr  u  On fait le changement de

variable :
r 1
t1  u1 ; t 2  u1  u 2 ;...; t r 1  u1  ...  u ;  ti  ( n  r  1)t r  u
i 1
On vérifie que le déterminant de la matrice jacobéenne de terme générique
 ti 1
vaut , , ce qui conduit à :
u f n  r 1
n! n!
P (T  x )  r  e  u du1 ..du r 1du
( n  r )! Bx n  r  1!
 t 1

Avec B x  u1  0, ..., u r 1  0;  ( r  i ) u i  u  x  Le nouveau
 i 1 
changement de variable :
v i  ( r  i ) u i ,1  i  r  1; v  u
permet finalement d’obtenir :

76
x  
n! 1
P (T  x )  r dv1 ..dv r 1 e  v dv
( n  r  1)! 0  C v ( r  1)! 
 t 1

Avec Cv  v1  0,..., v r  1  0;

v
i 1
i  v  ; en observant que l’intégrale

t 1
multiple sur Cx est de la forme x on en conclut finalement que :
x
1
P (T  x ) 
 (r ) u
0
r 1 e  u du  P (  22r  2 x )

On déduit en particulier de cette proposition que l’estimateur EMV est biaisé


r
et que E (ˆ )   : en effet, si T suit une loi gamma de paramètre ( r ,  )
r 1
(r  p )
alors E (T P )    P pour tout p   r et donc :
(r )
 1  1  ( r  1) r
E (ˆ )  2 rE    2 r 
 2 T  2  (r ) r 1
r 1
Le meilleur estimateur sans biais pour  est donc   . On montre de
T
2
même que la variance de  est V  ( )  .
r2
.Ce résultat peut être obtenu plus simplement. On utilise pour cela le fait que
la loi conjointe de la statistique d’ordre X (1) , ..., X ( n )  est
n
f  x1 ,..., x n   n ! f ( xi )1 x1  ...  x n  . Par un changement de variable, on
i 1
montre alors que les variables aléatoires
Yi   n  i  1  X ( i )  X ( i 1)  sont indépendantes et de loi commune la loi
exponentielle de paramètre  .
r
Comme T  Y
i 1
i
on a immédiatement le résultat en observant que la

somme de r variables exponentielles de paramètre  a une loi  ( r ,  ) . On en


déduit également très facilement la durée moyenne de l’expérience : puisque
r
Yi 1 r
1
T (r )   n  i  1 , on a E T ( r )     n  i  1,
i 1 i 1

77
1.3. Censure de type III : censure aléatoire23
La censure de type III généralise la censure de type I au cas où la date de
censure est une variable aléatoire ; plus précisément, soient un échantillon de durées
de survie (X 1 , ..., X n ) et un second échantillon indépendant composé de
variables positives ( C 1 , ..., C n ) ; on dit qu’il y a censure de type III pour cet
échantillon si au lieu d’observer directement (X1 ,..., Xn ) on observe
( T1 , D 1 ) , ..., ( T n , D n ) avec :

1 si X i  Ci
Ti  X i  Ci et Di  
0 si X i  Ci
La vraisemblance de l’échantillon ( T1 , D 1 ) , ..., ( T n , D n ) s’écrit, avec des
notations évidentes :
n
L ( )    f X Ti ,   S C (Ti ,  )  Di  f c (Ti ,  ) S X (Ti ,  ) 
1 Di

i 1

La forme de la vraisemblance ci-dessus se déduit par exemple du fait que


(T1 ,..., Tn ) est un échantillon de la loi S T ( ; .) avec :
S T ( )  P (Ti  t )  P ( X i  C i  t )  P ( X i  t )  S X (t ,  ) S C (t ,  ).
Plus précisément on écrit comme en 1.1 que :

P Ti  t i , ti  dt i  , Di  1  P ( X i  C i  t i , t i  dt i  , X i  C i )
 P ( X i  ti , t i  dt i  , t i  C i )  FX ( , t i ) S C ( , ti ) dt i

et

P Ti  t i , t i  dt i  , D i  0   P ( X i  C i  t i , t i  dt i  , X i  C i )
 P ( C i  t i , t i  dt i  , X X  t i )  S X ( , t i ) f C ( , t i ) dt i

ces expressions sont directement obtenues de celles vues en 1.1 en


conditionnant par rapport à la censure, puis en intégrant par rapport à la loi de
celle-ci. Plus précisément, on écrit :

23
Ces modèles peuvent s’analyser comme des modèles à 2 risques concurrents indépendants.

78
P (Ti  ti , Di  1)  P ( X i  C i  C i )  P (ti  X i  C i )
 
c 
 
ti
P (ti  X i  c ) f c ( , 0) dc  
ti
  f X ( , x ) dx  f C ( , c ) dc
 ti 

puis par Fubini on inverse les intégrales pour obtenir :


c   
P (Ti  t i , D i  1)  f X ( , x )   f C ( , c ) dc dx
 t 
ti  i 

 
ti
f X ( , x ) S C ( , x ) dx

et finalement
d
P (Ti   t i , t i  dt i  , D i  1  P (Ti  t i , D i  1) f X ( t i ) S C ( , t i ) dt i .
dt i
On fait alors l’hypothèse que la censure est non informative, c’est-à-dire que la
loi de censure est indépendante du paramètre  . La vraisemblance se met dans ce
cas sous la forme :
n
L ( )  c o n s t  f  ( T i ) h ( T i ) D i
i 1

Le terme const regroupe les informations en provenance de la loi de la censure,


qui ne dépend pas du paramètre. Cette dernière expression peut s’écrire comme en
1.1 ci-dessus :
n
L ( )  i 1
S  ( T i ) h ( T i ) D i

On observe ici simplement le fait que la censure fixe est un cas particulier de la
censure aléatoire non informative dans laquelle la loi de censure est une loi de Dirac
au point C . L’expression établie dans le cas particulier de la censure fixe se
généralise donc aisément.

1.4. La prise en compte de covariables


Lorsque le modèle comporte p variables explicatives (covariables)
**************, on fait l’hypothèse que la loi conditionnelle de X sachant Z dépend
d’un paramètre *****
L’échantillon observé devient une séquence de triplets Z  ( Z 1 , ..., Z p ) ; on

79
reprend l’hypothèse de censure non informative ; on suppose de plus que X et C
sont indépendantes conditionnellement à Z et que C est non informative pour les
paramètres de la loi conditionnelle de X sachant Z . On suppose enfin que Z admet
une densité qui dépend d’un paramètre  , f z ( z ,  )
Dans ces conditions, l’expression de la vraisemblance vue en 1.3 ci-dessus
devient :
n
L ( )  
i 1
h / z ( T i ) D i ( T i ) f z (Z i ,  )

Lorsque la loi de T sachant Z et la loi de Z n’ont pas de paramètre en


commun, on retrouve simplement l’expression de 1.3, dans laquelle la loi de X est
remplacée par la loi conditionnelle de X sachant Z . Ce raisonnement se
généralise sans difficulté au cas de covariables dépendant du temps.

1.5. Troncature
On dit qu’il y a troncature gauche (resp. droite) lorsque la variable d’intérêt
n’est pas observable lorsqu’elle est inférieure à un seuil C  0 (resp. supérieure à
un seuil C  0).
Le phénomène de troncature est très différent de la censure, puisque dans ce
cas on perd complètement l’information sur les observations en dehors de la plage :
dans le cas de la censure, on a connaissance du fait qu’il existe une information,
mais on ne connaît pas sa valeur précise, simplement le fait qu’elle excède un seuil ;
dans le cas de la troncature on ne dispose pas de cette information.
La distribution observée dans ce cas est donc la loi conditionnelle à l’événement
c  t  C  . La fonction de survie tronquée s’écrit donc :
1 si t  c

 S (t )  S (C )
S (t / c  T  C )  
 S ( c )  S (C )
 0 si t  C
La fonction de hasard a également le support c  t  C  et s’écrit
S (t )
h (t / c  T  C )  h (t ) , ce qui montre que l’expression de h
S (t )  S (C )
ne dépend pas de c La troncature droite augmente la fonction de hasard, et s’il n’y a
que de la troncature gauche (C  ) alors la fonction de hasard n’est pas modifiée.
La troncature peut s’observer par exemple dans le cas d’une migration

80
informatique au cours de laquelle n’auraient été repris dans la nouvelle base que les
sinistres encore en cours au moment de la bascule ; les informations sur les sinistres
de durée plus courte, pour les mêmes survenances, sont alors perdues. La troncature
s’observe également dans le cas d’un contrat d’arrêt de travail avec une franchise :
les arrêts de durée inférieure à la franchise ne sont pas observés, et on ne dispose
donc sur eux d’aucune information.
La plupart du temps les individus ne sont pas observés depuis l’origine, mais
depuis l’âge (ou l’ancienneté) atteint au début de la période d’observation, qu’on
notera Ei . La censure Ci peut être inférieure à l’âge atteint en fin de période
d’observation si la sortie a lieu de manière anticipée (résiliation par exemple). Dans
ces conditions, l’expression de la vraisemblance du modèle est :
n
L ( )   h / z, E(t i ) di S / Z,E (t i ) f z (Zi ,  )
i 1
Lorsque la loi de T sachant Z et la loi de Z n’ont pas de paramètre en
commun, on trouve l’expression suivante :
n
In L ( )  cste  d i In  h / z , E ( t i )   In S  / z, E ( t i )
i 1

S  / Z (ti )
Comme h / z,E (ti )  h / z (ti ) et S  / Z , E ( t i )  on a finalement :
S  / Z ( ei )
n
L ( )  cste   d i In  h / Z ( t i   InS  / Z ( ei )
i 1

Bien entendu si tous les individus sont observés depuis l’origine, e i  0 et on


retrouve l’expression classique :
n
InL ( )  cste   d In  h
i 1
i /Z (ti   S  / Z (ti )

Exemple : on considère le modèle à hasard proportionnel de Weibull


( cf .3.2) dans lequel :
h ( x / Z ;  ,  )  exp(  z '  ) x  1 .
La log-vraisemblance de ce modèle s’écrit d’après l’expression générale
rappelée supra :
n n n
InL( y / z; ,)  dIn()  ( 1)di In(ti )  di zi'  exp(zi' )(ti  ei )
i 1 i 1 i 1

81
d
où on a noté d  d
i 1
i
le nombre de sorties non censurées.

Exemple : on considère n individus pour lesquels on fait l’hypothèse que la


fonction de hasard sous-jacente est constante sur un intervalle  x , x  1  ; ; à
l’aide de ce qui précède on trouve que la log-vraisemblance du modèle est, à une
constante près :
n
InL ( )    d i In (    (ti  ei )   d x  In ( )    E x
i 1

d d
Avec d x  
i 1
d i et E x   (t
i 1
i  e i ) . On remarque alors que tout se

passe comme si la variable D x qui compte le nombre de sorties sur l’intervalle


x , x  1  était une loi de Poisson de paramètre   E x ; ; en effet, dans ce cas
In  P  D x  d    cste  d x  In ( )    E x .

2. Vraisemblance latente et vraisemblance observable en présence de censure


Dans ce paragraphe, on considère des observations de durées (t1 ,...t n ) ,
censurées par une censure de type I (censure fixe) ou III (censure aléatoire non
informative), dépendant de l’observation24 ; c’est en effet un type de censure que
l’on rencontre souvent dans les problèmes d’assurance. On note ( c 1 , ...c n ) les
valeurs observées de la censure. Enfin, on suppose que les durées de vie observées
dépendent également de p variables explicatives25
( z 1 , ... z p ) . On a déterminé dans la partie précédente la forme de la
vraisemblance générale, et on souhaite maintenant réaliser l’estimation des
paramètres par maximisation de cette vraisemblance, en intégrant la prise en
compte de ces variables explicatives. On s’attachera ainsi à exprimer la relation
entre le score latent et le score observable, et à obtenir l’information de Fisher du
modèle observable.
On observe donc comme précédemment :

1 si X i  Ci
Ti  X i  Ci et Di  
0 si X i  Ci

24
Cela revient au même qu’une censure aléatoire en raisonnant conditionnellement à la valeur de la
censure.
25
est donc un vecteur composé des n valeurs de l’explicative pour les individus de l’échantillon

82
et les variables Y i  (Ti , D i ) sont indépendantes. Lorsque la censure est
connue Yi est une fonction de la variable latente X i ; le modèle observable est donc un
modèle qui fournit une information incomplète sur X i . Cette relation fonctionnelle
entre variables latentes et variables observables a des conséquences sur la forme de la
vraisemblance observable. Plus précisément, on a une relation fonctionnelle de la
forme Y   ( X ) ; les densités respectives de Y et X sont notées26 l ( ) et l* ( ) ;
l’observation de Y fournit une information sur la loi de X , et il est naturel de
s’intéresser à la loi conditionnelle de X Y  y ; on a :

l * ( x ,  )  l ( y ,  )l ( x / y , )
et en passant à la log-vraisemblance on peut donc écrire :

Inl * ( x ,  )  In ( y ,  )  Inl ( s / y ,  )
En dérivant cette expression par rapport à  , puis en intégrant par rapport à
la loi de X Y  y , , on trouve27 :

  Inl  x y ,     In  y ,     Inl  x y ,   
E y  E y
      

  Inl  x y ,    l  x y , 
Mais E
 
y 

 
dx puisque la loi

conditionnelle de X Y  y a pour densité l x y , ; ; en inversant


dérivation et intégrale, comme l’intégrale de la densité est égale à un, on trouve que
l  x y ,  
 
dx  0 , et donc le score s’écrit :

 In l  y ,     In l *  x ,   
E  y
   
Le score observable est donc la meilleure prédiction du score latent,
conditionnellement aux observations. En dérivant 2 fois l’expression de la log-
vraisemblance on obtient de même :

26
On notera l la vraisemblance pour une observation et L la vraisemblance d’un échantillon
27
Les espérances dépendent du paramètre  qui est omis dans les notations pour alléger les écritures.

83
 2 Inl *  x ,    2 In l *  y ,     2 In l  x y , 
 '  '  '
puis en prenant l’espérance on trouve que les informations de Fisher des
modèles latent et observable sont liées par la relation :

   2 In l  x y ,   
I *
( )  I( )  E  E  y 
X
   ' 
 
 2 f  
Remarque : la notation désigne la matrice Hessienne associée à
 '
 2 f  
f, de terme courant
  i  j

2.1. Application de la méthode du maximum de vraisemblance


On présente dans cette section les liens entre vraisemblance observable et
vraisemblance latente dans un modèle général, avant de spécifier les écritures dans
le cas d’un modèle de durée.

2.1.1. Généralités
On suppose l’indépendance des observations conditionnellement aux variables
explicatives et aux censures ; la log-vraisemblance du modèle s’écrit :
n
In L ( y z , c ; )  i 1
In l ( yi zi , ci ; )

et dès lors que la log-vraisemblance est dérivable, l’estimateur du maximum de


 In L ( y z , c ; )
vraisemblance annule le vecteur des scores :  0 .

Sous des conditions techniques de régularité la plupart du temps satisfaites en
pratique, on sait alors qu’il existe un maximum local de la log-vraisemblance
convergeant presque sûrement vers la vraie valeur du paramètre et que, de plus,
l’estimateur du maximum de vraisemblance est asymptotiquement efficace et
gaussien ie :

 
n ˆn  N  0, I ( )  1 
avec l’information de Fisher définie par

84
1 n   Inl ( yi zi ,  ) 
2

I ( )  lim  E   zi , ci , la limite étant en probabilité. La


n n
i 1    ' 
variance asymptotique de l’estimateur peut être estimée par :
1
  2 I n L ( y z , c ; ˆ ) 
ˆ ˆ 
V    
  '


 
On dispose ainsi d’un cadre assez général pour estimer le paramètre par
maximum de vraisemblance en présence de censure28 et de variables explicatives.

2.1.2. Vraisemblance latente et vraisemblance observable


La vraisemblance du modèle complet, latent, n’est pas observable ; on a
toutefois une relation simple entre le score latent et le score observable, au sens où
le score observable est la prévision optimale du score latent à partir des variables
observables, soit de manière formelle :

 2 In L ( y z , c; ˆ )   In L* ( x z , c;  ) 
 E y, z, c 
   
Cette propriété découle directement de la relation établie pour une observation en
 In ( y ,  )   In l * ( x ,  ) 
introduction :  E y.
   
En ce qui concerne l’information de Fisher, l’information du modèle latent
peut être décomposée en la somme de l’information du modèle observable et d’un
terme mesurant la perte d’information due à la présence de la censure. On a le
résultat suivant :
Proposition : I * ( )  I ( )  J ( ), avec :

 1 n   Inl * ( xi zi , ci ;  )  
J ( )  lim E   V  y i , z i , ci  z , c  ,
n
 n i 1    
la limite étant prise en probabilité.
Pour prouver ce résultat on applique l’équation de décomposition de la
variance

28
La forme de la vraisemblance dans le cas d’un modèle de durée est précisée en 2.2.

85
V  A   E (V  A B  )  V ( E  A B  ) à
 Inl * ( x i z i , c i ;  )
A z i , c i etB  Y


2.2. Écritures particulières aux modèles de durée


Dans le cas d’un modèle de durée, on calcule la vraisemblance en fonction du
taux de hasard et de la fonction de survie, plutôt que de la densité ; comme on a
f (t )  S (t )h(t ), on obtient
n n
InL* ( x z ;  )  
i 1
Inh ( ti z i ;  )   InS (t i z i ;  )
i 1

La log-vraisemblance observable est calculée conditionnellement à ( z , c ) et


s’exprime par29
n n
InL ( y z , c ;  )   d i Inh (ti z i ;  )   InS (ti zi ;  )
i 1 i 1

On retrouve donc, comme on l’avait établi en 1.3 ci-dessus que la log-


vraisemblance observable s’écrit de la même manière que dans le modèle latent,
mais en remplaçant la durée réelle par la durée tronquée et en ne conservant la
fonction de hasard que pour les informations complètes (repérées par d i  1 ).
Les équations de vraisemblance n’ont toutefois pas d’expression simple dans le
cas général ; on utilisera les algorithmes usuels pour déterminer l’EMV de manière
approchée : NEWTON-RAPHSON, BHHH (BERNDT, HALL, HALL,
HAUSMAN) et algorithme EM, ce dernier étant particulièrement bien adapté au
cas des données incomplètes. Ces algorithmes sont présentés en 2.4 infra.
Cependant, dans certaines classes de modèles une approche directe reste
possible : cela est notamment le cas des modèles à hasard proportionnel, étudiés ci-
après.

2.3. Exemple : le modèle de Weibull


On a vu en introduction l’estimation des paramètres du modèle de Weibull
dans le cas non censuré. On traite maintenant à titre d’exemple le cas d’une censure
droite. On considère donc le modèle :

29
Voir 1.1.

86
  1
  x      x   
f ( x) x exp      , S( x )  exp     
l   l     l  

pour lequel on observe un échantillon censuré ( t i , d i ) i1,..., n  où


 1 si ti  xi
di  est l’indicatrice d’une information non censurée.
 0 si ti  xi

2.3.1. Estimation des paramètres


La vraisemblance de ce modèle s’écrit :
n
L ( , l )  i 1
f ( t i ) d t S ( t i )1 d t

n
En notant d .  
i 1
d i le nombre de sorties observées non censurées, il vient :


  t i  
d.
  n
L ( , l )   
l 
t i
(  1) d t
exp   d i    ,
 l  
i 1 
d.
   n
  n

L ( , l )    exp   l    t i  exp  (  1)  d i Int i 
l   i 1   i 1 
D’où l’on déduit la log-vraisemblance :
n n
InL( , l )  Inl  d.(In   Inl )  l  ti  ( 1) di Inti
i 1 i 1

Les équations aux dérivés partielles s’écrivent donc :


  d. n

 I n L ( , 1 )     l   1  d i I n ti
 l l i1

   1   n n
 n
I n L ( , 1 )  d .   I n /   l    I n /  t i   t i I n t i    d i In ti
  l     i1 i1  i1

On cherche donc les solutions du système suivant :

87
1/
  1 n  
 l    t i 
 d . i 1

 n

 1
 t i I n t i
1 n
  i 1
n
  d i In ti
d . i 1



i 1
ti

La deuxième équation définit un algorithme qui converge vers ̂ pour autant


qu’on lui fournisse une valeur initiale pas trop éloignée. En pratique, cette valeur
pourra être l’estimateur obtenu par la méthode des quantiles sur l’ensemble des
observations complètes (cf. le support d’introduction). Une fois ̂ obtenu, lˆ s’en
déduit grâce à la première équation.

2.3.2. Application numérique


On propose une illustration dans laquelle 1 000 observations ont été simulées
dont 47 % censurées.
Une première estimation des paramètres a été effectuée sur les 1 000
réalisations du risque principal afin d’obtenir des estimations qui serviront d’étalon
pour la comparaison des estimations obtenues dans le cas censuré.
Remarque technique : Il faut définir un critère d’arrêt pour les algorithmes
permettant d’obtenir l’e.m.v. ̂ Dans cette application, on s’est arrêté lorsque la
variation relative de la valeur lors d’une itération devenait inférieure (en valeur
absolue) à 0,01 %.
Il convient de remarquer qu’avec le critère d’arrêt qui a été choisi, l’algorithme
qui fournit
̂ est nettement plus rapide (facteur 10 en nombre d’itérations) dans le cas où
l’on ne conserve que des données complètes que dans la situation où l’on dispose
de données censurées.
Le tableau suivant reprend les différentes estimations des paramètres effectuées
et indique l’espérance et la variance correspondant à ces estimations. Les
simulations ont été effectuées en prenant comme valeur théorique pour les
paramètres   2, 5 et l  4 5 . 7

88
Le tableau suivant reprend les erreurs relatives d’estimation en référence à la
situation dans laquelle toutes les observations sont complètes.

L’utilisation des toutes les données disponibles, même incomplètes, s’avère


essentielle. En particulier, ne pas prendre en compte les censures conduit à sous-
estimer de 15 % la durée de survie. Dans le même esprit, en présence de censures
de type I ou II, ne pas prendre la totalité des observations disponibles conduit à
estimer un modèle dans lequel la durée de survie maximale est le niveau de la
censure.

2.4. Les algorithmes numériques de maximisation de la vraisemblance


Comme on l’a vu en 2.2 ci-dessus, l’expression analytique de la log-
vraisemblance ne rend que rarement possible un calcul direct de l’estimateur du
maximum de vraisemblance. Bien entendu, les algorithmes standards de type
Newton-Raphson peuvent être utilisés dans ce contexte. Toutefois, des méthodes
spécifiques peuvent s’avérer mieux adaptées.
Le lecteur intéressé par une introduction aux méthodes numériques
d’optimisation pourra consulter CIARLET [1990].
2.4.1. L’algorithme de Newton-Raphson
On utilise ici pour résoudre l’équation f ( x 0 )  0 un algorithme construit à

89
partir d’une linéarisation au voisinage de la solution, sur la base du
développement de Taylor à l’ordre un ; en notant que
df
 xk   o( xk  1  xk ) , on propose ainsi la
f ( xk 1 )  f ( xk )  ( xk 1  xk )
dx
récurrence définie par f ( x k  1 )  0 , qui conduit à :

f (xk )
x k 1  x k 
f (xk )
Dans le cas d’un modèle de durée, on utilise comme fonction f la dérivée de la
log-vraisemblance par rapport au paramètre (le score), ce qui conduit à
l’expression :
1
 2   In L ( y z , c ; k )
 k 1  k   In L ( y z , c ;  k ) 
  '  

L’écriture ci-dessus est une écriture matricielle, valable pour un 


multidimensionnel.
Afin que cet algorithme converge il convient de partir d’une valeur initiale
« proche » de la valeur théorique. Il possède une propriété intéressante : si l’on
dispose d’un estimateur convergent, pas nécessairement asymptotiquement
efficace, on peut l’utiliser comme valeur initiale de l’algorithme de Newton-
Raphson. On obtient alors l’efficacité asymptotique dès la première itération30.
Il existe une variante de l’algorithme de Newton-Raphson, appelée algorithme
BHHH (BERNDT, HALL, HALL, HAUSMAN), qui consiste à remplacer dans
l’expression itérative ci-dessus la matrice d’information de Fischer par son
expression ne faisant appel qu’à la dérivée première de la log-vraisemblance. On
obtient ainsi :
1
 n Inl ( yi zi , ci ;k ) Inl( yi zi , ci ;k )  n
Inl ( yi zi , ci ;k )
k 1  k    
 i1   '  i 1 
Cette version de l’algorithme de Newton-Raphson a les mêmes propriétés que
la précédente.

2.4.2. L’algorithme Espérance-Maximisation (EM)


Cet algorithme a été imaginé plus spécifiquement dans le cadre de données

30
Dans ce cas l’estimateur obtenu n’est pas du maximum de vraisemblance, mais il est tout de même
asymptotiquement efficace.

90
incomplètes ; il s’appuie sur la remarque que, si les variables ( x1 , ... x n ) étaient
observables, l’estimation serait effectuée simplement en maximisant la log-
vraisemblance latente In L ( x z , c ;  ); comme on ne dispose pas de ces
observations, l’idée est de remplacer la fonction objectif par sa meilleure
approximation connaissant les variables observables ( y1 , ..., y n ) . Il a été proposé
initialement par DEMPSTER et al. [1977].
On introduit, pour ( , ˆ ) fixé, la fonction
ˆ
q ( ,  )  E ˆ  In L ( x z , c ;  ) y , z , c  ; l’algorithme EM est alors défini par la
*

répétition des étapes suivantes :


– calcul de (  , ˆ k ) ;
– maximisation en  de q (  , ˆ k ) , dont la solution est  k 1 
En pratique cet algorithme est intéressant lorsque le calcul de q (  , ˆ k ) est
sensiblement plus simple que le calcul direct de
 In L ( y z , c ;  ) ; dans le cas contraire, on peut être conduit à utiliser un
algorithme de Newton-Raphson pour l’étape d’optimisation de q (  , ˆ k ) , ce qui
alourdit la démarche.
L’algorithme EM possède sous certaines conditions de régularité qui ne seront
pas détaillées ici les « bonnes propriétés » suivantes :
Proposition : L’algorithme EM est croissant, au sens où
InL( y z, c;k1)  InL( y z, c;k1); ; de plus toute limite   d’une suite de
solutions ( k ) satisfait la condition du premier ordre :

 In L ( y z , c ;   )
 0

Démonstration : le lecteur intéressé pourra se reporter à DROESBEKE et al.
[1989].

2.4.3. Les autres méthodes


D’autres méthodes peuvent s’avérer utiles dans le cas d’échantillons fortement
censurés ; en effet dans ce cas, l’estimation « fréquentielle » usuelle utilisée jusqu’ici
peut s’avérer mal adaptée ; on peut alors se tourner vers des algorithmes
d’échantillonnage pondéré bayésiens, notamment les algorithmes MCMC.
Cette situation étant peu courante en assurance ne sera pas développée ici ; le
lecteur intéressé pourra consulter ROBERT [1996].

91
3. Les modèles à hasard proportionnel
Dans ces modèles la fonction de hasard est écrite
h ( x z ;  )  ex p(  z '  ) h 0 ( x ) avec h0 la fonction de hasard de base, qui est une
donnée. Cette situation se rencontre par exemple lorsque l’on veut positionner la
mortalité d’un groupe spécifique par rapport à une mortalité de référence, connue,
représentée par h0 . On peut par exemple imaginer que l’on a ajusté la mortalité d’un
groupe important selon un modèle de Makeham31 et que l’on s’intéresse au
positionnement de la mortalité de certaines sous-populations : hommes / femmes,
fumeurs / non fumeurs, etc. Dans cette approche, on s’attachera essentiellement à
définir le positionnement d’une population par rapport à une autre, sans chercher
toujours le niveau absolu du risque. L’expression de la fonction de hasard d’un
modèle proportionnel peut s’écrire :

h ( x z; )
In   z ' ,
h0 ( x )
Ce qui exprime que le logarithme du taux de risque instantané, exprimé
relativement à un taux de base, est une fonction linéaire des variables explicatives. Les
p
variables explicatives sont au nombre de p, ce qui implique que z '    z  . . On
i 1
i i

vérifie aisément que la fonction de survie du modèle est de la forme :


S ( x z ;  )  e x p (  e x p (  z '  ) H 0 ( x ))
Avec H 0 la fonction de hasard cumulée de base32. Compte tenu de la forme de
la fonction de survie, il est naturel de s’intéresser à la variable transformée
V  In ( H 0 ( X )); ; en effet si on considère le modèle suivant :
v  z '  
(en d’autres termes on pose   v  z ' ) on trouve que
P(  t z; )  P( InH 0 ( x)  z '  t z; )  P( H 0 ( x)  exp(z' ) exp(t ) z; ),

soit :
P (   t z ;  )  S ( H 0 1  exp(z'  ) exp( t )  z ;  )  exp(  exp( t )

31
Voir la section 5.
 t 
32
En utilisant la relation S (t )  exp    h( S )ds  .
 0 

92
La loi (conditionnelle) du résidu  est donc une loi de Gumbel33, qui vérifie
 2
E ( )   et V (  )  ,  étant la constante d’Euler34.
6
On reconnaît dans l’équation v  z '   une formulation formellement
équivalente à celle d’un modèle linéaire, dans lequel les résidus ne sont toutefois ni
gaussiens, ni centrés, puisque E (  )    : 
E (V z ;  )     z '
Le point important ici est que la loi de 
ne dépend pas du paramètre.
Si on souhaite obtenir un modèle avec des résidus centrés on considère la
transformation
V  H 0 ( X ) . On a P (V  t )  P ( X  H 0 1 ( t ))  S ( H 0 1 ( t ))
et donc :

P(V  t )  exp(  exp(  z ' )  t )


V suit donc une loi exponentielle de paramètre exp(  z ' ) , ce qui conduit
à poser le modèle non linéaire :
v  ex p( z '  )  
Avec E     0 et V     ex p ( 2 z '  ) , et E ( V z ;  ) e x p ( z '  ) . On
note que les résidus de ce modèle sont hétéroscédastiques.
On peut noter que le taux de décès d’une sous-population s’exprime
simplement à l’aide du taux de décès de base :
xp (  z ' )
 S ( x  1 z; )   S 0 ( x  1) 
q ( x z ;  )  1     1     1  (1  q0 ( x )) exp(  z ' )
 S ( x z; )   S0 ( x) 
Lorsque q 0 ( x ) est petit on retrouve comme on pouvait s’y attendre :

q ( x z ;  )  q 0 ( x )  e x p (  z ' )

3.1. Cas où la fonction de hasard de base est connue35


On s’intéresse dans un premier temps au cas de données non censurées dans le
cadre du modèle linéaire défini ci-dessus.
On cherche à estimer  en supposant H 0 connue ; l’équation ci-dessus peut

33
Cf. la partie du support d’introduction consacrée à la loi de Weibull et
http://fr.wikipedia.org/wiki/Loi_de_Gumbel
34
Dont la valeur est approximativement 0,577215665
35
Dans le modèle de Cox la fonction de hasard de base est supposée inconnue, alors qu’ici elle est
supposée connue.

93
être utilisée pour construire un estimateur convergent du paramètre, mais cet
estimateur est non asymptotiquement efficace ; on peut imaginer de l’utiliser
comme valeur d’initialisation d’un algorithme de maximisation de la log-
vraisemblance. Toutefois, l’expression du modèle sous la forme d’un modèle
linéaire conduit naturellement à proposer l’estimateur des moindres carrés
1
 n '  n
ordinaires (MCO) : ˆ   zi zi   z InH'
MCO i 0 ( xi )
 i 1  i 1

Dans l’écriture ci-dessus zi  ( z i 1 , ..., z ip ) est le vecteur ligne de taille P


composé des valeurs des variables explicatives pour l’individu n  i. Si on suppose
que le modèle intègre une constante et que celle-ci est la première composante de
 , alors on peut montrer que ˆ  (  , 0, ..., 0 ) ' est un estimateur convergent de
 . La transposition directe du cas du modèle linéaire conduit donc à un estimateur
simple à calculer et disposant a priori de « bonnes propriétés » pour  .
Dans le cadre du modèle v  exp(z' )   , qui présente l’avantage d’avoir
des résidus centrés, l’estimateur EMV est solution du programme de moindres
carrés non linéaires :
n 2

M in   H
i 1
0 ( x i )  ex p ( z  ) i
'

Cet estimateur peut être aisément calculé ; toutefois, les estimateurs ci-dessus
sont utilisables pour des données complètes, mais pas dans le cas de données
censurées.
En effet, en présence de censure, l’estimateur ˆM C O restreint aux données
complètes est asymptotiquement biaisé. Le biais étant toutefois peu important en
pratique, cet estimateur pourra servir de valeur initiale pour des algorithmes
numériques.
En présence de données incomplètes, on revient aux équations de
vraisemblance du modèle.

3.1.1. Équations de vraisemblance


D’après les équations générales déterminées en 2.1.2 ci-dessus, on a :
n n
InL* ( x z ; )     zi'  Inh0 ( xi )    exp(  zi' ) H 0 ( xi )
i 1 i 1

pour la vraisemblance latente et :

94
n n
InL* ( x z ;  )     z i'  Inh0 ( xi )    exp(  z i' ) H 0 (ti )
i 1 i 1

pour la vraisemblance observable. Par dérivation on trouve le vecteur des


scores latent :
InL* ( x z ;  ) n n n
   zi'   zi' exp(  zi' ) H 0 ( xi )   zi' exp(  zi' ) i
 i 1 i 1 i 1
Le score latent est donc le produit scalaire entre les erreurs
 i  H 0 ( xi )  exp( z i' ) et les variables explicatives, pour la métrique définie par
les poids e x p ( z i' ) . En ce qui concerne le vecteur des scores observable, on a :

 In L (y z , c ;  ) n


 
i 1
z i' e x p (  z i' )  i

Avec i  E (  i y i , z i , c i ,  ) . Comme le résidu du modèle non censuré est


défini par  i  H 0 ( xi )  exp  zi'  , il s’agit donc de montrer que
E ( i yi , zi , ci )  H 0 (ti )  di exp  zi'  .
Les équations de vraisemblance s’assimilent donc à une condition
d’orthogonalité entre variables explicatives et erreurs prévues, comme dans le cas
d’un modèle linéaire classique.

3.1.2. Information de Fisher


L’information de Fisher a ici une expression particulièrement simple :
n
I ( )   i1
z i' z i p i

Avec Pi  E ( d i z i , c i )  P ( X i  c i ) la probabilité que l’observation soit


complète. On écrit pour cela que
 2 InL ( y z , c;  ) n
   z i' z i exp(  zi' ) H 0 (ti ) puis on prend l’espérance en
 ' i 1
observant que le vecteur des scores est, dans ce modèle, centré. La décomposition
de l’information de Fisher présentée en 2.1.2 ci-dessus s’écrit ici :
n n n

i 1
z i' z i  i 1
z i' z i p i  i 1
z i' z i (1  p i )

95
3.2. Cas d’un hasard de base paramétrique : le modèle de Weibull
On a examiné en 2.3 le modèle de Weibull sans variables explicatives ; on
souhaite ici généraliser ce modèle dans le cadre d’un modèle à hasard
proportionnel. La fonction de hasard de base n’est plus supposée connue et est
supposée suivre une loi de Weibull ; elle dépend d’un paramètre, qui devra donc
être estimé et le modèle comporte donc un paramètre supplémentaire par rapport
à la version précédente.

3.2.1. Présentation générale


Ce modèle est défini par la spécification36 :
h ( x z ;  ,  )  e x p (  z ' ) x  1

D’après ce qui précède la log-vraisemblance du modèle s’écrit37 :


n n
InL ( y z , c;  ,  )  dIn      1   d i z i'   exp   z i' t i
i 1 i 1

d
où on a noté d  i1
d i le nombre de sorties non censurées. Les équations de

vraisemblance sont donc :

 In L ( y z , c ; ˆ , ˆ ) n n
   d i z i'   z i' ex p (  z i'ˆ ) t iˆ  0
 i 1 i 1

 InL ( y z , c ; ˆ , ˆ ) n n
   d i In ( t i )   exp(  z i'ˆ ) t iˆ In ( t i )  0 .
 i 1 i 1

Comme dans le cas où la fonction de hasard de base est connue, la première


équation s’interprète comme un produit scalaire, entre les variables explicatives et
 ˆ '
 
les résidus généralisés i  t i  d i exp z iˆ , , comme en 3.1.1ci-dessus, mais
après estimation de la fonction de hasard de base. La seconde équation n’admet pas
d’interprétation particulière.
Ces équations doivent être résolues par des méthodes numériques.
Les termes de la matrice d’information de Fisher s’obtiennent en dérivant une
seconde fois, et on trouve :

36
On fixe le paramètre d’échelle de la loi de Weibull à 1.
37
On pourra rapprocher cette expression de celle établie en 2.3 dans le modèle sans variables
explicatives.

96
 2 InL  y z , c ;  ,   n

zz '
exp   z i' t i
 2 i i
i 1

 InL  y z , c ;  , 
2
 n

z '
exp   z i' t i In ( t i )
 2 i
i 1


 2 InL y z , c ; ˆ , ˆ  d n

 exp   z  t   In ( t ) 
' 2

 
2 2 i i i
i 1

3.2.2. Cas particulier du modèle exponentiel


Lorsque dans le modèle précédent le paramètre  est contraint à être égal à 1,
on obtient le cas d’une fonction de hasard de base exponentielle, dont on note  le
paramètre (égal à la leur de la fonction de hasard38). En 1.1.1ci-dessus on a étudié
ce cas et montré que l’estimateur du maximum de vraisemblance était égal39 à
d
.
n

i1
d iti  ( n  d ) c

On prend maintenant comme paramètre   1 ; dans le cas non censuré,



l’estimateur de  est la moyenne empirique de l’échantillon, qui est sans biais. En
présence de censure, l’estimateur EMV de  est l’inverse de l’estimateur ci-dessus
(par invariance fonctionnelle de l’estimateur du maximum de vraisemblance),
n

dt i i  (n  d )c
ˆ  i 1
, qui est un estimateur biaisé. L’existence de censure
d
introduit donc du biais dans le modèle. On peut montrer40 que le biais a pour
expression :

 c
c exp   
E (ˆ )        o n2 ,
2
  c 
n 1  exp    
   
et que la variance asymptotique s’écrit :

38
En d’autres termes on réintroduit ici la paramètre d’échelle dont on n’avait pas tenu compte dans le
modèle de Weibull.
39
En supposant les censures toutes égales à c.
40
Voir BARTHOLOMEW [1957] et BARTHOLOMEW [1963].

97
 2
V (ˆ )  .
  c 
n 1  e x p    
   
On en déduit l’approximation normale usuelle.

3.3. Cas où la fonction de hasard de base n’est pas spécifiée : le modèle de Cox41
On ne suppose plus maintenant de forme particulière pour la fonction de
hasard de base ; celle-ci devient alors un paramètre de nuisance, de dimension
infinie.
En effet, spécifier complètement un modèle paramétrique peut s’avérer trop
restrictif dans certains cas ; de plus, on peut n’être intéressé que par la mesure de
l’effet des covariables, et alors la spécification de la fonction de hasard de base
n’apporte rien au modèle (à part des contraintes). En d’autres termes, on se place
dans un contexte où l’objectif est le positionnement de différentes populations les
unes par rapport aux autres, sans considération du niveau absolu du risque. Cela
motive l’intérêt pour une spécification partielle, étudiée ici.
On part donc de la formulation suivante :
h ( x x ;  )  e x p (  z ' ) h 0 ( x )

Avec h 0 inconnue.

3.3.1. Estimation des paramètres


Pour mener l’inférence statistique dans ce modèle, COX [1972] a proposé de
s’appuyer sur une vraisemblance partielle dans laquelle le paramètre de nuisance
h 0 n’intervient pas. Cette approche est un cas particulier d’une démarche plus
générale consistant à déterminer une vraisemblance partielle lorsque le modèle
contient un paramètre de nuisance de grande dimension. Le principe de cette
démarche, décrite dans COX [1975], est présenté ci-après, puis appliqué au cas du
modèle de Cox.
On considère ici un vecteur X de densité f X ( x ,  ) . On suppose qu’il est
possible de décomposer X en une paire (V , W ) telle que :
f X ( x ,  )  fW /V (W v ,  ) f V ( v ,  )

Un exemple d’une telle décomposition est fourni par le vecteur V des valeurs

41
Pour un traitement détaillé du modèle de Cox on pourra se reporter à DUPUY [2002], dont on
reprend ici les notations et la logique de présentation.

98
de X ordonnées par ordre croissant et W le vecteur des rangs. On suppose de
plus que le paramètre  est de la forme   ( , h0 ),  étant le paramètre d’intérêt.
L’idée est que, si, dans la décomposition ci-dessus, l’un des termes de dépend pas
de h0 , on peut l’utiliser pour estimer  . La simplification occasionnée par cette
approximation doit compenser la perte d’information.
On rappelle que le modèle de base considéré est toujours le suivant :

1 si Xi  Ci
Ti  X i  C i et D i  
0 si Xi  Ci
avec. h ( x z ;  )  exp( z '  ) h0 ( x ). D’après l’expression générale de la
vraisemblance d’un modèle censuré en présence de covariables (cf. 1.4 ci-dessus),
on peut écrire la vraisemblance complète du modèle de Cox :
n
L ( , h0 )    h0 (ti ) exp(  ' zi ) exp(  H 0 (ti ) exp(  ' zi ))   exp( H 0 (ti ) exp(  ' zi )) 
di 1 d i

i 1

Dans l’expression ci-dessus, la fonction de hasard de base intervient de deux


manières : directement, et au travers de la fonction de hasard cumulée H 0 . On peut
montrer qu’il n’existe pas de maximum à la vraisemblance si on n’impose pas de
restriction à la fonction de hasard de base.
En décomposant la vraisemblance de sorte que l’on isole dans un terme que
l’on négligera l’incidence de la fonction de hasard de base, on obtient (après une
série de développements fastidieux qui ne sont pas repris ici, cf. DUPUY [2002])
l’expression suivante de la vraisemblance partielle (valable avec ou sans ex-æquo) :
di
 
 
 n exp(  ' z i )
n
L C ox ( )   


  exp(  ' z j )1Ti  T j  
i 1

 j 1 
On peut toutefois donner une justification heuristique simple de la formule ci-
dessous ; on observe en effet que dans le dénominateur de la fraction ci-dessus
n
intervient R i   1
j 1
Ti  T j 
, qui n’est autre que l’effectif soumis au risque au

moment de la sortie de l’individu i (si celle-ci est observée). En conditionnant par


les instants de survenance des décès 0  t1 ...  t k (avec
Donc k  n correspondant aux sorties non censurées), on considère les
évènements (ordonnés) suivants : Ci est l’ensemble des censures intervenues entre

99
ti  1 et Di l’ensemble des décès intervenus en t i . On notera que l’on se ramène
ainsi à un problème d’analyse combinatoire consistant à compter les configurations
des sorties conduisant à la séquence observée, les dates de décès étant connues. En
d’autres termes, on retrouve ici le fait que l’on n’est pas intéressé par le niveau
absolu de la sinistralité, mais simplement par le positionnement des individus les
uns par rapport aux autres, en fonction des valeurs prises par les variables
explicatives pour chacun d’entre eux. On peut alors décomposer la probabilité
d’observer la séquence ( C i , D i ) selon :

P   C i , Di  ,1  i  k   P  C1  P  D1 C1  P  C 2 C1 , D1  ...P  D k C1 ...C k D1 ...D k 1 

En regroupant les évènements relatifs aux décès d’une part et ceux relatifs aux
censures d’autre part on met l’expression ci-dessus sous la forme :
k k
P   Ci , Di  ,1  i  k    P  D1 C1 ...Ci D1 ...Di 1    P  Ci C1 ...C i 1 D1 ...Di 1 
i 1 i 1

On remarque l’analogie de la formule ci-dessus avec l’expression générale de la


vraisemblance donnée supra. On peut alors noter que l’événement Ri
complémentaire de
C 1 ...C i D 1 ... D i  1  décrit la population sous risque juste avant l’instant t i .
L’idée de base de la vraisemblance partielle de Cox consiste à ignorer dans la
vraisemblance le terme associé aux censures pour ne conserver que :
k
P   C i , D i  , 1  i  k    P  D i R i .
i 1

Il reste à évaluer P ( D i R i ) ; on suppose pour simplifier l’absence d’ex-


æquo, ce qui revient à dire que l’ensemble D i est un singleton : Di   ji  . On
trouve alors que :

h (ti , z j ) exp(  ' z ji )


P ( Di Ri )  
 h (t , z
jRi
i j )  exp(  ' z
jRi
j )

ce qui conduit finalement à l’expression cherchée.


L’expression de la vraisemblance partielle se généralise sans difficulté au cas de
covariables dépendant du temps ; dans le cas de covariables fixes, on peut montrer
(cf. FLEMING et HARRINGTON [1991]) que cette expression est égale à la loi du
vecteur des rangs associé à
( T1 , ...T n ) . En pratique la résolution du système d’équation

100

In L C o x    0 est effectuée via un algorithme numérique (cf. infra).
 i
L’intérêt de l’estimateur ˆ ainsi obtenu est légitimé par le fait qu’il est
convergent et asymptotiquement normal, comme un estimateur du maximum de
vraisemblance standard42.

3.3.2. Tests du modèle


Deux types de tests peuvent être menés dans le cadre du modèle de Cox :
– La validation de l’hypothèse de hasard proportionnel ;
– La nullité globale des coefficients, ie   0 .
La validation globale du modèle peut être effectuée en s’appuyant sur un test,
dont le principe est étudié en détail par THERNEAU et GRAMBSCH [2000], basé
sur les résidus de Schönefeld. Ces derniers sont définis pour chaque individu i et
chaque covariable j comme la différence entre la valeur, à la date Ti de sortie de i,
de la covariable pour cet individu, z i  ( z i 1 , ... z ip ) et sa valeur attendue :


 exp   ' z  
zj

 j  Ri
j

ri  d i   z i  .
  exp   ' z  j 
 j Ri

En introduisant alors le produit de l’inverse de la matrice de variance-
covariance des résidus de Schönefeld pour l’individu i avec le vecteur de ces mêmes
résidus, appelé résidu de Schönefeld réduit, on peut construire un test de
l’hypothèse de hasard proportionnel. Ce test sera étudié en détails ultérieurement.
La nullité globale des coefficients peut être testée via un test classique de type
Wald ou score (cf. la section 4)

4. Les tests fondés sur la vraisemblance

On se propose ici de tester une hypothèse de la forme g ( )  0 , où g est une


fonction à valeurs dans  , contre l’alternative g ( )  0 . Trois tests
r

asymptotiques faisant appel à la vraisemblance sont classiquement utilisés : le


rapport des maxima de vraisemblance, le test de Wald et le test du score. On peut
en fait montrer qu’ils sont équivalents, au sens où les statistiques associées diffèrent
d’un infiniment petit en probabilité. On choisira donc celui dont la mise en œuvre
est la plus simple.

42
Ce résultat est démontré par ANDERSEN et GILL [1982].

101
On note ˆ l’estimateur du maximum de vraisemblance dans le modèle non
contraint et ˆ son équivalent dans le modèle contraint. g() est un vecteur de
0

g '  g j 
dimension r (une matrice ( r ,1) et on suppose que la matrice   qui
  i 
est de dimension ( p , r ) , est de rang r .

4.1.1. Rapport des maxima de vraisemblance


L’idée est ici de comparer les vraisemblances contraintes et non contraintes et
d’accepter l’hypothèse nulle si ces 2 valeurs sont proches. On utilise donc la
statistique :

 R  2 ( In L (ˆ )  In L (ˆ 0 ))
qui converge sous l’hypothèse nulle vers un  2 ( r ) , d’où un test dont la
région critique est donnée par W    R
  12   r  .

4.1.2. Test de Wald

 
L’idée du test de Wald est que, si g ˆ  0, , alors on accepte l’hypothèse
nulle. De manière formelle la statistique :
1
 g (ˆ ) g (ˆ ) 
   
1
 W
 ng '(ˆ )  I ˆ  g ˆ
   '  

converge sous l’hypothèse nulle vers un r   2 ( r ), d’où un test dont la



région critique est donnée par W     1   ( r ) . .
W 2

4.1.3. Test du score
On s’intéresse ici à la condition du premier ordre du modèle contraint, qui fait
apparaître le Lagrangien InL ( )  g '( ) . . La condition du premier ordre
s’écrit donc :

 In L (ˆ 0 )  g '(ˆ 0 ) ˆ
  0
 ' 
et on utilise la statistique :

102
1  InL (ˆ 0 )  InL (ˆ 0 )
S  I (ˆ 0 )  1 
2  ' 
qui converge sous l’hypothèse nulle vers un  2 ( r ), , d’où un test dont la
région critique est donnée par W    S
  12  ( r ) . .

5. Ajustement de taux de mortalité bruts


Dans ce paragraphe on illustre la mise en œuvre d’une démarche paramétrique
dans le cas de la construction d’une table de mortalité. On dispose pour différents
âges, X 0  x  x1
D’observations constituées d’une part des effectifs sous risque en début de
période43, notés N x et, d’autre part, des décès observés pendant la période de
référence, D x .
Le nombre de décès à l’âge x est une variable aléatoire binomiale de paramètres
N x et qx , où qx désigne le taux de mortalité à l’âge x. . Il est naturel d’estimer ce
Dx
taux par l’estimateur empirique qˆ x  , , qui est sans biais, convergent et
Nx
asymptotiquement normal44. On supposera que l’on dispose de suffisamment de
données pour considérer que l’approximation gaussienne est valide. On pourra par
exemple utiliser le critère de Cochrane, qui consiste à vérifier que N x  qˆ x  5 et
N x  (1  qˆ x )  5. .
D’après ce qui précède, la méthode la plus directe pour estimer les paramètres
d’un modèle paramétrique dans ce contexte consiste, une fois la forme de la
fonction de hasard fixée, à écrire la log-vraisemblance :
n n n
InL ( y1 ,..., y n ;  )  d
i 1
i Inh0 ( ti )  InS 0 (t i )   InS ( ei )
i 1 i 1


Puis à résoudre les équations normales InL( y1 ,..., yn ; )  0 . C’est ce qui

a été fait dans l’exemple 1.1.1 ci-dessus. Toutefois, en pratique ces équations
peuvent être délicates à résoudre. Ainsi, si l’on souhaite utiliser le modèle de
Makeham, la log-vraisemblance d’un échantillon censuré45 a la forme suivante :

43
En général la période de temps sera l’année.
44
En pratique souvent on obtiendra le taux de décès brut dans un cadre non paramétrique (Kaplan-
Meier) puis on déduira l’exposition au risque de ce taux et du nombre de décès observés à l’âge
considéré.
45
Supposé non tronqué à gauche pour simplifier l’écriture.

103
n n
 b 
 
InL( y1 ,..., yn ; )   di In a  b  cti     ati
un(c)

cti  1  . 
i 1 i 1  
  
La résolution du système d’équations InL  0, InL  0, InL  0 est
 b c
fastidieuse, lorsqu’elle est possible. En effet, d’une part les sommes intervenant dans
les expressions ci-dessus comportent potentiellement un très grand nombre de
termes. Aussi, on est conduit à proposer une démarche en deux temps :
 on commence par calculer des taux de décès bruts qˆx par une méthode
intégrant les éventuelles censures (et tenant compte du degré de précision associé
aux données individuelles),
 puis on ajuste dans un second temps le modèle paramétrique retenu à ces
taux bruts. Pour cela on utilise la « formule de passage » entre l’expression du
modèle à temps continu et les taux bruts suivante :

q x  1  exp    µ ( y ) dy 
x 1

 x 
Cette relation entre le taux de mortalité discret qx et la fonction de hasard46 µ x
exprime simplement le fait que la probabilité de survie entre x et x  1 ,
conditionnellement au fait que l’individu est vivant à l’âge x, est égale à. S ( x  1 )
S (x)
La recherche d’un ajustement est justifiée par le fait que la courbe des taux bruts
présente des irrégularités en fonction de l’âge et que l’on peut supposer que ces
variations assez brusques ne sont pas dues à des variations de l’incidence réelle du
risque, mais à une insuffisance de données. Un ajustement par une fonction
modélisant le risque sous-jacent constitue un moyen de lisser ces fluctuations
d’échantillonnage47. Parmi les lois les plus souvent utilisées figure la loi de
Makeham, que l’on appliquera ci-dessous, après avoir présenté l’approche générale.

5.1. Maximum de vraisemblance discrétisé


Dans le cadre du modèle binomial48, le nombre de décès observés à l’âge x,
x , D x , , suit une loi binomiale de paramètres  N x , q x    et la vraisemblance
associée à la réalisation d’un nombre d x de décès est donc égale à :

46
La fonction de hasard h est traditionnellement notée µ en démographie.
47
Pour des arguments plus développés, voir le support sur les « lissages et ajustements ».
48
On peut en pratique souvent se ramener à ce modèle modulo une détermination adaptée de l’effectif
soumis au risque.

104
P ( D x  d x )  C Nd xx q xd x 1  q x 
N
xd x
.
Pour l’ensemble des observations on obtient donc la log-vraisemblance
suivante (à une constante indépendante du paramètre près) :
InL ( )  d
x
x In q x ( )  N
x
x  d x ) In (1  q x ( )).

Cette expression n’est pas très aisée à manipuler (par exemple dans le cadre du
x
modèle de Makeham on montrera que q x ( )  1  S  g c ( c 1) ), quoique
numériquement la recherche du maximum ne pose pas de problème majeur. Afin
de parvenir à un problème de moindres carrés pondérés, on réalise toutefois plutôt
en général l’approximation de la loi de qˆx par une loi normale :
 q x   1  q x    
qˆ x  N  q x ( );  2 ( )  
 Nx 
 
La fonction de vraisemblance s’écrit alors, en faisant l’hypothèse
d’indépendance entre les âges :
2
1  1 ( q x ( )  qˆ x ) 
L ( )   exp  
x  ( ) 2  2  ( ) 
2

d’où la log-vraisemblance :

 1  1 ( q x ( )  qˆ x )
In ( L ( ))   In   .
  ( ) 2  x 2  ( )
2
x

La fonction objectif est là encore complexe et le paramètre intervient à la fois


dans l’espérance et dans la variance de la loi normale ; cela peut engendrer une
certaine instabilité des algorithmes de recherche de l’optimum ; aussi, on va utiliser
la vraisemblance approchée dans laquelle on remplace la variance théorique par la
variance estimée. La maximisation de la vraisemblance est alors équivalente à la
minimisation de :

1 ( q x ( )  qˆ x ) 2 Nx
x 2   qx ( )  qˆ x  .
2

ˆ 2
ˆ x (1  qˆ x )
x q

Le problème est ainsi ramené à un problème de moindres carrés pondérés dans


le cas non linéaire ; il peut être résolu numériquement dans la plupart des logiciels
statistiques spécialisés.
Il reste toutefois à spécifier correctement ce que l’on utilise comme effectif de

105
référence N x pour l’expérience binomiale. Il apparaît raisonnable de souhaiter qu’en
moyenne le modèle soit sans biais, ce qui se traduit par E ( D x )  q x  N x . . En
l’absence de troncature et de censure, on choisit donc N x  S ( x ). . En présence de
troncature et / ou de censure, il faut prendre en compte ces phénomènes dans le
calcul. On peut montrer qu’il est alors raisonnable de retenir l’exposition au risque
N x  E x où E x   d i ( x ) avec d i ( x ) la durée de présence à risque de
i I

l’individu i. Ce résultat sera justifié dans le support sur les tables de mortalité.

5.2. Application : le modèle de Makeham

La loi Markham vérifie la relation : µ x  a  b  c x où µ x représente le taux


instantané de décès à l’âge x . Le paramètre a peut s’interpréter comme une
incidence accidentelle ; le coefficient b  c , correspondant à un vieillissement de
x

la population, fait croître le taux de décès de manière exponentielle. Compte tenu


de la croissance des taux de décès avec l’âge, on doit avoir une constance c
supérieure à 1 et un b positif. On a alors :

 b x 
Px  exp   µy dy   exp   (a  b  c y )dy   exp(a) exp  
x 1 x 1
c (c  1) 
 x   x   In(c) 
 b 
Posons s  exp(  a ) et g  exp    , , la fonction utilisée pour
 In(c ) 
l’ajustement des taux de décès discrets est donc : q x  1  Px  1  s  g c  c  1  .
x

C’est sur la base de cette version discrétisée du modèle que nous allons
dorénavant nous appuyer.

5.2.1. Adéquation de la courbe au modèle de Makeham


Avant de réaliser l’ajustement proprement dit, on cherche à valider
l’adéquation de ce type de fonction à la situation proposée. Pour cela on observe
que l’on a In(1  qx )  In( s )  cx (c  1) In( g ). Pour les qx proches de zéro49, on
peut faire l’approximation In (1  q x )   q x , , et donc :
 q x  In ( s )  c ( c  1) In ( g )
x

Il en résulte que q x  q x  1  c x ( c  1) 2 In ( g ), ce qui conduit à remarquer en


prenant le logarithme de cette expression que :

49
On peut retenir que le taux de mortalité à 60 ans est en France de l’ordre de 0,50 % pour les femmes,
et de 1,20 % pour les hommes (source : TV/TD 99/01).

106
In ( q x  1  q x )  xIn ( c )  In c  1 2

In ( g ) .

Sous l’hypothèse que les taux de mortalité suivent une loi de Makeham, les
points ( x, y  In(qx 1  qx )) sont donc alignés sur une droite de pente In ( c ) .
L’idée est donc de faire une régression linéaire et de produire une analyse de la
régression sur le modèle suivant :
Analyse de variance

Tab. 1 – Analyse de variance


On conclut éventuellement à l’ajustement par une droite sur l’intervalle
x 0  x  x1 en effectuant un test de Fisher (à un seuil à définir, par exemple 5 %).
On rappelle que la statistique de test de Fisher utilisée pour tester la significativité
globale d’un modèle de régression linéaire50 yi   0   1 x1  ..   p 1 x P 1   i
R2n  P
est Fp 1  avec
1 R2P 1
n

  yˆ  y 
2

R 2
 i 1 . Cette statistique suit une loi de Fisher (1, p  1) ,
n

  yi  y 
2

i 1

5.2.2. Ajustement par la méthode du maximum de vraisemblance


Une fois validé le fait qu’un ajustement de type Makeham peut s’avérer
pertinent, on cherche à en estimer les paramètres par la méthode du maximum de
vraisemblance. On notera incidemment que le maximum de vraisemblance
déterminé dans le modèle discrétisé étudié ici n’est pas identique au maximum de

50
C’est-à-dire pour valider le fait que les coefficients de régression soient non tous nuls.

107
vraisemblance direct que l’on obtient à partir du modèle de base continu.
On note   ( s, g , c) le vecteur des paramètres à déterminer et
x
q x ( )  1  s  g c ( c  1)
la fonction de Makeham à ajuster. On cherche le vecteur de
paramètre qui donne la fonction ajustant au mieux la courbe des qˆx (taux
d’incidence bruts observés).
On peut également simplement utiliser le solveur d’Excel. Dans tous les cas,
l’algorithme ne converge vers la vraie valeur du paramètre qu’à la condition de
partir d’une valeur initiale
0 assez proche de  .
Il convient donc de déterminer des valeurs initiales acceptables des paramètres.
On peut utiliser pour cela la propriété établie en 5.2.1 ci-dessus sur l’alignement des
points ( x, y  In ( q x 1  q x )); l’ordonnées à l’origine et la pente de la droite
déterminent g et c on peut trouver à partir de la relation
In ( Px )  c ( c  1) In ( g )  In ( s ). 51
x

Afin de tester si les coefficients de la fonction de Makeham ainsi déterminés ne


sont pas significativement égaux à zéro, on effectue un test de Student qui consiste
à comparer le ratio (estimation/écart type) à une loi de Student à m degrés de liberté
( (m  nombre d’âges observés – 3 paramètres estimés). On réalise enfin des tests
( qˆ x  q x ) 2
du Khi-2, sur la base de la statistique W   N x , q x étant le taux de
qx
décès théorique du modèle à l’âge x . La loi asymptotique de W est une loi
 2 ( p  3 1) , où p désigne le nombre d’âges intervenants dans la somme. Il
convient en pratique de manipuler avec précaution le test du Khi-2, la loi
asymptotique n’étant un  ( p  k  1) , p étant le nombre de classes et k le
2

nombre de paramètres du modèle que parce qu’ici l’estimateur est du maximum de


vraisemblance. Pour d’autres méthodes de détermination du paramètre, ce résultat
n’est plus vrai en général (voir FISCHER [1924]).
Le graphique suivant reprend l’ajustement Makeham réalisé par pseudo-
maximum de vraisemblance (en normant les effectifs sous risque à chaque âge) sur
la tranche d’âges 40-105 ans de la TF 00-02.

51
Le membre de gauche de l’égalité ne doit donc que peu dépendre de x.

108
Figure 1 – Ajustement de la TH00-02 à une loi de Makeham

5.3. Le modèle de Thatcher


En pratique, le modèle de Makeham conduit à une surestimation des taux de
décès conditionnels aux âges élevés. Afin de corriger cet surestimation, THATCHER
  e t
[1999] proposé un modèle proche en posant µ (t )    . En posant
1    e t
v  , (  )  1   exp( ) on remarque que 
 exp( ) 1 dv
du  , , ce qui conduit après quelques manipulations à
1   exp( )  v
1

 t 
S (t ) e v  , ( t ) . On en déduit notamment :

 1  1

e e
 t  t
E (T )  v  , (t ) dt 

(1   e ) t 
dt
0 0

Il reste à calculer q x  1 e x p   
x 1


x
µ ( y ) d y  , qui conduit à :

1

 v  , y ( x  1)  
q x  1  e   
 v ,y ( x) 
On obtient des ajustements proches de ceux obtenus avec le modèle de
Makeham, mais avec des taux légèrement plus faibles :

109
Figure 2 – Comparaison des ajustements Makeham et Tahtcher de la TH00-02

5.4. Ajustement des taux bruts sur la base des Logits

L’estimation des taux de mortalité qx est contrainte par le fait que l’on doit avoir
q x   0 ,1  ; ; en posant lg( x)  In(qx / (1  qx )), , le logit du taux de décès, on est
ramené à une valeur « libre » dans  ,   , et on peut alors utiliser les techniques
de régression linéaire sur des variables explicatives. Les variables explicatives candidates
les plus simples peuvent être l’âge et le logit des taux de décès d’une table de référence.

5.4.1. La fonction logistique

 x 
La fonction logistique est par définition lg( x )  In   est définie sur
1 x 
d 1
0 , 1  , elle est croissante sur cet intervalle : lg ( x ) 
dx x (1  x )
d2 1
On a par ailleurs : lg( x )  2
dx 2
x (1  x ) 2
Sur l’intervalle 0 ,1 / 2  , la fonction l g ( x ) est donc concave. Rappelons
que selon l’inégalité de Jensen, si f est convexe, alors E f ( X )  f ( E ( X )). . On
en déduit que, dans une zone où les taux de décès sont petits, et si l’on a estimé le
taux de décès par qˆx supposé dans biais, alors : E lg ( qˆ x )  lg ( q x )
En d’autres termes, les logits empiriques ainsi obtenus sont biaisés
négativement (ils sous-estiment les vrais logits). Comme la fonction lg( x ) (et son
inverse) est croissante, en sous-estimant les logits théoriques, cette démarche sous-
estime les taux de décès théoriques. La conclusion est inverse pour des taux de sortie
supérieurs à ½.

110
Dans le cadre d’un ajustement des yˆ x  lg( qˆ x ) , on obtient les taux de décès
ey
ajustés par la transformation inverse y  . La présence d’exponentielles
1 ey
dans cette expression conduit à une amplification importante du biais d’estimation
évoqué ci-dessus. Ainsi, dans le cas d’un risque décès, un modèle d’ajustement des
logits des taux de décès conduit à sous-estimer dans des proportions qui peuvent
être importantes (typiquement de 5 % à 10 %) les taux de décès.
Les modèles utilisant les logits des taux de décès doivent donc être utilisés avec
prudence dans le cas d’un risque en cas de décès. Ils intègrent au contraire une
marge de sécurité dans le cas d’un risque en cas de vie.
L’utilisation des régressions logistiques dans le cadre de variables qualitative
qx
est de plus « légitimée » par la remarque suivante : la quantité c x  est le
1  qx
rapport de la probabilité de « succès » à la probabilité d’« échec » dans le cadre d’une
expérience de Bernoulli ; cette grandeur s’interprète donc en disant qu’il y a « c x
fois plus de chances que le décès survienne qu’il ne survienne pas ». Il est alors
relativement naturel de chercher à expliquer le niveau atteint par c x à l’aide de
variables explicatives, et du fait de la positivité de c x le modèle le plus simple que
l’on puisse imaginer est obtenu en posant c x  exp( t  z x ) , avec z x le vecteur
des variables explicatives.
On se trouve alors dans le contexte d’un modèle linéaire généralisé52 avec une
fonction de lien logistique : lg ( q x )  t  z x   x ,
ce qui permet d’utiliser les procédures standards d’estimation disponibles dans
la plupart des logiciels spécialisés (une fois spécifiée la loi de x ). On peut également
e ' zx
noter que ce modèle peut s’écrire sous la forme : qx ( )  .
1  e ' zx
On peut donc rechercher la solution par la méthode décrite ci-dessus de
maximum de vraisemblance discret.

5.4.2. Ajustements logistiques


Le modèle de base d’ajustement logistique part du constat que sur une large
plage le logit des taux de décès présentent une tendance linéaire ; on propose alors
la modélisation suivante, version la plus simple du module présenté infra si l’on

52
Voir NELDER et WEDDERBURN [1972] pour la présentation originale et PLANCHET et al. [2005]
pour une introduction.

111
suppose que l’âge constitue une variable explicative pertinente :
lg ( qˆ x )  a  b x   x

où  est un bruit gaussien iid ; on régresse donc simplement les logits des taux
ey
de décès sur l’âge. La transformation inverse du logit étant y  , , le
1 ey
modèle lg( q x )  a  bx s’écrit de manière équivalente :

c e dx
q x 
1  ced x

en posant c  e a et d  b . . Une approche alternative à la régression


linéaire lg( qˆ x )  a  bx   consiste donc à effectuer une estimation par
ce dx
maximum de vraisemblance dans le modèle paramétrique q x  . . Cette
1  ce dx
approche évite a priori l’effet de sous estimation des taux de mortalité associée à
l’approche par régression linéaire, le taux de décès étant la variable modélisée (mais
l’estimateur du maximum de vraisemblance n’a toutefois pas de raison d’être sans
biais).
La détermination de la fonction de survie et de la fonction de hasard, liées l’une
 t 
à l’autre part la relation S ( t )  exp    µ ( s ) ds  nécessite de faire des
 0 
s ( x  1)
hypothèses. En effet, la relation q ( x )  1  conduit dans le cas général à
s( x)
la contrainte sur la fonction de hasard :
x 1
 I n 1  q x   µ (s)ds
x

Dans le modèle discret spécifié jusqu’alors x est a priori entier. Il faut donc
une règle de passage du temps discret au temps continu. On peut utiliser différentes
approches (Balducci, constance des taux de hasard par morceau, etc.). Si on choisit
l’hypothèse de constance de la fonction de hasard entre deux valeurs entières, on
trouve que la fonction de hasard est une fonction en escalier avec aux points entiers :
c d e d x
µ x  .
1  c e d x

En pratique il peut apparaître que la courbe des taux bruts qˆx présente un
décrochage à partir d’un âge pivot qui indique une accélération de l’incidence. Dans
ce contexte, on est amené à rechercher un ajustement via des modèles de type

112
logistique construits sur des ajustements de
In ( qˆ x / (1  qˆ x )) sur l’âge, qui jouera donc le rôle de variable explicative.
On cherche à ajuster les taux bruts sur une fonction de la forme :
In ( qˆ x / (1  qˆ x ))  ax  b  c  0   x  xc 
où x c est un « âge charnière » au-delà duquel la mortalité s’accélère (modèle
logit standard). En d’autres termes, on écrit le modèle de régression logistique
suivant :
In ( qˆ x / 1  qˆ x )  ax  b  c  0  ( x  x c )
où les (  X ) forment un bruit blanc gaussien. On peut généraliser ces modèles
en écrivant :
In ( q x / (1  q x ))  ax  b  c  0  ( x  x c )    x
Si on ne dispose pas de données suffisantes pour structurer correctement la
table complète, on peut imaginer d’utiliser la structure d’une table de référence
existante et de simplement positionner la mortalité du groupe considéré par
rapport à cette référence. Lorsque l’on souhaite positionner une table par rapport à
une autre, il peut apparaître naturel d’effectuer la régression des logits des taux
bruts sur les logits de la table de référence, ce qui conduit au modèle suivant :
In ( qˆ x / (1  qˆ x ))  aIn ( q x / 1  q x ))  b   x

5.4.3. Estimation des paramètres


Dans le cas du modèle de régression sur l’âge, l’estimation peut être effectuée
selon la procédure suivante : avant l’âge charnière x c , , on effectue une régression
linéaire de
In ( qˆ x / (1  qˆ x )) sur x , puis au-delà on fait une seconde régression (non
linéaire) de In  qˆ x / (1  qˆ x   ( a x  b )).
Dans le cas d’une régression des logits des taux bruts sur les logits d’une table de
référence, l’estimation est une estimation des moindres carrés ordinaires classique.

5.5. Intervalles de confiance pour les taux bruts


La première étape de la construction de la table de mortalité est constituée par
l’estimation des taux bruts à chaque âge. Il convient, au-delà de l’estimation
ponctuelle, d’avoir une idée de la précision de l’estimation effectuée. Celle-ci
dépend de deux facteurs :
 l’effectif sous risque, Nx , ,
 le niveau du taux de mortalité à estimer qx .

113
En effet, la précision sera d’autant meilleure que Nx est grand, et que qx est
grand. La précision sera mesurée par la largeur de l’intervalle de confiance. Pour
déterminer celui-ci, deux méthodes sont possibles :
 l’utilisation de l’approximation gaussienne, si l’on dispose de suffisamment
d’observations ;
 le calcul de l’intervalle à distance finie, qui est a priori possible puisque la loi de
qˆx est connue.
Dans un premier temps, on cherche donc quel type d’intervalle de confiance
utiliser. Pour cela on remarque qu’une relation lie l’incertitude de l’estimation, le
nombre d’observations et le niveau de confiance de l’intervalle désiré :
f (1  f )
 p  µa/2
N
où f est la valeur autour de laquelle est construit l’intervalle. (i.e. f est égale à la
valeur estimée *******) et up désigne le quantile d’ordre p de la loi normale centrée
réduite.
Exemple
Si la valeur à estimer x q vaut 0.2, si l’on souhaite un intervalle à 95 % pour une
précision de l’ordre de 0.01. Il est nécessaire de disposer de :
2
f (1  f ) 0, 2  0,8
N x    1, 9 6 2
p 2
µ / 2 0, 01 2

soit environ : N   6150


Si l’on ne dispose que de 3 000 observations on se tournera vers l’intervalle de
confiance à distance finie.
Au niveau de 95 %, en se plaçant dans le cas le plus défavorable d’une fréquence
égale à ½, on obtient un majorant (assez large) du nombre d’observations
1
nécessaires à l’obtention de la précision  p par N  .
P 2

5.5.1. Intervalles de confiance asymptotiques

Nx Désigne l’exposition au risque à l’âge x Dx le nombre de décès dans l’année


des personnes d’âge x, et on a estimé qx par qˆx . D’après le théorème central-limite :
q x  qˆ x  N (0,1)
Nx ,
qˆ  (1  qˆ ) N  
L’intervalle de confiance asymptotique de niveau *****pour x q est donc donné
par :

114
 q x (1  qˆ x ) q x (1  q x ) 
I   qˆ x  µ / 2 , q x  µ / 2 
 Nx Nx 
La limite de cette approche est qu’elle ne permet de construire que des
intervalles de confiances ponctuels, pour un âge fixé, mais ne permet pas d’encadrer
les taux de décès sur une plage d’âges fixées à un niveau de confiance connu. On
souhaite désormais encadrer les taux de décès simultanément sur tous les âges x
d’une plage d’âges  x 0 , x 0  n 
(où n est un nombre entier positif). L’encadrement des taux de décès
correspond donc désormais à une bande de confiance, et non plus à un intervalle
de confiance ponctuel.
On souhaite ici construire des bandes de confiance pour les taux de décès, et
non pour des fonctions de survie. En pratique, on cherche ainsi t ( qˆ x ) tel que
P ( q x  qˆ x  t ( qˆ x ),  x   x 0 , x 0  n   1   . . À cet effet, on s’appuie sur la
méthode d’estimation de Sidak, qui repose sur le principe d’inflation du seuil du
test lorsque le nombre de tests augmente (cf. par exemple ABDI [2007]).
Pour mémoire, une bande de confiance au niveau de confiance1   sur la plage
d’âges  x 0 , x 0  n  peut être présentée comme une collection d’intervalles de
confiance pour les différents âges x   x 0 , x 0  n  construits de manière à avoir un
intervalle simultané de probabilité égal à 1. Soit donc
P(qx  qx  t (qx ), x  x0 )  1   l’intervalle de probabilité de niveau 1  
(avec   0,1 pour q x à l’âge x  x0 . La probabilité simultanée d’encadrer les

taux de décès qx aux deux âges x  x 0 . et x  x 0  1 est alors 1   


2
, en
supposant l’encadrement indépendant sur ces deux âges. En répétant l’opération de
 n  est 1   
n 1
manière à inclure tous les âges de x0 , x0 , il apparaît
alors, toujours sous l’hypothèse d’indépendance, que la probabilité simultanée
d’encadrer les taux de décès qx pour les différents âges x   x 0 , x 0  n  est
x0 , x0  n.
Sur ces bases, on peut ainsi construire une bande de confiance au seuil  sur la
tranche d’âges  x 0 , x 0  n  , en constituant des intervalles de confiance
ponctuels pour chaque âge x   x 0 , x 0  n  au seuil :
puisque dans ce cas on a bien   1 1   
1/( n 1)

. Aussi, une approximation de
la bande de confiance permettant d’encadrer simultanément les taux de décès sur
tous les âges

115
x0 , x0  n  à partir de la méthode de Sidak est :

 q x (1  q x ) 
P  q x  q x  µ / 2 , x   x0 , x0  n    1  
 Rx 
avec   1  (1   )
1/( n 1)
. Les intervalles et bandes de confiance ci-dessus
permettent d’encadrer les taux de décès bruts au titre des fluctuations
d’échantillonnage, respectivement pour un âge donné ou sur une tranche d’âges. Les
bandes de confiance sont par construction plus larges que les intervalles de confiance.

5.5.2. Intervalles de confiance à distance finie


Ici on considère le cas où Nx n’est pas assez grand pour pouvoir utiliser le
théorème de la limite centrale, on s’appuie sur le fait que
P( Dx  k )  C  q  1  q k
Nx
k
x
k
x  pour calculer l’intervalle de confiance exacte à
distance finie. On cherche donc m tel que :
P  qˆ x  m   q x  qˆ x  m   1
En multipliant par x N les termes de l’inégalité dont on veut calculer la
probabilité on trouve que l’on doit avoir :
 N ( qˆ x  m a ) 1
 P  D x  k   P  qˆ x  m  q x  qˆ x  m   1  
k   N ( qˆ x  m a ) 

On peut imaginer une procédure itérative pour trouver m :


étape n°0
On calcule P ( Dx  k ) avec k  N x qˆ x que l’on compare à 1 , et si
P ( Dx  1)  1   , on passe à l’étape suivante.
étape n°j
On calcule P ( D x  k ) avec k  N x qˆ x que l’on compare à 1 .Si
Nqx  j
P ( Dx  k )  1   , on passe à 1   . Si  P  D x  k   1   , l’étape
k  N qˆ x  j

j + 1.
étape finale
j
Lorsque ce processus itératif s’arrête on pose m  
Nx

116
Chapitre 5
Méthodes de lissage et d’ajustement

1. Introduction
Lors de la construction d’une loi de survenance ou d’une loi de maintien, la
première étape consiste en l’estimation de taux bruts53 ; cette étape est incontournable,
que l’approche retenue soit une approche paramétrique ou une approche non
paramétrique. Les valeurs ainsi obtenues présentent une certaine irrégularité, dont il
est légitime de penser qu’elle ne reflète pas le phénomène sous-jacent que l’on cherche
à mesurer, mais qu’elle est le résultat de l’imperfection des conditions de l’expérience ;
les fluctuations d’échantillonnage induisent ainsi une variabilité « parasite » dans les
valeurs estimées. On souhaite alors « ajuster » ou « lisser » les valeurs brutes pour
représenter de manière plus fidèle la loi (inconnue) que l’on veut estimer. De manière
formelle, et en se plaçant dans le cas standard de l’estimation de taux d’incidence
(taux de mortalité, taux de sortie de l’incapacité, taux d’entrée en dépendance, etc.),
la procédure d’estimation initiale a conduit à une valeur qˆ x pour estimer qx , et donc
à une erreur e x  qˆ x  q x l’objectif de la révision de l’estimation que l’on va
conduire est de diminuer cette erreur, tout en construisant une courbe des taux en
fonction de x plus « lisse » que la courbe des taux bruts. On voit également que le
processus d’estimation des taux bruts considère en général les différents âges (ou
anciennetés) indépendamment les uns des autres, et ne tient donc pas compte des
relations qui existent manifestement entre eux : par exemple dans le cas de la
mortalité, et au moins à partir d’un certain âge, il semble naturel que la série théorique
des qˆ x soit croissante. La série des qx n’est en général pas croissante.

53
Ou l’estimation empirique d’une caractéristique de la distribution de survie : fonction de hasard
cumulée, fonction de survie, etc.

117
1.1. Régularité et précision
Le choix d’une procédure de révision des données brutes fait intervenir deux
types de contraintes qui devront être prises en considération de manière conjointe :
➢ la précision (ou fidélité) : il est naturel d’attendre des taux révisés qu’ils
soient proches des taux initiaux ; la régularité : la suite des taux ajustés sera
recherchée aussi régulière que possible. Comme lors de toute démarche statistique,
la pertinence de la procédure d’ajustement devra être validée par des tests.

1.2. Les différentes approches


Le processus de révision de l’estimation initiale peut être conduit de deux
manières :
– on peut se fixer une forme a priori pour la loi sous-jacente, en supposant par
exemple que la fonction de hasard est une fonction de Makeham ; il s’agit là d’une
démarche d’ajustement à une distribution définie par un certain paramètre  ; on
trouve dans cette classe de procédures les lissages par splines et les interpolations à
« jonction lisse »
– on peut ne pas chercher une représentation paramétrique, mais simplement
définir un certain nombre de traitement à appliquer aux données brutes initiales
pour les rendre plus « lisses » ; on trouve dans ces méthodes non paramétriques les
moyennes mobiles54, les lissages de type Whittaker-Henderson et leur extension
dans un cadre bayésien plus général.
D’un point de vue sémantique, on aura tendance par la suite à parler
d’« ajustement » dans le cadre paramétrique et de « lissage » dans le cadre non
paramétrique, quoi que cette terminologie ne soit pas fixée55. Les deux approches
sont développées ci-après.

1.3. Définitions et notations


Les méthodes de lissage font souvent appel à la série des différences terme à
terme de la série d’origine. On distingue en pratique trois opérateurs de
différentiation discrète :
• différence avant :  u ( x )  u ( x  1 )  u ( x )
• différence arrière :  u ( x )  u ( x )  u ( x  1 )
• différence centrale : ( x )  u  x  1   u  x  1 
   
 2   2 
Ces différent opérateurs peuvent être appliqués de manière récursive :

54
Qui sont d’une certaine manière les ancêtres des procédures de lissage.
55
Les anglo-saxons parlent de graduation.

118
  ; ainsi :  1  ;
  x   x  2 2 x  1 u  x 
2
u u  2u  u 
 2 
plus généralement,  u ( x ) s’écrit en fonction des coefficients binomiaux :
n

n
 n 
  
n  1
 n
u ( x )    1 u ( x  j )
j  0  j 
On obtient des expressions analogues avec

2. Les méthodes d’ajustement paramétrique


L’approche usuelle décrite dans le support « statistique des modèles
paramétriques » consiste à effectuer un ajustement à une loi paramétrique en
général continue ; elle ne sera donc pas redéveloppée ici.
Modèles de durée
On peut d’ailleurs noter que dans ce cas la méthode du maximum de
vraisemblance conduit directement des observations aux valeurs ajustées via
l’obtention des paramètres de la loi sous-jacente ; le raisonnement en deux étapes,
obtention de taux bruts, puis ajustement de ces valeurs, peut donc être simplifié.
Dans le cas de l’arrêt de travail, des méthodes initialement développées pour la
construction de tables de mortalité prospectives, comme la méthode de Lee-Carter,
peuvent être adaptées à l’ajustement de taux instantanés de sortie µ x t où x est
l’ancienneté de l’arrêt et t l’âge à l’entrée56.

2.1. Lissage par splines


2.1.1. Présentation
L’ajustement à une loi continue présenté en Erreur ! Source du renvoi
introuvable. Suppose implicitement que la courbe des taux d’incidence peut être
représentée sur toute la plage d’âges ou d’ancienneté considérée par une seule
fonction paramétrique. En pratique, du fait par exemple de ruptures dans
l’évolution des taux bruts, cette condition est assez restrictive. L’idée du lissage par
splines est de découper la plage de la fonction à ajuster en sous-intervalles, puis
d’ajuster sur chaque sous-intervalle une fonction simple, en prenant des
précautions pour le raccordement aux points de jonction. Un découpage bien choisi
doit en effet permettre d’utiliser sur chaque sous-intervalle une fonction
sensiblement plus simple que la fonction qu’il aurait fallu ajuster globalement. Les
polynômes sont des fonctions simples et peuvent à ce titre être utilisés pour
construire des lissages par spline ; en pratique, on considère à présent uniquement
des polynômes de degré 3 qui vont nous permettre de construire des splines

56
Voir le support de cours « tables de mortalité » pour la présentation de ces méthodes

119
cubiques. Le raccordement de ces arcs se fera en imposant aux points de jonction
la continuité ainsi que l’égalité des pentes et des courbures.

2.1.2. Spline cubique à deux arcs


Dans un premier temps, on suppose qu’un découpage en 2 parties de la plage
de variation des âges (ou anciennetés) est suffisant, et on pose donc :
 P ( x ) x  x  x
q x  
0 0 1 
 P 1 ( x ) x 1  x  x 2

Pi ( x ) étant un polynôme de degré 3, avec les contraintes au point de


jonction :
d d d2 d2
P0 ( x )  P1 ( x 1) P0 ( x 1 )  P1 ( x 1 ) P0 ( x 1 )  P1 ( x 1 )
dx dx dx 2 dx2
Cela conduit à poser P0 ( x )  c1  c 2 x  c3 x 2  c4 c 3 et
P1 ( x )  P0 ( x )  c5 ( x  x1 ) 3 . . Le problème comporte donc 5 inconnues (les 8
coefficients des polynômes moins les 3 contraintes de régularité). On utilise pour le
résoudre un critère de moindres carrés pondérés, sur la base de poids ( w x ) , , qui
conduit à rechercher les paramètres qui minimisent
x 2

M  
x  x
w x (q x  qˆ x ) 2
.
0

 On peut noter que dans cette approche il n’est pas nécessaire de disposer
de toutes les valeurs brutes qˆ x et que le spline pourra être interpolant pour les
valeurs manquantes. Si on note alors
x 1 la plus grande valeur de x inférieure ou égale à x 1 pour laquelle on
dispose d’une valeur de qˆ x , on décompose la somme intervenant dans le critère
M en deux sommes puis on écrit les équations normales en annulant les dérivées
M
par rapport aux paramètres :  0
ci
Après calculs, ces équations peuvent se mettre sous la forme :
X ' w X c  X ' w qˆ
la matrice X de taille ( m , 5) pour m valeurs de qˆ x disponibles sur  x 0 , x 2 
étant définie par :

120
1 x0 x 02 x 03 0 
 
 .. .. .. .. .. 
1 x1 x1 2
x1 3
0 
X   
 1   1   
3
1 x 11 x 1 2
x 1 3
x 1
1
 x 1

 
1 x2  2 
1  
2 3 3
 x 2 x 2 x  x
 Avec x 11 la valeur de l’indice postérieure à x1 pour laquelle qˆ x est
connue.

2.1.3. Splines cubiques : le cas général


Les expressions ci-dessus se généralisent aisément au cas de n nœuds
x1 ,..., xn , , avec une matrice de taille ( m , n  4 ) ; les coefficients sont obtenus par
l’estimateur des moindres carrés ordinaires :
X 
 1
c  " w X X ' w qˆ

2.1.4. Choix des paramètres


Le choix des paramètres se ramène ici au choix de l’emplacement des nœuds.
Comme la fonction d’ajustement est un polynôme de degré 3, on remarque que si
on ne dispose que de 4 valeurs de x qˆ dans l’intervalle  xi , xi 1  , les valeurs ajustées
seront égales aux valeurs brutes :
il convient donc de choisir des intervalles suffisamment larges ; en pratique les
changements de forme de la courbe brute pourront donner des indications sur
l’emplacement des nœuds.

2.1.5. Généralisation
La méthode de lissage par splines peut être présentée dans un cadre plus
général de régression non paramétrique, qui permet notamment d’introduire un
arbitrage fidélité / régularité au travers d’un critère analogue à celui de Whittaker-
Henderson (voir la section 3.3 ci-dessous).
Cette présentation ne sera pas développée ici, mais le lecteur intéressé pourra
consulter sur ce sujet BESSE et CARDOT [2001].

2.2. Interpolations à jonctions lisses


Si au lieu de calculer une estimation brute à chaque âge, on est amené à
regrouper les individus par groupe d’âges, on obtient ainsi des estimations brutes
par « paliers » (un palier correspond à un regroupement d’âges). Cette situation se

121
rencontre par exemple dans le cas de la construction de lois de maintien en arrêt de
travail, avec regroupement par âge pour l’âge à l’entrée.
On souhaite alors se ramener à des estimations pour chaque âge. La technique
des « interpolations à jonctions lisses » répond à cet objectif. On notera que
l’objectif n’est pas ici de lisser ou d’ajuster des valeurs irrégulières, mais de
compléter des valeurs manquantes. La technique de l’ajustement pas splines
cubiques permet également d’interpoler des valeurs manquantes, et elle devra être
utilisée de manière préférentielle à ces interpolations.

2.2.1. La formule d’interpolation d’Everett


On s’intéresse ici aux procédures d’interpolation symétriques, au sens où le
sens de l’interpolation ne modifie pas le résultat. Il est alors possible d’écrire la
formule d’interpolation sous la forme générale suivante :
q x  s  F ( s ) qˆ x  1  F (1  s ) qˆ x
 Pour 0  s  1 et F ( s ) un opérateur de différentiation de la
forme :
 F ( s)  P0 ( s)  P1 ( s) 2  P2 ( x) 4  ..
Avec  l’opérateur de différence centrale et les P i des polynômes. On peut
par exemple imaginer que l’on a des taux bruts quinquennaux, et on va utiliser cette
approche avec s  0 , 2; 0 , 4; .. F ( s ) pour obtenir les taux annuels par
interpolation. Si dans ‘expression de F ( s ) ci-dessus le dernier terme est en  2m

, alors q xs est déterminé à partir des 2 ( m  1) valeurs qˆ x  m ,..., qˆ x  m 1 . On


parle alors de « formule d’interpolation à 2 ( m  1) points ». Lorsque m  0 et
P0 (s) on obtient la formule d’interpolation linéaire classique. Enfin, on peut noter
que x s q  est un polynôme en s. On retrouve donc une interpolation de type
spline, comme en 2.1 ci-dessus.
On impose des conditions de régularité à la fonction d’interpolation ainsi
obtenue :
• la continuité implique que Pi (0)  0;
• l’égalité des dérivées aux points de jonction, qui implique l’égalité (formelle) ;
• l’égalité des dérivées secondes aux points de jonction, qui implique Pi " (0)  0 .

Les conditions ci-dessus n’imposent pas que la formule d’interpolation


redonne les valeurs d’origine aux points entiers, ie on peut avoir q x  qˆ x . . Pour
que l’on retrouve les valeurs d’origine aux points entiers, il faut de plus que
P0 (1)  1 et Pi (0)  0, i  1. On peut de même déterminer des conditions sur

122
les polynômes Pi pour que la formule soit exacte pour interpoler les polynômes de
degré Z fixé57.

2.2.2. Les formules à quatre points


En pratique les formules à 4 points, avec donc m  2 sont les plus utilisées. On
cherche donc à exprimer q xs en fonction de ; qˆ x  1 , qˆ x , qˆ x  1 , qˆ x  2 on
F ( s )  P0 ( s )  P1 ( s ) 2 a et il faut donc déterminer les polynômes P0 et P1 .
Les contraintes de continuité, de dérivabilité et d’invariance pour les polynômes de
degré un implique aisément que P0 ( s)  s, P1 (0)  0, P1 ' ( 0 )  0 et
1
P1 ' (1 )  ; on contrôle la régularité via l  P1 (1) . Au global, on a donc 4
2
contraintes et le polynôme de degré minimal qui les satisfait est de degré 3, avec
 1  2 1  3
l’expression suivante : P1 (s)   3 l   s    2l  s
 2  2 
Le cas particulier l  0 conduit à la formule de Karup-King, souvent utilisée en
1 2
pratique P1 ( s )  s ( s  1)
2

3. Les méthodes de lissage non paramétrique


3.1. Les moyennes mobiles
Les moyennes mobiles ont l’avantage de la simplicité de mise en œuvre ;
toutefois elles présentent un certain nombre d’inconvénients, liés pour l’essentiel à
la sensibilité de la moyenne arithmétique aux valeurs extrêmes, qui conduiront à ne
pas les utiliser souvent. A tout le moins, la moyenne mobile ne sera pas alors le seul
moyen de révision des taux bruts mis en œuvre.
Pour autant que l’on se restreigne aux moyennes mobiles symétriques, la
formule de base est ici :
 r
q x  
i r
a i qˆ x  i

Avec a  i  a i . La limitation majeure des moyennes mobiles est que leur


utilisation aux bords pose problème. Dans l’optique de diminuer une erreur
d’estimation dans le cadre de la mesure de taux théoriques qx on pourra se fixer des
contraintes consistant à exiger que si la série des qx présente la régularité d’un

57
On pourra se reporter à LONDON [1995].

123
polynôme, par exemple de degré 3, alors on souhaite que l’application de la
moyenne mobile ne modifie par les valeurs de qx ; en d’autres termes, on écrit
 r  r  r
q x  
i r
a i qˆ x  i ce qui conduit à : 
i r
a i  1 i2a
i r
i  0

Dans certains cas (arrêt de travail, avec les dimensions âge à l’entrée et
ancienneté de l’arrêt, ou mortalité prospective avec les dimensions âge et année), la
double dimension des tables amène à rechercher la méthode de lissage la mieux
adaptée dans chacune des dimensions.
L’idée est que, si on choisit de lisser dans un sens puis ensuite dans l’autre, on
risque de détériorer le premier lissage. On cherche donc à lisser la série dans les
deux sens en une seule fois. La méthode des moyennes mobiles est bien adaptée
pour cela. Elle est par exemple utilisée pour lisser les provisions calculées à partir
des tables réglementaires brutes. Dans ce cas le BCAC utilise :
1 1
q (i, j ) 
2
qˆ ( i , j ) 
16
k ,l
qˆ ( k , l ) , la sommation étant étendu aux 8

points entourant ( i , j ) . Cette démarche peut se généraliser à n’importe qu’elle


moyenne mobile, comme en Erreur ! Source du renvoi introuvable ; cependant, ce
procédé est mal adapté au traitement des bords du tableau, et conduit en pratique
à laisser subsister des irrégularités à ce niveau.

3.2. Les méthodes de noyau


Lorsqu’on estime la fonction de survie par une méthode non-paramétrique, la
fonction obtenue n’est pas dérivable, et il n’est donc pas possible de recalculer
simplement la fonction de hasard. Lorsqu’on souhaite régulariser la fonction de
1 n
répartition empirique Fn ( x)  1 X t  x , une méthode classique consiste à
n i 1
choisir une fonction K régulière, positive et d’intégrale unité, appelé noyau, puis à
poser :

1 n  Xi  x 
fˆh , n ( x )  K
nh i 1  h 

Lorsque h  0 et nh    , fˆh , n ( x ) converge vers f ( x ) et on a :

 
nh fˆh,n ( x)  f ( x)  N (0, f ( x)  K (u )2 du ).
Parmi les noyaux souvent utilisés on peut citer le noyau gaussien
1  x2  3
K (u ) exp    et le noyau d’Epanechnikov K (u )  1  u 2 1 u 1 . La
2  2  4

124
principale difficulté pratique consiste à déterminer la « bande passante » h optimale.
Dans le contexte d’un modèle de durée censuré, l’application directe de ces
formules introduit un biais du fait de la censure (droite). MARRON et PADGETT
[1987] ont proposé d’utiliser l’estimateur :
 fˆh , n ( t )  1  d i K  T i  t 
n

h i  1 ri  h 
1
dans lequel le saut uniforme du cas non censuré est remplacé par le saut de
n
l’estimateur de Kaplan-Meier lors d’une sortie non censurée. Pour une présentation
complète de ces méthodes, le lecteur pourra se reporter à WAND et JONES [1995].

3.3. Méthode de Whittaker-Henderson


Le principe de la méthode de Whittaker-Henderson est de combiner un critère
de fidélité et un critère de régularité et de rechercher les valeurs ajustées qui
minimisent la somme des deux critères.

3.3.1. Cas de la dimension un

On se fixe des poids (wi ) et on pose pour le critère de fidélité58 :


P
F  
i1
w i q i  qˆ i 
et pour le critère de régularité59 :
P  z 2

S    z
q i 
i  1
z étant un paramètre du modèle. Le critère à minimiser est une combinaison
linéaire de la fidélité et de la régularité, le poids de chacun des deux termes étant
contrôlé par un second paramètre h : M  F  h  S
La solution de ce problème d’optimisation satisfait aux conditions
M
 0,1  i  p; ; la résolution de ce système d’équations peut être effectuée
qi
au moyen de quelques manipulations matricielles. A cet effet, on pose
q  ( q i ) 1  i  p , et qˆ   qˆ i 1  i  p ; et w  diag ( wi )1i  p avec ces

notations on peut écrire F  (q  qˆ ) w(q  qˆ ) ; pour ce qui concerne le critère de


'

58
« fit » en anglais
59
« smoothness » en anglais.

125
régularité, si on note  q  (  z qi )1i  p  z , S  (  z q )  z q alors. Pour
z '

détailler cette écriture, on introduit la matrice de taille ( p  z, p) , dont les termes


sont les coefficients binomiaux d’ordre z dont le signe alterne et commence
positivement pour z pair60. Par exemple pour z  2 et p  5 on a
1 1 1 0 0 
K 2   0 1  2 1 0 
 0 0 1  2 1 
 1 1 0 
Si p  3 et z  1, on obtient K 2    . On vérifie aisément que
 0 1 1
zq  Kz  Kzq
, ce qui permet finalement d’écrire le critère M sous la forme :
En développant l’expression ci-dessus on trouve que :

M  q 'w q  2 q ' w qˆ  qˆ ' w qˆ  h q 'K z K z q


M
ce qui conduit à :  2 w q  2 w qˆ  2 h K '
z K z q . La
q
résolution de  M  0 conduit alors à l’expression des taux ajustés :
q

q  (w  hK K z )1 wqˆ
* '
z

L’inversion de la matrice C  w  hK z' K s nécessite toutefois certaines


précautions, car hK z' K s n’est pas inversible, et l’addition du terme w rend C
inversible, mais de ce fait l’inversion de C peut être délicate. On peut en pratique
utiliser la décomposition de Cholesky de la matrice symétrique positive C pour
l’inverser.

3.3.2. Extension en dimension deux


L’extension de la méthode de Whittaker-Henderson en dimension 2 (ou plus)
ne pose pas de problème majeur. On dispose donc d’estimations
qˆ   qˆ 
ij 1 i  p , j  q
; le critère de fidélité se généralise immédiatement :
P q

  q 
2
F  w ij ij  qˆ i j . L’extension en dimension 2 du critère de
i 1 j 1

60
Voir la section 1.3

126
régularité est un peu plus délicate ; on distingue d’abord la régularité verticale via
l’opérateur  vz qij (qui agit sur q i j à j fixé vu comme une série indicée par i) qui
P q 2

permet de calculer un indice de régularité verticale : S v     vz q i j  .


i1 j 1

De la même manière on calcule l’indice de régularité horizontale S h , puis on pose :


M  F    X v    S h qui doit être minimisé. La résolution du
problème d’optimisation s’effectue en réarrangeant les éléments pour se ramener
au cas unidimensionnel. Pour cela on définit le vecteur de taille p  q , u tel que :
u q ( i  1)  j  qˆ ij cela revient à prendre pour les q premiers éléments du vecteur u
la première ligne de la matrice q̂ , puis ensuite les éléments de la seconde ligne, et
ainsi de suite. De même on fabrique une matrice de poids en copiant sur la
 
*
diagonale les lignes de la matrice w ij . On pose donc w * q ( i 1)  j , q ( i 1)  j  wij
On procède de la même manière pour définir les matrices K zv et K yh . Les valeurs

 
1
lissées s’obtiennent alors par q  w   K z ' K z   K y ' K y
* * v v h h
w*u.
Un exemple
Voici un cas concret simple qui illustre cette méthode. Les taux bruts forment
une matrice P  q avec P  4 et q  3 . On choisit z  2 (resp. y  1)
v
comme degré de régularité verticale (resp. horizontale), on aura K de dimensionsz,

( q ( p  z ), m )  (6,12) et K yh , , de dimensions ( q ( p  z ), m )  (8,12) . La


construction en dimension un a déjà été faite précédemment. La ventilation de la
matrice verticale donne :
Modèles de durée
1 0 0 2 0 0 1 0 0 0 0 0
0 0 0 1 0 0 2 0 0 0 1 0

0 1 0 0 2 0 0  0 0 0 0
Kh2   
0 0 0 0 1 0 0 2 0 0 0 1
0 0 1 0 0 2 0 0 1 0 0 0
 
0 0 0 0 0 1 0 0 2 0 0 1
La ventilation de la matrice horizontale conduit à :

127
1 1 0 0 0 0 0 0 0 0 0 0
0 1 1 0 0 0 0 0 0 0 0 0 

0 0 0 1 1 0 0 0 0 0 0 0
Kh2   
0 0 0 0 1 1 0 0 0 0 1 0
0 0 0 0 0 0 1 1 0 0 0 0 
 
0 0 0 0 0 0 0 0 0 0 1 1
La méthode de Whitaker-Henderson en dimension 2 peut notamment être
appliquée sur des données de maintien en arrêt de travail, qui sont usuellement
estimées en fonction de l’âge à l’entrée et de l’ancienneté de l’arrêt. Cette méthode
permet un lissage conjoint dans les deux directions, plus efficace que le lissage
séparé selon chaque variable. Elle est illustrée ci-dessous sur des données de ce type :
Taux bruts Taux lissés

3.3.3. La méthode de Whittaker-Henderson comme lissage bayésien61


 z 2
p
La mesure de régularité S ( q )   
i 1
z
q i  peut être utilisée pour

définir une loi a priori pour le vecteur q  (qx ) ; en effet, on est naturellement
conduit à supposer que de petites valeurs de S sont associées à des valeurs « plus
probables » de q, ce qui amène à poser comme densité a priori :
fq (q )  c exp(  S )
avec c une constante de normalisation62 et  un paramètre. Si on fait de plus
l’hypothèse que l’erreur d’estimation ex  exp  qˆx  qx est distribuée selon une loi

61
Voir notamment TAYLOR [1992].
62
La notation c désigne dans la suite un terme constant qui peut changer en fonction de la formule
considérée.

128
normale centrée de variance  x2 , et que les différents âges (ou anciennetés) sont
 1 P  qˆ i  q i  2 
indépendants, on trouve que : f qˆ / q ( qˆ q )  c e x p  1  
 2 i 1  x2 
 
On se trouve alors dans les conditions d’application du théorème de Bayes pour
écrire la densité de q  (qx ) conditionnellement aux observations qˆ  (qˆx )
  q i  qˆ i  
2
P
1
f q / qˆ  q / qˆ   c exp    S 
2
  x2


 i 1

Maximiser cette expression en q est équivalent à minimiser
q i 
2
1 P
 qˆ i
M   S 
2
i1  2
;
x
on reconnaît le critère de Whittaker-Henderson ; le lissage de Whittaker-
Henderson a donc une interprétation probabiliste dans le cadre des lissages
bayésiens, décrits de manière plus générale ci-après.

3.4. Les lissages bayésiens


On a vu que la méthode de Whittaker-Henderson pouvait être justifiée par un
raisonnement probabiliste en faisant une hypothèse sur la loi a priori des vraies
valeurs et sur la forme de la loi conditionnelle des erreurs. Cette démarche se
généralise et conduit à la définition des lissages bayésiens, dont le plus connu est la
méthode de Kimeldorf-Jones.

3.4.1. Présentation générale

On considère donc q  (qx ) le vecteur des vraies valeurs que l’on suppose issu
d’une loi a priori fq (.) . Dans le cadre de l’expérience de mesure, on réalise des
observations issues de la loi conditionnelle sachant q, f qˆ/ q (.) . Cette loi est dans le
cas de l’estimation de taux de mortalité un produit de lois binomiales de
paramètres63 (nx , qx ); ; d’une manière générale cette loi est déterminée par le
contexte de l’expérience64.
A partir de ces deux distributions, on utilise la formule de Bayes pour
déterminer la distribution a posteriori de q :

63
Que l’on pourra approcher par une loi normale multidimensionnelle lorsque le nombre
d’observations est important.
64
C’est-à-dire de la procédure d’estimation des taux bruts.

129
f q / qˆ  qˆ / q 
f q / qˆ q / qˆ  fq (q )
f qˆ ( qˆ )
Enfin, à partir de cette distribution a posteriori on peut définir une version
révisée de l’estimateur
q̂ , par exemple par la méthode du « maximum de vraisemblance » en retenant
le mode de la densité a posteriori comme valeur ajustée. La difficulté de cette
approche est de définir les caractéristiques de la loi a priori. La méthode de
Kimeldorf-Jones, présentée ci-dessous, fournit un cadre de mise en œuvre de
l’approche bayésienne relativement général et bien adapté au contexte des lois
d’incidence (ou de maintien), dans lequel certaines indications utiles pour définir
les caractéristiques de la loi a priori sont fournies.

3.4.2. La méthode de Kimeldorf-Jones65


On se place dans le contexte de l’estimation de taux d’incidence. On fait
l’hypothèse que f q ( .) est une loi normale multidimensionnelle de paramètres
m ,   ; on a donc :
 1/ 2
 1 
f q ( q )    2  
p
exp   ( q  m ) '   1 ( q  m ) 
   2 
Avec q  q1 , ..., q p ) les p taux d’incidence à estimer. A ce stade de la
démarche, on suppose donné, et connu, ( m ,  ) . Dans ce contexte, et comme on
l’a vu en 3.4.1 ci-dessus, la loi de l’expérience est un produit de lois binomiales, qui
peuvent chacune être approchées par une loi normale, et on peut donc écrire :

ˆ q)   2  V 
p 1/2
 1 
fqˆ/ q (q/ exp   (q  m)'V 1 (qˆ  q) 
   2 
car les estimateurs bruts initiaux sont sans biais ; la matrice V est ici diagonale,
avec les éléments ni qi (1qi ) . La densité a posteriori est donc de la forme :
 1 
f q / qˆ (q/ qˆ )  C exp    ( q  m ) '  1 ( q  m )  ( qˆ  q ) 'V  1( qˆ  q )  
 2 
C étant une constante ; après quelques manipulations on peut mettre cette
expression sous la forme :
 1 1 
f q / qˆ ( q / qˆ )  C 'exp     ( q  z ) ' W 1 ( q  z )  
 2 2 
Avec z  (   V ) V qˆ   m  et W
1 1 1 1 1 1 1 1
  V V . Cela

65
Voir KIMELDORF et JONES [1967].

130
montre que cette loi est également normale. On en déduit l’expression naturelle des
taux ajustés66 :
q *  (  1  V 1 ) 1 (V 1  qˆ   1m )
Cette expression signifie que les taux ajustés sont une moyenne pondérée entre
les taux bruts et les taux a priori. Cette expression peut être écrite de la manière
suivante, utile pour les calculs :
q *  qˆ ( I p  V  1 )  1 ( m  qˆ )
Remarque : en toute rigueur les éléments de la matrice diagonale V sont les
n i q i (1  q i ) qui sont inconnus ; on peut dans la formule ci-dessus les remplacer
par l’estimateur n i qˆ i (1  q i ) , soit par les estimations a priori ni m i (1  m i )
Au-delà de l’obtention d’une version lissée des taux bruts, cette approche offre
au surplus l’intérêt de fournir un cadre simple de modèle stochastique de mortalité,
en fournissant une loi (normale) pour les taux de sortie du modèle.
Il reste toutefois à expliciter les paramètres de lissage ( m ,  ) ; les valeurs de
m sont l’idée que l’on peut se faire des taux d’incidence sans observations ; on peut
par exemple utiliser une référence comme les tables du BCAC en arrêt de travail,
une table de mortalité INSEE pour des taux de décès, etc. La situation est plus
délicate pour la matrice de variances-covariances  .
L’idée est de décrire une dépendance en fonction de l’écart d’âge ou
d’ancienneté décroissante entre les taux ; cela conduit à proposer la forme suivante
pour les coefficients de la matrice 
i j
 ij   i j p
Avec  i
2
et ( q i ) le coefficient de corrélation de 2 termes consécutifs. Il reste
à fixer des valeurs numériques pour ces p  1 éléments.

4. Validation de l’ajustement
Une fois l’ajustement terminé, il convient de vérifier sa validité par quelques
tests statistiques classiques, qui permettront notamment de s’assurer que les taux
révisés ne sont pas trop éloignés des taux bruts. Toutefois, dans certaines situations
(construction d’une table demortalité d’expérience par exemple), l’application de
règles de prudence peut conduire à des valeurs des taux ajustés délibérément
différentes des taux bruts (plus élevées par exemple pour un contrat en cas de
décès), et les tests statistiques devront alors être adaptés à cette situation.
Concrètement, il faudra abandonner les tests bilatéraux au profit de tests
unilatéraux mieux adaptés à la situation.

66
L’espérance d’une loi normale étant également son mode.

131
L’objectif de cette section n’est pas de décrire de manière exhaustive les tests à
conduire, mais plutôt de donner quelques pistes et illustrations pour conduire cette
démarche de validation.

4.1. Test du Khi-deux


Une fois l’ajustement (ou le lissage) effectué, le test du Khi-2 permet de vérifier
la qualité globale des taux révisés en s’assurant qu’ils ne sont pas « trop loin » des
taux estimés. On calcule la statistique :
 qˆ i
 qi 
2
P
Z  
i 1
ni
q i (1  q i )
Dans le cas d’un ajustement paramétrique par maximum de vraisemblance
avec r paramètres, alors la distribution (asymptotique) de Z est un
 2 ( p  r  1) ; dans le cas d’un lissage non paramétrique le nombre de degrés
de libertés est moins facile à déterminer.

4.2. Standardized mortality ratio (SMR)


Le SMR est défini comme le rapport du nombre de décès observé au nombre
de décès prédits dans une population de référence, avec l’objectif de décider si la
mortalité du groupe observé est identique à celle du groupe de référence ; on a ainsi :
P

D  D i
S M R   i 1
P
E

i 1
n iq i

Dans cette expression, E est une constante et D une variable aléatoire binomiale
que l’on peut approcher par une loi de Poisson, ce qui conduit à l’intervalle de
confiance suivant pour la variable SMR, dans le cas où la mortalité de référence ne
dépend pas du groupe étudié :
 u
1 
  u
1 

D 1   D 1 1  
 1  2
  SMR   1  2

E 9  ( D  1) 3 D  1  E  9  ( D  1) 3 D  1 
   
Dans le cas d’une mortalité de référence dépendant des données (à la suite donc
d’un ajustement), comme pour le Khi-2, la formule ci-dessus doit être adaptée en
fonction du contexte.

4.3. Test des changements de signe

Le signe de la différence d x  q x  qˆ x a, dans les conditions d’application

132
de l’approximation normale, une probabilité ½ d’être positif. Si les âges sont
indépendants, la probabilité que d x n’aient pas le même signe est donc aussi égale
à ½. Si la plage d’âge considérée contient p valeurs, alors on en déduit que le nombre
de changement de signe dans la série des d x 1 est distribué suivant une loi
 0 n  ( p  1) 
binomiale de paramètres  p  1, .
 P 1 
En particulier, le nombre moyen de changements de signe est d x . On en déduit
aisément un test, ou bien à distance fini67 ou bien en faisant l’approximation
gaussienne, en s’appuyant sur la statistique
2 n  ( p  1)
S 
P  1
où n est le nombre de changements de signe constaté.

67
Voir l’algorithme de construction d’intervalles de confiance pour une loi binomiale.

133
134
Partie II

Risques assuranciels et modèles actuariels

135
136
Chapitre 1
Risque et assurance

Dans ce chapitre, nous allons présenter quelques modèles utilises par les
assureurs afin de quantifier les risques pris. Nous insisterons sur deux risques
(parmi beaucoup d’autres). Le premier sera la modalisation des provisions pour
sinistres à payer, et plus particulièrement, la présentation de méthodes permettant
de quantir la marge d’erreur associe à ce calcul de provisions. Le second sera le
risque démographique présent dans les contrats d’assurance en cas de décès, ou
surtout en cas de vie.

1.1 Prise en compte de la dynamique en assurance


1.1.1 La problmatique du provisionnment en assurance
Comme le dénit (26), « les provisions techniques sont les provisions destinées
à permettre le rglement intgral des engagements pris envers les assurs et beneciaires
de contrats. Elles sont lies à la technique même de l’assurance, et imposees par la
reglementation ». D’un point de vue plus formel, à la date t, la compagnie
d’assurance est tenue de constituer une provision pour les sinistres survenus avant
la date t qu’elle sera tenu d’indemniser. Elle doit donc estimer le coût des sinistres
survenus, et retrancher les montants deja verses. Il s’agit donc fondamentalement
d’un probléme de prévision. En eet, contrairement a l’hypothese faite dans la
plupart des modeles actuariels, les couts de sinistres ne sont pas connus le jour de
la survenance du sinistre. Il y a tout d’abord un délai avant que le sinistre ne soit
declare a la compagnie d’assurance par l’assuré, puis un temps (plus ou moins long)
de gestion du sinistre, d’expertises, de paiements, avant de le clôturer plusieurs
mois, ou plusieurs années plus tard. La Figure 1.1 illustre la problématique du
provisionnement, avec un diagramme de Lexis de la vie des sinistres.

137
Figure 1.1– -Evolution de la vie des sinistres, sur un diagramme de Lexis, avec
en abscisse le temps calendaire, et en ordonnée l’âge des sinistres. Les sinistres
surviennent à la date •, sont declarres à l’assureur à la date + et clôoturés à la date
x. L’exercice de provisionnement consiste à estimer à une date donnée (ici fin 2010,
correspondant au trait plein vertica), le montant des paiements restant à faire pour
l’ensemble des sinistres survenus (déclarés ou pas). En pratique, le jour de la
déclaration du sinistre à l’assureur (  ) , le gestion de sinistre est tenu d’estimer un
montant pour le sinistre (à l’aide de facture à sa disposition, ou de ûts moyens de
sinistres similaires). Le montant reel du sinistre ne sera connu que le jour de la
clôture ( ) Entre ces deux dates, le gestionnaire de sinistre peut reviser ses
estimations de coûts, mais aussi eectuer des paiements. Toutefois, au lieu de
travailler sur des donnees individuelles, les donnees sont ici aggregees par annees
(comme indiquee sur la Figure 1.1) : on s’interesse à l’annee de survenance du
sinistre (notee i) et l’annee du paiement (par rapport à l’annee de la survenance,
notee j). Parmi les methodes reconnues par les autorites de contrôles, les plus
classiques sont basees sur les cadences de paiements. On raisonne pour cela par
annee de survenance de sinistre, et on suppose une certaine regularite dans la
cadence de paiement.
Le déroulement depend fortement du type de risque considere. Ainsi, le
tableau suivant donne une idee des cadences de réglement pour dierentes.

138
MODELES STATISTIQUES DU RISQUE EN ASSURANCE
Table 1.1 { Cadences de paiements, pour quelques branches d’activit_e (source
(9)). branches :
Réglements en n n 1 n 2 n 3 n 4
Multirisque habitation 55 % 90 % 94 % 95 % 96 %
Automobile 55 % 79 % 84 % 99 % 90 %
dont corpore l 13 % 38 % 50 % 65 % 72 %
Responsabilite civile 10 % 25 % 35 % 40 45 %

On constate donc que pour les branches RC, automobile (partie corporelle) et
générale, moins de 15 % des sinistres sont regles apres 1 an et il faut attendre 2 à 5
ans pour que la moitie des sinistres soient regles. Pendant tout ce temps, le bilan
doit reeter le coût probable de ces sinistres.

1.1.2 Quelques denitions et notations, aspects reglementaires et comptables


La plupart des methodes presentees ici sont detaillees dans (9), ou (28).
Classiquement, on notera i (en ligne) l’annee de survenance, i  1 , . . . , n ,
 j (en colonne) l’annee de developpement, j  0, ..., n  1,
Y i , j les incréments de paiments, pour l’annee de developpement j , pour les
sinistres survenus l’annee i, tableau 1.3
Ci , j les paiments cumules, au sens ou C i , j  Yi ,0  Yi ,1  ...  Yi , j , , pour
l’annee de survenance j, tableau 1.3
Pi i , la prime acquise pour l’annee i, tableau 1.4
Ni, j le nombre cumule de sinistres pour l’annee de survenance i vu au bout de
j annees, tableau 1.5

Table 1.2 – Triangle des incréments de paiements, Y= Y i , j .

0 1 2 3 4 5
1 3209 1163 39 17 7 21
2 3367 1292 37 24 10
3 3871 1474 53 22
4 4239 1678 103
5 4929 1865
6 5217

139
Table 1.3 -Triangle des paiements cumules, C = C i , j

0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730
3 3871 5345 5398 5420
4 4239 5917 6020
5 4929 6794
6 5217

Table 1.4 – Vecteur des primes acquises, P = (Pi).


Year i 1 2 3 4 5 6
Pi 4591 4672 4863 5175 5673 6431

1.1.3 Formalisation du probléme du provisionnement.


Le provisionnement est un probleme de prediction, conditionelle à
l’information dont on dispose à la date n. . On notera H n l’information disponible
à la date n, soit formellement
H n  (Yi , j ), i  j  n  (C i , j ), i  j  n
On cherche à étudier, par année de survenance, la loi conditionnelle de C i ,

sachant Hn , ou plutôt, si l’on suppose les sinistres clos au bout de n années la loi
de C i , n  1 (voire Ci ,n si l’on souhaite se laisser la possibilte d’incorporer un tail
factor) sachant Hn . Si l’on se focalise sur une annee de survenance particuli_ere,
osn pourra noter
Fi ,n i  (Yi , j ), j  0,..., n  i )  (Ci , j ); k  0,..., n  i )
Cette notation permet de prendre en compte que l’information disponible
change d’une ligne à l’autre (cf Figure 1.2).

Figure 1.2 – Les informations disponibles pour faire de la prédiction.

140
Table 1.5 -Triangle des nombres de sinistres, cumules, en milliers, N = (Ni ; j).
0 1 2 3 4 5
1 1043.4 1045.5 1047.5 1047.7 1047.7 1047.7
2 1043.0 1027.1 1028.7 1028.9 1028.7
3 965.1 967.9 967.8 970.1
4 977.0 984.7 986.8
5 1099.0 1118.5
6 1076.3

On cherchera par la suite à predire le montant des sinistres à payer pour l’annee
i , i.e.
Cˆ i(, nn  i )  e  C i , n F i , n  i 
et la dierence entre ce montant et le montant deja paye constituera la provision
pour sinistres à payer,
Rˆ  Cˆ ( n  i )  C
i i ,n i ,n  i

On essayera ensuite de quantier l’incertitude associee à cette prediction.


Comme on le verra les methodes usuelles visaient à calculer
m se  C i , n  i Fi , n  i  o u m se  Cˆ i(,nn  i ) 
ce que l’on appelera incertitude à horizon ultime. Mais ce n’est pas ce que
propose Solvabilite II, demandant plut^ot de mesurer une incertitude dite à un an.
Pour cela, on va s’interesser à la prediction qui sera faite dans un an,
Cˆ i(,nn  i  1 )  E  C i , n  i F i , n  i  1 
et plus particulierement le changement dans l’estimation de la charge ultime
 n  Cˆ ( n  i  1 )  Cˆ ( n  i  1 )
i i,n i ,n

Si cette dierence est positive, on parle de mali (il faudra goner la provision a_n
de pouvoir payer les sinistres), et si elle est negative, on parle de boni. On peut
montrer que
E   n
i F i , n  i   0
autrement dit, on ne peut esp_erer faire ni boni, ni mali, en moyenne. Les
contraintes reglementaires imposeees par Solvabilite II demandent de calculer
m s e   n
i F i , n  i  .
La Figure 1.3 montre les estimations de montant de provisions deux annees
consécutives.

141
Figure 1.3 – Estimation de la charge ultime Cˆ i , n deux annees consécutives ( n  1 et n ), avec en
gris le montant total de paiements deja eectues, C i,n  i et en noir le montant de provisions Rˆi .

1.1.4 Lecture transversale et longitudiligne des tables de mortalite


Classiquement en demographie et en assurance-vie, la probabilite qu’une
personne en vie à l’âge x soit en vie à l’âge x  h est calcule par
L  h
P (T  x  h T  x ) 
L
Où L j designe le nombre de survivants d’âge j, dans une table de mortalité.
Formellement, il faudrait toutefois prendre en compte la date à laquelle le calcul de
la probabilite se fait. Si on se place l’annee t, la probabilite precedante devrait s’ecrire
Pt (T  x  h T  x)  Pt (T  x  h T  x).Pt 1 (T  x  2 T  x  1)...
...Pt  h 1 (T  x  h T  x  h  1)
soit, si L t , j désigne le nombre de survivants âage j , observés l’année t,
Lt ,   1 Lt  1,   2 L
: Pt (T  x  h T  x )  . ... t ,  h 1   h
Lt ,  Lt 1,  1 Lt  h 1,   h 1
Il convient alors de pouvoir extrapoler ces données, car les L t , i pour des dates
futures sont aujourd’hui inconnnus. Et pourtant, ils interviennent dans les calculs
des pensions, des retraites, des assurances en cas de décés, etc, comme le montre la
Figure 1.4, correspondant au diagramme de Lexis Un des modéles les plus utilisés
pour modeliser la mortalite d’un point de vue dynamique est celui introduit par
(17), appelé communement modele de Lee & Carter. On suppose pour cela que le
taux de deces, a la date t pour une personne d’âge x dépend de trois facteurs,
µ  , t  e x p      . K t  ,
où       désigne l’evolution moyenne de la mortalite en fonction de
142
l’âge, et où k  ( k t ) permet de modéliser l’évolution de la mortalité dans le temps
(traduisant une globale amelioration des conditions de vie). Toutefois, en
multipliant par   (  x ) on peut prendre en compte le fait que les gains ne sont
pas identiques pour tous les âges.
En fait, la modelisation des durées de vie n’est pas tres eloignee de la modelisation
de la dynamique de la gestion des sinistres. Pour garder les mêmes notations, soit
L i , j le nombre de survivants d’âge j qui sont nes l’annee i. L i , j pourrait être vu
comme l’analogue de Ci , j , même si C etait croissant (en j) alors qu’ici L sera
decroissant en j. Dans le premier cas, on parlait de cadence de paiement, ici on parlera
de loi de survie. L’analogue de Y i , j , les increments de paiements, seront ici D i , j ,
le nombre de deces âge a l’âge j pour les personnes nées l’année i.

1.1.5 Plan du chapitre


La section 1.2 posera les bases de la m_ethode la plus populaire, a savoir la
methode dite Chain Ladder. L’idee est que l’on passe d’une annee de
développement a une autre un multipliant par une constante (reétant la cadence de
paiements), soit formellement C i , j  1   j .C i , j . Cette approche a ete formalisée
d’un point de vue stochastique par (19). On supposera alors que
E ( C i , j  1 Fi , j )   j .C i , j , soit Cˆ i , j  1  ˆ .C i , j . En rajoutant quelques
hypoth eses, il sera possible de calculer E ( C i , j  1 H n ) , , ainsi que mse
E ( C i , j  1 H n ), (21)
ont poursuivit les calculs sous ces hypotheses an d’etudier non plus
l’incertitude a ultime (comme le faisait Mack), mais l’incertitude a un an. Ils ont
ainsiobtenu une formule fermee pour un estimateur de mse   i F i , n  i  La
n

section
1.4 presentera une alternative a la modélisation proposee par (19) ou (21),
basée sur des approches par facteurs, utilisees dans les annees 70, et remise au go^ut
du jour à l’aide des modeles GLM. En particulier, dans la régression log-Poisson,
on supposera que Yi , j P ( Ai . B j ), c’est a dire que le montant de paiements
eectuee l’annee i  j pour les sinistres survenus l’annee i suivent une loi de
Poisson, avec un impact multiplicatif des facteurs Yˆi , j  Aˆ i . Bˆ j . Nous verrons
comment les methodes de simulation permettent d’estimer mse C i , n H  n  . En
fin, la section 1.5 se penchera sur la modelisation dynamique de la mortalite. En
particulier, nous insisterons sur les parralléles naturels qui existent entre les

143
modeles log-Poisson basés sur l’approche de Lee & Carter, et la regression.
log-Poisson appliquee a la problematique du calcul des provisions pour
sinistres à payer.

1.2 Les cadences de paiements et la methode Chain Ladder


L’utilisation des cadences de paiements pour estimer la charge future date des
annees 30. On suppose qu’il existe une relation de recurrence de la forme
C i , j  1   j . C i , j pour tout i , j  1 , . . . , n .
Un estimateur naturel pour  j , basé sur l’expérience passée est alors


n j
C
ˆ j  i 1 i, j1
pour tout j  1, . . ., n  1 .

n j
i1
C i, j

Il s’agit tout simplement du ratio moyen entre les annees de developpement j


et j  1 . De telle sorte que l’on peut alors predire la charge pour la partie
nonobservee dans le triangle,
Cˆ i , j   ˆn  i ....ˆ j  1  C i , j  1  i .

1.2.1 Des reecritudes du modéle


Notons qu’au lieu de calculer les facteurs de developpement, on peut aussi des
taux de developpement, cumules ou non. Autrement dit, au lieu d’ecrire
C i , j 1   j C i , j pour tout i , j  1, ..., n , on suppose que
C i, j   jC i,n ou Y i , j   j C i,n

On notera que
n
1  1 si j 1
  et   
  
j j
k  j1 k j j 1 si j 1
Ces valeurs ont ete calculees dans le Tableau 1.6. En n, un peu de reecriture
montre qu’il est possible de voir l’estimateur Chain-Ladder comme une moyenne
ponderee des facteurs de transition individuels, i.e.
n j
Ci, j C i , j 1
ˆ j   i , j où i, j  et i , j 

i, j n j
i 1 Ci, j Ci, j
i 1

144
Table 1.6 – Facteurs de développement, ˆ   ˆ  exprim_es en cadence de
i

paiements par rapport a la charge utlime, en cumule ( i .e .ˆ ) puis en

increments ( i .e .ˆ )

0 1 2 3 4 5
j 1,38093 1,01143 1,00434 1,00186 1,00474 1,0000

j 70,819 % 97,796 % 98,914 % 99,344 % 99,529 % 100,000 %

j 70,819 % 26,977 % 1,118 % 0,430 % 0,185 % 0,000 %

Aussi, on peut obtenir ces coecients a l’aide de regressions lineaires ponderees


sans constantes, en régressant les C . , j  1 sur les C . , j ,

 n j  C 
2

 
ˆ j  arg min   C i , j    i , j1   ,
 
 i 1  C i , j  

ou encore
 n  j 1 2
 j  arg min 
ˆ   Ci , j  Ci , j1   ,
  i 1 Ci , j 
 
A partir du calcul des facteurs de transition ˆ  ˆi on complete alors le
triangle, en remontant d’annee de survenance en annee de survenance, en
commencant par j  1, puis j  2 , etc (d’echelon en echelon, d’ou le nom de
cette methode). Le triangle complete est presente dans le Tableau 1.2.1.

Table 1.7 – Triangle des paiements cumules, C  ( C i , j ) i  j  n avec leur


projection future Cˆ  Cˆ i , j ) i  j  n .

0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730 4752.4
3 3871 5345 5398 5420 5430.1 5455.8
4 4239 5917 6020 6046.15 6057.4 6086.1
5 4929 6794 6871.7 6901.5 6914.3 6947.1
6 5217 7204.3 7286.7 7318.3 7331.9 7366.7

1.2.2 Une approche par sommes marginales


Au dela de l’approche Markovienne du probleme de provisionnement que l’on
vient de voir (et qui sera reprise dans la section 1.3), il existe une caract erisation

145
particuliement interessante, que l’on retrouvera dans la section 1.4.
En fait, si l’on cherche des vecteurs A  ( A 0 , ..., A n ) et
B  ( B 0 , ..., B n ),
avec B 0  ...  B n  1, , tels que
n j n j n j n j

i1
Ai B i  
i1
Y i , j pour tout j et i1
A i B i   Y i , j pour tout
i1
i,
(on ne somme que sur la partie observee du triangle) les montants predits dans
la partie inferieure du triangles, i.e. ( A i B i ) i  j  n , , concident avec les quantites
prédites par la methode Chain Ladder ((24)).
Proposition 1.1 S’il existe A  ( A 0 , ..., A n ) et B  ( B 0 , ..., B n ), avec
B 0  ...  B n  1, tels que
n j n j n j n j

i1
Ai B i  
i1
Y i , j pour tout j et i1
A i B i   Y i , j pour tout
i1
i,
alors
n 1
Cˆ i , n  Ai  C i , n .   k
k k i
n 1 n 1 n 1
1 1 1
Où B k   jk j
 
j  k 1  j
, avec B0  
jk j
.

Autrement dit, le montant de provision concide avec l’estimateur obtenu par


la methode Chain Ladder.
Preuve 1.1 La demonstration se fait de maniere recursive. Commencons par
reecrire les conditions,
n j n j n j n j

 Yi, j  Ai Bi  B j  Ai , et
i 1 i 1 i 1
Y
j 0
i, j C0,n .

Pour i  1 dans la derniére somme, on en déduit que


n j
Yi, j n 1
A0 
j0
  Yi , j  C 0 ,n .

n 1
j0
B j j0

Supposon que la relation sur les Ai soit veriee pour 0 , 1, 2 , ..., n  k  1,

 Bj  
i n 1
et que j0 j i
 j 1 aux étapes n , n  1 , . . . , k Alors à l’etape
n  k,

146

k
n j n  k 1 n  k 1 n 1 Yn  k , j
A  Ai  An  k   C i ,k  k 
j 0


i k
i 1 i 1 i 1 k  n i
j 0
Bj

qui peut se reecrire


n  k 1 n 1
C
 C i,k  k  n  k ,k


k
i 1 k ni
j 0
B j

soit encore
n  k 1 n 1 n 1 n 1 n 1


i 1
Ci ,k  k Cnk ,k  k 
k  n i k  n i

k  n i
Ci ,k 
k  n i
k

De plus, en reecrire

n  k 1
k k 1 n 1 Y
B B  B k 1   1 j0 j ,k
 

j j j n  k 1
j 1 j0 jk
j0
Aj
Pour le terme de droite, en notant que
n  k 1 n  k 1 n  k 1 n  k 1


j0
Y j, k  
j0
 S j , k  1  S j , k  j0
S j , k 1  j0
S j ,k

on obtient que :
k n 1 n 1

 B j  (1  1  n1k )
j 1

j  n  k 1
 j1  
jnk
 j1 .

En soustrayant a chacune des etapes, on obtient le resultat annonce. Nous


reviendrons sur ce mod_ele dans la sectionn 1.4, car la regression de Poisson (dont
les parametres sont estimes par maximum de vraisemblance) cocide avec la mthode
des marges ((2)).
Remarque 1.1 L’idee de cette methode remonte aux annees 30. Comme le note
(1), decrivant la methode Chain-Ladder, « son apparente rigueur mathematique et
sa simplicite semblent resoudre sans eort toutes les dicultes. Il n’en est
malheureusement rien. [… ] La cadence de rglements ne peutp être constante que
si l’assureur prend en charge un nombre de sinistres susant pour que la loi des
grands nombres puisse jouer. Les changements de jurisprudence qui aggravent la
responsabilite des assures et les depreciations monetaires aboutissement a une
augmentation des indemnites allouees, et ralentissent la cadence des reglements des
exercices anterieurs dont les sinistres non encore regles se trouvent majores ». Et
plus precisement, (13) remarquait que « la methode de la cadence numerique
appliquee aux elements statistiques que nous possedons nous parât donc devoir
donner des resultats empreints d’une assez grande incertitude. »

147
1.3 De Mack a Merz & Wuthrich
La methode dite Chain Ladder, que nous venons de voir, est une methode dite
deterministe, au sens ou l’on ne construit pas de modele probabiliste permettant de
mesurer l’incertitude associee a la prediction du montant des reserves. Dierents
modeles ont ete proposes a partir des annees 90, a partir du modeles de Mack,
jusqu’a l’approche proposee par Merz & Wuthrich qu introduira la notion
d’incertitude a un an.

1.3.1 Quantier l’incertitude dans une prediction


Nous avons obtenu, par la methode Chain Ladder un estimateur du montant
de provision, Rˆ. Classiquement, pour quantier l’erreur associee a un estimateur ˆ
d’un parametre,  on calcul la mean squared error mse – associee, E ˆ     
2

Or on cherche ici a quantier l’incertitude de l’estimateur R̂ associe a une variable
aleatoire R. Le mse sécrit alors en comparant ˆ a E ( R ),


msep ( Rˆ )  E  Rˆ  E ( R ) 
2
  E  biais ( Rˆ , R )   .
2

Si l’on souhaite comparer a R R (qui est ici une variable aleatoire) on ne parle
pas de mse, mais de mse de prediction, notee msep (on ne predit pas sur les donnees
passees, mais on utilisera les donneees pour calibrer un modele qui servira ensuite
a faire de la prediction pour les annees futures). Aussi


m e s p ( Rˆ )  E  Rˆ  R 
2
.
Ce terme peut se decomposer en deux (en faisant une approximation au
premier ordre), au sens où


E  Rˆ  R 
2
  E  Rˆ
 E ( R )    E  R  E ( R )  

2

     
2

Var ( R )
m s e ( Rˆ )

Où le terme de gauche est l’erreur d’estimation, compte tenu du fait que nous
avons dû estimer le montant de provisions a partir de la partie superieure du
triangle, et le terme de droite est l’erreur classique de modele (tout modele
comportant une partie residuelle orthogonale aux observations, et donc
imprevisible). En fait, en toute rigueur (et nous en aurons besoin par la suite), on
cherche plutôt a calculer un msep conditionnel a l’information dont on dispose au
bout de n annees,

m s p n ( Rˆ )  E   Rˆ  R 
 
2
H n 
148
(19) a propose un cadre probabiliste an de justier l’utilisation de la méthode
Chain-Ladder. Pour cela, on suppose que C i , j   j0
est un processus

Markovien, et qu’il existe   (  j ) et      tels que2


j

  
 E Ci , j 1 H i  j  E Ci , j 1 Ci  j   j .Ci , j
 

  
Var Ci , j 1 H i  j  Var Ci , j 1 Ci  j   j .Ci , j
2

On note que sous ces hypothéses,

   
E Ci , j 1 H i  j  E Ci , j  k Ci  j   j .. j 1 ... j  k 1Ci , j
(19) rajoute une hypothése supplémentaire d’indépendance entre les années de
survenance, autrement dit C 
i, j j  1,..., n
et C  i ', j j  1 ,..., n
sont indépendant
pour tout i  i ' .
Une réécriture du modéle est alors de supposer que
Ci , j 1   j Ci , j   j Ci , j  i , j
Ou les résidus (  i, j ) sont i.i.d, centres et de variance unitaire. A partir de
cette ecriture, il peut parätre legitime d’utiliser les methodes des moindres carres
ponderes pour estimer ces coecients, en notant que les poids doivent ^etre
inversement proportionnels a la variance, autrement dit aux C i , j , i.e. à j donne,
on cherche a resoudre
 n  j 1 2 
m in    C i, j   jC i j  
 i 1 C i , j 
Pour tester ces deux premieres hypotheses, on commence par representer les
C . k  1 en fonction des C . k  1 à j donne. Si la premiere hypothese est veriee, les
points doivent être alignes suivant une droite passant par l’origine. La Figure
1.5 montre ainsi les nuages de points pour j  1 et j  2 . Pour la seconde
hypothese, on peut etudier les residus standardises ((19)
C i, j1  ˆ j C i, j
parle de weighted residuals), i, j  .
C i, j

L’utilisation des residus standardises ous donnent d’ailleurs une idee simple
pour estimer le parametre de volatilite.
2
n  j 1  
1 C  1   jCi, j
ˆ 2j  
n  j  1 i 1 
 i, j
Ci, j


 

149
ce qui peut ussi s’ecrire
2
n  j 1  
1 C i, j 1
ˆ 2
j   
n  j  1 i 1  C i , j
  j
 C i, j

 
(ce qui est a rapprocher de l’ecriture du facteur de transition  comme
moyenne ponderee des facteurs de transitions observes).
Cette methode permet d’estimer les dierents arametres intervenants dans le
modele de Mack.

1.3.3 La notion de tail factor


Classiquement on suppose que la premiere ligne de notre triangle est close : il
n’y a plus de inistres ouverts, et donc le montant de provision pour cette annee de
survenance est nul. Cette igne servira de base pour tous les developpements
ultrieurs. Cette hypothese peut ^etre un peu rop forte pour les branches a
deroulement long. (20) a pose les bases des premiers modeles oujours utilises. On
supposera qu’il existe alors un    1 tel que
C i ,  C i,n   .
Une méthode ui a souvent ete utilisee a repose sur l’idee que l’on pouvait
projeter les i par une extrapolation xponentielle (ou une extrapolation linaire des
log (  k  1) ), puis on pose
   
k  n
ˆ k
Mais mieux vaut faire ttention, en particulier s’il y a des valeurs aberrantes.
Exemple 1.1 Sur notre triangle, cette ethode prevoit de rajouter 0 : 07 % de
charge par rapport a la prediction faite par les mthodes lassiques (en supposant la
premiere ann_ee close), comme le montre la Figure 1.6.

1.3.4 De ‘incertitude sur Rˆ i et R̂

L’incertitude est ici quantiee à l’aide du mean squared error,

  
mse( Rˆi )  mse(Cˆi ,n  Ci ,n1 )  mes Cˆi ,n  E Cˆi ,n  Ci ,n  H n
2

En utilisant l’approximation evoquee auparavant, on eut eecrire le mse sous la
forme

   
2
mse ( Cˆ i , n )  Var Cˆ i , n H n   E Cˆ i , n H n  Cˆ i , n 
 
ou l’on n terme d’erreur de modele, et un terme d’erreur d’estimation. Pour le

150
  
premier terme, Var Cˆ i , n H n  E Cˆ i , n Fi , n  i )  Var ECˆ i , n Fi , n  i )   
Soit
   
Var Cˆ i , n H n  E Cˆ i, n1 Fi , n  i . n2  Var E (Cˆ i , n Fi , n  i )  
d’où, en it_erant sur le dernier terme,

    
Var Cˆi,n Hn  E Cˆi,1n Fi,ni . n21   E(Cˆi,n2 Fi,ni ). n2z Var(Cˆi,n2 Fi,ni .n22  .n21
  
etc. On arrive, en iterant jusqu’a n  i (car Ci ,n1 est observe), à la relation
n 1
Var (Cˆ i , n H n )    
ln
n i ... k 1C i , n  i   k2  1... n21

en tilisant le fait que pour n  i  k  n


Cˆ i , n   n  i ... k  1 C i , n  i .
De l’autre côte,

    
E Cˆ i , n H n  E E Cˆ i , n Fn ,n  i  n 1.E (Cˆ i , n 1 Fi , n i 
ce qui donne, par iterations successives,

 
E Cˆ i , n H n   n 1 . n  i 1 ... n .C i , n  i .

Aussi,

 
2
E Cˆi ,n Hn  Cˆi,n   Ci2,ni  ni ...n1...ni ...n1 2
 
Pour estimer le premier terme, on remplace simplement  k par ˆ k et  2
k
n 1
par ˆ , de telle sorte que Var (Ci ,n H n ) 
2
k  ˆ
k  n i
n 1 ...ˆk 1Ci ,n i ˆ k2 ˆk21...ˆn21
ce qui se eecrit encore, en se basant sur ‘estimation de la charge ultime (et plus
sur la derni_ere valeur observee)
n 1
ˆ k2 / ˆk2
Var ( C i , n H n )  Cˆ i2,n 
k  n i Cˆ i , n
Pour le second terme, ça se complique un peu, car on ne peut pas simplement
remplacer k par on estimateur. On va alors reecrire sous la forme d’une somme,
n 1
 n i ...n 1  ˆn i ...ˆn 1    S k
  k  n i

151

S k  ˆn 1...ˆk 1  k  ˆk  k 1...n 1 ,
ce qui permet d’ecrire le arre de la somme
n 1


k ni
S k2  2  S j S k .
j k

En notant que

 2

E k  ˆk  H k  Var ˆk H k     k2
 j 1 C j,k
nk
,

on en deduit que
 k2
E  Sk2 H k   ˆn i ...ˆk 1 k 1...n1.
 j 1 C j ,k
nk

Et en revanche, pour j  k , E ( S j S k H k )  0. . Aussi, un estimateur pour le


second terme peut être
n 1
ˆ k2 / ˆ k2
ˆ n  i . . .  

n 1 n  k
k  n  i
j1
C j ,k

Proposition 1.2 Le mean quared error du montant de provision mse ( Rˆ i ) pour


une annee de survenance i, peut être stime par

n 1
ˆ k2  1 1

mes ( Rˆi )  Cˆ i2,n  C
ˆ2
  nk .
ˆ
k  n  i k  Ci , k  j 1 C j ,k 
i ,n 2
 
Toutefois, une compagnie doit au minimum provisionner pour la ranche
d’activite, et par par annee. Il faut ensuite calculer le mse pour
Rˆ  Rˆ  . . . 
1 Rˆ fait, on notera que
n

 n 
2

 
n
m es Rˆ  E    Rˆ i   Ri   Hn 
  i2  
 i2 
o.e.

 n  n
 
mes Rˆ  Var   Ci ,n H n    Var  Ci ,n H n 
 i 2  i 2
Comme on suppose que les annees de survenance sont nd_ependantes, le
premier terme se simplie,

152
 n  n
Var   Ci , n H n    Var  Ci , n H n 
 i2  i2
(dont les terms sous le signe sommee ont ete calculés auparavant). Pour le
second terme, il peut être réécrit
2
 n ˆ 
  E ( C i,n H n )  C i,n 
 i 2 
Soit
n

  E (C
i , j 2
i ,n H n )  Cˆi ,n .  E (Ci ,n H n )  Cˆi ,n  .
 

En utilisant les notations precedantes, notons que

 E (Ci ,n H n )  Cˆi ,n  .  E (C j,n  j H n )  Cˆ i ,n   Ci ,n i Fi  . Ci ,n i Fj 


1.        

Ce qui permet de reecrire le mean squared error pour R̂ . En eutilise alors


l’astuce de tout a l’heure pour estimer F i F j .
Proposition 1.3 Le mean squared rror du montant de provision mse ( Rˆ ) ,
pour l’ensemble des annees de survenance, peut être estime par
n n 1 n 1
ˆ k2 / ˆk2
mes ( Rˆ )   mes ( Rˆ i )  2  Cˆ i , n Cˆ i , n 

nk
i2 2i j n k  n i
l 1
C l ,k
Cette vision est parfois appelee vision a l’ultime de l’incertitude elative au
montant de provision. Exemple 1.2 Sur le triangle m e s ( Rˆ )  7 9 .3 0 , alors
que m es ( Rˆ n )  68.45, dmse m e s ( Rˆ n  1 )  3 1 .3 ou m e s ( Rˆ n  2 )  5 .0 5

1.3.5 L’incertitude a un an e Merz & Wuthrich


Pour comprendre la notion d’incertitude à un an, placons nous un an en
arriere. A la n de l’annee n  1 , nous disposions du triangle sans la derniere
diagonale, que ‘on avait alors complete par la méthode Chain Ladder (Tableau
1.3.5). Si l’on ne s’interesse u’aux annees antérieures, i  1, ..., n  1, , à la n de
l’annee n , nous avions obtenu un riangle avec une diagonale supplémentaire que
l’on avait alors compl ete par la méthode hain Ladder (Tableau 1.3.5).

153
Table 1.8 – Triangle des paiements cumulés sur les années antérieures,
C  ( C i , j ) i  j  n 1 avec les projection future Cˆ  ( Cˆ i , j ) i  j n 1 .

0 1 2 3 4
1 3209 4372 4411 4428 4435
2 3367 4659 4696 4720 4727.4
3 3871 5345 5398 5422.3 5430.9
4 4239 5917 5970.0 5996.9 6006.4
5 4929 6810.8 871.9 902.9 693.9

A la fin de l’année n  1, , e montant de provisions constitue était de 2114 ; 61,


pour ces n  1, premiéres années. Au nal, on pensait payer 27513 ; 61 (toutes

Table 1.9 – Triangle des aiements cumulés sur les années antérieures,
C  ( C i , j ) i  j  n 1 avec la projection future Cˆ  ( Cˆ i , j ) i  j  n .
0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730 4752.4
3 3871 5345 5398 5420 5430.1 5455.8
4 4239 5917 6020 6046.15 6057.4 6086.1
5 4929 6794 6871.7 6901.5 6914.3 6947.1

Années confondues). A la _n de l’ann_ee n, la charge totale était revue à la


hausse, assant à 27697 ; 33. Cette augmentation de 183 ; 72 est appelée mali. C’est
l’incertitude associee à cet quantite qui est aujourd’hui demande dans Solvabilite II.
Formellement, il onvient d’introduire dans les notations la date à laquelle est
faite l’estimation. Par exemple, on distinguera


n  i 1

n  i 1
C i , j 1 C i , j 1
ˆ jn  i 1 ˆ n 1
 i 1


et j n i

ni
i 1
C i, j i 1
Ci, j
La section précédante permet de monter que
E ( ˆ jn H n )   j et E ( ˆ jn 1 H n 1 )   j
Sauf qu’ici, on se place toujours à la date n . Il convient alors de calculer
E ( ˆ jn  1 H n 1 )
Notons ue si l’on pose S nj  C1, j  C2, j  ..., CC n 1

154
  
n i 1 n i n 1i
Ci , j 1 C Ci , j 1 Cn j , j 1
ˆ n 1
 i 1
 i 1 i , j 1
 i 1


j n i
Ci , j S nj 1 S nj 1 S nj 1
i 1
soit simplement :

ˆ S nj .ˆ jn C n  j , j 1
j 
n 1

S nj  1 S nj  1
Lemme 1.1 Sous les hypotheses du modeles de Mack,
S nj ˆ n C
ˆ 
E  j H n  n 1 . j   j . n nj1, n .
n 1

Sj Sj
On en deduit en particulier que
j 1

 
E ˆ jn 1 H n  Ci ,n i .n i.  E  ˆ
k  n i 1
n 1
k Hn . 
En reprenant les notations de (21), on peut _etudier la variation du boni/mali
d’une année sur l’autre, c’est-à-dire du changement dans la prediction de la charge
totale, entre deux annees.
Pour cela, on introduit le concept suivant
Denition 1.1 Le claims development result C D R i ( n  1 ) pour l’annee de
survenance i, entre les dates n et n  1 , aussi appele boni ou mali (suivant qu’il
est positif ou negatif), est
CDRi ( n  1)  E ( Rin H n )  Yi , n  i 1  E ( Rin 1 H n 1 )  ,
où Y i , n  i  1 correspond a l’increment de paiements,
Yi , n  i 1  C i , n  r 1 C i , n  i
On notera que C D R i ( n  1 ) est une martingale H n  1
mesurable, et
que l’on peut réécrire
CDRi (n  1)  E (Ci ,n H n )  E(Ci ,n H n 1 ).
De plus,
 n 1 n 1  S n C 
E (CDRi (n  1) H n )  Ci ,n i   ˆ jn  n i .   nj1 .ˆ jn   j . nnj1, j  
 j  n i 
j  n i 1  S j Sj 
 
On peut reecrire cette derniere expression
  n 1  Cn  j , j  
E (CDRi (n  1) H n )  Ci ,n i  1  nni .  1  ( j  ˆ jn ). n n 1   .
 ˆn i j  n i 1  ˆ j S j  
 

155
A l’aide de ces relations, on peut calculer, puis estimer, le mse de pr_ediction
conditionel du boni-mali, par annee de survenance i pour commencer, puis en
aggregeant toutes les annees. Pour l’erreur de modelisation, on peut noter que
 n2i / n2i
Var (CDRi (n  1) H n )  E (Ci ,n H n ) 2 .
Ci ,n i
Cette derniere grandeur est parfois appelee erreur de pr_ediction prospective
Pour l’estimation de ce terme, on considere naturellement
2 2
ˆ n  / nni 
n 2  n i 
ˆ
Var (CDRi (n  1) H n )  (Ci ,n ) . .
Ci ,ni

2
1 n j  Ci , j 
 i , j 1  C
2
ˆ nni    ˆ
 n
C j 1 

n  j i 1  i , j 1 
En revanche pour le second terme, c’est un peu plus complique. On peut
toutefois ecrire
  n 1 n 1  S n Cn j, j 
2

E    j   n  i .   n 1 ˆ jn   i . n 1
 ˆ   H n  .
2 n j
C i ,n i
  j  n 1 
j  ,  i 1  S j Sj 
   
Un peu de calcul permet alors d’obtenir l’ecriture suivante
n 1  n 1   2j /  j2  n 1  2  2j /  j2  n 1   2j /  j2  
  j2     1    j Sn   1  2  
 j  1 
S nj  
n
j  n i  j  n i   j  n  i 1 
 j 
 j  n  i 1 
 S j
n
S
Où  j  j
n 1
.
S j
On arrive nalement a la propriete suivante
Lemme 1.2 Sous les hypotheses du modele de Mack, un estimateur de
E ( C D R i ( n  1) 2 H n )

mse(CDRi (n  1) H n )  Cˆi2,n ˆ i ,n  ˆ i ,n  
2
ˆ n2i 1 n 1  Cn  j 1, j  ˆ 2j
ˆ i , n      ˆ 2 n

ˆn2i 1S nno11  S ,1
j  n i  2  j  j S j

156
   ˆ 2j 
ˆ n2 i 1 n 1
ˆ

Et i , n   1 
ˆn2 i 1
  

1 
ˆ n 1 2
C n  j  1, j  1

  j ni 2
  j  S j 
2

Remarque 1.2 On peut noter que Cˆ i2, n ˆ i,n
est un estimateur de
2
E (  E (CDRi (n  1) H n )  H n )
 
En revanche Cˆ 2
i,n ˆ i,n
est un estimateur de

Var ( CDRi (,  1) H n ).
(21) ont alors approche ce dernier terme terme par
2
ˆ n2i 1  Cn  j 1, j
n 1  ˆ 2j
ˆ i , n  2  
ˆn i 1Ci ,n i 1 k  n i  2  S nj 1
 ˆ 2
  j Cn  j 1 j
en faisant tout simplement un developpement de la forme
 (1  µi )  1   µi , mais qui n’est valide que si ui est petit, soit ici
ˆ 2
j
  C n  j1 j.
ˆ 2
j

Pour l’erreur d’estimation, on parle egalement d’erreur de pr_ediction


retrospective, il convient de calculer, puis d’estimer
E   C D R i n  1  
2
H n ,
et pas seulement E ( C D R i (n  1) H n )
2

Comme nous venons de le faire. Mais comme nous le rappelerons par la suite,
la r_eglementation ne tient pas compte de ce terme, car il est illegal de supposer
C D R i (n  1)  0 .
Toutefois, pour ce terme, il est possible de montrer la propriete suivante
Lemme 1.3 Sous les hypotheses du modele de Mack, un estimateur de
2
E (  C D R i ( n  1)  C D R i ( n  1)  H n ) est
 
mse(CDRi ( n  1) H n )  Cˆ i2,n 
ˆ  ˆ
i ,n i ,n  

  
 ˆ n2i 1   n1  ˆ 2j
ˆ
i , n   1  2   1 C   1
 ˆ C   j ni 1  ˆ 2  S n1  2 n j 1, j  
 n i 1 i , n i 1 
  j  j   
157
(21) ont alors approch_e ce dernier terme terme par
2
n1 ˆ 2j   Cn j 1, j 
i,n  
ˆ
2  n1  ,
ˆ
j ni 2   C Sj 
 j  n j 1, j 
2

en faisant l à encore un développement de la forme


 (1  µ )  1   µ , mais qui n’est valide que si µ
i i i
est petit, soit ici

ˆ 2j
 Cn j 1 j .
ˆ 2
j
En considerant ces approximations, et en supposant qu’il est legalement
impossible de predire autre chose que C D R i ( n  1)  0, on peut nallement
reecrire
Chapitre 1
Proposition 1.4 Sous les hypothéses du modéle de Mack,
dmsen (\CDRi (n + 1)) _ [ b Cn
 n 2 2
  Cˆ n  j 1 j 
2

2 ˆ n  i 1   1  ˆ nj 
 
n 1
   1  1 
 ˆ 
CDRn CDRi (n  1)  Ci ,n 
n
  ˆ n  2  Cˆ
  n 
S n i 1 
ˆ 
j  n  i  2  ˆ n 
2
 Sˆ nj
 n 1
 ˆ

 
  n i 1   i ,n i 1   j   Sj   
Pour rappel, la formule de Mack proposait
 n 2 2
 1 
2 ˆ n  i 1   1 1  n 1 ˆ nj  1 
ˆ  
ˆ
msen Ri  Ci , n 
n  
  ˆn 2
 
 ˆ
 n 
ˆ  
j  n  i  2  ˆ n 
2

 Cˆ
 n .
Sˆ j  

  n i 1   Ci , n i 1 S n i 1    j  i , j

Autrement dit, dans le mse du CDR, seulement le premiere terme de l’erreur
de modele de la formule de Mack est considérée, et pour l’erreur d’estimation, on
ne considere que la premiére diagonale i  j  n  1 (les termes suivants etant
ecrases par le facteur Cˆ n  j 1, j / Sˆ m 1
j ).
Enfin, si l’on regarde nalement ce qui se passe toutes annees de survenance
confondues, on a une formule qui peut encore se rapprocher de celle proposee par
Mack, a savoir
n
msen ,  CDR(n  1)    msen  CDRi (n  1) 
i 1

 ˆ n  2 / ˆ n  2 ˆ n



2
/ ˆnni 1  
2

    
n 1 C     
2 Cˆin,nCˆl,nn  
n i 1 n i 1 n j , j n i 1

 
 j n i 1  
i 1 n j i 1
i l  C
k 0 k ,,n i
C
k 0 k , j
C
k 0 k ,,n i 
 

158
n 1
Cette approximation n’est toutefois valide que si C n  j  1, j  S j . . Et dans
ce cas, on peut s’attendre a ce que l’incertitude a un an soit inferieure a
l’incertitude a ultime.
Exemple 1.3 Sur le triangle 1.2 msen (CDR ( n  1))  72.57, alors quedmsen
msen (CDRn ( n  1))  60.83, msen (CDRn ( n  1))  30.92 ou encore
msen (CDRn  2 ( n  1))  4 : 48. La formule approchee donne des résultats
semblables.

1.4 Regression Poissonnienne et approches économetriques


Dans cette section, nous nous eloignerons des modeles recursifs inspires de la
methode Chain Ladder, et nous reviendrons sur des classes de modéles trés utilises
dans les annees 70, appeles modeles a facteurs, remis au go^ut du jour en proposant
une lecture econometrique de ces modeles, permettant ainsi d’obtenir des
intervalles de conance des diéerentes grandeurs.

1.4.1 Les modéles à facteurs, un introduction historique


Avant de pr_esenter l’utilisation des modéles de régression, on peut
commencer par évoquer des mod_eles plus anciens. Par exemple (27) supposait que
Y i , j  r j .µ i  j ,
pour tout i , j
i.e. le paiement eectue l’annee i  j pour les sinistres survenus l’annee i est
function d’une et colonne (de cadence de paiement) et un eet diagonal, que Taylor
interprete comme un facteur d’ination. Ce mod_ele peut se reecrire, des lors qu’il
n’y a pas d’increment positif,
lo g Y i, j   i   i j
qui prend alors une forme lineaire. Comme nous l’avons noté à la fin de la
section 1.2 un modéle de la forme
Y i , j   i  b j pourra se rapprocher du modéle Chain Ladder.
(29) avait egalement propose d’utiliser une courbe d’Hoerl, c’est-à-dire
log Yi , j   i   i .. log( j )  i . j
Remarque 1.3 Dans cette section, nous travaillerons davantage sur les
incréments
de paiements Yi , j que sur les montants cumulés C i , j . En e_et,
conditionnellement aux facteurs (ligne, colonne ou diagonale), il semble plus

159
vraisemblable de supposer les C i, j comme étant des variables indépendantes,
alors que les C i, j ne le seront probablement pas.

1.4.2 Les modéles Gaussiens de de Vylder et de Christophides


(8) a été un des premiers modéles économétrique de provisionnement. Pour
cela, on suppose que Yi , j N  i  j ,  2
 , pour tout i , j
On peut estimer les coe_cients par moindres carres,
 
 
ˆ , ˆ  arg min  Yi , j  i  j   .
2

 i, j 
Les _equations normales s’ecrivent ici
 Y i, j ˆ j
et ˆ j
 j
Y i , jˆ i
ˆ j
,
i
 j
ˆ 2
j  j
ˆ 2
j

ce qui ne resoud pas explicitement. Pour le résoudre, (5) a suggere de le reecrire


comme n modele log-lineaire, i.e.
log Yi , j N ( ai  b j ,  2 ), pour tout i , j

1.4.3 La regression oissonnienne de Hachemeister & Stanard


(12), (15) et enfin (18) ont montre que dans une égression log-Poisson sur les
increments, la somme des predictions des paiments à venir orrespond à l’estimateur
Chain Ladder. On retrouve ici un resultat pouvant être relié à la m_ethode des
marges présentee à la n de la section 1.2. On suppose ici que
E Yi , j  µi , j  exp  ri  c j   a i .b j .
Il y a ici un 2n paramétres a estimer, a   a0 ,..., a n  et b   b0 ,..., bn 

avec une contrainte de la forme b0  ...  bn  1 (car il nous reste un degré de


liberté). ompte tenu du choix des facteurs (ici un facteur ligne r ( o u a ) et un
facteur colonne c ( ou b )) , une ois estimés ces paramétres, il est possible de
prédire la partie inférieure du triangle trés implement, i.e.
Yˆi , j  µˆ i , j  exp  rˆi  cˆ j   aˆ i .bˆ j .
Remarque 1.4 Si les seuls facteurs qui nterviennent dans la modelisation sont
un facteur ligne et un facteur colonne, on peut aisément redire toutes les valeurs
telles que 0  i , j . On a alors Yˆ  aˆ . bˆ , pour i + j > n. En revanche, si
i, j i j

l’on integre une et calendaire (d’ination comme dans (27)), il sera alors _ecessaire

160
e prevoir les valeurs futures du facteur diagonal, Yˆi , j  bˆ j .ˆi  j , pour
i  j  n. où i , j  bˆ j . i  j , esigne une prediction de l’eet diagonale (predit a
partir des ˆ 0 , ˆ1 , ..., ˆ n ).
La valeur de eference est la valeur dans le coin superieur gauche. Compte tenu
de la forme logarithmique u mod_ele, on a une interpretation simple de toutes les
valeurs, relativement a cette premiere valeur
E (Yi , j H n )  E (Y0,0 H n ).exp  ri  c j  .
Exemple 1.4 Sur le triangle 1.2, on obtient la ortie de régression suivante, en
régressant sur un facteur ligne, et un facteur colonne.
Call :
Glm (formula  Y lig  col , family  poisson (« log »), data = base)
Deviance Residuals :
Min 1Q Median 3Q Max

-2.343e + 00 -4.996e-01 9.978e-07 2.770e-01 3.936e + 00

Coefficients :

Signif. codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance : 46695.269 on 20 degrees f freedom Residual deviance : 30.214
on 10 degrees of freedom (15 observations deleted due to missingness) AIC : 209.52

161
Number of Fisher Scoring iterations : 4
Les prédictions Yˆi , j sont ndiquees dans le tableau 1.4.3.

Table 1.10 – Triangle des prédictions d’incréments de paiements,


ˆ ˆ par une égression log-Poisson.
Y  (Yi , j ) 0i , j  n
0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730 4752.4
3 3871 5345 5398 5420 5430.1 5455.8
4 4239 5917 6020 6046.15 6057.4 6086.1
5 4929 6794 6871.7 6901.5 6914.3 6947.1
6 5217 7204.3 7286.7 7318.3 7331.9 7366.7

1.4.4 Incertitude dans un modele de regression


Nous avions note uparavant qu’obtenir une estimation du montant de sinistres
restant a payer ne susait pas, et u’il fallait avoir un intervalle de 26 Chapitre 1
conance, ou – au moins – une mesure de la ispersion du vrai montant autour de
cette valeur predite.
Les formules econometriques ermees
Les modeles de regressions pourraient para^_tre tres interessants car il existe
des formules ferm_es pour toutes sortes de pr_edictions. Par exemple, dans une
régression GLM avec un lien logarithmique, rappelons que
E ( Y i , j H n )  µ i , j  e x p ˆ i , j 
ou encore

Yˆi , j  µi , j  exp ˆi , j 


La delta method nous permet d’écrire que
2
 µi, j
 
V a r Yˆi , j 
 i, j
.V a r ˆ i , j 

ce qui se impli_e dans le cas où le lien est logarithmique, i.e.


 µ i , j
 µ
 
i , j
i , j

Aussi, pour une loi de Poisson urdispersée (comme dans (22)),

 
E  Yˆi , j , Yˆi , j   ˆ.µˆ i , j  µˆ i2, j .V ar ˆ i , j 
2

pour la partie inf_erieure du triangle. De plus, ar il sera n_ecessaire de sommer

162
tous les termes de la partie inférieure du triangle pour éterminer le montant total
de provisions,
C ov (Yˆ , Yˆ )  µˆ  µˆ .C ov ˆ , ˆ  .
i, j k ,l i, j k ,l i, j k ,l

Le montant de provision que l’on cherche à estimer étant la somme des


predictions de aiements à venir, Rˆ   i  j  n Yˆ i , j ,
Remarque 1.5 Cette formule est alheureusement asymptotique, ce qui est
rarement le cas en provisionnement ou l’on dispose de res peu de données.
Exemple 1.5 Sur notre triangle, on obtient un mean squared error de l’ordre
de 131 : 77. _

Les methodes de simulations


Les methodes de simulation sont une bonne alternative si on dispose de trop
peu de donnees pour invoquer des theoremes asymptotiques. Rappelons, comme le
notait (19) qu’il existe 2 sources d’incertitude,
– l’erreur de modele (on parle de process error)
– l’erreur d’estimation (on parle de variance error) Il sera alors nécessaire
d’utiliser deux algorithmes pour quantier ces deux erreurs. An de quantier l’erreur
d’estimation, il est naturel de simuler des faux triangles (supérieurs), puis de
regarder la distribution des estimateurs de montant de provisions obtenus pour
chaque triangles. A l’etape b, on genere un pseudo
triangle à l’aide des r_esidus de Pearson. Rappelons que pour une regression
de Poisson,
Y i , j  µˆ i , j
 i , n  . :
µˆ i , j
Les erreurs de Peqrson obtenues peuven être visualisées dans le Tableau 1.4.4

Table 1.11 – Le triangle des résidus de Pearson  , où


ˆi , j  µˆ i, 1/j 2 .  Yi , j  µˆ i , j  .
0 1 2 3 4 5
1 0.948 -1.128 -1.533 -0.489 -0.427 0.000
2 0.024 0.277 -2.213 0.792 0.414
3 0.116 0.056 -1.024 -0.297
4 -1.082 0.891 4.237
5 0.130 -0.211
6 0.000

On considére les erreurs de Pearson (et non pas les erreurs brutes Yi , j  µˆ i , j )
car les donn_ees ont hétérescéedastiques. Les erreurs de Pearson ont été déenies de

163
maniére à normaliser les résidus (que l’on pourra alors supposer i.i.d).
Remarque 1.6 Les résidus de Pearson ne sont générallement pas Gaussien, ils
sont simplement centres et reduits. La Figure 1.7 montre en particulier que les
supposer aussien nous ferait probablement sous-estimer la Value-at-Risk pour un
niveau élevé.
En imulant des erreurs (qui sont supposees independantes et identiquement
 b


distribuee),  b   i , j , on pose alors

ˆ b
 µˆ i, j  µˆ i, j . b
i, j .
Pour generer des erreurs, la methode la plus suelle st d’utiliser une simulation
nonparametrique, c’est a dire que l’on va bootstrapper les residus armi 28 Chapitre
1 les pseudoresidus obtenus. Sinon il est aussi possible d’utiliser un modele
arametrique (par exemple supposer une loi normale, même si rien – theoriquement
– ne ustie cette méthode).
Le Tableau 1.4.4 presente un triangle simulé Y b
 Y b
i, j 
Table 1.12 – Triangle de paiements bootstrapé, Y
b
 Y b
i, j 
0 1 2 3 4 5
1 3155.7 1216.4 42.2 18.2 9.0 22.9
2 3381.7 1245.4 84.0 18.2 11.1
3 3726.1 1432.5 61.44 23.44
4 4337.3 1642.8 74.6
5 4929.0 1879.8
6 5186.1

Table 1.13 – Triangle de residus simule par bootstrap, 


b
   ib, j  .
0 1 2 3 4 5
1 0.00 0.414 -1.082 -0.211 0.0277 0.414
2 0.277 -1.024 4.237 -0.489 0.792
3 -2.213 -1.024 0.056 0.000
4 0.414 0.024 0.792
5 0.130 0.130
6 -0.427

Une fois simule un pseudo triangle d’increments de paiments, on predit un


montant de provision Rˆ b (par exemple via une methode Chain Ladder, ou en
refaisant une modelisation log-Poisson si les increments de paiements sont tous
positifs). La variance des Rˆ b correspond a l’erreur d’estimation. Le Tableau 1.14
presente la modelisation du triangle simule 1.4.4 par un

164
Modele log-Poisson Yˆ b
 Yˆ  La
b
i, j
somme des termes dans la partie
inferieure donne une valeur possible pour l’estimation du montant de provision
Rˆ b  2 4 4 8 . 1 7 5 .
Afin de prendre en compte l’erreur de modele, plusieurs methodes peuvent
être utilisees. La premiere, et la plus simple, consiste à noter qu’a partir du pseudo
triangle Yi , j , peut obtenir des predictions pour la partie inferieure, Yˆi ,b j , .
b

Compte tenu du modele Poissonnien, on peut alors simuler une trajectoire


b
possible d’incr_ements de paiements en simulant les Y i , j , à l’aide de loi de
Poisson de parametre Yˆi ,b j , . Le Tableau 1.4.4 une simulation de paiements futurs

à partir du triangle simulé 1.4.4 Y


b
P ( Yˆ b ). . La somme des termes dans la
partie inferieure dans MODELES

Table 1.14 -Triangle des prédictions Yˆ b  ( Yˆi ,b j ) . obtenues sur le triangle


simulé, Yˆ b
 ( Yˆi ,b j ) .
0 1 2 3 4 5
1 3157.5 1199.1 56.7 18.4 9.7 22.8
2 3369.9 1279.8 60.5 19.6 10.3 24.4
3 3735.8 1418.7 67.1 21.7 11.5 27.0
4 4331.7 1645.1 77.8 25.2 13.3 31.4
5 4934.6 1874.0 88.6 28.7 15.2 35.7
6 5186.1 1969.5 93.1 30.2 16.0 37.6

une valeur possible pour les paiements restant a faire Rb .

Table 1.15 – Triangle de paiements simules, Y b


P ( Yˆ b )
0 1 2 3 4 5
1
2 29
3 10 24
4 27 11 37
5 94 34 16 40
6 1956 102 26 15 36

La seconde methode est d’utiliser une relecture du modele de (19), propos ee


par (10). A partir du pseudo triangle, on va utiliser les facteurs de developpement
ˆ j et les variances associes ˆ 2j obtenus sur le triangle initial. On prolonge alors le
triangle dans la partie inferience via le modele dynamique

165

Cˆ ib, j 1 Cˆ ib, j ,..., Cˆ ib,0  
N ˆ j Cˆ ib, j , ˆ 2j Cˆ ib, j 
Exemple 1.6 Sur le triangle 1.2 la variance empirique de R nous permet d’avoir
 
un bon estimateur de mse Rˆ Ici, a l’aide de 100 000 simulations, on obtient la
distribution pour R donnee sur la Figure 1.8. Sur cet exemple, on obtient un ecart-
type (empirique) pour les simulations de R b de l’ordre de 84 : 12 (ce qui se
rapproche davantage des 79 : 3 de la methode de Mack, que des 131 : 7 obtenus par
developpements asymptotiques).

1.4.5 Quel modele de regression ?


Nous avions justie l’utilisation de la loi de Poisson, car le montant de provisions
predit coincidait avec l’estimateur Chain Ladder. Mais rien ne permet de justier
statistiquement l’adequation de la loi de Poisson a nos donnees. 30 Chapitre 1 Prise
en compte d’une eventuelle surdispersion En fait, la regression quasi Poisson
peutéventuellement être plus adaptee (comme cela est mentionne par exemple dans
(25)).
Exemple 1.7 Sur le triangle 1.2 une modelisation par une loi quasiPoisson
donne la sortie suivante Call : glm (formula = Y ~ lig + col, family = quasipoisson
(« log »), data = base) Deviance Residuals :

166
Signif. codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 3.18623) Null
deviance : 46695.269 on 20 degrees of freedom Residual deviance : 30.214 on 10
degrees of freedom
(15 observations deleted due to missingness) AIC : NA
Number of Fisher Scoring iterations : 4
Le parametre de surdispersion ˆ vaut ici 3 : 18 (qui est signi_cativement
supérieur à1).
Dans l’exemple considere, on obtient où Var (Yi , j )   .E (Yi , j , j ).
L’estimation donne les mêmes resulats que la régression de Poisson, toutefois, il
faut alors pour simuler une loi quasi Poisson.
La simulatin de cette quasi loi, se fait generalement suivant une des deux
methodes suivantes. La premiere idee est d’utiliser une approximation par une loi
binomiale negative B N ( r , p ) . Rappelons que pour cette loi
1 p
E (N )  r   et V a r ( N )  r 1  2 p    ,
p P
de telle sorte que, si on cherche à simuler une loi quasiPoisson de paramétres
 et  ,
E (N ) 1 
P   et r  .
Var ( N )    1
La seconde id_ee est d’utiliser une approximation par une loi Gamma (dont on
pourra rendre la partie entiere)
E ( N )      et V a r ( N )      ,
Soit    /  et V a r ( N )       , La Figure 1.9 ermet de
comparer la simulation de ces lois.
Entre un modéle Poisson et un modele Gamma
Si es modéles GLM sont generallement présentés comme des modéles où une
hypothése e loi est faite (la loi de la variable d_ependante Y devant appartenir a la
famille exponentielle), appelons les modeles GLM peuvent ^etre caracterises par
une modelisation des deux remiers moments,
E ( Y / X )  h ( X  ) et Var (Y / X )  V ( E (Y / X ))  g((X  )),

➢ la fonction lien, qui lie la prediction aux facteurs, ici
Yˆi , j  E (Yi , j / H n )  exp ˆ  ˆi  ˆ j  ,

167
➢ la loi ou la onction variance, V, qui donne la forme de la dispersion, ici
Var (Yi , j / H n )   .E(Yi , j / H n ).
L’unique motivation du modele precedent (loi de Poisson, i.e. fonction
variance identite, et ien logarithmique) est qu’il permet d’obtenir exactement le
même montant que la methode hain Ladder. Mais aucun critere statistique n’a ete
evoque, pour l’instant, an de legitimer e modéle. Les modeles Tweedie sont une
famille de sur-modele, incluant le modele Poissonnien. On suppose que
➢ la fonction lien, est une fonction puissance, ou plutôt une ranformee de
Box  C ox , Yˆi , j  g  1  ˆ  ˆ i  ˆ j  où

g  ( x )    1  x   1  si   0 avec le cas limite g o ( x )  lo g ( x ).


➢ la fonction variance, qui donne la forme de l’intervalle de confiance, ici Var
Var (Yi , j / H n )   .E(Yi , j / H n ) k ou les parametres et sont inconnus.
Remarque 1.7 Formellement, dans les modèles GLM, on suppose que la loi de
Y i , j appartient a a famille exponentielle, i.e. de densité :
 y i , j  b i , j  
f (y;i , j ,  )  exp   c( y,  )  .
  
 
La fonction variance est ici V ( µ )  b "( b '  )( µ ). our reprendre les
1

notations de (14), on se limite ici aux formes V ( µ )  µ k . Cela signifie que


2k
1
b ( )   (1  k )  k ,
1
pour k  1, 2 ,
2k
avec es cas particulier (on a alors une loi quasi-Poisson) et b
b (  )  e x p   pour k  1 (on a alors une loi quasi Poisson) et
b ( )   log    pour k  2 (on a alors une loi Gamma).
Si l’on supppose que une forme multiplicative Ai . B j pour modéliser les
increments de paiements, on aura alors
1 k

i, j  log  Ai .Bj  si k  1 et  i , j   A i . B j  sinon.


1  k
An de juger de la pertinance de l’ajustement, on peut calculer la
ogvraisemblance du modele, en gardant un lien logarithmique par exemple (ce qui
est parfois lus simple au niveau numerique, mais aussi au niveau de l’interpr
etation), ou le critere ‘Akaike.
La Figure 1.10 permet de visualiser l’inuence du parametre de la puissance de

168
la ponction variance sur la logvraisemblance. La Figure 1.11 montre aussi
l’evolution du montant de rovision R ˆ,
Exemple 1.8 Si l’on souhaite garder un lien logarithmique, le parametre le plus
raisemblable pour la fonction variance compris entre 1 et 2, est kˆ  1, ce qui
correspond a un odele de Poisson (ou plut^ot quasi-Poisson).
Remarque 1.8 Ces methodes de simulations ont susement souples pour
pouvoir être adaptees, en particulier pour quantier l’incertitude a n an. Toutefois,
cette approche repose sur l’utilsation de regression GLM (Poisson ou Gamma), ce
qui n’est possible que si les Y i , j sont positifs. En theorie, il s’agit d’increments de
paiements, ui doivent être positifs, mais en pratique, il n’est pas rare que de
increments negatifs soient bserves. C’est d’ailleurs possible de generer un pseudo
triangle possedant des increments egatifs (e.g. (7) ou (16)).

1.5 Modelisation et prediction de la mortalite future De même ue e


provisionnement posait le probleme de la dynamique de la vie des sinistres (dont le
montant est pas connu le jour de la survenance du sinistre), les contrats d’assurance
vie sont lies a des probabilites de deces (ou de survie) dans un futur plus ou moins
lointain. L’assurance vie doit donc egalemnt être vu comme un…………

1.5.1 Modelisation statique des contrats d’assurance vie


Si l’assurance non-vie repose essentiellement sur des modelisation
stochastique des sinistres a venir, l’assurance-vie consiste fondamentalement a
actualiser des ux futurs, incluant generalement un part d’incertitude (associee au
deces ou a la survie d’un assure). De la m^eme maniere que nous nous etions
attache à calculer primes a l’aide d’esperance de ux en assurance non-vie
(conditionnelles a des variables tarifaires dans le chapitre ?? par exemple), nous
allons ici calculer calculer des grandeurs de la forme :
  Ck 
E 1( paiement à la date Ti 
 k 1 (1  i )
Tk

ou l’assureur s’est engage a verser un capital Ci a des dates Ti, a condition
qu’une hypothese soit veriee a la date Ti. Compte tenu de la linearite de
L’esperance, si l’on suppose le taux d’actualisation non aleatoire, on peut reecrire
Cette derniere expression sous la forme :

Ck

k 1 (1  i ) T k
P ( p a ie m e n t à la d a te Ti ).

La valeur actuelle probable s’ecrit, de maniere tres generale,

169
k C
 j  1 ( 1 
j P

i
j

) j

Où C  ( C 1 , . . . , C k ) est l’ensemble des montants à verser, i est est le taux


d’actualisation, et p  ( p1 ,..., pk ) est le vecteur des probabilite de verser le
capital aux dierentes dates.
Exemple 1.9 Le plus simple est probablement la valeur actuelle probable d’un
capital diere (pure endowment) k E x , correspondant a la valeur actuelle probable
d’un capital de 1 dans le cas où une personne actuellement âge x soit encore en
viea au bout de k annees, i.e.
1 1
k E  P (T  x  k / T  x ) 
(1  i ) k
(1  i ) kP x
Où k Px designe la probabilite qu’un individu d’âge x atteigne l’âge
x  k .
Exemple 1.10 Considerons le cas du versement d’une unite monnetaire,
commen cant dés aujourd’hui, et continuant tant que l’assure sera vivant (on
parlera d’annuite vie entiere). On supposera l’annuite payable d’avance. On peut
montrer que
 
1
a  
k0 (1  i ) k k P 
 
k0
k E

Plus gneralement, on veut considerer non pas des assurance annuelles, mais
temporaires, d’une duree de n annees, i.e.
n 1 n 1
1

a  
k  0 (1  i )
k
k p   
k 0
k E 

Notons que l’on peut egalement dierer de h annees,


n 1 n 1
1
h / n a    k p    k E 
k  0 (1  i )
k
k 0
Exemple 1.11 Comme precedament, le cas le plus simple est probablement
l’assuranc deces vie entiere, dont la valeur actuelle probable s’ecrit, pour un assure
d’âge x qui souhaite le versement d’une unite a la n de l’annee de son deces,
1 T   1 T   1
Ax  E    
 E / T  k  k  1Px 1q k 1
 1 i   k
 k 0  1 i  k 1 (1 i )
Plus generallement, on peut denir une assurance temporaire deces, ou le
versement du capital n’a lieu que si le deces survient dans les n annees qui suivent
la signature du contrat,

170
n
1
n A    k 1 (1  i ) k k 1 P  1 q x  k 1

Classiquement, si p k correspond à une probabilite en cas de vie, ils sont


estimes a partir des tables de mortalites. Une table de mortalite est souvent presente
comme le suivi d’une cohorte dans le temps, avec L 0 individus a la naissance.
L k
est le nombre de survivants au sein de la cohorte – à l’âge k . Dans les
exemples precedants, k p x
designe la probabilite qu’un individu en vie a âge x
soit encore en vie a l’âge x  k alors que kqx designe la probabilite qu’un individu
en vie a l’âge x ne soit plus en vie a l’âge x  k , (en gardant les notations
L  k
actuarielles, e.g. (3)). Classiquement, k q   alors que
L
L  L x  k
k p  .
L
1.5.2 Extension dans un cadre dynamique
Dans le cadre statique, toutes les grandeurs pouvaient être construites a partir
des L  , ou des 1 p  , , ou x etait l’âge des individus (au moment ou ils
souscrivaient une police d’assurance). Ici, nous allons integrer la dimension
temporelle, en notant qu’une table de mortalité est construite à une date t . Aussi,
formellement, on notera L  ,t le nombre de personnes d’âge x en vie a la date t
. Nous disposons ici de donnees francaises, avec la mortalite des femmes, des
hommes, et de l’ensemble, entre 1899 et 2005. Ici on dispose de D  ,t le nombre de
personnes decedee a l’âge x l’annee t , et E  ,t l’exposition. Pour commencer,
on peut visualiser l’evolution de la surface du taux de mortalite, an de mieux
comprendre la necessite d’une analyse dynamique de la demographie, ou
D
µ  ,t  x ,t

E  ,t
Compte tenu du lien entre le taux de hasard et les fonctions de survie, on peut
en deduire les fonctions de survie à la naissance (c’est a dire x = 0), La figure ??
permet d’ailleurs de visualiser la rectangularisation des fonctions de survie, en
fonction du temps, en faisant varier t

1.5.3 La lecture transversale des tables


En fait, cette lecture transversale des tables – bien que correspondant a ce que

171
nous avions fait jusqu’a present – ne paraît pas valide. Pour s’en convaincre, il sut
de regarder le diagramme de Lexis, de la Figure 1.4.
Aussi, an d e lire la fonction de survie pour un individu (ou une cohorte), on
ne lit plus la base par annee, mais suivant une diagonale.

1.6 Le modele de Lee & Carter


La modélisation retenue pour le taux instantané de mortalité est la suivante :
Inµ  , t       k t    t ,
avec les variables aleatoires « xt iid ; l’idee du modele est donc d’ajuster à la
série (doublement indicee par x et t ) des logarithmes des taux instantan es de
deces une structure parametrique (deterministe) a laquelle s’ajoute un phenomene
aleatoire ; le critere d’optimisation retenu va consistera maximiser la variance
expliquee par le modele, ce qui revient à minimiser la variance des erreurs.
On retient en general les deux contraintes d’identifiabilite suivantes
1 2 0 2 0 0 5


  0
   0 et 
t  1 9 0 0
k t  0 ,

L’estimation des parametres s’eéctue en r_esolvant (numeriquement)

ˆ , ˆ, kˆ   arg min (Inµ


,t
xt    kt )2 ,

Où   (   ) ,   (   ) Ces cooefficients sont représentés sur la


Figure 1.16.
Une fois l’ajustement réalisé sur les donn_ees disponibles, on peut réaliser des
projections de la mortalité future, c’est-à-dire du coefficient k t , comme sur la
Figure 1.17
On peut utiliser ces predictions (en l’occurence a l’aide d’un processus
ARIMA (1 ; 1 ; 0) pour predire l’evolution l’esperance de vie des assurés,………
…………
Mais au dela des travaux sur les µ  ,t , on peut également travailler sur une
modelisation des nombres de décés D  ,t . Et le modele de Lee & Carter (qui repose
sur une idee de modele Gaussien pour x ; t peut alors servir de base. L’approche
proposee par (4), (11), (6) ou encore (23) consiste a supposer (comme sur les
modeles de provisions) que l’on peut modeliser le nombre de decesa l’aide d’un
modéle GLM Poissonnien. Or compte tenu de l’analyse precedante sur les taux de
décés µ  ,t , il est legitime de considerer un modele
D  ,t P ( E  , t e x p  µ  , t  ) .

172
On considere alors une regression Poissonnienne, avec le logarithme de
l’exposition comme variable oset, mais compte tenu du modéle de Lee & Carter, il
ne s’agit plus d’un modéle GLM, les facteurs,  ,  e t k et
n’intervenant plus de maniere lineaire. Mais il est toujours possible d’estimer les
parametres à l’aide d’algorithmes numeriques.
Et de même que pour les modeles de provisionnement on peut alors
commencer une analyse des residus,

Figure 1.4 – Evolution de la vie des assures, sur un diagramme de Lexis,


avec en abscisse le temps calendaire, et en ordonnee l’âge des assures.
Les assures naissent a la date, et decedent a la date X.

173
Figure 1.5 – Nuage de points C . j  1
en fonction des C . j pour j  1, 2 , et droite de regression passant par l’origine.

Figure 1.6 -Ajustement lineaire sur le nuage  k , l o g (  k  1)  ,


avec une prediction pour k  5 .

Figure 1.7 – Histogramme et densité des residus (à gauche) et fonctions de repartition (à droite), avec
l’ajustement Gaussien en pointilles.

174
Figure 1.8 – Distribution du montant de provision R , avec le trait plein vertical correspondant a R ,
et en pointilles (quasiment confondus), le montant de provision donne par Chain Ladder. A droite est
indique le quantilea 95% de R (obtenu par simulation), en trait plein, avec le quantile Gaussien
donne par la methode de Mack (sous hypothese de normalite de R ), en trait fin.

Figure 1.9 – Distribution de R , avec trois methodes de generations de scenarios, i.e. suivant une loi
de Poisson, ou une approximation de la loi quasiPoisson par une loi Gamma).

175
Figure 1.10 -Evolution de la log-vraisemblance prolee en fonction de k (avec un lien logarithmique).

Figure 1.11 – Evolution du montant total de provision bR, en fonction de (avec un lien logarithmique).

Figure 1.12 -Surface du taux de mortalite, en fonction de l’annee d’observation, et de l’âge, µ  ,t .

176
Figure 1.13 – Taux de hasard x  µ  ,t en t  2000
pour les hommes et pour les femmes.

Figure 1.14 – Fonctions de survie (à la naissance), en t  2000 ,


x  Pt (T  x )    µ y , t  dy .
x
pour les hommes et pour les femmes, i.e.
 0 

177
Figure 1.15 – Rectangularisation des fonctions de survie _a la naissance, entre 1900 et 20000.

Figure 1.16 – Estimation des coecients ˆ  ( ˆ x ) et ˆ  (ˆx )

178
Figure 1.17 – Estimation des coecients kˆ  ( kˆ t ) pour t allant de 1900 a 2005,
et projection pour les periode allant de 2006 a 2100.

Figure 1.18 -Estimation des fonctions d’esperance de vie a l’âge x , a la date t = 2000.

179
Figure 1.19 – Evolution des résidus de Pearson sur un modèle Poissonnien, ˆ  , t ,
avec l’évoltion en fonction de l’âge x , à gauche, et de la date t , à droite.

180
Chapitre 2
Les modèles actuarielles

1. Du choix du modèle
« La gestion du risque, c’est d’indure nos manques de connaissance dans un
espace mesuré », nous rappelle Daniel Sibony68.En pratique, cela signifie que nous
sommes conduits à introduire des concepts, des hypothèses… pour pouvoir titre
des conclusions, Ces concepts ne pourront toutefois être considérés comme
objectifs que lorsqu’ils auront été entièrement reconstruits en termes opérations, ils
passent alors de l’état de concept mathématique à celui de concept » physique »69.
Dans le choix d’un modèle, il y a trois étapes principales dont les statuts sont
différents.
Le premier choix est épistémologique on décidé, par exemple, de recourir à un
modèle probabiliste, c’est-à-dire de considérer que les grandeurs observables (la
charge de sinistres, par exemple) ne sont que les transformées des grandeurs utiles
(la charge de sinistres moyenne) par l’intermédiaire d’un processus aléatoire (la
réalisation des sinistres) que nous modéliserons par une variable aléatoire Ces
décisions sont des décisions constitutives qui définissent le cadre général dans
lequel nous allons travailler et déterminent le chois des outils que nous allons
utiliser. Ce ne sont pas des hypothèses expérimentalement contrôlables. LA validité
de telles décisions réside dans la qualité des résultats obtenus a posteriori et après
avoir traité un grand nombre de cas. Qualité qui ne permet pas de conduire que la
décision est « vraie » mais seulement qu’elle est efficace.
Nous devons ensuite définir des hypothèses « physiques » sur le phénomène
que l’on analyse. On fera par exemple l’hypothèse que la charge aléatoire de sinistres
se décompose comme la somme des coûts aléatoires des sinistres, sinistres qui

68
Revue risque (Sibony D, 1990).
69
Estimer et cb*** page 44, op, cit

181
surviennent eux-mêmes selon un processus de Poisson. Ces hypothèses conduisent
au choix d’un modèle « générique » qui se différencie du précédent dans la mesure
où il repose sur des hypothèses « physiques » et objectivement contrôlables soit par
des tests, soit par d’autres méthodes, y compris le jugement des experts. Cette
seconde étape est la plus importante car c’est l’introduction de ces hypothèses
« physiques » et leur traduction en termes de modèle qui permettent d’apporter une
information positive non contenues dans les données numériques. Cette
information périment de tirer plus des données que ce qui y est réellement contenu.
La contrepartie de ce gain est le plus grand risque d’erreur, la vulnérabilité du
modèle.
Afin d’être plus fin dans l’analyse, cette étape peut être divisée en deux sous-
étapes.
– Le choix d’une famille de modèles générique : le processus de survenance des
sinistres est un processus ponctuel stationnaire, par exemple.
– Le choix d’un type de modèle particulier dans la famille : le processus
ponctuel est un processus de Poissions. C’est cette seconde sous-étape qui apporte
le plus d’information, l’indépendance du nombre de sinistres entre deux périodes
disjointes, et qui ouvre le plus de possibilités opératoires.
– La troisième et demiére étape est le choix des paramètres du modèle – la
fréquence dans notre exemple précédent – ou encore son inférence statistique.
– Une dérive que l’on observe souvent est la « surpondération » accordée à la
troisième étape. Or celle-ci n’est en général qu’une question de calcul numérique,
alors que le problème principal réside dans le choix du type de modèle dans la
famille générique.
– Notons enfin que dans la seconde étape il convient d’apporter une attention
toute particulaire à la définition précise des mesures que l’on effecteur. En effet, la
complexité des phénomènes étudiés fait qu’il n’est pas rare de croire mesurer une
chose et d’en mesurer une autre. La confusion entre la mesure de la corrélation
entre « coût des sinistres » et (fréquence » au niveau collectif (les jeunes ont des
coûts de sinistres plus élevés et plus de sinistres que les seniors) et au niveau
individuel (il existe une corrélation entre la variable aléatoire nombre de sinistres
et la variable coût des sinistres pour un individu donné) est une erreur fréquente.
Face à cette difficulté, nous recommandons d’avoir, en permanence, un regard
critique par rapport aux outils de mesure utilisés. Outre le fait de prévenir les
erreurs, la recherche du sens de la mesure, et l’interprétation des résultats pénètrent
de mieux expliquer, de communiquer les décisions prises à de non-spécialistes et
d’éviter ainsi les contresens, Un exemple intéressant pour illustre ce point est la
différence de perception du temps d’attente d’un métro entre l’usager et la RATP :
Cette différence n’est pas due à la subjectivité ou à la relativité du temps mais au fait

182
que l’usager et la RATP ne mesure pas la même chose : l’usager mesure le temps
entre l’instant où il arrive sur le quai et l’instant où le métro arrive, la RATP mesure
le demi-tems moyen entre deux rames.70

1.1 Variabilité endogène et exogène


Une des particulaires dans l’application des probabilités à l’assurance est que
les grandeurs individuelle utiles à l’assureur ne sont jamais observables.
On ne peut en observer que les réalisations, et ce, sur une période courte
relativement à la fréquence des événements étudiés. Ce faisant, il est impossible
d’appliquer la loi des grands nombres aux individus.
Aussi, lorsqu’on étudie un phénomène au niveau d’un ensemble d’individus,
la variance des observations par exemple ou encore la fonction de distribution
expérimentale, nous observons une superposition de deux effets : un effet endogène
qui correspond aux variations au niveau individuel liées au processus aléatoire et
un effet exogène qui correspond aux différences entre les individus, le premier étant
prépondérant sur le second.
Par exemple, si on s’intéresse à la variance de la charge de sinistres, cette
variance se décompose en deux tempes.71
– La variance endogène qui correspond au risque que l’assuré transfert à
l’assureur à travers l’acte d’assurance. C’est la raison d’être de l’assureur qui, en
regroupant un grand nombre de clients, diversifie ce risque voire l’annule.
– La variance exogène qui correspond à la différence de risques individuels
(espérance de la charge de sinistres de chacun des individus) entre les assurés. Cette
variance ne peut pas être diversifiée et conduit aux phénomènes d’anti-sélection.
Avec la part de la variance endogène qui est très supérieure à la part de la
variance exogène.
La segmentation (ou individualisation) permet de réduire la variance exogène
en la transférant vers la variance interclasse voire de l’annuler complètement

70
Aussi surprenant que cela puisse paraître, ces deux mesures différent. En effet, la RATP prend la
moyenne sur tous les intervalles entre deux rames affectant ainsi un même poids à chacun des
intervalles, l’usager lui ne mesure que les intervalles de son arrivée, ce faisant, dans le calcul de son
temps moyen, il surpondère les intervalles longs car sa probabilité d’arriver dans un intervalle est
fonction de la durée de celui-ci et obtient ainsi un temps supérieur à celui de la RATP. Qui a raisin§
Les deux, c’est une question de point de vue et de communication.
71
Pour un ensemble d’assuré i ayant une charge de sinistres probable ri de moyenne r, la variance
d’un assuré pris aléatoirement est
1 1 1
 2  E  R  r     E  ri  r      i2    ri  r 
2 2 2
le premier terme
  n i
  n i n i
correspond à la variance endogène et le second à la variance exogène

183
« (segmentation parfaire avec maximisation de la variance interclasse qui est alors
égale à la variance exogène) La variance endogène, elle, ne peut être réduite et
correspond à la variance intra-classe minimale. Le problème dans la pratique est
que les variances endogène et exogène nous sont inconnues, Il est donc impossible
de savoir si une segmentation est bonne ou mauvaise. Nous pouvons tout au plus
dire que telle segmentation est meilleure que telle autre, mais nous ne zadons pas si
elle est nettement meilleure ou si la différence est minime.
Ce problème est particulièrement dérangeant quand on veut par exemple
utiliser une méthode de scoring de risque. En effet, lorsque l’on veut tester le modèle
obtenu et que l’on analyse le taux de bien classé on obtient un taux faible souvent
inférieur à 55 % soit un résultat peu différent de celui obtenu avec un tirage
aléatoire ! En fait, on a deux sources d’erreur qui réduisent ce taux :
– Il y a les bons, qui sont, du point de vue de la variable utile (la prime pure),
réellement bon mais qui n’ont pas en de chance et qui, sur la variable observable (la
sinistralité) sont considérés comme mauvaise,
– Il y a les mauvais, qui sont du point de vue de la variable utile réellement sont
considérés comme bons,
Et la variabilité endogène étant prépondérante par rapport à la variabilité
exogène, ce type d’erreur est fréquent de sorte que les résultats du test sont mauvais
ou plus précisément difficiles à qualifier : à partir de quant doit – on accepter le
modèle ?
Pour répondre à ces questions, il faut trouver de nouveaux indicateurs qui ont
un sens opératoire. Dans le cas du sconing, il ne faut pas s’intéresser au résultat
individuel mais à des moyennes (par exemple la fréquence moyenne de chacune
des classes si on s’intéresse au nombre de sinistres).
Ce type de résultat est non seulement perturbant pour le starisation pas habitué
à ce type de phénomène72 mais aussi pour les personnes qui autant à l’utiliser car
elles auront l’impression que l’on joue le sort des dents à « pile ou face », ce qui
semble contraire au rôle de l’assureur et aux techniques qui sous-tendent son
activité.

1.1.3 Conclusion
Cette étude des probabilités, et plus particulièrement de l’actuariat, met en
avant le risque de dérive scientiste, au sens où assiste à un déploiement des
techniques les plus sophistiquées déconnectées de tout sens « pratique », métier,
Au-delà du risque d’erreurs lié au dépassement du seuil d’objectivité, une telle

72
Dans les exemples analysés durant les mèdes, il est fréquent d’avoir des taux de « biens classés »
supérieurs à 80 % De même, dans de nombreuse activité, les taux de « biens classés » sont élevés

184
pratique est de nature à renforcer l’opposition aux nouvelles techniques, tant vis-à-
vis du client final qu’en interne (distributeurs, commerciaux, salariés).
Le choix de modèles ayant des contreparties dans le monde réel permet de
donner un sens à l’approche proposée et ainsi d’établir des ponts entre le client en
tant qu’individu statistique et le client en tant que personne.
Le choix de modèles ayant des contreparties dans le monde réel permet de
donner un sens à l’approche proposée et ainsi d’établir des ponts entre le client en
tant qu’individu statistique et le client en tant que personne.
La mise en œuvre d’une telle approche permet à l’actuaire d’augmenter son
impact. En amont, elle le contraint à poser les problèmes d’un point de vue du
métier et non de la technique En aval, elle le contraint à poser les problèmes d’un
point de vue du métier et non de la technique. En aval, elle le contraint à formuler
ses recommandations en termes opérationnels. Ce processus lui permet de mieux
traiter les problèmes, de mieux contrôler la technique, de mieux communiquer, Ce
changement d’approche, de positionnement nous semble être un préalable à tout
développement des techniques actuarielles dans les entreprises d’assurance.

2. Modélisation de la prime pure


Après nous être intéressé à l’épistémologie, nous abordons maintenant la partie
plus technique de ce chapitre. Nous présentons un ensemble d’outils à l’intention
des praticiens actuaires pour qu’ils puissent construire des solutions.
La démarche que nous proposons s’inspire de l’analyse précédente. Elle repose
sur la modélisation des processus individuels et se différencie en cela des approches
classiques basées sur la théorie collective des risques73. Par comparaison, nous
proposons de qualifiait notre approche de « théorie individuelle des risques ».
Dans la partie précédente nous avons montré que, pour réussir à obtenir des
résultats qui vont au-delà des informations directement contenues dans les données
brutes, il fallait introduire de la connaissance.
Le premier niveau de connaissance que nous proposons d’introduire est les
séparations entre le type de variables explicatives du risque. En pratique, nous
disposons de deux grandes classes de variables :
– des variables exogènes, c’est-à-dire les informations relatives au risque (l’âge
de l’assuré, son activité professionnelle, la zone géographique de circulation, le
groupe et la classe de véhicule, le nombre de pièces de sa résidence…) à l’exclusion

73
Ces méthodes reposent sur l’analyse de la charge de sinistres au niveau de groupes d’assurés. Elles
peuvent alors s’appuyer sur la loi des grands nombres ou des approximations de cette loi si la
population du groupe est réduire Voir pour une étude détaillé (Daykin CD.1994, Cumins J-D-1980 ;
Harrington S.E, 1986 ; Couts S ; 1984 P-1980).

185
de toute donnée relative aux réalisations du risque ;
– Les variables endogènes, c’est-à-dire les informations relatives aux
réalisations du risque.
A ces deux types de variable correspondent deux niveaux de modélisation :
– L’analyse a prion qui utilise les variables exogènes et que nous présentions
dans le premier paragraphe ( cf .§ 2.1.);
– L’analyse a pesterions qui utilise les variables endogènes et que nous
présentions dans le deuxième paragraphe ( cf .§ 2.2.);
Ces deux niveaux sont complémentaires dans la mesure où l’analyse a
pesterions permet d’améliorer les estimations obtenues par l’analyse a priori est
« précise » (c’est-à-dire plus les classes sont homogènes) moins l’analyse a posteriori
a d’importance (c’est-à-dire moins la survenance de sinistres est révélatrice de la
qualité du risque). Ces interactions devraient conduire les actuaires à intégrer leurs
analyses dans une approche globale : une somme d’études éparses statistiques ne
donne pas un bon estimateur de la prime pure A défaut d’une telle approche, la
majorité des assureurs pratiquent une sous tarifications des assurés qu’ils
considèrent comme rentables et une sur sous-tarification de ceux qu’ils considèrent
comme non rentables, ainsi les résultats des assurés ayant un bonnes 50 se
détériorent alors que des courtiers spécialisés sur les « mallousés » arrivent à
dégager des marges importantes.
Les analyses a Prior et a posteriori reposent souvent sur des données de
sinistres non définitives : au moment de l’analyse nous ne connaissons pas tous les
sinistres et, même pour ceux ouverts, nous n’avons pas les coûts définitifs. Aussi,
pour terminer les analyses est-il nécessaire de caler les résultats sur la base des
charges estimées définitives. Nous abordons ce sujet dans le troisième paragraphe
( cf .§ 2.3.);

2.1 Modélisation a priori


Dans le paragraphe précédent, nous avons montré que, d’un point de vue
« physique », la modélisation de la prime pure se décomposait, d’une part, en la
modélisation de la survenance des sinistres et, d’autre part, en la modélisation des
coûts des sinistres. Nous allons détailler dans ce paragraphe les différentes
méthodes de modélisation de la fréquence (cf .§2.1.1.); et des coûts moyens
(cf .§2.1.2.). Nous consacrerons ensuite un paragraphe à la création de variables
composites (cf .§2.1.3.), comme par exemple les zones de tarification Enfin nous
comparerons les résultats obtenus avec des modélisations séparées des fréquences
et des coûts aux résultats avec une modélisation directe des charges (cf .§2.1.4.).

186
2.1.1 LA fréquence
Dans cette partie, nous analyserons le risque en termes de nombre probable de
sinistres au cours d’une période donnée pour chaque assuré.
Toutefois, alors que la grandeur utile pour l’assureur est la fréquence, l’unique
grandeur observable est le nombre de sinistres. Nous proposons donc une approche
probabiliste reposant sur la modélisation du processus de survenance des sinistres,
c’est-à-dire le processus qui transforme la grandeur utile en grandeur observable.
Nous partirons d’un modèle « Natural » simple, le processus de Poisson, que nous
enrichirons en fonction de la comparaison entre les propriétés obtenues avec le
modèle et l’observation.

Le modèle de Poisson
Un processus de Poisson est caractérisé par la fréquence de survenance des
événements74 (les sinistres dans notre cas). L’application de ce modèle à l’étude du
nombre de sinistres repose sur trois hypothèses « physiques » pour un client :
– Les nombres de sinistres sur deux périodes différentes sont des variables
aléatoires indépendantes ;
– Le paramètre du processus est entièrement caractérisé par les seules variables
exogènes.
Cela peut se traduire de faon intuitif comme suit : le client, caractérisé par les
variables exogènes, a un comportement constant dans le temps, connu et fonction
des seules variables exogènes.
Après avoir choisi un modèle pour le nombre de sinistres, il reste à définir la
fonction permettant de relier la fréquence aux variables exogènes. Les choix sont
multiples. Nous avons montré dans la première partie que la solution retenue était
un compromis entre la robustesse et le biais des estimations75. Aux deux extrêmes
de cet éventail nous avons :
– La fonction constante, elle donne un résultat robuste – un seul paramètre à
estimer – mais un biais important ;

74
Pour un processus de Poisson de paramètre  la loi du nombre de sinistres Nt sur une période t
est donnée par

 t 
u

P (N t  n)  ex p (   t )
n!
Le nombre probable de sistres est égal a  t correspond donc à la fréquence du processus.
75
La robustesse du résultat décroît avec le nombre de paramètres à estimer alors que la précision croît.
Néons ne revenons pas ici sur la question la fonction correspond elle à la réalité ou non ? Dans la
mesure où elle a déjà été traitée.

187
– La fonction définie par les fréquences observées pour chaque croissement
donne le « meilleur estimateur » en terme de biais, mais que cet estimateur est le
moins robuste : le nombre de paramètres à estimer est égal au produit des nombres
de modalités par critère, c’est-à-dire 1010 pour 10 critères avec 10 valeurs chacun.
Dans la pratique, la solution retenue est un moyen terme entre ces deux
extrêmes. Pour le choix de la fonction, nous distinguons deux niveaux d’analyse, le
choix des paramètres et la forme de la fonction relaient les paramètres aux
estimateurs des grandeurs utiles

Choix des paramètres :


L’objectif est d’adapter le nombre des paramètres à la taille du portefeuille afin
d’avoir une robustesse » satisfaisante » Ce nombre est caractérisé par l’ordre du
modèle, c’est-à-dire le niveau maximal des croisements entre variables : un modèle
est d’ordre 1 s’il ne retient que les effets directs (effet de l’âge du véhicule par
exemple), d’ordre 2 s’il retient les effets croisés deux par deux des variables (effet de
l’âge du véhicule croisé avec le mode d’acquisition du véhicule par exemple, etc76.
Étant donné le grand nombre de variables utilisées pour la segmentation des
risques, on ne retient en pratique que les modèles d’ordre 1 et on néglige les ordres
supérieurs, sauf cas particuliers. On ramène ainsi, pour l’exemple précédent, le
nombre de paramètres à estimer à 101 – une constante plus dix paramètres par
variable – ; le seul passage à l’ordre deux ajouterait 10  10  9  10 paramètres,
c’est-à-dire 9 000.
Dans la pratique, la frontière entre les différents ordres n’est pas aussi nette.
On peut en effet créer des variables exogènes composites par croisement des
variables de base et ainsi introduire un effet d’ordre deux dans un modèle d’ordre
177 Par exemple, le critère sexe du conducteur est fortement discriminant pour les

76
Par généralisation on dit qu’un modèle est d’ordre 0 s’il ne retient aucun effet (c’est-à-dire que les
variables explicatives ne sont pas discriminantes).
77
Une telle opération est importante si le tableau des fréquences par segment contient une quantifié
importante d’informations au sens de l’analyse des données. Pour appliquer une telle méthode il est
toutefois nécessaire que le tableau de contingence de la répartition des assurés soit indépendant. En
effet, dans le cas contraire, l’information observée serait un cumul de celle liée à la réparation des
individus et de celle liée à la prime pure Par exemple, si nous avons des assurés équi-répartis dont les
fréquences observées par segment sont données par :

Primes pures A1 A2 Total A


B1 30 180 108
B2 70 120 95
Total B. 50 105 100

La quantité d’information est de 2 025.

188
conducteurs novices, mais pas pour les conducteurs confirmés .Afin de tenir
compte de ce phénomène croisé, il est possible de créer une variable ancienneté de
permis/sexe comportant trois modalités : novices hommes, novices femmes et
confirmés.

Choix de la fonction :
Pour le choix de la forme de la fonction, il y a deux classes usuelles de modèles :
les modèles additifs et les modèles multiplicatifs, En assurance, les modèles
multiplicatifs sont les plus utilisées (Ajne B, 1985 ; Bailey R.A, 1963) dans la mesure
où, d’une part, ils sont contraints à la positivité et, d’autre part, ils correspondent
aux structures tarifaires pratiquées par les compagnies d’assurances.
Dans cette étude, nous utiliserons une famille plus générale (Box and Cox) qui
permet de passer continûment du modèle additif au modèle multiplicatif tout en
les contenant78 (Box G.E.P ; 1964 ; Harrington S.E., 1986).Cette famille donne de

En pratique, un moyen simple d’analyse des phénomènes croisés est de classer les modalités par
risques croissantes et d’étudier les fréquences observées par croisement deux à deux des variables
exogènes de vase. Si l’on observe une ligne ou une colonne pour laquelle les charges sont
significativement non croissantes, il peut être nécessaire de créer des variables composites.
78
Le risque r se met sous la forme
H H i

– dans le cas additif :   


i 1 j 1
c i, ji, j ;
n ni

 
i, j
– dans le cas multiplicatif :    i c, j ;
i1 j1

– dans le cas de la transformation de Box et Cox :


H Hi
   1     c i , j bi , j  1   C t B .
i 1 j 1

Où est égal à si, pour la variable le risque vérifie la modalité j (1  j  ni ) et 0 sin on


On retrouve le modèle additif en prenant pour la valeur 1 :
n ni
 1  i 1 j 1
c i , j bi , j

Et le modèle multiplicatif en faisant tendre vers 0 :


 1 n ni  n ni
In( )  In  1    c bi , j  
i, j
 0
  c i , j bi , j
  i 1 j 1  i 1 j 1
Soit en passant à l’exponentielle :
n ni
    i ,j ;j j , où i , j  exp( bi , j )
i 1 j 1

189
meilleures estimations des fréquences individuelles sans diminuer la robustesse du
résultat. En effet, les biais sont plus petits alors que le nombre de paramètres à
estimer n’augmente que de 1.
Le choix des paramètres et de la forme de la fonction induit des relations fortes
sur les estimateurs du risque individuel. Par exemple, la différence de la fréquence
estimée entre deux modalités d’une même variable, toutes choses étales par ailleurs,
est constante soit en unité dans le modèle additif, soit en pourcentage dans le cas
du modèle multiplicatif. Ces hypothèses peuvent être testées.
Pour un processus de Poisson avec fonction de lien de Box 2& Cox, nous avons
l’expression de la vraisemblance :
m
 kt k
L(n ,..., n / C1 ,..., Cm , t ,..., t )  
1 m 1 m
k
exp( k t k )
k 1 n
Où m est le nombre d’individus.
Si nous prenons le logarithme de la vraisemblance, nous obtenons :
m
L(n1 ,..., nm / C1 ,..., Cm , t1 ,..., t m )    nk In( k )   k t k   cste
k 1
Si maintenant nous introduisons la fonction de Box & Cox, nous avons ;
  k c ki , j  k
 
  bi , j 1   C kT B

      C k B  In (1   C k B ) 
k k T T

 
   1   C kT  

D’où les dérivées partielles du logarithme de la vraisemblance :


 l i, j n   t
m k k k

   ck
 bi , j k 1 1   CkT B

 l  1 k k   Ck B 
m T


   k 1  nk   t    In 1   C T
B  
1   Ck B
2 T k
 
Nous avons donc la propriété suivante :
Propriété : La solution B ,  du maximum de vraisemblance existe et
vérifie le système :

190
 i, j n   t
m k k k



( a )0  
k 1
c k
1   C T
B
; (i , j ),1  i  n,1  i  ni
k
 m
 (b )  ( n k   k t k ) 1  In (1   C kT B ) 
 k 1
De plus, pour toute valeur de a donnée, le système (a) admet une unique
solution.

Démonstration :
Existence – Étant donné le phénomène étudié, la survenance des sinistres, il est
possible de réduire l’espace à :

 
m
E    bik, j ,  ,1  i  n,1  j  ni ,    0,1 , 0   k  1
k 1
C’est l’intersection d’un nombre fini d’espaces compacts (images réciproques
d’espaces compacts par une fonction continue), c’est aussi un espace compact. Il
existe donc au moins une solution.
Unicité à a donné – nous avons :
 2 k k
 ck ck (1   )
i ; j u ,v

bi , j bu ,v (1   CkT B)2


d’où la dérivée partielle seconde du logarithme de vraisemblance :
 2l m
n k    k t k (1   )
   c ki ; j c ku , v 0
 bi , j  bu , v k 1 (1   C kT B ) 2
Quand   0 on retrouve le cas particulier du modèle multiplicatif :
m m

 cki ; j n k   cki ; j  k t k  (i, j ),1  i  n,1  i  ni


k 1 k 1
Cette expression traduit le respect des marges par le modèle, c’est-à-dire que
pour toute population associée à une modalité d’une variable, le nombre probable
de sinistres (grandeur utile) estimé avec le modèle est égal au nombre observé de
sinistres (grandeur observable)79 : le modèle à une contrepartie dans le monde réel

79
Dans le cas d’un modèle d’ordre 2, le système (1) devient
 ( i , j ),1  i , i '  n ,1  j  n i ,1  j'  n i
m m


k 1
c i; j
k c i ', j '
k  t k k
 k 1
c ki ; j c ki ', j ' n k

191
forte. dans ce cas, si nous remplaçons les fréquences individuelles par leur forme
multiplicative, la relation ci-dessus peut se mettre sous la forme :
m

c i; j
k nk
(i, j ),1  i  n,1  i  ni , i , j  m
k 1
u u1

c  l,pc t k
l ,p
i; j
k
k 1 l 1 p 1

Après l’initialisation des paramètres à 1, ce système permet de calculer les i, j de


manière itérative. Notons que le numérateur est égal au nombre observée de sinistres
pour les assurés vérifiant la modalité j pour la variable i, et que le dénominateur est
égal après l’initialisation des paramètres à 1 au nombre de véhicules/ année vérifiant
la modalité j pour la variable i le modèle à une valeur opératoire.
Pour illustrer cette méthode, nous allons reprendre l’exemple présenté ci avant
avec trois variables ayant chacune trois modalités. Pour la simulation considérée
dans cet exemple, nous avons les fréquences observées sur les marges suivantes :
Variable A Variable B Variable C
Modalité 1 5,2 % 5,6 % 4,9 %
Modalité 2 5,4 % 5,8 % 5,7 %
Modalité 3 7,6 % 6,7 % 7,5 %

Ce tableau montre que lorsque nous passons de la modalité 1 de la variable A


(A1) à la modalité 3 (A3) le rapport des fréquences observées est de 148 % Le ratio
de B3 sur B1 est de 119 % et celui C3 sur C1 de 153 % Si on considère que ces ratios
représentent les écarts relatifs entre modalités, nous avons, avec un modèle
multiplicatif, une amplitude entre les segments (A1, B1, C1) et (A3, B3, C3) de
270 % (produit des ratios). Cette amplitude est bien inférieure à l’amplitude du
modèle utilisé pour la simulation (509 %) : l’observation de marges ne permet pas
de se faire une idée de la réalité du risque segment par segment. Cette différence
s’explique par la répartition des individus dans les segments qui ait telle que l’on
tend vers la moyenne.
Par exemple, le tableau suivant
A1, B1 A2, B2 A3, B3 Total
C1 80 284 350 714
C2 243 529 140 912
C3 488 290 79 857
Total 711 1 003 569 2 283

La propriété des marges se généralise aux tableaux croisés, la fiabilité du résultat est proportionnelle
aux nombres de risques/année par case.

192
Montre que :
– Les individus du segment (A1, B1) sont majoritairement dans le segment C3,
ce qui tend à augmenter la fréquence de ce segment à fréquence moyenne plutôt
faible ;
– Inversement, les individus du segment (A3, B3) sont majoritairement dans
le segment C1, ce qui tend à diminuer la fréquence de ce segment à fréquence
moyenne plutôt forte ;
Entre ces deux extrêmes, les individus du segment (A2, B2) se répartisse ment
symétriquement par rapport à la variable C1.
Après une première itération nous avons les relativités (c’est-à-dire les
exponentielles des paramètres b) suivantes :
Variable A Variable B Variable C
Modalité 1 5,2 % 90,4 % 74,7 %
Modalité 2 5,4 % 97,7 % 97,7 %
Modalité 3 7,6 % 114,3 % 135,3 %

Soit une amplitude entre les deux segments extrêmes (A1, B1, C1) et (A3,
B3C3) de 335 %. Par rapport au modèle multiplicatif sur les marges brutes (270 %),
on observe que l’amplitude augmente. Elle reste toutefois inférieure à l’amplitude
réelle (509 %).
Après une seconde intégration nous obtenons :
Variable A Variable B Variable C
Modalité 1 4,6 % 85,0 % 71,0 %
Modalité 2 5,3 % 98,9 % 98,1 %
Modalité 3 8,5 % 120,1 % 139,8 %

Soit une amplitude entre les deux segments extrêmes (A1, B1, C1) et (A3, B3,
C3) de 537 % ; soit une amplitude proche du modèle sous-jacent.
Ce système met en évidence le processus qui permet de rendre robuste le
résultat. En effet, l’estimation d’une paramètre est obtenue en étudiant le nombre
de sinistres relatif à chaque modalité de chaque variable et non à chacun des
segments, On applique ainsi le « principe de mutualisation des risques » par
modalité : la robustesse est donc proportionnelle à la taille de la population vérifiant
cette modalité. Par ailleurs, la méthode permet, comme nous venons de le voir dans
l’exemple ci-dessus, de corriger les observations brutes de la distribution des
individus80

80
Pour vérifier cette propriété du modèle, nous avons repris l’exemple ci-dessus en modifiant la
répartition des individus. La nouvelle répartition a comme effet, non pas de réduire l’amplitude brute,
pais à accentuer les écarts :

193
A1, B1 A2, B2 A3, B3 Total
C1 740 457 114 1311
C2 429 515 229 1173
C3 257 457 457 1171
Total 1 426 1 429 800 3 655

Les individus du segment (A1, B1) sont majoritairement dans le segment C1,
ce qui tend à diminuer la fréquence de ce segment à fréquence moyenne plutôt
faible Inversement, les individus du segment (A3, B3) sont majoritairement dans le
segment C3, ce qui tend à augmenter la fréquence de ce segment à fréquence
moyenne plutôt des zones rurales et, d’autre part, les jeunes (A3) ont des véhicules
de rapport poids/puissance élevé (B3) et habitent plutôt des zones urbaines (C3)
Variable A Variable B Variable C
Modalité 1 4,1 % 4,1 % 3n5 %
Modalité 2 5,4 % 7,5 % 5,6 %
Modalité 3 10,8 % 8,2 % 8,8 %

Le ratio de A1 à A3 est de 262 % (contre 148 % avec l’exemple précédent), celui


B3 sur B1 est de 198 % (contre 119 %) et celui C3 sur C1 de 253 % (contre 153 %) ;
soit une amplitude entre les segments (A1, B1, C1) et (A3, B3, C3) de 1315 % (contre
270 %). Cette amplitude est bien supérieure à l’amplitude du modèle utilisé pour la
simulation (509 %). Après une itération, l’amplitude est de 707 % (contre 339 %)
nous observons le même phénomène, mais dans cet exemple il se traduit par une
diminution. après convergence, l’amplitude est de 543 % soit une valeur peu
différente du modèle (509 %). Si maintenant nous comparons les résultats obtenus)
après normalisation sur la modalité 1) sur les deux exemples, nous avons :

Variable A Variable B Variable C


ex1 ex2 ex1 ex2 ex1 ex2
Modalité 1 4,9 % 4,9 % 80,9 % 80,9 % 65,1 % 65,1 %
Modalité 2 5,7 % 5,7 % 95,4 % 97,6 % 91,1 % 94,9 %
Modalité 3 9,4 % 9,2 % 116,6 % 118,0 % 130,5 %130,4 %

Les résultats sont très proches : ils sont bien indépendants de la répartition des
individus.
Cette démarche itérative fondée sur une analyse des marges est très proche de
celle utilisée par les assureurs dans le passé lorsqu’ils ajustaient, variable par
variable, leurs cotisations en fonction des résultats de l’année, le modèle permet de
reproduire la pratique des experts en en améliorant l’efficacité. A terme, les
cotisations ainsi calculées tendaient vers la solution obtenue avec le modèle décrit
ci-dessus Si une telle approche était bien adaptée en période de stabilité du marché,
elle ne l’est plus en période d’évolution rapide : les assureurs ont besoin d’outils

194
d’analyse leur permettant d’être plus réactifs Ce modèle permet d’avoir
instantanément ce que les assureurs mettaient plumeur années à obtenir.
Inversement, cette adéquation entre estimation et observation pur les marge
peut conduire à prendre ce système comme définition même des estimateurs de
paramètres en l’absence de toute modélisations81. On retrouve un cas particulier de
la méthode des marges appliquée à la fréquence Cette approche peut être étendue à
l’estimation directe du coût de la matière première Van Eeghen) 1884 ; Bailey
R.A.1963).
Si nous revenons au cas général, nous n’avons plus le respect des marges.
Le modèle perd-il pour autant sa contrepartie dans le monde réel ? Nous En
effet, le système (a) peut se mettre sous la forme :
m
* k 1
 tk

bi, j
 n   k k
t   k2
k 1
Il est donc équivalent au système obtenu par la méthode des moindres carrés
généralisés. En fait, c’est une généralisation des équations des marges qui tient
compte de la variance des observations en accordant un poids plus important aux
observations les plus fiables. Cette solution a donc une contrepartie dans le monde
réel et permet, grâce à la pondération, d’améliorer le résultat.
Nous avons repris l’exemple précédent et analysé l’erreur quadratique entre
l’observation et l’estimation (racine carrée de l’erreur quadratique rapportée à la
fréquence moyenne) en faisant varier le paramètre  . Nous avons :

81
Une approche plus pragmatique consiste à définir la forme des estimateurs (fonction multiplicative,
par exemple) et les contraintes qu’ils doivent satisfaire (respect des marges). Dans ce cas, la partie
modélisation (le processus de survenance des sinistres est, pour un assuré, un processus de Poisson)
est inutile, L’adéquation entre les résultats obtenus par l’approche inductive et par l’approche
déductive montre la valeur opératoire de la modélisation d’une part, et permet d’expliciter les
hypothèses sous-jacentes que doit vérifier le phénomène pour que la solution inductive soit
« optimale » d’autre part Quatre cette validation croisée, l’approche déductive peut permettre d’avoir
des conditions d’existence ou d’unicité.

195
Nous avons un optimum pour   0, 38 Si nous comparons les estimations
obtenues avec les modèles additif (  1), multiplicatif (  0) et de Box &
Cax(  0, 38),

Nous observons un meilleur ajustement aux observations, et ce, sans perdre en


robustesse (un seul paramètre supplémentaire à estimer).
Enfin, par rapport à une formule des marges, la modélisation par un processus
de Poisson permet d’avoir une estimation de la décomposition entre variance
endogène et variance exogène du phénomène. Ces deux variances peuvent être
comparées aux variances intr-classes et interclasses et ainsi avoir une estimation de
la qualité de la segmentation En effet, le ratio.
ˆ endogéue
2
ˆ k
s  
var( N k  ˆ k ) var( N k  ˆ k )
Est compris entre une valeur minimale (EN/var (N) qui est le ratio en absence
de segmentation) et 1, la valeur 1 correspondant à une segmentation parfaite. On
en déduit un coefficient de mesure de la qualité de la segmentation :

196
  
Q  s 0

1   0
Où  0 est le ratio en absence de toute segmentation.
Dans l’exemple précédent la valeur de  est, en absence de toute
segmentation, de 98,8 % Avec une segmentation avec les trois variables A, B et C et
le modèle de Box ans Cox, le ratio est le 99,48 % : cette segmentation permet
d’expliquer 61,1 % de la variance exogène (0,68 % sur 1,2 % explicable). Cet
indicateur périmer de comparer les différentes segmentations :
Segmentations B&C B&C B&C Additif multiplicatif
1 variable 2variables 3 variables 3 variables 3 variables
Qualité 3,0 % 23,6 % 61,1 % 95,5 % 60,5 %

Nous observons que,


– Pour une méthode donnée, la qualité augmente avec le nombre de variables
utilisées pour la segmentation ;
– Pour un nombre de variables donné, la qualité peut varier fortement, Nous
retrouvons que la meilleure segmentation est obtenue avec le modèle de Box ans
Cox, que le modèle multiplicatif est légèrement en retrait et que le modèle additif
est légèrement derrière.
Cet estimateur de la qualité est toutefois peu robuste avec des échantillons de
petite taille.

Le modèle de Poisson à paramètre aléatoire


En pratique, lorsque l’on utilise le modèle de Poisson, on constate que la
variance intr-classe est supérieure à la fréquence (ou moyenne). De même, l’analyse
de la sinistralité montre que les assurés qui ont eu des sinistres ont plus de chance
d’avoir de nouveaux sinistres, Ces observations sont contraires aux hypothèses du
modèle de Poisson égalité entre la variance et l’espérance, indépendance entre deux
périodes disjointes. Aussi, comment concilier ces expériences importantes pour
l’assureur et le modèle ? Doit-on rejeter ce dernier ?
Nous pensons que cet écart entre les propretés du modèle de l’observation est
dû à une hypothèse trop forte sur les fréquences individuelles des assurés : il est
illusoire de penser que l’on puisse attribuer à chaque assuré sa « vraie » fréquence à
partir des seules variables exogènes. Du point de vue du modèle, cela revient à dire
que la fréquence n’est plus une grandeur déterministe parfaitement déterminée par
les variables exogènes, mais qu’elle dépend de chaque individu .Du point de vue du
modèle, cette indétermination fait que l’on observe dans chaque segment une
variance exogène. Pour intégrer le fait que nous ne connaissons pas la fréquence

197
individuelle dans la modélisation, nous devons faire une hypothèse
supplémentaire : les fréquences individuelles d’un segment se répartissent selon une
distribution correspondant à une variable aléatoire  dont la moyenne  est
complètement déterminée à partir des variables exogènes. Les fréquences
individuelles peuvent alors être modélisées par des variables aléatoires
indépendantes et identiquement distribuées de loi  82.
Sous cette hypothèse, le processus de survenance des sinistres d’un assuré
donné est toujours un processus de Poisson, ce sont les fréquences individuelles qui
sont des réalisations d’une variable aléatoire (Dionne G, 1997 ; 1989 1988 ;
Lemaire), 1985 ; 1995).
D’un point de vue pratique, cela revient à faire l’hypothèse suivante ; « le
comportement de l’assuré est constant dans le temps, comme avec le modèle de
Poisson, mais son comportement est inconnu » ; ce n’est pas la fréquence
individuelle (grandeur caractéristique du risque( qui change au cours du temps,
mais l’estimateur de cette fréquence ,c’est-dire la connaissance que l’assureur en a
(voir le paragraphe sur l’analyse a posteriori). Grâce à cette généralisation, nous
avons réconcilié la réalité de l’assureur avec le modèle.
L’introduction de l’hypothèse selon laquelle les fréquences individuelles
suivent des lois gamma se traduit, pour l’analyse du risque, par une décomposition
de l’estimation de la fréquence en deux étapes.
– L’estimation des paramètres )moyenne et variance) de la loi de la fréquence
individuelle )en tant que variable aléatoire( est obtenue à partir des variables
exogènes. Nous obtenons ainsi le meilleur estimateur a priori de la fréquence.
– L’estimation, connaissant la loi de la Fréquence, de la fréquence individuelle
)grandeur déterministe), est obtenue à partir des variables endogènes, c’est-à-dire à
partir d’une réalisation du risque. C’est le meilleur estimateur a posteriori de la
fréquence que nous analyserons plus bas dans le paragraphe relatif à l’analyse a
posteriori.
La deuxième étape de cette généralisation est le choix de la loi de la variable
aléatoire Fréquence individuelle, afin que le modèle soit opératoire, nous nous
sommes limités à la famille des lois gamma83. La moyenne de la loi  s’exprime,

82
La spécification complète du modèle comprend la définition de la loi du paramètre du processus de
Poisson, c’est-à-dire de la loi que suit la variable aléatoire  . Le choix de cette loi n’est pas neutre :
une loi ne chargeant que la moyenne redonne le modèle de Poisson par exemple De plus, la loi est
contrainte, d’une part, par le fait qu’une fréquence est positive et, d’autre part, par son caractère
opératoire. Enfin, la recherche de cette loi doit être guidée par le souci d’améliorer l’estimation de la
fréquence individuelle.
83
Nous avons choisi la famille des lois gamma dans la mesure où elles :)

198
comme dans le cas du processus de Poisson, à partir des seules variables exogènes
par une transformation de Box et Cox, la variance relative est supposée constante
dans toutes les cases et égale à 1/****** et donc indépendante des variables exogènes.
Cette généralisation n’introduit qu’un paramètre supplémentaire a (on retrouve le
modèle de Poisson quand la variance de la loi de la fréquence individuelle  tend
vers 0 c’est-à-dire lorsque a tend vers l’infini).
La densité de la Fréquence  s’exprime de la manière suivante.
a u
a u  a 
f ,u (u)    esp   u 
   (a)   
Sous ces hypothèses, le nombre de sinistres survenus pendant un intervalle
d’emps t se met sous la forme :
u a
 t   a  (n  a)
P ( N  n)     
 a   t      t   ( n  1)  (a)
N suit donc une loi binomiale négative de moyenne t et de variance :
 a  t 
 2
 t 
 a 
A partir de ces-hypothèses, nous pouvons étudier les proprets du modèle la
vraisemblance admet comme expression :
Rk a
  ktk  
m
a  (n k  a)
L( n ,..., n )   
1 m
k k   k k 
k 1  a   t   a   t   ( n  a ) ( a )
k

Soit en passant au logarithme :


m
  ktk   a   (n k  a )

L ( n 1 , ..., n m )  In  k k 
 aIn  k k 
 In cste
k 1 a t  a t   ( n k  a ) ( a )
Par dérivation du logarithme de la vraisemblance, nous obtenons :

– vérifient la contrainte de positivité ;


Permettent des calculs simples ;
Permettent d’avoir une meilleure adéquation entre les propriétés du modèle et les observations.
D’autres modèles ont été proposée (Pinque J, 1998 ; walhin J.F. 2000) Par exemple, la loi Gamma peut
être généralisée en prenant la loi Inverse Gaussienne (étudiée dans organsin B, 1982) Bien que cette
loi semble mieux adaptée (Besson J.L, 1992) il nous paraît toutefois difficile de l’utiliser, vu la
complexité des formules obtenues en l’absence même de variables de segmentation. En fait, ces autres
modèles n’abordent pas la question de l’estimation de fréquences a priori mais seulement la mesure
de l’impact de la sinistralité sur les fréquences a posteriori, or les deux approches ne peuvent pas être
séparées dans la mesure où les résultats de la seconde dépendent de la première.

199
 l m
a nk   ktk

 b
  c i, j
k
1   C T
B a   k k
t
 i , j k  1 k
 l 1 m n k   k t k   C kT B 

  2 
 k  1 a   k t k  1   C kT B
 In 1   C T
B  
 
k


 l  
   n  t 
k k k
m
mi a
  In  k k 

  a k 1 a  i  1  a t  a   k t k 

Où m i est le nombre d’individus ayant eu au moins i sinistres


Nous avons donc la propriété suivante :
Propriété : LA solution ( B ,  , a ) du maximum de vraisemblance existe et
vérifie la système :

 m
a nk   kt k
 ( a )0   c i, j
k
1   C T
B a   k k
t
;  (i , j ),1  i  n ,1  i  ni
 k 1 k

 a m nk   kt k
 (b )0  2  k k 
1  In (1   C kT B ) 
  k 1 a   t
 mi m
  a  n  t 
k k k
 ( c )0    In  
 a  i  1 k 1   a   k t k  a   k t k 
De plus, pour tout couple ( , a) tel que a / ( a  1)   , la vraisemblance
admet une unique solution.
Démonstration :
Existence-Étant donné le phénomène étudié, la survenance des sinistres, il est
possible de réduire l’espace à :
E  E   0,  
De plus, l’intersection de E’ avec l’hyperplan **** est un espace compact : il
existe donc un maximum au moins Unicité – par dérivation seconde du logarithme
de la vraisemblance nous obtenons.
  kt k  k k  a 
nk    k k 
 t   
 2l m
a  a t  a t
k k

  cki , j ckn ,r
bi , j bn ,r k 1 a t
k k
(1   Ck B)
T 2

200
Si le couple ( a , a ) tel que a / ( a  1)   , nous avons :
 a 
 k ,      0
 a  
k k
t 
d 'o ù :
 2
/ l
 b i , j  b n ,r

Remarques : dans le cas du modèle multiplicatif (  0) ou dans le cas du


modèle de Poisson ( a   ), la relation a / ( a  1)   toujours satisfaite,
Propriété : Si la variance intra-classe expérimentale est supérieure à la
moyenne, c’est à-dire si
m 2 m

 
k 1
k
n k
  
k 1
nk

Alors la système admet au moins une solution en a


Démonstration :
A au voisinage de 0, nous avons :
l m

a
 m 1  
k 1&
I n ( a )   (1 )

d 'o ù
l
lim   
a  0 a

b – au voisinage de l’infini, nous avons.

 i 1  m  n   t  1   ktk    1 
2
l m
m k k k
 i 1     1      0 2 
a i 1 a  a  k 1  a  a  2  a    a 

D’après la définition des m i nous avons
l 1 m
 1 

a 2 a 2
   n
k 1
k
  k t k   n k   0  2 
a 
Si la condition est satisfaite, nous avons :
l 1 m 1
 2   nk   k t k   nk   0  2 
2

a 2a k 1   a 
 l
l i m  0
c    a

201
La fonction s’annule donc au moins une fois. Le premier 0 en partant de 0 est
un maximum (la fonction dérivée est décroissante).
Remarque :
– La condition suffisante correspond à une des observations qui conduisent à
rejeter le Processus de Poisson (la variance intra-classe est supérieure à la
moyenne), cette condition n’est donc pas limitative.
– La condition suffisante est déontique à celle utilisée dans la méthode des
moments. en effet, l’estimateur de a par cette méthode est.
m

 k
tk
a  m
k 1

   n   n k 
2
k
  ktk
k 1 
Estimateur qui est positif si la condition est vérifiée.
Propriété : pour tout couple (B, a) fixé, la vraisemblance admet au moins un
maximum sur l’intervalle  0, a / ( a  1) 

Démonstration :
Ce résultat est une conséquence directe de la compacité de l’intervalle.
Si nous nous limitions au cas du modèle multiplicatif où les estimateurs des
fréquences sont des fonctions multiplicatives des paramètres (Dionne G ; 1988 ;
1989), le système (a) précédent devient :
m
a
0   cki , j
a t k k n k
  k t k  ;   i, j  ,1  i  n,1  i  ni
k 1
Ce système est une généralisation du système des marges, il pondère les
k2
observations par p  a / (a   t )   /  . Les système est équivalent à :
k k k k

m
 k
 b  k2
n k
  k t k   0;   i , j  ,1  i  n ,1  i  n i
k 1 i, j

C’est le système obtenu par la méthode des moindres carrés généralisés lorsque les
variances intra-classe sont connues.84 Bien que la généralisation du modèle de Poisson
ne vérifie plus la propriété des marges (c’est-à-dire que le nombre observé de sinistres
ne soit pas ici égal au nombre prévu de sinistres pour chaque modalité de chaque
variable), les estimateurs obtenus sont « meilleurs » dans la mesure où les observations
les plus fiables85 ont un poids plus important. Ce modèle a une contrepartie dans le
monde réel et un sens opératoire. Notons que le modèle linéaire généralisé permet de

84
Cette propreté est aussi vérifiée dans le cas général
85
Une observation est d’autant plus « fiable » que la variance de la variable aléatoire associée est faible

202
traiter directement ce cas. Nous recommandons cependant notre approche car :
– Elle donne une solution explicite au problème qui permet d’analyser le sens
« physique » du modèle et donc d’en contrôler la validité ;
– Le modèle linéaire généralisé utilise un coefficient d’over-dispersion
correspondant à la variance intra-classe exogène résiduelle qui, dans certain cas,
peut être inférieur à 1 et correspondre alors à une Under dispersion dont le sens
pratique nous échappe.
– Toutefois, une fois le modèle défini et les équivalences établies, il est possible
d’utiliser le modèle linéaire généralisé comme solution opératoire de calcul et ainsi
bénéficier de logiciels
– préprogrammé.
Nous avons repris l’exemple précédent et avons calculé les estimateurs.
Nous avons obtenu une estimation de a égale à 15,1. Maintenant si nous
analysons les estimations des fréquences par segment nous ‘observons pas de
différences par rapport au modèle de Poisson simple (la valeur de a est importante).
Le paramètre a Péret toutefois de comparer les différentes segmentations, En
effet, plus il est grand moins la variance intra-classe est grande et donc plus la
segmentation est bonne. Si nous reprenons l’exemple précédent nous trouvons :
Sans Box and Cox avec Additif Multiplicatif
Segmentation 1variable 2variables 3varibables 3variables 3variables
a 5,3 5,5 7,2 15,1 14,4 14,8

Nous avons simulé un second exemple similaire au précédent mais dans lequel
les fréquences par segment ne sont plus constantes (elles sont obtenues par tirage
aléatoire selon une loi uniforme). Dans ce second cas, nous avons comme
estimation de a 1,9 ce qui correspond à une forte variance intra-classe (53 %)
toutefois, même avec une telle valeur du paramètre a, on observe peu de différence
entre les estimations de la fréquence avec le modèle de Poisson et celles avec le
modèle de Poisson à paramètre gamma (différence moyenne inférieure à 0,5 % et
différence maximale inférieure à 1 %). En fait le paramètre a caractérise la longueur
de la queue de distribution de la variable aléatoire nombre de sinistres. si nous
analysons la distribution des individus en fonction des sinistres nous observons que
quand a diminue le nombre d’individus sans sinistre augmente ainsi que le nombre
d’individus ayant 2 sinistres et plus en revanche, le nombre d’individus ayant 1
sinistre diminue.86

86
Pour avoir une estimation précise de a, il faut que le nombre de sinistres soit important afin d’avoir
suffisamment d’individus ayant au moins 2 sinistres C’est pourquoi, il est important de faire
l’hypothèse que a est indépendant des variables exogènes.

203
Nombre Modèle de Poisson aléatoire Simulation
Sinistres a a  15,1 a  1, 9 1 2
0 7 533 7 534 7 541 7 537 7 452
1 451 449 436 446 433
2 16 16 22 17 25
3 et + 0 1 1 0 0
Total 8 000 8 000 8 000 8 000 8 000

En conclusion,
– les estimateurs a priori des fréquences varient peu avec le modèle de Poisson
à paramètre aléatoire par rapport au modèle de Poisson simple ;
– le paramètre a est stable par rapport à la fonction de transformation
multiplicatif, additif ou Box & Cox), il caractérise la longueur de la queue de
distribution des individus en fonction du nombre de sinistres.
– Quatre la prise en compte de la longueur de la queue de distribution,
l’hypothèse portant sur les fréquences individuelles permet, pour une segmentation
donnée, de scinder la variabilité des fréquences individuelles (variance exogène) en
deux termes :
– La variabilité des fréquences individuelles à l’intérieur des classes variance
exognée intra-classe), elle est égale à la variance de la variable aléatoire fréquence,
c’est-à-dire à 1/a en valeur relative.
Dans notre premier exemple, l’utilisation de cette méthode (Q2) permet
d’estimer la qualité de la segmentation Nous avons :
Qualité de la B&C B&C Additif multiplicatif

Segmentatio 1 variable 2varialbes 3 variables 3 variables 3 variables


ns
Q2 2,9 % 23,0 % 60,1 % 58,8 % 59,3 %

Q1 3,0 % 23,6 % 61,1 % 59,5 % 60,5 %

Nous retrouvons des résultats très proches de ceux obtenus avec la méthode
proposée dans le cadre de l’étude du modèle de Poisson87 Si maintenant nous
analysons la qualité de la segmentation dans le cas de la simulation 2 obtenue avec
le modèle de Box & Cox et 3 variables, nous avons seulement 20,9 % cette faible

87
On montre (Boulanger F, 1993) que les méthodes de recherche de variables de segmentation
reposant sur la maximisation de la variance exogène expliquée par le modèle, c’est-à-dire la
minimisation de la variance exogène intra-classe, sont équivalentes aux méthodes classiques de
l’analyse de la variance, L’avantage de la variance exogène est de produit des mesures « absolues »

204
qualité s’explique par la variance intra-classe importante.
Une mesure moins précise, mais plus simple, de la qualité de la segmentation
consiste à calculer le rapport entre la valeur de a obtenue en l’absence de
segmentation et celle obtenue après. Ce rapport est compris entre 0 et 1 ; valeur 0
correspond à des classes parfaitement homogènes (variance exogène intra-classe
nulle), la valeur 1 correspond à une segmentation n’ayant aucun rapport avec le
risque.
Dans l’exemple de la première simulation, nous obtenons :
Qualité de la B& C B&C B&C
Segmentation 1 variable 2 variables 3variable
Simulation 1 96,4 % 73,6 % 35,1 %
Simulation 2 94,2 % 86,1 % 68,1 %

Conclusion
La modélisation de la survenance des sinistres par des processus de Poisson
permet d’obtenir une suite de solutions ayant toutes une contrepartie dans le
monde de l’assureur. Le modèle de Poisson simple permet d’obtenir l’égalité sur les
marges entre l’observation et l’estimation.
Le modèle de Poisson à paramètre aléatoire permet de rendre compte du
principe » qui a eu des sinistres aura des sinistres », principe important pour
l’assureur. Mais il modifie la propriété sur les marges sans, cependant en changer le
principe.
Par ailleurs, l’utilisation de ces modèles permet d’avoir une mesure absolue de
la qualité de l’estimation. Mesure qui permet, non seulement de comparer des
segmentations, mais aussi de dire si telle ou telle segmentation est bonne ou non
Enfin, avec le modèle de poisson à paramètre aléatoire, il est possible d’inscrire
l’approche dans une démarche globale et cohérente incluant l’analyse a posteriori,
c’est ce qui en fait le principal intérêt.

2.1.2. Le coût moyen


L’étude des coûts nécessite une analyse pré préalable beaucoup plus fine ; s’il
est simple de calculer le nombre de sinistres, il est beaucoup plus difficile d’en
définir les coûts Voici quelques exemples des questions qui se posent
Faut-il ignorer les frais de gestion liés aux règlements des sinistres ?
Comment traiter les sinistres réglés dans le cadre des conventions :
Convention automobile des sinistres matériels (IDA) ou la convention des
sinistres Dégâts des Eaux en assurance habitation ? Que faire des coûts négatifs que
les conventions induisent ?

205
Comment traiter les sinistres sans suite ?
Comment tenir compte de la cadence de règlement ?
–…
Le tout doit par ailleurs être cohérent avec les choix faits pour l’étude des
fréquences.88
La deuxième difficulté de l’analyse des coûts réside dans la plus grande
variabilité du risque (la variance peut être infinie) associée à des échantillons de
taille plus réduite89. Cette variabilité se décompose en un terme endogène de nature
purement aléatoire et un terme exogène lié au risque ; la part de l’aléatoire est, plus
encore que dans le cas de la fréquence, prépondérante. Les grandeurs observables
sont les coûts des sinistres, les grandeurs utiles sont les coûts probables.
La troisième difficulté réside dans le fait qu’il n’existe pas, à la différence de ce
qui se passe pour le processus de survenance des sinistres, de lois « naturelles »
permettant de modéliser le coût des sinistres90.
Nous proposons une approche paramétrique fondée sur la famille des lois
gamma et leurs dérivées, qui, même si elles ne sont pas parfaitement adaptées aux
observations, sont toujours préférables aux lois normales dans la mesure où, d’une
part, elles intègrent les modèles paramétriques classiques.91 Et où, d’autre part, elles
sont contraintes à la positivité Ainsi notre approche permettra d’obtenir de meilleurs
estimateurs. Enfin, les équations obtenues sont une généralisation de la propriété des
marges avec intégration d’un écrêtement et d’un écangage. Le modèle à une valeur
pratique et les résultats obtenus ont une contrepartie dans le monde réel.
Nous présentions dans une première partie le modèle gamma puis l’élargissons
dans une seconde partie afin que le modèle puisse s’adapter à tout type de
distribution, y compris celles avec une queue de distribution longue.

88
Pour mieux maîtriser ces difficultés dans le cadre de l’élaboration d’une structure tarifaire, il est
intéressant de séparer, d’une part, l’estimation des niveaux relatifs par segment, et d’autre part,
l’estimation du niveau de référence (le coût de la matière première moyen du portefeuille), laquelle
relève d’une approche globale.
89
Une des questions posées par cette variabilité est : comment doit-on traiter les sinistres graves ? à
partir de quel niveau doit-on les écrêter ? et comment mutualiser les crêtes ?
90
Notons qu’ils est possibles de lever, pour partie, ce problème en utilisant comme loi la répartition
expérimentale de tous les sinistres et en considérant que celle d’un assuré se déduit de celle-ci par une
transformation simple (méthode de l’échantillon saturé). Toutefois, nous sommes réservés sur une
telle approche dans la mesure où la loi d’une variable aléatoire obtenue par le mélange (loi globale) de
variables aléatoires (lois individuelles) ne se déduit pas simplement des lois individuelles (voir ci-après
le modèle gamma à paramètre aléatoire). Pour qu’une telle approche soit applicable, il faut que les
risques soient relativement homogène.
91
Comme nous projetons les observations sur un sur-espace (la loi normale est un cas limite des lois
gamma) les estimations obtenues ne peuvent être que meilleures.

206
Le modèle gamma.
L’hypothèse de base est que le Coût des sinistres suit, pour un assuré donné,
une loi gamma (Berg P, 1980b) L’expression de sa densité est donc :
r
1 r  r  r 1
f (x) 
X
s, f   exp     
( r )  s   s 
Où s est le coût moyen ( s  E  X ),
 1 Var(X ) 
r est l’inverse de la variance relative du coût 
 r
 

E X 
2
 
Le modèle est un modèle d’ordre 1 (afin d’assurer la robustesse des
estimateurs) de type multiplicatif avec un écart type relatif intra-classe indépendant
des variables exogènes (afin de simplifier les calculs et de rendre l’estimation des
variances plus robuste).Nous avons donc :
rk  r
 nr ni

s k  exp    c ki , j d i , j   e x p ( C kT D )
 i j 

Où Ck  c 
i , j 1 i  u i
k 1 j  u est le codage du risque associé au sinistre k,
i
1 i  u i
D  (d i, j ) 1 j  u i Est le vecteur des paramètres.
Sous ces hypothèses, la solution obtenue par le maximum de vraisemblance est
donnée par le système suivant :
m
xk
 cki , j
k 1 sk
 m si , j  i ,1  i  ni ,  j ,1  j  ni

Où m i est le nombre de sinistres ;


x k est le coût du sinistre k ;
msi, j est le nombre observée de sinistres pour les assurés vérifiant la modalité j
pour la variable i.
Ce système s’interprète comme suit pour chaque modalité de chaque variable,
la somme des rapports entre le coût observé (grandeur observable) et le coût prévu
(grandeur utile) est égal au nombre observé de sinistres, soit incère : la moyenne
des rapports est égale à 1
Ce systèmes s’interprète comme suit : pour chaque modalité de chaque
variable, la somme des rapports entre le coût observé (grandeur observable) et le
coût prévu (grandeur utile) est égal au nombre observé de sinistres, soit encore : la

207
moyenne des rapports et égale à 192. Le modèle a une valeur pratique.
Ce système peut encore se mettre sous la forme :93
m
xk  sk
 cki, j
k 1 sk
 i, 1  i  ni , j,1  j  ni 2

Démonstration :
Sous les hypothèses ci-dessus, la vraisemblance est égale à :
r
rr  1  m1
 xk  k 1
L( x / r, D, Ck ;1  k  ms )  
k
 k exp  r k x
k 1 (r )  s   s 
Par passage au logarithme, nous obtenons :
mi
xk  xk 
L( xk / r, D, Ck )   r s k
 rIn  k   In ( x k )  rIn ( r )  In (  ( r ))
k 1 s 
D’où par dérivation :
 l mi
i, j  x  s 
k k


d
  ck r 
s k  i,1  1  i  n ,  j ,1  j  ni
 i , j k 1  

 l mi  x k   x k  s k  (r )
   In 
r k 1  s   s k    k   In ( r ) 
(r )
 
D’où le système :
 mi
i, j  x  s 
k k

 ( a )  ck r  k   0 i,1  i  n ,  j ,1  j  ni
 k 1  s 


mi
 xk  (r )
 ( b )  In  k   In ( r ) 
(r )
0
 k 1 s 
Dans le cas où les variances relatives intra-classe sont constantes et connues
(hypothèse du modèle) le système (a) se met sous la forme :

92
C’est une propriété des marges appliquée aux rapports.
93
Cette forme est voisine de celle du système obtenu avec la méthode des moindres carrés. Par rapport
à ce dernier, le système obtenu accorde à chaque observation un poids inversement proportionnel au
carré du coût probable estimé. Nous avons la relation suivante.
m
xk  sk m
 1 
 c i, j
k   c ki , j  x k  s k  s k  k 2 
k 1 sk k 1      s 
¨ s o lu tio u d e s m o in d r e s c a r r é
Sous h’hypothése « la variance relative est constante » la variance est proportionnelle au carré de
l’espérance et le poids inversement proportionnel à la variance. La solution est donc « meilleure »,
puisqu’elle accorder un poids plus important aux observations les plus fiables (celles à à faible
variance) : c’est la méthode des moindres carrés généralisés.

208
mi
 x k  s k  s k
 
k 1 
2 
 k  d i , j
 0  i ,1  i  n ,   j ,1  j  n

Il est donc bien équivalent au système obtenu par la méthode des moindres
carrés généralisés.
Propriété : pour tout r positif le système (a) admet une et une seule solution,
Démonstration :
1 – Unicité de la solution
Par dérivation seconde nous obtenons :
 2l r
   c ki , j c kH , p k 2  0
d i, j d i, j s
Il en résulte que, pour toute valeur de r positive, la fonction est une fonction
concave de D ; le maximum est donc, s’il existe, unique (à un coefficient de
proportationnalité prés).
2 – Existence d’une solution :
Les paramètres s k vérifient :
lim s k
  
D  

D’où un équivalent de au voisinage de l’infini :


mi
l   r  In ( d k )  0(1)
k 1
Le logarithme de la vraisemblance vérifie donc
lim l   
D  

Il existe donc x tel qui


D , D  X , l (D)  l(1,...,1)  1
L’ensemble défini par
E   D / l ( D )  l (1,...,1)  1
est donc un ensemble compact non vide ; le logarithme de vraisemblance
admet donc au moins un maximum
Proposition : Pour tout d donné le système (b) admet une solution si la
condition
Suivante est vérifiée :
 xk 
 In  k   0
 s 
Démonstration
 In (l )
1  li m   
r 0 r

209
Étant donné que
In((r  1))  In(r )  In((r ))
On a la relation suivante
(  ( r  1) 1  (r )
 
(  ( r  1) r  (r )
D’où au voisinage de 0.
 (r ) 1
    (1)
 (r ) r
Si nous passons à la dérivée de la vraisemblance, nous avons :
 In ( l ) 1
 In ( r )    (1)
r r
D’où la valeur de la limite en 0.
  (r )  
2  lim  In ( r )   0
r
  (r ) 
La formule de Stirling généralisée donne comme équivalent de la fonction
Gamma en l’infini
c 1/ 2
2 r exp( r )
D’où, au voisinage de l’infini :
 (r ) 1 1
 In ( r )   0 
 (r ) 2r r
3-Si la condition suffisante est satisfaite, la fonction définie par :
 (r )  mi  xk 
f (r )  ms  In(r )     In  k 
 ( r )  k 1  s 
Vérifie
lim f (r )   
r  0

lim f (r )  0
r  
Par continuité de f, il existe au moins une valeur de r telle que
f ( r )  0 et f ( r )  0 (la première intersection de f avec l’axe des abscisses par
exemple). Il en résulte donc que si la condition satisfaisante est vérifiée pour D
donné (solution du système a), la vraisemblance fonction de r admet au moins un
maximum.
Remarque M l’analyse du modèle Bêta de seconde espèce laisse penser que la
condition ci-dessus est suffisante mais non nécessaire.
En pratique, on résout le système en D. On regard ensuite si la condition est

210
satisfaite. Enfin, on résout l’équation b.
La forme multiplicative des coûts moyens et le système (a) permettent un calcul
simple du vecteur des paramètres. En effet, en remplaçant s k par son expression
et en mettant en facteur le terme correspondant à la modalité j de la variable i, nous
obtenons :
mi
1 xk
exp( d i , j ) 
msi , j
 cki, j  n nl l , p 
i,1  i  n, j ,1  j  ni
exp    ck d l ,b 
k 1

 l 1 p 1 
Après initialisation des paramètres à 1, ce système permet de calculer les di, j de
manière itérative. Lors de la première itération, les estimateurs des paramètres
associés à la première variable sont égaux aux logarithmes des coûts moyens
observés pour chacune des modalités :
 1 ms 
d i , j  In  1, j  c 1k nj x k   jn1  j  n1
 m s k 1 
Ce système met en évidence le processus qui permet, à partir de l’hypothèse
multiplicative, d’avoir des estimateurs robustes. En effet, le système revient à
appliquer le principe de mutualisation à chaque modalité de chaque variable94.
Nous avons appliqué cette méthode à deux simulations correspondant au
second exemple présenté dans la première partie de ce chapitre. La loi utilisée est
une loi Bêta de seconde espèce de paramètre r=8 a = 1,5 dont le moyennes par
segment sont données par le tableau suivant.
€ A1 A2 A3 Total A
B1 2 643 2 776 3 564 3 110
B2 3 831 5 000 6 267 5 201
B3 0 850 5 538 7 407 5 552
Total B 3 499 4 565 5 513 4 637

Par ailleurs la répartition des sinistres est donnée par :


A1 A2 A3 Total A
B1 38 46 73 157
B2 41 55 63 159
B3 54 60 50 164
Total B 133 161 186 480

La première simulation a été obtenue par tirage aléatoire, Nous observons les

94
La robustesse du système est au moins aussi bonne que celle liée à la modalité à la quelle correspond
le plus petit nombre de sinistres. Ce résultat peut se démontrer en utilisant la propriété asymptotique
des estimateur du maximum de vraisemblance et en calculant la matrice de Fischer.

211
coûts moyens par segments suivants :
€ A1 A2 A3 Total A
B1 1 845 2 611 2 931 2 575
B2 3 622 3 699 4 345 3 935
B3 2 375 4 729 8 382 5 068
Total B 2 608 3 772 4 875 3 877

Le coût moyen global est significativement inférieur au coût du modèle sous-


jacent (16 %) Cette différence s’explique par l’absence de sinistre grave. La structure
par segment est globalement respectée sauf pour le segment (A1, B3) dont le coût
moyen observé est inférieur à celui du segment (A1, B2) et pour le segment (A2,
B2) dont le coût moyen observé est proche de celui du segment (A1, B2). L’écart
type relatif entre l’observation et la simulation est de 42,1 %.
La seconde simulation a été obtenue en remplaçant l’un des sinistres de la
première simulation par un sinistre grave (segment A1, B3) Nous observons les
coûts moyens par segments suivants :
€ A1 A2 A3 Total A
B1 1 845 2 611 2 931 2 575
B2 3 622 3 699 4 345 3 935
B3 24 688 4 729 8 382 12 415
Total B 11 667 3 772 4 875 6 387

Le coût moyen global est significativement supérieur au coût du modèle sous-


jacent (+ 38 %) Cette différence s’explique par la présence du sinistre grave L’écart
type relatif entre l’observation est la simulation est de 261,4 %.
Nous avons appliqué le modèle gamma pour l’estimation en prenant les trois
variables exogènes (A, B et C). Dans le cas de la simulation 1, nous avons obtenu
les coûts moyens par segment suivants :
€ A1 A2 A3 Total A
B1 1 778 2 498 3 133 2 619
B2 2 824 3 919 5 179 4 136
B3 3 281 4 700 6 315 4 725
Total B 2 711 3 804 4 681 3 841

LE coût moyen global de l’estimation est peu différent du coût moyen global
observé (-1 %) le modèle ne permet pas de corriger la différence entre le coût moyen
global observé et le coût moyen du modèle. toutefois la structure par segment est
nettement améliorée : le coût moyen du segment (A1, B3) est bien supérieur à celui
du segment (A1, B2) ; le coût moyen du segment (A2, B2). Cette amélioration se
retrouve au niveau de l’écart type relatif qui passe de 42,1 % à 23,1 % Par ailleurs, la
variance relative estimée est égale à 63 % valeur finie alors que le modèle utilisé n’en

212
admet pas l’introduction de la fonction multiplicative permet d’améliorer
l’estimation.
Nous avons appliqué la même méthode à la deuxième simulation Nous avens
obtenu les coûts moyens par segment suivants :
€ A1 A2 A3 Total A
B1 3 479 2 247 2 782 2 794
B2 5 557 3 558 4 879 4 597
B3 11 690 7 237 11 117 9 886
Total B 7 453 4 554 5 733 5 814

Les résulta sont très différents des résultats précédents, et ce alors que nous
n’avons modifié qui une valeur le coût moyen global baisse (584 € contre 6 387 €)
mais reste très élevé (+ 25 % par rapport au modèle utilisé pour la simulation). Cette
amélioration vient de la moindre pondération des sinistres appartenant aux
segments ayant un coût moyen élevé. Par ailleurs, la structure n’est plus respectée.
En effet, tous les segments (A2, *) ont un coût moyen inférieur au coût du segment
(A1, *) correspondant. C’est le sinistre en (A1, B3) qui tire à la hausse les coûts
moyens de l’ensemble des segments (A1, *).L’écart type relatif reste élevé à 83,4 %.
L’estimation des coûts moyens avec le modèle gamma est peu robuste aux sinistres
graves Une méthode classique pour résoudre ce problème est l’écrêtement des sinistres
« graves » Ces méthodes consistent à plafonner les sinistres à une valeur donnée et à
répartir la sur-crête (c’est-à-dire la charge dépassant le seuil chois) dans l’ensemble des
cases (par exemple au prorata de la charge estimée de la sous-crête) Nous avons
applique une telle méthode à la simulation 2 en prenant un seuil correspondant au
centile 99 % de la loi lognormal (seuil à 33 763 €, pour une moyenne observée de 6 387
€). Le coût moyen de la sous-crête est de 3 669 €, soit 57 % du coût moyen observé Avec
cette méthode, nous avons obtenu les coûts moyens par segment suivants.
€ A1 A2 A3 Total A
B1 3 307 4 431 5 082 4 462
B2 5 114 6 848 8 197 6 943
B3 5 798 7 818 9 590 7 693
Total B 4 885 6519 7 349 6 387

Par constriction, cette méthode donne un coût moyen global égal au coût
moyen observé : elle ne permet pas de corriger l’impact global des sinistres graves.
En revanche, la méthode permet d’améliorer l’estimation (l’écart type relatif passe
de 83,4 % à 40,8 %) et d’avoir une structure conforme au modèle sous-jacent utilisé :
tous les segments (A2, *) ont un coût moyen supérieur au coût du segment (A1, *)
correspondant.
Les modèles classique n’apportent qu’une réponse partielle à l’analyse des coûts

213
Ils ne sont pas opéables d’apporter une réponse aux cas où il y a des sinistres graves
ou exceptionnels (Responsabilité Civile automobile, lucanidé par exemple) Pour
traiter les longues Queens de distribution il est possible de prendre des méthodes
d’écrêtement Mais comment choisir le seuil d’écrêtement ? Que faire de la sur-
crêté ? A ces questions il n’existe pas de réponse scientifique C’est pourquoi nous
proposons de généraliser le modèle.

Le modèle gamma à paramètre aléatoire ou loi Bêta de seconde espèce


L’hypothèses de base est inchangée : » la loi des coûts de sinistres est une loi
gamma ». En revanche l’hypothèse « les coûts probables sont homogènes dans
chacun des segments » est trop forte dans la mesure où elle revient à considérer que
les variables exogènes permettent de caractériser parfaitement le coût des sinistres.
Pour pallier cette difficulté, nous allons généraliser le modèle (Boulanger F, 1994 a)
en supposant que la moyenne S est, pour chaque assuré ou chaque sinistre, une
variable aléatoire dont seule la loi est une fonction des variables exogènes. Cette
hypothèse peut correspondre à deux réalités :
– les coûts moyens des assurés d’un même segment sont, comme dans le cas
des fréquences, différents et sont modélisés par des variables aléatoires
indépendantes et identiquement distribuées de loi S ;
Les sinistres ne sont pas homogènes et les coûts dépendent du contexte (vitesse
du véhicule par exemple)
Pour des raisons opérations, nous supposons que 1/S suit une loi gamma.
a 1
De moyenne * ;
a 1 s
De variance relative 1/ a ;
Où s est, comme dans le cas du modèle gamma, une fonction multiplicatrice
des variables exogènes et a un réel strictement supérieur à 1. La variable aléatoire s
ainsi définie admet une espérance égale à s et, pour les valeurs de a supérieures à 2,
une variance s2 égale à s2 / (a 2); la variance relative de s est constante et
indépendante des variables exogènes.
Sous ces hypothèses, la loi des Coûts est une loi Béta de seconde espèce :
De moyenne s ;
1 r 1 1
De variance relative  * pour les valeurs de a supérieures à
r r a2
2, et  dans les autres cas.
La variance, quand elle existe, est indépendante des variables exogènes.
De plus, elle comporte un terme correspondant à la variabilité des Coûts
(grandeurs observables) pour un assuré /sinistre variance endogène et un terme

214
correspondant à la variabilité des coûts probables (grandeurs utiles) dans un
segment – variance exogène intra classe – due soit aux différences entre les
individus soit aux différances de nature entre les sinistres (loi mélange).
Le modèle intègre des lois sans variance (1  a  2) il s’adapte donc aux
distributions ayant de longues Queens de distribution.
Démonstration :
La densité de S se met sous la forme :

f (x)   0
f ( x ) g , (u ) d u
Où fn (x) est la loi gamma des coûts des sinistres conditionnellement à
s  u;
g s (u )
est la loi de S nous avons donc :
 1 1
f ( x)   (ru)c rxp(rux)xr 1 (s(a 1))a exp(s(a 1)u)ua1du
0 (r) (a)
Soit encore
( s ( a  1)) a r r x r 1 
f ( x) 
 ( r ) ( a )  0
u r  c 1 exp((  s ( a  1)  rx )u ) du

L’intégrale est, à un changement de variable prés, la valeur de la fonction


gamma au point ar Nous avons donc
(a  r )( s(a  1))a r r x r 1
f ( x) 
(r )(a)( s(a  1)  rx)a  r
Soit encore
r 1
 r x
 
 ( a  r )  ( a  1) s s  r 1
f s ,r ,a ( x ) 
x

 ( r ) ( a )  r x  ( a  1) s
 1  ( a  1) s 
 
r X
La variable aléatoire suit une loi Béta de seconde
(a  1) s
Espèce de paramètres r et a
LA robustesse du modèle vient du fait que l’on utilise la même loi dans tous les
segments à un facteur d’échelle prés qui dépend des seuls variables exogènes.
Propriété Le modèle gamma à paramètre alitions :
• Tend vers le modèle gamma lorsque a tend vers l’infini

215
• Tend asymptotiquement vers la famille des lois de Pareto
Démonstration
Pour tout x0 au voisinage de l’infini nous avons.
a 1
 a 1 s    1 
f s x, r , u / x  x 0 ( x )  k    1     
 r x    x0  
L’introduction de l’hypothèse selon laquelle les coûts probables individuels
sont des variables aléatoire se traduit, pour l’analyse du risque par une
décomposition de l’estimation du coût en deux étapes.
– L’estimation des paramètres de la loi, la moyenne s et la variance, du Coût
probable individuel s, à partir des variables exogènes. Nous obtenons ainsi le
meilleur estimateur a priori du coût probable.
– L’estimation connaissant la loi du coût probable, du coût probable individuel
(grandeur déterministe) à partir des variables endogènes, c’st à – dire à partir des
réalisations des coûts. C’est le meilleur estimateur à posteriori du coût probable
(voir plus bas le paragraphe relatif à l’analyse a posteriori).
– L’estimation du vecteur des paramètres par la méthode du maximum de
vraisemblance est solution du système.

xk a 1
mi k

( a ')  c k i, j s a  0  i ,1  i  n  ,  j , 1  j  n i
k 1 xk
r k  ( a  1)
s
 xk  xk a 1
 r  
ms k k  (a  r )  (r )
( b ')  In  s  a sk a    0
k 1
k
 r x  a 1 x  (a  r )  (r )
  r k  ( a  1)
 sk  s
  xk a 1
ms   
a 1 ra s k
a  (a  r )  (r )
( c ')       0
 a  1 r x  ( a  1)  ( a  r )  ( r )
k k
k 1  x
 r  a  1 
 sk  sk

Le système (a) est une généralisation Dy système (a) ci-dessus, mais ici chaque
observation est affectée d’un poids inversement proportionnel au coût observé.
Cette pondération est une forme d’écrêtement progressif dans lequel le « seuil » (en
réalité le poids) est une fonction :
– Croissante avec le coût probable du segment, c’est-a-dire qu’un sinistre grave
sera d’autant inions écrêté qu’il appartient à un segment ayant un coût élevé, ce qui
correspond à la réalité suivante il est plus normal d’avoir un sinistre grave dans un

216
segment ayant un coût moyen élevé que dans un segment ayant un coût moyen
moindre ;
– De r et de a (c’est-à-dire des variances relatives des processus de transformation).
– A la différence des méthodes classique d’écrêtement, le change global déduit
n’est pas nécessairement égale, dans ce système à la charge de sinistres observée.
Elle est plus élevée dans les cas où il n è a pas de sinistre grave ; elle est plus faible
dans les cas où la charge des sinistres graves est supérieure.
Démonstration
Sous les hypothèses ci-dessus, la vraisemblance est égale à :
r 1
 r xk 
 k 
(a  r )  ( a  1) s 
ms
L ( x k / r , a , D , C k ;1  k  ms )  
k 1  ( r ) ( a )  r xk 
a  r ( a 1) s k

1  k 
 ( a  1) s 
Par passage au logarithme, nous obtenons :


 m x ( In  ( a  r ))  In (  ( a ))  In (  ( r )))

l   
 ms
   r s   In ( x k )  ( a  r ) In  1  r x 
k k

 k  1  a  1 s  a 1 sk 
k

D’où par dérivation :
xk a 1

l mi
s k
a i,1  i  n , j,1  n
  ck ra k
i, j
 i
di , j k 1 x
r k  (a  1)
s
 x k
 xk a  1
r 
l m  i
s k 
s k
a  ( a  r )  ( r )
  k a k
r k 1  x  x ( a  ) t (r )
 r k  a 1  r k  (a  1)
 s  s
  xk a  1

l m  a  1  ra s k
i
a  ( a  r )  ( a )
  k  
a k 1  x  a  1 r x  (a  1) (a )
k
t (a)
 r k  a 1 
 s  s k

D’où le résultat.

217
Propriété : pour tout couple (r, a) donné tel que **** admet une et une seule
solutions

Démonstration :
1-Unicité de la solution :
Par dérivation seconde nous obtenons :
xk
r ( a  1)( a  r )
 2l mi
sk
   c ki , j c kn , r
d i , j d n ,r k 1  xk 
2

 r k  a  1
 s 
Il en résulte que, pour tout r positif et tout à supérieur à 1, la fonction est une
fonction concave de D ; le maximum est donc, s’il existe, unique (à un coefficient
de proportionnalité pris).
2 – Existence d’une solution :
Même démonstrations que pour le modèle gamma.
Proposition : Pour tout complet (D, a) donné le système (b’) admet une
solution.
Remarque : contrairement au modèle gamma, il existe toujours une solution
en r. Cela tendrait à montrer que la condition suffisante que nous avons donnée
dans le cas du modèle Gamma ne soit pas nécessiter dans la mesure o* le modèle
gamma est un cas limite du modèle présenté ici.

Démonstration :

In(l )
1  lim   
r 0 r
La démonstration est identique au cas gamma
2  lim  l /  r  0 
r 

Par application de la formule de Stirling généralisée, nous avons au voisinage


de l’infini.
 ( a  r )  (r)  a  1 a ( a  1)  1 
  In  1     0 2 
(a  r ) (r )  r 2 r 2
r 
Soit encore :
 ( a  r )  (r) a 1 a ( a  1)  1 
   0 2 
(a  r ) (r ) r 2 r 2
r 
D’autre part, nous avons aussi :

218
xk a 1
k
  a a (a  1) s k  (a  1) s k  1
s
a k a    1   2 
2 k  k
x r r x  a x  r 
r k  a 1 
D s
2
 a(a  1) s k  (a  1) s k 1  (a  1) s k   1 
In 1  k 
 k
  k 
 2 
 a x  a x 2  a x  r 
Par sommation nous avons :
2
l mi 1 a ( a  1) a (a  1) s k 1  a  1 s k  1
     k 
 0 2 
r k 1 2 r 2
r 2
x k
2 r x  r 
Ce qui peut se mettre sous la forme :

1  a   mi 1   a  1 s k     1 
2 2
l
       1       
r 2  r   k 1 a   r x k     r 2 
  
D’où le résultat.
3 – la dérivée du logarithme de la vraisemblance vérifie :
lim  l /  r  
r0

lim  l /  r  0 
r0
Par continuité de l / r , il existe au moins une valeur de r telle que
l / r  0 et l / r  0 (la première intersection avec l’axe des abscisses par
exemple) La vraisemblance fonction de r adment au moins un maximum.
Propriété : Pour tout couple (D, r) donné tel que r  0, le système ( c ') admet
au moins une solution si la variance intra-classe relative des coûts des sinistres est
supérieure à 1/r.

Démonstration :

l
lim  
r0 a
En effet, au voisinages de 1 nous avons :
l 1
 In( a  1)   (1)
a a 1

219
l
2  lim  0
a  a
Comme dans la démonstration précédente, nous avons :
(a  r ) (a) r 1 r (r  1)  1 
    0 
( a  r )  ( a ) a 2 a a
D’autre part, nous avons aussi
x a
1
s a  1  r  x  r x  r  x 1   1 
r     1   a  s  r    a 
1 
x  a  s  a s     
r  a 1
s
 r x  r ( a  1) x 1  r x   1 
In  1      
 a 1 s  a s 2a s  a
Par sommation nous avons :

1  r   mi  xk  1  xk   1 
2 2
l
     k 1   3  2 k   0  2 
a 2  a   k 1  s  r s   a 
 
La condition suffisante se met sous la forme :
2
1 mi
 xk  1
ms
  k  1
k 1  s

r

Sous cette condition, nous avons :
 mi  x k 2
 1 xk   mi 1  xk 
  k  1   3  2 k     4  2 k   0
 k 1  s  r s   k 1 r  s 
D’où le résultat.
3 – la dérivée du logarithme de la vraisemblance vérifie !
li m  l /  r   
r 0

li m  l /  r  0 
r 0
Par continuité de,  l /  a , il existe au moins une valeur de r telle que
l / a  0 et 2l / r 2  0 (la première intersection avec l’axe des abscisses
par exemple). La première intersection avec l’axe d’abscisses par exemple). La
vraisemblance fonction de (D, r) admet donc au moins un maximum.
Remarque :

220
1-La condition suffisante est vérifiée si la variance relative observée est
supérieure à la variance relative du modèle gamma (i.e.1/r) ; on dit qu’il y a « over-
dispersion ». Dans le cas contraire, il n’est pas nécessaire d’introduire une variabilité
aléatoire.
2-le paramètre a peut se mettre sous la forme :
v a r ( X )
E X 
2

a  1   1
v a r ( X ) 1

X 
2
E r
Qui pour une solution (D, r) donnée et sous l’hypothèse de variance relative
constance, peut être estimé par la méthode des moments :
2
1  xk mi

 mi
 k
k 1  s
 1  1
a 1 
2
1 mi  x k  1
  k  1 
m i k 1  s r

a) Cet estimateur est supérieur à 1 si :
2
1 mi  xk  1
 1 
mi k 1  s k  r
C’est-à-dire si la condition suffisante est vérifiée.
b) C’est estimateur tend vers l’infini quand :
2
1 mi
 xk 
mi
  k 1
k 1  s 
Tend vers 1/r par valeurs supérieures, c’est-à-dire quand l’over dispersion tend
vers 0.
Si nous appliquons ce modèle à nos deux simulations précédentes, nous
obtenons :
Simulation 1 :
Les coûts moyens estimés par segment sont égaux à :
€ A1 A2 A3 Total A
B1 2 388 2 542 4 156 3 255
B2 3 779 4 035 6 22 4 835
B3 4 559 4 841 7 170 5 458
Total B 3 698 3 909 5 666 4 531

On Premièrement que l’estimation du coût moyen global est significativement

221
supérieure au coût moyen global observé (4 531 contre 3 877) et que, ce faisant, il
se rapproche du coût moyen du modèle utilisé pour la simulation (4 637) Cette
amélioration s’explique par le fait que l’équation utilisée pour l’estimation peut se
mettre sous la forme :
1 mi
xk a 1
mi  c k(x , s ) k 
i, j
k
k

s
k

a
c
k 1
i, j
k k (xk , sk ) k 1

Forme qui s’interprète comme la moyenne pondérée des ratios « coût des
sinistres observés » sur « coût estimé » est inférieure à 1 et donc que les coûts estimés
sont supérieurs aux coûts observés. Ce phénomène est une généralisation
l’épandage de la sur-crête utilisé dans les méthodes d’écrêtement, au cas où il n’y a
pas de sur-crête. Dans le cas où a augmente fortement (i.e. la variance du second
phénomène tend vers 0) on retrouve l’égalité entre l’estimation et l’observation.
Dans le cas de phénomènes de variance infinie, imposte une égalité entre coût
moyen global observé et estimé est une contrainte trop forte le modèle Bêta de
seconde espèce permet de lever une telle contrainte.
– Déguisement, cette amélioration se retrouve au niveau des segments.
– Toutefois, lorsque l’on analyse la structure corrigée du biais sur le coût
moyen global, on n’observe pas d’amélioration (on a même une détérioration,
l’écart type relatif est de 17,2 % contre 11,4 %).
– Troisièmement, l’estimation du paramètre a est égale à 1,53 contre 1,5 pour
le modèle : la méthode permet d’estimer la longueur de la queue de distribution
(variance infinie), et ce, alors même que nous n’avons pas de sinistres graves sur
cette simulation Par ailleurs, l’estimation du paramètre r est de 10,26 contre 8 pour
le modèle.
Simulation 2 :
Les coûts moyens estimés par segment sont égaux à :
€ A1 A2 A3 Total A
B1 2 543 2 963 4 417 3 458
B2 4 014 4 264 6 590 5 121
B3 4 880 5 154 7 649 5 825
Total B 3 945 4 147 6 022 4 818

Nous constations :
– Premièrement que le coût moyen global estimé est significativement
inférieur au coût moyen global observé (4 818 €) et que, ce faisant, il se rapproche
du coût moyen du modèle utilisé pour la simulation (4 637). Cette amélioration
s’explique par le fait que l’équation utilisée pour l’estimation peut se mettre sous la
forme ;

222
1 mi
1 xk a 1
mi
1
 c ki , j
xk s k

a
 c ki , j r
xk
k 1
r
sk
 ( a  1)
k 1
 ( a  1)
sk
D’où un poids très faible sur le sinistre grave (0,3 %) du poids moyen) qui en
limite l’impact sur le résulter c’est le phénomène d’écrêtement classique, avec
toutefois un ajustement automatique fonction des observations et variable par
segment (seuil d’écrêtement plus haut pour les segments ayant un coût moyen plus
élevé) La répartition de la sucrette est obtenue par le phénomène présente dans
l’analyse de la simulation 1, avec toutefois un montant indépendant de la sur-crête
observée qui est très variable et donc non significatif. Sans le cas où a augmente
fortement (i.e la variance du second phénomène tend vers 0) les poids dépendent
de moins en moins des valeurs observées : toutes les observation sont équivalentes
Deuxièmement, cette amélioration se retrouve au niveau des segments y compris
lorsque l’on analyse la structure corrigée du biais sur le coût moyen global l’écart
type relatif est de 18,1 % contre 79,4 %.
– Troisièmement, la structure est identique à celle obtenue pour la simulation
1 alors que les structures observées sont très différentes
– Quatrièmement, l’estimation du paramètre a est égale à 1,47 conter 1,5 pour
le modèle et 1,53 estimé pour la simulation 1. cette baisse de l’estimation à est
compensée par la hausse de l’estimation du paramètre r 12,45 contre 10,26 pour la
simulation 1.
Conclusion
Cette méthode permet d’avoir une famille de lois très variées incluant (en cas
limite) nombre de lois classiquement utilisées (gaussienne, gamma, Pareto), y
compris des lis n’ayant pas de variance finie.
Par ailleurs, l’utilisation d’une même loi dans tous les segments à un facteur
d’échelle prés permet d’améliorer la précision du modèle tout en améliorant sa
robustesse.
Le modèle proposé permet de mettre en œuvre une solution d’écrêtement
auto-adaptif qui s’ajuste segment par segment et qui règle le problème de l’épandage
en augmentant le coût moyen les années où le nombre de sinistres graves est en
deçà de la norme.
Enfin, cette méthode permet d’inscrire l’approche dans une approche globale
cohérente qui comprend l’analyse a posteriori.

2.1.3. Les variables composites


Certaines informations, bien que facilement disponibles, et intuitivement

223
« porteuses de sens » dans l’optique d’une individualisation des risques, sont parfois
inutilisables telles quelles que ce soit dans la modélisation ou dans l’utilisation des
résultats : il y aurait trop de variables, le tarif obtenu serait trop complexe. On doit
alors regrouper un ensemble de variables reliées à un même « objet » il est illusoire en
assurance automobile par exemple de par la multitude de nouveaux modèles /
versions arrivant sur le marché de pondre en compte directement les caractéristiques
techniques de chaque prendre en compte directement les caractéristiques techniques
de chaque véhicule. On a alors recours à des regroupements, ce sont les fameuses
classes SRA sur le marché français. De même les professions, en assurance des
commerçants et artisanats, faute d’informations suffisamment.
Significatives, sont-elles souvent regroupées suivant leur « sinimairté vis-à-vis
du risque »
La pris en compte de ces information passe donc par la mise en place de
variables compostes : classes de véhicules, classes de professions, zones tarifaires …
Deux problèmes se posent alors pour élaborer de telles variables :
– Comment regrouper la population dans des classes homogènes vis-à-vis de
cette information ?
Le deuxième problème est résolu à l’aide de techniques dites de classification
Elles permettent de construire une partition en classes homogènes d’objets, les
communes par exemple, dont on connaît les distances deux à deux, la différence
entre les fréquences par exemple.
Le premier problème est plus délicat, mais n’en est pas moins crucial. En effet
si cette « séparation » de l’information est omise lors de l’analyse de l’objet, on
risque de mal interpréter le lien entre le phénomène analysé, la survenance des
sinistres, et les variables attachées à l’objet considéré, la taille de la commune. Ainsi,
commet savoir si la fréquence de sinistres automobile que l’on observe dans un
département est effectivement le fait du variable « département » ou le fait d’une
surreprésentation de n’importe que autre facteur dans ce département, voir d’une
combinaison de facteurs. Comment par exemple faire la part entre l’âge des
conducteurs et les départements alors que ces deux variables sont liées ?
Pour répondre à ces questions, nous recommandons de procéder en deux
étapes :
– d’abord isoler l’information apportée par les variables exogènes non liées à
l’objet considère comme par exemple l’âge du conducteur, le véhicule lorsque l’on
s’intéresse aux communes :
– isoler dans l’information non encore expliquée ou résiduelle, la part
effectivement explicable par les variables liées à l’objet considérer, et en obtenir une
mesure pour chaque représentant de l’objet afin de les regrouper.
Chaque cas est particulier. Néanmoins afin de ne pas rester trop générique,

224
nous avons choisi d’illustrer notre propos et nous présentons dans la suite une
méthodologie qui nous a permis de développer un zonage,
C’est-à-dire une classification des communes françaises, du point de vue de la
fréquence automobile95

Le zonge, un exemple de variable composite


L’objectif est ici de classer les quelques 39000 communes96 de l’hexagone en
classes homogènes vis-à-vis de la fréquence automobile (par exemple bris-de-
glace). Mais, bien que réalisant l’étude pour l’un des leaders du marché, nous
n’avions pas de clients dans toutes les communes. De plus, même pour celles où
nous étions présents, le nombre de clients était insuffisant pour donner des résultats
satisfaisants. Nous avons donc dû, pour pallier notre manque d’observations avoir
recours à des techniques de modélisation ; il nous a fallu « qualifier » le risque
communal à l’aide de variables exogènes : les variables socio-économique de
L’NSEE et les variables géographiques.
Plous concrètement, la démarche proposée se décompose en quatre étapes :
D’abord, estimer la fréquence par commune à partir de la modélisation des
nombres de sinistres individuels hors toute variable attachée à l’objet commune,
L’objectif de cette première étape est de faire la part entre ce qui est indépendant de
l’effet » commune » et ce qui en dépend.
– Puis, expliquer la différence entre la fréquence communale effectivement
observée et celle estimée à l’étape précédente à partir des variables sociaux
économiques des communes de l’INSEE.
– ensuite, introduire la dimension géographique en utilisant les structures
départementales, Cette troisième étape est implorante car l’approche précédente
ignore les spécificités locales : une personne habitant l’Ouest n’a pas le même
comportement que celle habitant le sud-est ; le climat …
– Enfin, regrouper les communes en classes homogènes du point de vue du risqué
Les classes ainsi obtenues deviennent alors l’une des variables d’analyse du
risque qui est traitée comme les autres variable.
Meuure d’ l’effet indépendant des communes
L’objectif de cette étape préliminaire est de séparer dans l’analyse les effets qui
ne dépendant pas de l’objet commue et que nous ne devons pas prendre en compte
dans notre classification de ceux qui y sont liés Elle consiste à estimer le nombre de
sinistres d’une commune à partir de l’estimation des fréquences individuelles. Nous
avons utilisé un modèle de Poisson – Gamma, avec une fonction de lien

95
Cette parité reprend les travaux réalisés par Éric Gires pour son mémoire d’actuariat (Gires E, 1996)
96
Il s’agit des communes telles que définies par L’INSEE, et non des communes postales.

225
multiplicative les variables retenues pour l’estimation correspondent aux variables
tarifaires, sans considération de zone.
Pour chacun des individus k d’une commune, c, nous avons :
nˆ k , c   k , c k , c
t

 
où  k ,c  e x p    c ki ,, cj .b i , j 
 i j 
tk,c Est la durée de présence en portefeuille de l’individu k,
bi, j sont les paramètres estimés par le modèle pour chaque modalité de chaque
variable tarifaire,
vaut 1 si l’individu k prend la modalité j de la variable i, et 0 sinon.
c ki ,, cj En sommant sur les individus nous obtenons, pour chaque commune c,
les variables suivantes :
 nc le nombre de sinistres observés par commune,
 nˆc le nombre de sinistres estimés,
 tc le temps d’observation cumulé sur la commune
Nous en déduisons, la fréquence observée sur la commune
nc
c 
tc
Ainsi que la fréquence estimée.
nˆ c
c 
tc
Qui s’exprime en fonction des variables tarifaires ;
 
 exp    c i, j
k ,c , bi , j 
ˆc 
k  i j 
tc

Introduction des critères socio-économiques par commune


L’objectif de cette seconde partie est d’estimer la fréquence de la commune en
complétant l’analyse précédente par les variables attachées à cet objet. Nous
utilisons, au niveau de la commune, un modèle de poisson.
Simple97, avec une fonction de lien multiplicative. L’effet des variables

97
Nous retenons le modèle simple à cause de la propriété des marges qui garantit une égalité entre
l’observation et l’estimation au niveau France Cette propriété permet d’appliquer ensuite plus

226
indivivideulles non liées aux communes est introduit par l’intermédiaire du
coefficient Kc définit par :
K c  I n  ˆ  c

soit


 i j
c ki ,, cj . b i , j 

Kc  In  
 tc 
 
Le problème est donc d’estimer les paramètres   exp( b )
correspondant aux différentes modalités des variables INSEE retenues98 V tels que :
 
nˆc  exp  Kc    cc  ,  tc
 , .

   
Où t c est la somme des durées d’observation des individus de la commune c,
cc , vaut 1 si la variable  prend la modalité  sur la commune c.
La solution du maximum de vraisemblance fournit le système suivant
r


 ,  .sc
cc
e x p (b , )  c 1

 
r
 
  
 ,  .sc x , y .b x
cc exp  cc ,y

c 1
 x y

 x y   
 ( ,  ) , 1    n , 1    n  ,
Où sc est le nombre de sinistres observés sur la commune c,
v est le nombre de communes,
n est le nombre de variable.
na est le nombre de modalités de la variable ****
Nous avons une formule de marges, le modèle à un sens opérationnel.
Par ailleurs ces équations peuvent se résoudre facilement de façon itérative.
A ce stade, le modèle du nombre de sinistres par commune s’écrit comme le

simplement le modèle de crédibilité.


98
Nous sommes ici dans un cadre, relativement confortable pour le statisticien, où nous avons presque
trop de variables explicatives à notre disposition : plus de sélectionner les variables pertinentes dans
l’optique d’une modélisation de la fréquences par communes

227
produit de deux facteurs, l’un dépendant des variables non liées à l’objet commun,
l’autre fonction des variables socio-économiques de L’INSEE, et de la durée
d’observation t c sur la commune :
nˆ c(1 )  e x p ( K c ) . e x p ( L c ) t c
où Lc    cc ( ,  ).b .
a 
L’estimateur de la fréquence de la commune est à la fin de cette étape :
ˆ c( 1 )  e x p ( k c ) e x p ( L c ) t c
Introduction de considérations géographiques.
Si nous analysons les résultats obtenus au terme de l’étape précédente dans les
départements, des communes de taille importante et les comparons à l’observation,
nous constatons des décalages importants.
Cet écart résulte de la non-rise en compte par l’approche des variables
géographiques. Pour résoudre cette question, il serait possible d’introduire des
variables du type climat, longitude … cette approche est complexe ; nombre de
variables, acquisition des données … Aussi proposons – nous une salutation
différente qui repose sur l’observation : la notion de commune (donnée qualitative),
vouter le caractère administratif qu’elle revêt, est intrinsèquement une donnée
géographique, qui influence nécessairement le risque de chacun de ses habitants.
Toutefois, pour des raisons de taille, les communes sont ici envisagées comme
appartenant à des entités géographiques plus vastes – les départements –, dotées de
structures particulières, qui influencent le risque. La grandeur analysée est la
différence, le résidu, entre l’estimation obtenue à l’étape précédente et l’observation.
R d , c  (  d , c  ˆd , c )
Avec : R d .  (  d .  ˆd . )
Où d indique le département.
Cette grandeur est analysée aux différents niveaux : France, département,
commune.
R

Rt Rk Rk
Rt, t Rk1 Ra01
⋮ ⋮ ⋮
Rt**** R R

228
Pour chaque commune c du département d C’est résidus s’interprètent comme la
part de fréquence observée sur la commune, non encore expliquée, ni par les variables
non rattachées aux communes, ni par les données socio-économiques communales.
Pour améliorer notre estimation, nous utilisons les estimateurs de la crédibilité
au niveau du département et considérons que l’effet département influence de façon
identique chacune des communes qui les composent.
L’approximation de crédibilité linéaire de Buhlmann-Staub de la variable

td ,c ,
E ( Rd ,c / d ), , chaque résidu étant affecté du poids est alors ;

cred
 E(R
d ,c / d )   (1  Z )  E ( R )  Z R
d d ,c d dr
.
Par application de la propriété d’égalité des marges du modèle de Poisson
simple (le modèle est non-biaisé) nous avons :
E ( R d , c )  E (  d . c )  ˆ  0
Par linéarité de l’opérateur de projection, la relation suivante est vérifiée :

cred E (  d ,c d. 
/ d )  ˆ  cred  E (  / d )   cred ˆ
d ,c   d.

En outre, c r e d  ˆ  d. ˆ d .
Finalement nous avons la relation suivante :
cred  E (  d . / d )   (1  z d ) ˆd .  z d  d .
La « fréquence crédibilisée » par département s’écrit comme une somme
pondérée de deux termes, l’une fonction des observations, l’autre du modèle, les
poids de chacun des termes étant, quant à eux, fonction du facteur de crédibilité zd
qui vaut :
a td .
zd 
s  a td .
2

Où a mesure la dispersion entre les départements (variance interclasse)


s2  E( 2 (d)) mesure la dispersion moyenne à l’intérieur des départements
(variance intra-classe)
Soit :
c r e d ( E (  d , c / d ))
fd 
ˆ d
La part de fréquence expliquée par la crédibilité et non expliquée par le modèle.
Le part de fréquence expliquée par la crédibilité et non expliquée par le modèle.
Le modèle de fréquence par commune, corrigé de « l’effet département », s’écrit
alors :

229
ˆd( 2, c)  ˆd(1), c Fd  exp( K d , c ) exp( Ld , c ) Fd
Cette approche peut-être appliquée une seconde fois en descendant d’un
niveau : France, commune, client. Nous introduisons alors le coefficient F, et avons
la décomposition

ˆ d( 3, c)  ˆ d( 2, c) F c  e x p ( K d , c ) e x p ( L d , c ) F d . F c

Où esp ( K d ,c ) est un terme issu d’une première estimation de la fréquence sur


les individus à partir des variables non liées aux communes,
Esp (Ld ,c ) est un terme obtenu par une deuxième estimation sur les communes
à partir des variables de l’INSEE ;
Fd est un terme correctif, obtenu par ré-estimation de la fréquence, de façon
à intégrer les structures géographiques départementales ;
F est un terme correctif qui intègre les structures propres aux communes
(avec Fc 1pour les communes vides, ce qui correspond à un coefficient de
crédibilité nulle).
La part de la fréquence due à la zone de localisation des risques s’écrit alors,
pour chaque commune :

M c  e x p ( L d ,c ) Fd .Fc
Ainsi nous disposons d’une variable continue, quantitative, qui mesure
l’intensité du risque dans chaque commune, ce de façon indépendante des autres
critères de survenance des sinistres.

Classification : une solution pratique.


Il ne nous reste plus alors qu’à effectuer des regroupements afin de ramener les
39 000 communes à 10 classes. Nous ne présenterons pas les méthodes utilisées et
nous limiterons aux principaux enseignements que nous avons tirés de ce travail.
Les méthodes non hiérarchiques ne fournissent que des solutions approchées
de la solution optimale, mais permettent de classer un grand nombre d’individus.
en revanche, les méthodes hiérarchiques fournissent les meilleures partitions
possibles au regard du critère retenu mais sont inadéquates dés que le nombre
d’individus dépasse quelques centaines. Or nous souhaitons obtenir la meilleure
partition possible de nos 39 000 communes en dix classes.
Un bon compromis est alors d’utiliser une méthode dite mixte, qui consiste
dans un premier temps à regrouper les communes en un nombre de classes

230
relativement élevé par une méthode non hiérarchique, puis, dans un deuxième
temps, à appliquer une méthode l’érarchique sur ces classes, et à couper l’arbre de
façon à obtenir nos dix classes.

Conclusion
Cette analyse montre comment il est possible de synthétiser 70 variables en une
inique variable composite, L’important dans la démarche est de.
– Décomposer le problème en une suite logique de processus ayant chacun une
contrepartie dans le monde réel (le modèle de Poissions simple vérifie la propriété
des marges, la crédibilité permet de corriger l’estimation en fonction des
observations par département…)
D’enchainer de manière cohérente des outils statistiques « classiques » mais
adaptés à chaque sous problème.
L’approche doit cependant être adaptée à chaque cas particulier.

2.1.4. Comparaison entre l’estimation de la prime pure et l’estimation fréquence X


coût
Si les estimations de la fréquence  et du coût moyen s , permettent
d’estimer la prime pure s en prenant en compte la réalité du phénomène Une
telle approche n’est pas toujours possible (pas d’information par sinistre par
exemple). Par ailleurs, la décomposition fréquence) coût repose sur des hypothèses
sous-jacentes (indépendance par exemple) qui peuvent ne pas être satisfaite. Dans
ce paragraphe, nous analysons comment il est possible d’estimer directement la
prime pure et comparons les résultats obtenus sur un exemple.

L’estimation directe de la prime pure


Pour l’estimation directe de la prime pure, les grandeurs observables sont les
charges de sinistres et les grandeurs utilisent les primes pures. Compte tenu de la
complexité du phénomène99 il est difficile de modéliser le processus qui permet de
passer de la grandeur utile aux grandeurs observables. Face à cette difficulté, la
solution consisté à définir des contraintes adéquates.
– La contrainte imposée aux marges revient à exiger que la somme des primes
pures estimées soit égale à la somme des charges observées pour chaque modalité de
chaque variable (voir par exemple : (Van Égéen) ; group E.K. & Nijssen J.A, 1984) ;

99
La loi est caractérisée par un atome à l’origine correspondant aux assurés n’ayant pas de sinistre, et
une répartition multimodale une modalité correspondant aux assurés ayant respectivement 1 sinistre
2 sinistres et plus.

231
(Jung J, 1968) ; (Bailey R.A, 1993) Cette contrainte se traduit par le système ci-dessous :
m m

 cki, j t k rˆk  cki, j r k


k 1 k 1
(i, j ), 1  i  nr ,1  j  ni

n Est le nombre de variables explicatives utilisées,


m Est le nombre de modalités de la variable i,
t k Est le nombre d’assurés,
cki , j Est la durée d’observation de l’assuré,
r k est le cadrage du risque, est la charge de sinistres observée pour l’assuré k,
rˆ k Est l’estimation de la prime pure de l’assuré k
– La contrainte de robustesse des estimateurs nous conduit à prendre comme
fonction de lien entre les graineurs utiles et les variables exogènes une fonction
d’ordre 1, multiplicative par exemple :
rˆ  e x p ( C T G )
i, j
Où C est le vecteur caractérisant le risque C k (c k ) 1 i n G est le
1 j ni
vecteur des paramètres
La définition de la contrainte des marges confère aux estimations ainsi obtenus
une contrepartie dans le monde réel la forme choisie pour les estimateurs de la
prime pure rend l’approche robuste et opératoire il est enfin possible de démontrer
l’existence, l’unicité et la convergence des estimatoires (Montocchio L, Pester G,
Pinquet) ; & rbert J.C, 1992 ; Boulanger F ; 1993

Remarque :
1. La solution obtenue par cette méthode est équivalente à la solution du
pseudo maximum de vraisemblances (Gouri roux Ch. & Montfort A, 1989) avec la
fonction.
exp( C T G ) x
f ( x, C , G )  exp(  exp( C T G ))
 ( x  1)
qui est une généralisation de la loi de Poisson.
2. Néanmoins, la solution n’est optimale que si la loi des charges est f, ce qui
n’est pas conforme à la réalité du phénomène modélisé (dirac en X=0)
3. En remplaçant dans le système les estimateurs de la prime pure par leur
expression et en mettant en facteur le terme correspondant à la modalité j de la
variable i, nous obtenons :

232
m

c i, j
k rk
exp(g i , j )  k 1
 i ,  i  nr ,   j ,1  j  ni
 n n 
m
 i i i, p 
 ck t exp    ck g l , p 
i, j k

k 1
 ll 1i p 1 
 
Après initialisation des paramètres à 1, ce système permet de calculer G de
marinière itérative. Notons que le numérateur est égal à la charge globale de
sinistres observée pour la modalité j de la variable i et que, lors de la première
itération, les résultats obtenus pour les paramètres associés à la première variable
sont étaux aux logarithmes des primes pures observées dans les différentes
modalités (charge de sinistres divisée par le nombre de risques-année).
m

 c ki , j r k
ex p (g i, j )  k 1
m
 j ,  1  j  ni
k 1
c i, j
k t k

Outre sa plus grande simplicité, cette approche ne nécessite pas d’hypothèse


quant à la décomposition de la prime pure en le produit de la fréquence par le coût
moyen. Il est donc intéressant de comparer les résultats.

Comparaison des approches


Pour comparer les résultats, nous reprenons l’exemple précédent 3) variables
ayant chacune 3 modalités) avec la même répartition des risques (8 000), les mêmes
fréquences par segment, la même répartition des sinistres (480) et les mêmes coûts
moyens par segment. Nous avons toutefois modifié la distribution afin d’avoir une
variance finie et ainsi de réduire l’impact des sinistres graves100

100
En effet, en absence de variance, la comparaison de méthode directe n’aurait démontré que l’in
adaptions de cette derrière à prendre en compte le longue queue de distribution.

233
Comme dans le paragraphe précédent nous avons considéré deux simulations
pour les coûts des sinistres : la première obtenue par tirage aléatoire (simulation 1) ;
la seconde est obtenue à partir de la première en remplaçant un sinistre « ordinaire »
par un sinistre (grave ».

L’approche utilisée pour l’estimation des fréquences repose sur le modèle de


Poisson à paramètre aléatoire avec fonction de Box & Cox, celle utilisée pour
l’estimation des coûts est le modèle Béta de seconde espèce avec fonction
multiplicative
Simulaties 1
Si nous comparons les estimations obtenues d’une part avec la méthode des
marges et d’autre part avec l’approche coût x fréquence, nous avons :

234
Les résultats obtenus sont proches, dans certains cas la méthode des marges est
plus proche du modèle utilisé pour la simulation, dans d’autres c’est l’inverse. Les
primes pures moyennes sont peu différences (270 avec la méthode des marges et 271
avec la méthode coût x fréquence) et proches de la prime pure observée (270). Elles
sont toutefois inférieures à la prime pure du modèle sous-jacent utilisé pour la
simulation (277). On observe toutefois que la méthode août X fréquence permet
d’augmenter la prime pure moyenne et ainsi de se rapprocher de la valeur du modèle
(biais réduit de 17 %) Enfin, lorsque l’on compare les écarts types relatifs, on constate
que l’approche sût x fréquences est légèrement meilleure (16,3 %) contre 16,9 %). En
conclusion, en absence de sinistre « grave », les deux approches sont avantage est
d’autant plus important que la variance des coûts des sinistres sera importante.
Simulation 2 :
Si nous comparons les estimations obtenues d’une part avec la méthode des
marges et d’autre part avec l’approche coût X fréquence, nous avons :

235
Les résultats obtenus différent fortement. La méthode des marges ne permet
pas de lisser suffisamment les effets du sinistre « grave » Les primes pures moyennes
sont, elles aussi, différentes (303 avec la méthode des marges et 279 avec la méthode
coût x fréquence) : avec la méthode des marges la prime pure moyenne est égale à
la primer pure observée ; avec la méthode coût x fréquence la prime pure moyenne
est proche de celle du modèle (277). On bénéficie de la propriété du modèle Béta de
seconde espèce utilisé pour l’estimation des coûts moyens. Enfin, lorsque l’on
compare les écarts types relatifs, on constate que l’approche coût x fréquences est
nettement meilleure (17,1 %) contre 42,5 % Cette amélioration n’est pas liée
uniquement à la différence de biais mais aussi à la structure. En effet, si l’on
comparte les écarts types relatifs hors biais, on a 16,9 % contre 37,2 % (la méthode
des marges modifie la fréquence de tous les segments dont l’une des modalités est
égale à celle du segment ayant un sinistre grave.
Par ailleurs, si on compare les estimateurs obtenus avec la méthode coût X
fréquence pour les simulation 1 et 2 nous avons :

Nous n’observons pas de différence importante : la méthode est robuste par


rapport aux sinistres « graves ». ce qui n’est pas le cas de la méthode des marges.

Conclusion
L’analyse directe du coût de la matière première est plus simple en terme de
calcul et nécessite un système d’information moins élaboré. Toutefois :
– Elle est moins robuste aux sinistres graves ;
– Elle rend plus difficile l’arbitrage entre précision et robustesse puisqu’elle
n’autorise pas de différenciation entre la segmentation de l’analyse de la fréquence
et celle de l’analyse du coût des sinistres, Cette unicité de la segmentation ne permet

236
pas une adaptation finie aux observations. En effet, la variance endogène de la
charge de sinistres R se décompose en un terme dépendant de la variance endogène
du nombre de sinistres N et un terme dépendant de la variance endogène du coût
des sinistres X :
Var ( R ) 1  Var ( N ) Var ( X ) 
   2 
E R E N   E N 
2
E X  
Avec une segmentation unique, le choix des variables exogènes doit donc
reposer sur le phénomène le plus variable. C’est pourquoi, à robustesse donnée et
si le terme relatif aux coûts est largement supérieur à celui relatif à la fréquence (cas
courant en assurance), la contrainte entraine une perte de précision en ce qui
concerne le phénomène de fréquence, et une réduction des écarts entre les segments
extrêmes. Pour rendre le modèle robuste, on doit donc perdre en précision.
De plus, l’hypothèse sous-jacente faite lors de l’application de l’approche
directe n’est pas adaptée aux observations.101 Cette inadéquation rend par exemple
impossible l’utilisation du modèle sous-jacent pour simuler les charges de sinistres
individuelles.
Enfin, la complexité des calculs avec cette loi rend difficile une généralisation
du modèle telle que la prise en compte de paramètres aléatoires : le modèle ne peur
pas être intégré dans une approche globale et cohérente de la tarification intégrant
a priori et a posteriori.
Le seul avantage de la méthode des marges est de ne pas reposer sur l’hypothèse
d’indépendance entre la variable aléatoire Nombre de sinistres et la variable
aléatoire Coût des sinistres Cet avantage nous semble néanmoins table comparé aux
avantages présentés ci-dessus. Et ce d’autant plus qu’il s’agit de la corrélation au
niveau des processus transformant les grandeurs utiles en les grandeurs observables
et non entre les grandeurs utiles. En effet, en pratique cl y a souvent une corrélation
entre le coût moyen et la fréquence par segment comme dans l’exemple précédent
où les coûts moyens sont plus importants dans les segments ayant une fréquence
plus élevée. Mais cette corrélation n’empêche pas d’appliquer la décomposition
coût fréquence et, dans l’exemple précédent, les résultats obtenus avec la méthode
coût X fréquence sont meilleurs que ceux obtenus avec la méthode des marges. La
mesure de la corrélation entre les processus est difficile dans la pratique, sauf à avoir
des échantillons sur grande période.

101
En effet, elle revient à supposer que la loi de passage des grandeurs utilise aux grandeurs observables
est un loi contions, c’est-à-dire que la probabilité que la Charge de Sinistre soit égale à une valeur
donnée, est nulle Cette hypothèses n’est pas vérifiée puisque la probabilité de ne pas avoir de sinistre
n’est pas nulle.

237
En résumé, l’approche fréquence / coût nous semble, dans la mesure du
possible, préférable à une approche directe car elle périmer :
– De modéliser le processus de passage des variables utiles aux variables
observables et ainsi de simuler la sinistralité d’un portefeuille au niveau individuel ;
– D’adapter les segmentation aux spécificités des phénomènes de nombre de
sinistres (segmentation pointue) et de coût de ces sinistres (segmentation grossière)
et ainsi d’avoir une plus grande précision dans l’analyse du coût de la matière
première sans pénaliser la robustesse des estimateurs ;
– De traiter de manière intégrée l’analyse a priori et l’analyse a posteriori et
ainsi d’avoir une approche globale et cohérente.

2.2 Modélisation a posteriori


– La prise en compte de la sinistralité passée dans la tarification résulte d’une
observation bien connue en assurance automobile : « plus un assuré a ***** de
sinistres, plus le risque qu’il en ait de mou veaux est important ». Cette observation
semble être contraire à l’hypothèse que nous avons retenue pour l’analyse a priori :
le processus de survenance des sinistres est un processus de Poisson dont l’une des
propriétés est l’indépendance entre le nombre de sinistres observé pour deux
périodes disjointes. Cette opposition n’est toutefois qu’a parente. En effet, cette
observation tient à ce que l’assureur ne connaît pas le risque : il l’estime apriori à
partir des variables exogènes. Cette estimation étant peu précise – les seules
variables exogènes ne suffisent pas à déterminer complètement la fréquence –, la
survenance de sinistres apporte une information complémentaire, Toute la
difficulté de l’analyse a posteriori est de faire la part entre ce qui relève du « basard »
et donc n’apporte pas d’information, et ce qui relève du « comportement » et agit
donc comme révélateur d’une différence de risque.
– En général, une telle approche se limite à la mesure de l’impact du nombre
de sinistres observés sur le nombre probable futur. Cette analyse sera abordée dans
la première parité (cf. S221). Nous commencerons par une analyse simple mettant
en avant l’impact des sinistres d’une garantie sur la sinistralité de cette même
garantie puis nous généraliserons l’approche au cas multi-garanties. Dans la
seconde partie (cf.221), Nous commencerons par une analyse simple mettant en
avant l’impact des sinistres d’une garantie sur la sinistralité de cette même garantie
plous nous généraliserons l’approche au cas multi-garanties. Dans la seconde partie
(cf. S222), nous aborderons l’analyse a posteriori pour les coûts des sinistres et
proposerons une équation qui permet de mesurer l’impact du coût des sinistres
observés sur le coût probable des sinistres futurs.

238
2.2.1 Analyse a posteriori de la fréquence.
Il existe deux approches classiques de l’analyse a posteriori : la crédibilité
(Kunsch H.R, 1992 ; Jong de P. & Zehnwirth B, 1983, Bultmann H, 1970) et les
modèles de Poissions à paramètre aléatoire (modèle de Delaporte). Dans cette
partie, nous ne nous intéressions qu’à la seconder102 pour deux raisons.
– L’analyse a posteriori vient en complément de l’analyse a priori pour apporter
une information absente dans les variables exogènes, son poids dans l’analyse du
risque dépend donc de la qualité de la segmentation la crédibilité soir, pour ne pas
fier double emploi avec la segmentation ;
Être appliquée segment par segment. Cette solution n’est pas opératoire étant
donné le nombre de segments utilisés en assurance automobile.103
– L’analyse a posteriori est pour partie comprise dans les modèles utilisés pour
l’analyse a priori.

Analyse mono-garantie.
L’hypothèses de base du modèle de Poisson à paramètre aléatoire est la
suivante : la survenance des sinistres d’un assuré suit un processus de Poisson dont
la fréquence est la réalisation d’une variable aléatoire A de moyenne identique
pour tous les assurés d’un même segment (appelée fréquence a priori) et de variance
relative 1/ a. L’analyse a priori permet d’estimer les paramètres de la variable
aléatoire L’analyse a posteriori cherche à ré-estimer la valeur de la fréquence
individuelle, connaissant la loi de A et le nombre de sinistres survenus au cours
d’une période donnée. L’estimation ainsi calculée est appelée fréquence a
posteriori. Dans le cas du modèle de Poisson à paramètre rendu aléatoire (et suivant
une loi gamma104), nous avons :
a  nt
 '( t )   ( t )
a  nˆ t

102
Notions que pour des flottes automobiles, par exemple, la crédibilité peut être envisagée. Mais
encore faut il que la taille de la floue soit suffisante si on vert éviter les effets d’attraction vers la
moyenne du modèle de crédibilité.
103
Cette difficulté peut être levée grâce à l’utilisation de la crédibilité hiérarchique.
Toutefois, cette solution nécessite une approche radicalement différente afin de limiter le nombre de
segments. Une solution consiste à définir dans un premier temps les segments à partir d’une analyse
discriminante de la sinistralité (Degiovanni P, Hassan H. & Julien J.Y, 1986) puis à appliquer une
crédibilité à deux niveaux. Nous n’avons pas retenu une telle solution car l’analyse discriminante
suppose la définition de « vous « et de « murais » risques, ce que la
104
Nous nous limitons volontairement à la loi gamma car elle permet une intégration simple des
analyses a priori et a posterions, intégration qui est, comme nous le verrons dans l’exemple,
fondamentale pour une bonne analyse des risques.

239
Où  ' ( t ) est la fréquence a posteriori à l’instant t ,
 ( t ) est la fréquence a priori à l’instant ***
a Est l’inverse de la variance relative des fréquences individuelles
Dans chacun des segments (variance exogène intra-classe),
nt est le nombre de sinistres observés au cours de la période (0nt),
nˆt est le nombre prévu de sinistres a priori au cours de la période
t
0,t ou exposition aux risques ( nˆt  0  (u ) du )
Démonstration :

La variable aléatoire t , suit une loi gamma de densité.


aa  a 
f (x) x a 1 e x p   x
 (a )  t 
En appliquant la formule de Bayes, nous obtenons la loi conditionnelle de
 t N t  nt :
P  t  x ( N t  nt ) f ( x )
f ut ,  a , u0 ,t  ( x ) 
 x0
P  t  x ( N t  nt ) f ( x ) dx
Conditionnellement à t  x, Nt suit une loi de Poisson de paramètre.
t

x
 0
udu
 x
nˆ t
t t
Nous avons donc :
ut
1  nˆt   nˆt 
Pt  x ( N t  N t )   x  exp   x 
nt !  t   t 
Soit pour la densité conditionnelle :
 a  nˆ t 
f ut ,  u ,u  0, t  (x)  Kx a  u t 1 exp   x
  t' 
Où k est un coefficient de normalisation.
Si nous posons :
a  nt
 '( t )   ( t )
a  nˆ t
Nous obtenons :

240
 a' 
f u t ,  u , u   0, t  (x )  K x a'  1 ex p   ' x 
 t 
Qui est la densité d’une loi gamma de moyenne  '(t) et de variance relative
1/ (a  nt ) Propriété : La variable aléatoire t Nt  nt est une loi gamma de

variance relative 1/ (a  nt )
Afin de mettre en évidence les propriétés de l’analysé a posteriori, nous avons
élaboré un exemple simple à but pédagogique. Nous avons considéré une
population de 10 000 risques répartie selon deux variables exogènes ayant chacune
deux modalités :
Risque A1 A2 Total A
B1 3 000 1 000 4 000
B2 2 000 4 000 6 000
Total B 5 000 5 000 10 000

Les fréquence individuelles ont été tirées de manière aléatoire selon des lois
gamma de variance relative 1/6 (a=6) et de moyennes :
Moyennes (0/00) A1 A2 Total A
B1 40 120 60
B2 90 255 200
Total B 60 228 144

Les fréquences (théoriques) ainsi obtenues correspondent à des fréquences par


segment égales à :
Fréquences (0/00) A1 A2 Total A
B1 0, 6 119,7 60,4
B2 90, 4 259,2 202,9
Total B 60, 5 231,3 145,9

Pour chaque assuré, nous avons simulé deux années de sinistres. A partir de
l’observation de ces deux années, nous obtenons une estimation de a égale à 4,4
(contre 6) et des estimations des fréquences a priori pour chaque segment :
Fréq.a priori estimée A1 A2 Total A
B1 40,2 115,4 59,0
B2 89,6 257,5 201,5
Total B 60,0 229,1 144,5

Nous avons ensuite estimé les fréquences a posteriori à partir de la sinistralité


survenue durant les deux années d’observation. En étudiant les fréquences en fonction
de la sinistralité pour chaque segment, nous obtenons pour le segment A1. B1.

241
Nombre Nombre Fréquence Fréquence Fréquence
de Sinistres D’assuré a priori a Posteriori Individuelle
0 2 755 40,2 39,5 39,9
1 232 40,2 48,5 48,9
2 13 40,2 57,4 55,9
Total 3 000 40,2 40,3 40,6

Et pour le segment A2-B2 :


Nombre Nombre Fréquence Fréquence Fréquence
de Sinistres D’assuré a priori a Posteriori Individuelle
0 2 458 257, 5 230,5 237,6
1 1 141 257, 5 282,9 278,1
2 315 257, 5 335,3 326,5
3 71 257, 5 387,7 346,2
4 et plus 15 257, 5 453,5 520,4
Total 4 000 257, 5 257,3 259,2

Sur un segment donné, la fréquence moyenne estimée a priori est


indépendante du nombre de sinistres (elle est fonction des seules variables
exogènes). Les fréquences indicielles (c’est-)-dire la moyenne des fréquences réelles,
mais non observable en pratique, de chaque assuré) sont des fonctions croissantes
du nombre de sinistres constatés : l’observation de la sinistralité contient des
informations non prises en compte par les variables exogènes105. Enfin, les
fréquences estimées a posteriori sont, elles aussi, fonctions du nombre de sistres :
l’analyse a posteriori permet de mieux reproduire les comportements individuels.
L’utilisation de ce modèle pose des questions pratiques, importantes auxquelles
nous allons maintenant apporter des éléments de réponse
a) Doit-on intégrer les analyses a priori et a posteriori dans une même
approche, lorsqu’elles sont utilisées simultanément dans l’estimation du risque ?
La formule de la fréquence a posteriori met en évidence les liens existant entre
l’analyse a priori et l’analyse a posteriori, notamment la règle de proportionnalité
entre (t) et . Mais de plus, la relation entre le coefficient de proportionnaliré
((a  nt )/ (a  nˆt )) et les estimations obtenues lors de l’analyse a priori doit
prendre en compte deux éléments.
a.1) Prise en compte du nombre de sinistres probable a priori dans l’estimation
a posteriori.
Pour les assurés sans sinistre, la baisse de fréquence due à l’absence de sinistre
croit (en pourcentage, i e.  '( t ) /  ( t ) décroît) lorsque le nombre prévu de

105
Cette relation ne remet pas en cause l’indépendance entre les nombre de sinistres survenais est deux
périodes disposantes pour un individu donné.

242
sinistres croît (nˆt ) c’est-à-dire quand la fréquence a priori coût Pour les assurés
avec sinistres, l’augmentation de fréquence décroit (en pourcentage) lorsque le
nombre prévu de sinistres croît, c’est-à-dire quand la fréquence a priori croît, ces
différences étant importantes en pratique En effet, dans notre exemple, les écarts
entre les fréquences a posteriori et a priori sont égaux a :
Nombre de sinistres Écarts (fréquence à priori / a posterions)
A1-B1 (40,2 %) A2-B2 (257,5 %)
0 -1,7 % -10,5 %
1 + 20,6 % + 9,9 %
2 + 42,7 % + 30,2 %

Les écarts sont alors indépendants de la fréquence a priori. Cette non-prise en


compte de la segmentation a prion dans le calcul de a se traduit par une sous-estimation
de la fréquence des assurés ayant une fréquence a priori faible et pas de sinistres et par
une surestimation de celle des assurées ayant une fréquence a priori forte et des sinistres
L’accumulation des effets de ce phénomène au cours d’une période de plusieurs années
amplifie les écarts Par exemple, si nous pensons deux assurés appartenant
respectivement à A1-B1 (fréquence moyenne 40,2 %) et A2-B2 (fréquence moyenne
257,5 %) mais ayant une même fréquence individuelle (145,0 %) Après une longue
période d’observation et en absence de segmentation nous obtenons les fréquences de
leur segment, c’est-à-dire respectivement 42,5 % et 257,5 %.
En revancher, en présence d’une segmentation a priori, nous obtenons bien les
fréquences individuelles, c’est-à-dire 145,0 %106.On pénalise donc trop l’assuré ayant
une fréquence a priori forte et pas assez celui ayant une fréquence a priori faible.
a. 2) Prise en compte de la segmentation a priori dans l’estimation du
paramètre a la sensibilité aux variations du nombre de sinistres croît lorsque a
décroit, c’est-à-dire lorsque la qualité de la segmentation décroît (segments moins
homogènes ou variance exogène intra classe plus grande) Par sans segmenter les
risques a=1,4), nous obtenons entre les fréquences a priori et a posteriori les
variations suivantes :

106
Lorsque le nombre d’années d’observation tend vers l’infini, le nombre de sistres observés pour un
assuré tend vers le nombre de sinistres probables, c’est-à-dire vers le produit de la fréquence
individuelle par la durée d’observation (145 % pour les deux cas). En absence de segmentation, nous
avons pour le premier t' (t)  42,5 (a 145,0t) / (a 145,0t)  42,5 et pour le second
segmentation, nous avons pour le premier cas la relation suivante
 (t)  257,5 (a 145,0t) / (a 145,0t)  257,5
t
'
et pour le second

 (t )  257,5  (a 145,0  t ) / (a  257,5  t ) 


t
'
t 
145,0.

243
Écarts
Nombre A1-B1 A2-B2
De A=1,7 A=4,4 A=1,7 A=4,4
Sinistres Non segmenté Segmenté Non segmenté Segmenté
0 -4,5 % -1,7 % -23,3 % -10,5 %
1 + 51,6 % + 20,6 % + 21,9 % + 9,9 %
2 + 107,8 % + 42,7 % + 67,0 % + 30,2 %

La fréquence a posteriori des assurés sans sinistres est sous-estimée, celle des
assurés ayant des sinistres est surestimée.
b) Doit-on utiliser simultanément les analyses a priori et a posteriori dans
l’estimation du risque ?
L’analyse a posteriori permet de corriger l’analyse a priori. L’absence de
segmentation peut donc être compensée par l » analyse a posteriori. Comparons
ainsi les fréquences qu’on obtiendrait en utilisant, d’une part, l’analyse a priori
seulement, et d’autre part, l’analyse a posteriori seulement.
Fréquence fréquence a
Nombre de Nombre A priori Posteriori Fréquence
Sinistres D’assurés Seulement Seulement
0 7 687 128,3 123,4 121,3
1 1 843 189,9 196,1 207,5
2 377 229,4 268,8 293,0
3 78 243,4 341,5 328,3
4 et plus 15 257,4 414,1 520,4
Total 10 000 144,5 144,5 145,9

Si nous analysons les résultats en fonction de la sinistralité, nous constatons


que c’est l’estimation a posteriori qui donne le meilleur résultat, l’amplitude entre
les clients ayant 0 sinistre et ceux ayant 2 sinistres est de 218 % avec la segmentation
a posteriori contre 179 % avec celle a pesterions Toutefois, les deux amplitudes sont
inférieures à la réalité (242 %) dont on se rapproche avec la méthode mixte.
Fréquence fréquence a
Segment Nombre A priori Posteriori Individuelle
D’assurés Seulement Seulement
A1-B1 3 000 40,2 129,8 40,6
A1-A2 2 000 90,4 136,0 89,6
A2-B1 1 000 119,7 139,9 115,4
A2-B2 4 000 257,5 160,6 259,2
Total 10 000 144,5 144,5 145,9

Si nous analysons les résultats en fonction de la sinistralité, nous constations


que c’est l’estimation a posteriori qui donne le meilleur résultat. L’amplitude entre
les clients ayant 0 sinistre et ceux ayant 2 sinistres est de 218 % avec la segmentation

244
a posteriori contre 179 % avec celle a posteriori. Toutefois, les deux amplitudes sont
inférieures à la réalité (242 %) dont on se rapproche avec la méthode mixte.
Fréquence fréquence a
Segment Nombre A priori Posteriori Individuelle
D’assurés Seulement Seulement
A1-B1 3 000 40,2 129,8 40,6
A1-A2 2 000 90,4 136,0 89,6
A2-B1 1 000 119,7 139,9 115,4
A2-B2 4 000 257,5 160,6 259,2
Total 10 000 144,5 144,5 145,9

Si maintenant nous analysons les résultats par segment, nous faisons le constat
inverse. Avec l’analyse a priori, nous avons une amplitude de 641 % (égale à
l’amplitude réelle), alors qu’avec l’analyse a posteriori nous avons une amplitude de
seulement 124 %

Conclusion
Les analyses a priori et a posteriori sont donc complémentaires : on ne peut
choisir l’une au détriment de l’autre Ces deux étapes doivent toutefois être intégrées
dans une approche globale et cohérente : la détermination des paramètres de
l’estimation a posteriori doit être obtenue avec la même segmentation que celle
utilisée dans l’analyse a priori, d’une part, et, d’autre part, l’application du système
de réduction/ majoration doit être différente selon le segment a priori de l’assuré
– Le poids de l’analyse a posteriori dans le calcul du coût de la matière première
est d’autant plus faible que l’analyse a priori est bonne et donc que le risque est
segmenté ou « simple »
– L’amélioration révélée par une absence de sinistre est d’autant plus
importante que le risque a priori estimé est important. L’aggravation révélée par les
survenances de sinistres est d’autant plus importante que le risque a priori estimé
est faible.
Ces propriétés sont actuellement peu ou pas vérifiées par les systèmes légaux
de bonus /maous. En pratique, il en résulte une sous-estimation de la prime pure
pour les clients ayant un risque a priori faible et pas de sinistres et prime pure pour
les clients ayant un risque a priori faible et pas de sinistres et une surestimation pour
creux ayant un risque a priori important et des sinistres.
Quatre qu’elle propose un système de bonus/malus optimal107 mettant en
évidence les biais du système légal, cette approche permet de traiter les problèmes
de changement de risque (véhicule, zone de circulation …) d’évolution des

107
Et à temps continu (Norbert R, 1992).

245
fréquences dans le temps (Besson J.I.&Partrat Ch., 1992).
– baisse de la fréquence RC corporelle-puisque le calcul du nombre de sinistres
probable au cours de la période (0, t) repose sur les fréquences a priori aux différents
instants : Les analyses a priori et a posteriori sont aussi intégrées dans le temps.
– Mais les limites du modèle sont de deux ordres.
– Il sous-estime de manière réduite mais persistante la queue de distribution,
c’est-à-dire le nombre d’assurés représentant un sur-risque (la fréquence a
posteriori estimée pour les assurés du segment A2-B2 ayant 4 sinistres ou plus est
inférieure à la fréquence individuelle moyenne : 453,5 contre 520,4).
– Il est limité à une seule garantie ; cela entraîne, soit une perte d’information,
si on analyse chaque garantie individuellement en ignorant les corrélations entre
les sinistres de différentes garanties, soit une perte de précision si on applique un
système unique pour toutes les garanties.
Pour pallier ces limites, nous proposons deux axes de recherche :
– Le développement d’un système de bonus/ malus multi-granites ;
– Le développement d’système de bonus/malus portant sur les coûts des
sinistres ;

Analyse multi-garanties
L’analyse garantie par garantie conduit à une perte d’information dans la
mesure où les fréquences individuelles pour les différentes garanties peuvent être,
pour un même assuré, corrélées. Cette perte d’information est d’autant plus grave
que les phénomènes étudiés ont des fréquences faibles (la pertinence de
l’observation sur une période donnée est d’autant plus faible que la fréquence est
faible). Toutefois, la variance endogène est importante pour chacune des garnîtes,
il est difficile de mesurer ces corrélations il existe d’ores et déjà des modèles multi-
garanties apportant un début de réponse à cette question (Partirait Ch, 1992, Larsen
C.R, 1991). Toutefois, la limite de ces modèles vient du fait qu’ils supposent que le
coefficient de corrélation entre les garanties est égal à 1. Si une telle hypothèse
permet d’apporter des améliorations pour certaines garanties (RC matérielle et RC
corporelle), ces méthodes ne permettent pas d’estimer un coefficient.
Nous proposons ici une démarche (Boulanger F, 1994) qui généralise la
relation mono-garantir au cas de plusieurs garanties :
us
p
k  nt 
p

q 1, q  p
p
q c( q nt  q nt )
p
 '(t )  p  (t ) p
k  nˆt

p
 '(t ) est la fréquence a posteriori à l’instant t pour la garantie principale P.

246
p
 (t ) est l’estimation de la fréquence a priori pour la garantie p,
p
k est une constante proportionnelle à l’inverse de la variance relative des
fréquences individuelles de la garantie p dans chacun des segments (noté p a et dont
le coefficient de proportionnalité dépend des corrélations entre garanties.108
n g est le nombre de garanties,
i
n t est le nombre de sinistres observés au cours de la période (0, t)
Pour la garantie i (principale ou annexe),
n̂ est le nombre prévu de sinistres a priori au cours de la période (0, t) pour
la garantie i,
p
q c mesure le poids des sinistres de la garantie (annexe) q pour l’estimation
de la fréquence a posteriori de la garantie (principale) p, il est proportionnel au
coefficient de corrélation109 entre la fréquence individuelle de la garantie qu’et celle
de la garantie p.
Cette relation permet de mettre en évidence les principales propretés de
l’analyse multi-garanties.
– S’il y a absence de corrélation entre les garanties, la solution est la même que
dans le cas mono-garantie ; la sinistralité de la garantie annexe n’apporte pas
d’information sur la garantie principale
p
q c  0
– Si les garanties sont corrélées positivement, la survenance d’un sinistre
couvert par la garantie annexe se traduit par une augmentation de l’estimateur a

108
Par généralisation du résultat obtenu pour deux garanties, nous avons :
Où **** est la variance relative de la fréquence individuelle de la garantie q dans les classe (variance
exogène intr-classe),
**** est l’inverse de la variance relative de la garantie q, c’est le paramètre de la loi gamma relative au
modèle de Poisson à paramètre aléatoire de la garantie q,
**** est le coefficient de corrélation entre les fréquences individuelle des garnîtes q et p pour un même
assuré
Si les fréquences individuelles ne sont par corrélées, le coefficient k est égal à (on retrouve le cas de
l’analyse mono-garantie).
109
(1) Par généralisation du résultat obtenu pour deux garanties, nous avons :
p
a
q
a
qc 
p
ng
(1  q , p  2 )
1   q nˆ t q
q  1, q  p a
Le terme
q, p
 p
a /q a est égal au coefficient du MEDAF qui rend compte de la possibilité de
diversification entre les garanties q et p

247
posteriori de la fréquence de la garantie principale. De plus, le poids de la garantie
annexe est positif si le nombre de sinistres constaté est supérieur au nombre prévu
(augmentation de la fréquence, l’assuré est « plus mauvais » que l’assuré moyen
pour la garantie annexe), il est négatif dans le cas contraire (diminution de la
fréquence, l’assuré est « meilleur « que l’assuré moyen pour la garantie annexe).
– Si les garanties sont corrélées négativement, la survenance d’un sinistre sur
la garantie annexe se traduit par une diminution de l’estimateur a posteriori de la
fréquence de la garantie principale De plus le poids de la garantie annexe est négatif
si le nombre de sinistres constaté est supérieur au nombre prévu ; il est positif dans
le cas contraire.
– Ces propriétés sont conformes à l’expérience, le modèle à une contrepartie
dans le monde réel.
Par ailleurs, les propriétés décrites lors de l’analyse du modèle monogarantie
restent vraies et se généralisent au cas multi-garanties ; il est important d’appliquer
et d’estimer les paramètres du modèle après segmentation afin d’éviter de sous-
estimer le risque des assurés considérés.
Comme « bons » ou de surestimer celui des assurés considérés comme
« mauvais ».
– Cette propriété est vérifié dans le cadre suivant les processus de survenance
des sinistres sont des processus de Poisson de paramètres aléatoires.
p
N  Poisson( p  ), p
  p   p U ,  p ,  p  ng
où p
 sont les fréquences individuelles des garanties ;
p
 sont les fréquence a priori des garanties ;
p
p
 sont des variables aléatoires gamma de paramètres (1, a) non
indépendantes et dont les lois multivariées sont inconnues
Et tel que, conditionnellement à la donnée des fréquences
 
. p   P  , p  1  n g , les processus de Poisson sont indépendants ;110
Propriété : Sous ces hypothèses, la relation a posteriori ci-dessus est
l’estimateur à posteriori linéaire qui minimise l’erreur quadratique.

Démonstration :

Nous cherchons un estimateur


p
 t
'
de :
p
 t ( q n t )1  q  u g

110
Cette propreté généralise le principe d’indépendance, pour un individu donné, entre deux périodes
disjointes du processus de Poisson au cas multi garnîtes

248
De la forme :
T
p
 t'  p b0 (t )   p bq (t ) q nt  p b(t ) nt


p
 p p
b ( t ) est le vecteur b0 (t ), b1 (t ),..., bas (t ) ;
p


n t est le vecteur 1, 1 n 1 , ..., a s n t  .
Et qui minimise la fonction :

  
 p b(t )  E  p t  pt  
2


Où  est le vecteur défini par :
 T
 
T
 p
b (t )   2 p C t p b (t )  p b (t )  p b (t )
Par application du principe de l’espérance de l’espérance conditionnelle, nous
avons :

p C t  p  t  1,1 nˆ t E  p U 1U  , ..., n s nˆ t E  p U a s U  
Et où la matrice t est définie par :
 t E  N t T N t


Et qui se met sous la forme :
 1 1nˆ t  ut
nˆ s 
 1 
 nˆ t
1
nˆ t  1 nˆ t2 E  1U 2   1
nˆ t u s nˆ t E  1U a sU  
t  
     
 u snˆ us
nˆ t 1 nˆ t E  u s U 1U   us
nˆ t  nˆ t E  U U  
ut 2 us 2
 t

En effet, pour tout couple ( p, q) nous avons


E  p N t q N t   E  E  N t q N t p  t , q  t
p

Si p  q d’après l’indépendance conditionnelle des processus de Poisson, nous


avons :
E  N t N t   nˆt nˆt E U , U 
Si non, nous avons :

E  p Nt2   p nˆt  p nt2 E  p U 2 


(résultat classique des processus des Poisson).
Par dérivation de la fonction  , nous obtenons :

249
 2  p
b (t )   2 p
C t  2 p b (t )
 b (t )
p

 2  p
b (t )   2 ,
 p b (t ) 2
La fonction  admet donc un unique minimum défini par
Nous avons donc comme estimateur :
 1
p b (t )   t
p
C t

Dans le cas bivarié, nous avons :


 
 
 1 
p
C t  pt  

1
nˆ 1 E  1 U p
U  
 
 2
nˆ 1 E  1 U p
U  
 
 1 1
nˆ1 2
nˆ1
 
 t  1 nˆ1 1
nˆ1  1 nt2 E  1U 2  1
nˆ1 nˆ1 E  U  
2 1 2

 
 2 nˆ1 2
nˆ1  1 nt E  2 U 1U  2
nˆ1  nt E  U  
2 2 2 2 

Soit, après inversion de la matrice et pour ***** :
 12 nˆt (1V 1,2V ) 
 1
 
1b(t)  1 1 2 2 1 t 2 1 2 1,2 2  1V 2 nˆt (1V 2V 1,2V 2 ) 
1 nˆt V  nˆt V  nˆt nˆt ( V V  V )  1,2 
 V 
Où V  v a r ( U )
V) V  c o v ( U , U )
Nous obtenons ainsi :
1
 't (1  1 n t 1V )(1  1 nˆ t 1V )  1 n t 2 nˆ t 1, 2V 2  ( 2 n t  2 nˆ t ) 1, 2 V

1
t (1  1 nˆ t 1V )(1  1 nˆ t 1V )  1 n t 2 nˆ t 1, 2V 2
Soit encore :

250
1 2
k 1
n  c ( nt 2 nˆt ) 1
1
t '
k n 1 1
V k 1,2 t 1
2
 1 1 t  2 2 1 1 (2 nt 2 nˆt ) 
1
t k  nt 1  nt V k nt
ˆ ˆ ˆ 1
k 1 nˆt
2
nˆ t
1
Où k  1  nˆ t V 2 2 2
a
 1a
1  nˆ t 2V (1  1, 2  2 ) 1 V
2 2

1  2 t (1  1, 2  2 )
a
1a
1 1,2 2
V 2a
c  1, 2 
2 1  nˆ t V (1  1,2  2 )
2 2 1
V nˆ 2
1  t (1  1,2  2
2a
D’où le résultat par généralisation à plus de deux garanties.
La difficulté liée à la mise en œuvre de ce modèle tient à l’estimation du
coefficient de corrélation entre les fréquences individuelles des garanties. Le calcul
direct à partir de l’observation des sinistres n’est pas possible du fait de la variance
endogène du processus de survenance. Pour résoudre ce problème, nous proposons
de calculer la covariance à partir de l’estimation par le maximum de vraisemblance
du paramètre à du modèle de Poisson à paramètre aléatoire appliqué aux différentes
garnîtes ainsi qu’aux couples de garanties.
Pour la garantie p, nous avons la relation :
D’où un estimateur de E  p U 2

1
E  p U 2
  1 
pa
L’application du modèle aux sinistres des garanties p et q additionnés
permet d’estimer le paramètre p, qa associé, Ce paramètre est égal à :

 t  q t 
p 2
p ,q
a
E   p t pU  q t qU     p t  q t 
2 2

 
D’où un estimateur de : p ,q

Pour illustrer notre propos, nous avons introduit une garantie année à
l’exemple présenté dans la partie mono-garantie. Les fréquences individuelles de
cette seconde garantie se déduisent des fréquences individuelles de la garantie
principale par la relation suivante :
2
  (1U )1 U 2 ' Où U est une variable aléatoire uniforme sur 0,1

251
2
 ' suit une loi gamma de variance relative 0,5 et de moyenne 2  '
Fonction des variables exogènes telle que nous ayons par segment les valeurs
suivantes :
Fréq-garantie 2 A1 A2 Total A
(%)
B1 30,3 80,8 42,9
B2 60,6 171,7 133,6
Total B 42,4 153,5 98

A partir des réalisations des fréquences individuelles (grandeurs utiles), nous


avons calculée par segment les coefficients de corrélation entre les fréquences
individuelles des garanties. Nous obtenons les valeurs suivantes :
Coefficient de corrélation A1 A2
B1 0,578 0,535
B2 0,588 0,585
Dans un deuxième temps, nous avons simulé 5 années de sinistres (grandeurs
observables) pour les deux garanties. Disposant de ces données, nous avons
appliqué successivement le modèle de Poissions à paramètre aléatoire à la garantie
1, à la garantie 2 et au couple afin d’estimer le coefficient de corrélation. Nous avons
obtenu des valeurs proches des valeurs du modèle sous-jacent :
Coefficient de corrélation entre les A1 A2
nombres de sinistres : estimation
B1 0,529 0,527
B2 0,528 0,526
Bien que l’hypothèse faite (« les lois des Fréquences individuelles de chacune
des garanties et celle de la somme suivent des lois gama ») soit forte, elle permet un
calcule effectif des coefficients de corrélation111 : elle est opératoire. Notons que,
comme nous l’avions annoncé, le calcul direct du coefficient de corrélation entre
les Nombres de sinistres ne permet pas d’avoir un bon estimateur des coefficients
de corrélation du fait du (bruit » lié au processus de survenance des sinistres :
Coefficient de corrélation A1 A2
entre les nombres de sinistres :
estimation
B1 0,009 0,021
B2 0,075 0,144

111
Les processus de survenance des sinistres pour la garantie 2 et la garantie 1 + 2 ne vérifient pas les
hypothèses (les variables aléatoires Fréquences individuelles ne suivent pas des lois gamma).

252
Formule d’estimation a posteriori. Si nous calculons la fréquence a posteriori
de la garantie principale à partir de la sinistralité des garanties principale et annexe
observée sur deux années et en fonction du nombre de sinistres observés pour la
garantie annexe, nous obtenons d’une part pour l’ensemble des assurés :
Estimation de la fréq. De la garantie principale
Nombre Modèle Modèle Fréquence
de
Nombre Moèle
Sinistres A A Individuelle
posteriori : posteriori
Annexe mono multi Sous-
jacente
0 8 344 133,2133,2 132,7 129,1 130,5
1 1 402 196,5 198,0 211,9 211,4
2 215 228,5 232,8 271,8 282,6
3 et plus 39 236,1 243,5 308,2 333,7
Total 10 000 144,5 144,5 144,4 145,9
Et d’autre part pour le seul segment A2-B2.
Estimation de la fréq. De la garantie principale
Nombre de Modèle Modèle Fréquence
Nobre odèle
Sinistres A A Individuelle
posteriori : posteriori
Annexe mono multi Sous-
jacente
0 2 868 275,5 256,2 247,2 249,3
1 921 275,5 259,8 276,8 274,6
2 177 275,5 262,5 305,5 317,9
3 et plus 34 257,5 264,5 334,3 364,0
Total 4 000 257,5 257,3 257,3 259,2

Ces deux tableaux, et plus particulièrement le deuxième, montrent


l’importance de la sinistralité couvert par la garantie annexe lors de l’estimation de
la fréquence a posteriori de la garantie principale. L’observation de la garantie
annexe apporte des informations complémentaires concernant la garantie
principale. En effet, quand on analyse l’écart de fréquence entre les assurés sans

253
sinistre d’une part, et ceux ayant eu 1 sinistre d’autre part, on constate que
l’approche multi-garanties est plus proche de la réalité que l’approche mono-
garantie Cet écart vaut respectivement pour l’ensemble des assurés (tous segments
confondus) et pour le segment A2-B2 :
– 64,1 % et 1,4 % avec le modèle mono-garantie.
– Il faut comparer ces valeurs avec la « réalité » (fréquence individuelle
moyenne des assurés, non observable en pratique) : respectivement 62,0 % et
10,1 %.112
Estimation de la fréq. De la garantie principale
Nombre de Modèle Modèle Fréquence
Nombre Modèle
Sinistres A A posteriori Indivduelle
posteriori :
Annexe mono multi Sous-jacente
0 8 344 133,2 129,1 127,2 130,5
1 1 402 196,5 211,9 218,8 221,4
2 215 228,5 271,8 291,2 282,6
3 et plus 39 236,1 308,2 340,5 333,7
Total 10 000 144,5 144,4 144,4 145,9

Et pour le segment A2-B2


Quatre le fait le de pouvoir intégrer les corrélations entre garanties, cette
approche peut permettre, en découpant une garantie par tranche de coûts, d’avoir
un système de bonus qui tient compte des coûts des sinistres : par exemple en
différenciant dans l’analyse les sinistres corporels et matériels.

2.2.2. Analyse a posteriori du coût probable des sinistres.


Comme pour les fréquences, il peut exister à l’intérieur d’un même segment
des différences de « comportement » entre les assurés qui peuvent avoir des
conséquences sur le coût probable des sinistres des assurés. Par exemple, pour un
même risque a priori, les assurés n’utilisant que des routes secondaires ont des coûts
de sinistré moins élevés que ceux utilisant des nationales (la vitesse en cas de
collision est moindre) Plus encore que pour l’analyse de la fréquence, le problème,
du fait du poids de la variance endogène dans les coûts des insères, est de faire la
part entre ce qui relève du « basard » et ce qui est du ressort du « comportement ».
Lors de l’analyse du modèle Bêta de seconde espèce, nous avons décomposé la

112
L’introduction des sinistres des garanties annexe peut ^tre196,5 obtenue de manière plus simple
en regroupant les garanties en une garantie unique Cette solution revient à considérer228,5 que les
coefficients de corrélation sont tous égaux à 1. Si on applique cette méthode à l’exemple précédent,
nous obten236,1ons pour l’ensemble.

254
variance relative des coûts de sinistres en deux termes, un premier (1/r) dépendant
l de la seule variance du processus de passage des grandeurs utiles aux grandeurs
observables et un second  ( r  1) / r  / ( a  2)  dépendant de la variance
exogène intra-classe. A partir de ces deux paramètres, nous pouvons calculer le
meilleur estimateur du coût probable connaissant les coûts de n sinistres :
Estimation de la fréq. De la garantie principale
Nombre de Modèle Modèle Fréquence
Nombre Modèle
Sinistres A posteriori : A posteriori Individuelle
Annexe mono multi Sous-jacente
0 2 868 257,5 247,2 242,7 249,3
1 921 257,5 276,8 285,3 247,6
2 177 257,5 305,5 327,2 317,9
3 et plus 34 257,5 334,3 369,7 346,0
Total 4 000 257,5 257,3 257,3 259,2

Bien que les écarts soient relativement faibles, cette solution conduit à une sous-
estimation de la fréquence pour les assurés n’ayant pas eu de sinistres pour la garantie
annexe et à une surestimation de celle des assurés en ayant eu 1. Ce phénomène est
dû au poids trop important accordé à la garantie annexe du fait de l’hypothèse portant
sur le coefficient de corrélation : Les écarts sont d’autant plus importants que le
coefficient est loin de 1 (garanties corrélées négativement par exemple).
n  1 n
x 
si 1
(a  1)  r  
n  1  n k 1 s
k

 i 
si n
(a  1)  r
n  1
Où si est l’estimation a priori du coût probable des sinistres du client ****
si1 est l’estimation a posteriori du coût probable des sinistres,
n est le nombre observé de sinistres,
xk est le coût observé du sinistre k.
Démonstration
La densité de la loi du n + unième sinistre X n 1 conditionnellement à la
valeur des n premiers sinistres se met, d’après la formule de Bayes, sous la forme :

fX ( X k ,1  k  n  1)
f X n 1 X k ,1  k  u ( x ) 
k 1 , k  n 1

fX k 1 , k  n 1
( X k ,1  k  n )
D’après la propriété d’indépendance conditionnelle des coûts des sinistres,
nous avons :

255
  u 1 
f X k 1, k  n 1 ( X k ,1  k  n  1)     f X k u ( x k )  g s ( u ) du
0
 k 1 
f X k u ( x k ) est la loi du k ié m e
sinistre conditionnellement à S  u ;
g s (u ) est la loi de S.
Les coûts des sinistres sont identiquement distribués (loi gamma de moyenne u et
de variance 1/ r) Si nous remparons les différentes lois par leur expression voir modèle
gamma à paramètre aléatoire), nous obtenons comme densité pour la loi n-variée !
n
 s ( a  1) a r r     n

   u ( r  a 1) u
exp  u  s ( a  1) n  r  xk   du
  ( a ) ( r )  0
  k 1 
Soit encore
n
 s ( a  1) a r r   (1  ( r  a  1) n ) u

  1 ( r  a 1) x k
  ( a ) ( r )  
u
n
 k 1
 s ( a  1) n  r  x k 
 k 1 
Si nous revenons maintenant à la loi conditionnelle, nous obtenons :
rx
1 n
s ( a  1)( n  1)   xk
f x u 1 x k , 1  k  u k 1
1 ( r  a 1 )(u 1 )

 
 rx 
1  n

 


s ( a  1) n  
k 1
xk 

Conditionnellement à X k  x k ,1  k  n , la variable aléatoire :
r X u 1
n
s ( a  1)( n  1)  
k 1
xk

Suit une loi bêta de paramètres X K  X K ,1  K  N , . La loi est stable par


conditionnement, seuls les paramètres différents par calcul des espérances nous
obtenons le résultat.
A partir de la formule de l’estimateur du coût moyen a posteriori, nous
déduisons les propriétés suivantes de l’analyse a posteriori du coût des sinistres.
– Plus a est grand, c’est-a-à-dire moins la variance exogène intra-classe est
grande, moins les coûts observés ont d’importance. C’est pourquoi il est important

256
d’utiliser pour l’analyse a posteriori la même segmentation que pour l’analyse a
priori. comme dans le cas de l’étude de la fréquence, les deux approches doivent
être intégrées dans une même démarche.
– Plus r est petit, c’est-à-dire plus la variance endogène est grande, moins les
coûts observés ont d’importance.
– Si la moyenne des rapports entre les coûts observés et le coût probable est
inférieure à 1, l’estimation a posteriori est inférieure à l’estimation a priori (l’assuré
est é meilleur » que sont segment). Inversement, si la moyenne des rapports entre
les coûts observés et le coût probable est supérieure à 1, l’estimation a posteriori est
supérieure à l’estimation a priori (l’assuré est é plus mauvis » que son segment).
C’est pourquoi il est important de rapporter l’analyse a posteriori aux estimations
a priori, afin de ne pas pénaliser les assurés ayant un coût probable estime à priori
élever,
– Toutefois, pour les garanties où nous avons de longues queurses de
distribution (sinistres corporels en automobile par exemple), il faut comprendre la
cause de la dispersion : l’origine est-elle liée au niveau de gravité du sinistre (en
Responsabilité civil automobile les corporelles et les non corporels) ou
effectivement au comportement. Afin de faire la différence, il est possible de scinder
la garantie en sous-saturé et tester un modèle multi-garanties. C’est méthodes étant
récentes, il convient d’être prudent dans leur utilisation.

2.2.3. analyse a posteriori de la prime pure


L’estimation a posteriori du coût de la matière première ne peut pas s’obtenir
par une généralisation du modèle utilisé pour l’estimation directe du coût de la
matière première. En revanche, cette estimation peut se déduire directement des
analyses de la fréquence (modèle mono ou multigaranties) et du coût probable.
Dans ce cas, nous avons la relation suivante :
  1 ut p x k  
p
 p ns
p q
 k  nt    p nt 
p
c ( nt  nˆ t ) 
q  ( a  1)( p
n t  1)  p
r p
n t   
p
r' q 1, q  p q   p 
 k  1 s
p
r  p
k  nt p
  ( a  1)( nt  1)  r nt
p p p 
  
   

Où pr est l’estimation a priori du coût de la prime pure pour la garantie p,


pr ' est l’estimation a posteriori du coût de la prime pure.
L’intérêt de cette approche, par rapport à une analyse a posteriori reposant sur la
seule fréquence, est de pondérer les variations de la prime pure par la mise en œuvre
du système de bonus-malus, on regroupe les garanties en une garantie unique.

257
2.3. Structure et valeur absolue.
Dans les deux paragraphes précédents, nous avons présenté des méthodes qui
permettent de segmenter la prime pure en fonction, d’une part, de variables
exogènes (modélisation a priori) et, d’autre part, des variables endogènes : nombres
et coûts des sinistres par individu (modélisation a posteriori). Si ces méthodes
permettent d’obtenir une structure, le change global correspondant au modèle ne
correspond pas à la charge ultime probable. Il y a deux problèmes à résoudre pour
obtenir cette adéquation au niveau de la valeur absolue de la prime pure : quelle
sera la charge ultime de la période ? Quel est l’impact des ministres graves ?
L’objet de notre propos n’est pas ici de présenter des méthodes permettant de
calculer des charges ultimes probables mais comment il convient d’intégrer ces
approches à l’approche globale qui part de l’analyse de la structure pour arriver à la
valeur absolue.

Charge ultime et charge observée


Lorsque l’on réalise une modélisation des primes pures, les sinistres de la
période de référence ne sont pas entièrement connus.
– Il y a des sinistres qui augmenteront la charge de la période mais qui ne sont
pas encore survenus au moment de l’étude ; par exemple en Responsabilité Civile
décennale construction ou en Responsabilité Civile médicale les sinistres rattachés
à la période de référence (fait générateur) peuvent se révéler des années après.
– Il y a aussi des sinistres survenus mais non encore connus au moment de
l’étude.
– Il y a enfin des sinistres non encore réglés et pour lesquels nous n’avons
qu’une estimation du coût ultime (provision).

Charge ultime et charge ultime probable


Même si nous disposions de la charge ultime de la période de référence, nous
n’avons pas encore la charge ultime probable. En effet, la survenance de sinistres
graves peut augmenter significativement la charge ultime de la période étudiée sans
pour autant que la charge globale obtenue avec la modélisation doive augmenter.
Inversement, l’absence de sinistre grave minore la charge ultime de la période de
référence sans pour autant que la charge globale obtenue par modélisation doive
diminuer.
Le calcul de la charge ultime à partir des observations peut être soit réalisé
globalement en étudiant les tableaux de développement des règlements soit reposé
sur une décomposition fréquence/ coût. Les méthodes existantes sont nombreuses
(Chain Ladder, London Chain…) ; voir par exemple (Partrat Ch., 1995) pour un

258
panorama des méthodes). Nous recommandons les approches fréquence/ coût car
elles permettent, d’une part, de mieux prendre en compte la réalité des phénomènes
étudiés et, d’autre part, d’assurer la cohérence entre la modélisation des primes
pures et le calage global de la charge ultime probable.113
L’analyse des fréquences est simple et les méthodes existantes nombreuses. Elles
reposent sur une analyse des cadences d’ouverture des sinistres La périodicité retenue
pour l’étude, annuelle, mensuel, hebdomadaire, dépend de la taille du portefeuille, de
l’évolution de cette taille (croissance/ décroissance)114 de l’objectif (provision/
tarification), du type de risque115 … ces méthodes permettent de prendre en compte
les sinistres inconnus lors de la modélisation de la fréquence. La correction du modèle
est alors simple et consiste à augmenter les fréquences modélisées indépendamment
de la classe considérée et dans un rapport égal au rapport entre le nombre de sinistres
connus et le nombre estime définitif. Cette étude doit être réalisée pour chaque
catégorie de sinistres retenue pour la modélisation.
Une pratique classiquement utiliser pour éviter ce problème de calage des
fréquences consiste à prendre une période de référence ancienne (par exemple
période t  2, t 1) puis à corriger la moyenne de l’évolution des fréquences
observée entre les périodes t  2, t 1 et t 1, t . ces approches peuvent se
traduire par des erreurs significatives. En effet, l’évolution de la fréquence entre les
périodes t  2, t 1 et t 1, t . est la combinaison de deux phénomènes :
l’évolution des fréquences par segment à structure du portefeuille constante et
l’évolution de la structure à fréquence constante par segment116
Inversement, la décomposions structure / niveau global dans l’étude de
l’évolution des fréquences entre deux périodes permet de faire la part dans

113
Des méthodes plus sophistiquées basées sur des approches stochastique font leur apparition (voir
par exemple (Regazonnai Y. & Sander J, 1997.
114
En cas de portefeuille en croissance ou de décroissance, la périodicité droit être la plus fine possible car
plus la période est grande plus la sous-estimation (croissance) ou surestimation (décroissance) est grande.
115
Pour des événements de type climatique, la périodicité doit être fine car la date précise de
l’événement est très importance et donc plus la pas est fin mieux cette date est cernée. De plus, ces
phénomènes doivent être analysés sur longue période afin d’en évaluer la probabilité d’occurrence.
Enfin, leur modélisation soit être scindée en deux : modélisation de la probabilité d’occurrence et
modélisation de la structure d’un événement La fréquence modélisée par segment est alors obtenue
par le produit de la probabilité d’occurrence (par segment, i.e. par zone géographique) par les
fréquences pour une occurrence.
116
Ce type d’erreur survient le plus souvent lorsque l’on ne refait pas l’étude de tarification dans son
ensemble mais que l’on se limite au réajustement de la prime de référence. Dans ces cas le calage pour
la nouvelle période correspond au calage de la période précédente corrigé de l’évolution globale de la
fréquence sur cette période il s’agit en fait d’un calage implicite, d’où le risque d’erreur

259
l’évolution des fréquences entre ce qui est du domaine du risque et qui doit se
retrouver dans l’évolution du tarif et ce qui du domaine de l’évolution du
portefeuille et qui n’a pas d’impact sur le tarif.
Pour les coûts, le problème est plus complexe. Cette complexification résulte
de la combinaison de quatre effets : un échantillon plus petit pour une variance plus
grande ; des cadences de règlement plus faibles que les cadences d’ouverture ; des
effets de structure plus importants dans la mesure où la répartition par classe
dépend non seulement de la répartition des risques mais aussi du processus de
survenance des sinistres ; de l’impact des sinistres « graves » et ce tant à la hausse
qu’à la baisse pour répondre à cette complexité, nous proposons d’associer et
comparer plusieurs approches différentes.
– La première méthode que nous proposons consiste à tuilier les méthodes
« classiques » basées sur les tableaux de développement mais appliquées non aux
coûts bruts mais aux coûts modélisées. Cette méthode permet d’appliquer les
méthodes sur les charges probables et ainsi d’obtenir directement la charge ultime
probable. En pratique, il faut :
– Modéliser les coûts des sinistres vus à fin, fin n + 1, fini, + 2… pour plusieurs
exercices avec le modèle Bêta de seconde espèce ; Constituer le tableau de
développement associé ;
Estimer les coefficients de passage entre coût moyen fin n + k à coût moyen
définitif.
– La deuxième méthode que nous proposons consiste à appliquer les méthodes
« classiques » sur les donnés brutes puis à corriger la charge ultime dans le rapport
« coût moyen observée / » coût moyen modélisé » avec le modèle bêta de seconde
espèce afin d’avoir la charge ultime probable.
– La troisième méthode que nous proposons consiste à prendre l’estimation du
coût moyen global ultime probable de l’exercice vu à fin n corrigé de l’effet de structure.
– Ces trois méthodes doivent être comparées entre elles et par rapport aux
évolutions calculées par la profession.
– En conclusion, les analyses de structure et les analyse globales ne peuvent être
dissociées au risque d’aboutir à des conclusions erronées.
– Toutefois, faute d’une pratique de ces méthodes sur une logue période qui
permettrait d’identifier une « meilleure « méthode, il faut combiner ces approches
de différentes manières pour retenir, de manière empirique, une solution.

260
Partie III

Tables de mortalités et méthodes stochastiques

261
262
Chapitre 1
Tables de mortalité

1. Introduction
La construction d’une table de mortalité dans le cadre paramétrique standard
a déjà été évoquée précédemment dans ce cours117 ; l’objectif du présent support est
de détailler les outils d’analyse des tables de mortalité, d’une part, et d’aborder la
question de l’évolution de la mortalité au cours du temps et des modèles propres à
en rendre compte.

1.1. Le contexte réglementaire


Les tables de mortalité utilisées par les assureurs pour leurs tarifs et leurs
provisions sont encadrées par la réglementation. En pratique, des tables de la
population générale sont utilisables par défaut, et la réglementation prévoit les
conditions dans lesquelles l’organisme peut utiliser ses propres tables. Ce contexte
est défini par les articles A335-1 du Code des Assurances, repris ci-après pour
mémoire :
Article. *A.335-1 (A. 19 mars 1993 ; A. 28 mars 1995, art.5)
Les tarifs pratiqués par les entreprises d’assurance sur la vie et de capitalisation
comprennent la rémunération de l’entreprise et sont établis d’après les éléments
suivants :
 Un taux d’intérêt technique fixé dans les conditions prévues à l’article A.132-1.
 Une des tables suivantes :
 tables établies sur la base de données publiées par l’Institut National de la
Statistique et des Etudes Economiques, et homologuées par Arrêté du ministre de
l’économie et des finances ;

117
Voir le support « Statistique des modèles paramétriques ».

263
 tables établies par l’entreprise d’assurance et certifiées par un actuaire
indépendant de cette entreprise, agréé à cet effet par l’une des associations d’actuaires
reconnues par la commission de contrôle des assurances.
Pour les contrats de rentes viagères, le tarif déterminé en utilisant les tables visées
au deuxième tiret du 2° ne peut être inférieur à celui qui résulterait de l’utilisation
des tables visées au premier tiret du 2°.
Pour les contrats collectifs en cas de décès résiliables annuellement, le tarif peut
appliquer les tables visées au premier tiret du 2° avec une méthode forfaitaire si celle-
ci est justifiable.
Cet article a été modifié par l’arrêté du 01/08/2006 de la manière suivante :
a) Au neuvième alinéa, les mots : « livre IV du titre Ier » sont remplacés par les
mots : « titre IV du livre Ier » ;
b) Le dixième alinéa est supprimé.
13° Après l’article A. 335-1, il est créé un article A. 335-1-1 ainsi rédigé :
Modèles de durée
« Art. A. 335-1-1. – Les décalages d’âge prévus au huitième alinéa de l’article A.
335-1 sont appliqués de telle sorte que chaque taux de mortalité annuel à un âge
donné soit égal au taux de mortalité annuel à l’âge ayant subi le décalage dans la
table appropriée. »
14° L’article A. 441-4-1 est ainsi rédigé :
« Art. A. 441-4-1. – Pour l’application de l’article A. 441-4, les tables de mortalité
sont celles appropriées mentionnées à l’article A. 335-1 applicables aux contrats de
rente viagère souscrits à compter du 1er janvier 2007.
« Les entreprises peuvent répartir sur une période de quinze ans au plus les effets
sur le niveau de la provision mathématique théorique résultant de l’utilisation des
tables mentionnées au premier alinéa.
« La provision mathématique théorique devra néanmoins être, d’ici au 1er août
2008, supérieure ou égale à celle obtenue avec la table de génération homologuée par
arrêté du 28 juillet 1993, lorsque cette provision est inférieure à celle résultant de
l’utilisation des tables mentionnées au premier alinéa. »
Article 2
Les tables prévues au quatrième alinéa de l’article A. 335-1 du code des
assurances pour les contrats de rente viagère sont à compter du 1er janvier 2007 :
– la table TGF05 ci-annexée concernant les assurés de sexe féminin ;
– la table TGH05 ci-annexée concernant les assurés de sexe masculin.
Ces tables ci-annexées sont homologuées à compter de cette même date.
Article 3
A l’annexe de l’article A. 335-1 du code des assurances sont ajoutées les tables

264
TGF05 et TGH05 ci-annexées.
Article 4
Le 3° et le 10° de l’article 1er entrent en vigueur le 1er janvier 2007.

1.2. Les différents types de tables de mortalité


Du point de vue de l’assureur, on peut distinguer les tables réglementaires, qui
jouent un rôle particulier dans la détermination du tarif et des provisions, et les
tables d’expérience ; d’un point de vue technique, on distingue les tables
transversales, ou « tables du moment » et les tables prospectives, intégrant l’aspect
dynamique de la mortalité.

1.2.1. Les tables réglementaires


Les tables réglementaires comportent deux volets :
 Les tables TH et TF 00-02 pour les assurances en cas de décès ;
Modèles de durée
 Les tables ci-dessus utilisées avec des décalages d’âges pour les assurances
en cas de vie (à l’exclusion des rentes).
Homologuée par l’arrêté du 20 décembre 2005, les tables TH et TF 00-02 ont
été établies à partir des données de l’INSEE issues d’observations réalisées entre
2000 et 2002 et sont applicables aux contrats d’assurance vie souscrits depuis le
1er juillet 1993. La table TF décrit la mortalité féminine. La table TH est construite
à partir de la population masculine.
De plus, la nécessité d’utiliser des tables de mortalité prospectives pour les
rentes viagères a été prise en compte par le législateur et des tables de générations
(TGH et TGF 05) ont été homologuées par un arrêté du 01/08/2006. Celles-ci ont
été obtenues sur base de la mortalité de la population des bénéficiaires de contrats
de rentes observée sur la période 1993-2005 et de données sur la population
générale (INSEE) de 1962 à 2000. Ces tables servent depuis le 1er janvier 2007 à la
tarification et au provisionnement des contrats de rentes viagères immédiates ou
différées. Elles imposent un tarif minimal118.

1.2.2. Les tables d’expérience


1.2.2.1. Le contexte général
Dans le cadre du suivi technique de ses produits et au regard de l’article A. 335-
1 du Code des assurances, un assureur peut souhaiter utiliser des tables de mortalité
d’expérience en lieu et place des tables officiellement en vigueur pour justifier du

118
Dans le cadre du provisionnement en norme IFRS « assurance » ce minimum n’a plus lieu d’être.

265
niveau de la prime pure dans les contrats qu’il couvre. Il apparaît en effet opportun,
dans ce cadre, de cerner au mieux tout « comportement » de la population assurée
qui serait significativement différent des tables réglementaires.

1.2.2.2. La certification des tables de mortalité


La procédure d’agrément des actuaires indépendants habilités à certifier et à
suivre les tables de mortalité (et les lois de maintien en incapacité de travail et en
invalidité) est définie par l’Institut des Actuaires, après avis de la Commission de
Contrôle des assurances et de la Commission de Contrôle des mutuelles et des
institutions de prévoyance :
• dans le cadre des arrêtés du 19 mars 1993 (entreprises d’assurances), du
13 octobre 1993 (mutuelles), du 21 décembre 1993 (institutions de prévoyance)
concernant les lois de mortalité,
• dans le cadre de l’arrêté du 28 mars 1996 (entreprises d’assurances, mutuelles
et institutions de prévoyance), concernant les lois de maintien en incapacité de
travail et en invalidité.
Cette procédure comprend la mise en place d’une Commission d’Agrément
indépendante et souveraine dans ses missions d’habilitation des Actuaires à certifier
et à suivre les tables de mortalité et les lois de maintien en incapacité de travail et
en invalidité. Elle a été approuvée par les membres de la Commission d’Agrément
le 3 décembre 2002. Elle a été
Modèles de durée
ratifiée par le Conseil d’administration de l’Institut des Actuaires le
11 décembre 2002 et transmise aux autorités de tutelle le 18 décembre 2002.
En pratique la mise en place, et l’autorisation d’utilisation, d’une table
d’expérience comporte 3 étapes :
 La construction de la table ;
 La certification initiale ;
 Le suivi annuel destiné à assurer la pérennité du droit d’utilisation de la
table.
Le rapport final de certification doit s’assurer que la table permet la
« constitution de provisions suffisantes et prudentes ». Ce document doit en
particulier :
 « valider les données utilisées et leurs sources, qu’elles soient internes ou
externes à l’entreprise,
 vérifier les hypothèses de travail et les modalités utilisées pour construire les
tables de mortalité ou les lois de maintien en incapacité de travail ou en invalidité

266
 s’assurer que les principes de prudence communément admis ont été
respectés, eu égard aux risques induits (en particulier stabilité des tables ou des lois
de maintien),
 définir précisément les conditions d’application et de validité des éléments
certifiés, les statistiques ou tableaux de bord à préparer périodiquement par
l’entreprise pour permettre le suivi des résultats d’expérience. »
Le suivi doit être annuel. En l’absence de suivi, la validité des tables (et des lois
de maintien) cesse deux ans après leur certification. La validité des tables de
mortalité est limitée à cinq ans (celle des lois de maintien en incapacité et en
invalidité à quatre ans).
Le point important que l’on peut retenir est que la certification ne concerne pas
une table dans l’absolu, mais une table utilisée pour un contrat ou un groupe de
contrats particuliers, au regard notamment du risque induit par le contrat
considéré.

2. L’analyse de la mortalité
On s’intéresse à la variable aléatoire T représentant la durée de vie d’un
individu ; on suppose les individus de la population dans un premier temps
identiques, de sorte qu’on pourra disposer d’échantillons issus de la loi de T.

2.1. Notations
Il est commode de considérer les variables Tx représentant la durée de vie
résiduelle d’un individu conditionnellement au fait qu’il soit vivant à l’âge x, , ie
Tx  d T  x / T  x  . On peut alors définir la probabilité de survie entre x
et le quotient de mortalité entre x et xt :
Modèles de durée
t Px  P (Tx  t )  P (T  x  t / T  x ),
Lorsque
t 1 q x 1 q x et p x 1 p x .
il est omis dans les notations, et on écrit plus simplement.

267
Ces quotients s’expriment simplement à l’aide de la fonction de survie de T :
S (x  t)
t Px  .
S (x)
Il est usuel de noter119 lx  S ( x); le nombre de décès entre x et xt est
noté t d x  lx  lx  t ; dans le cadre de l’analyse statistique de la mortalité d’une
cohorte on mesure le temps vécu par les individus de la cohorte entre x et x  t ,
défini par :
t
  lx  µ du
t L x ..
0

Modèles de durée

119
A une constante multiplicative de normalisation près

268
A partir de cet indicateur on peut définir la durée de vie résiduelle, qui est un
indicateur caractéristique de la table de mortalité :
  
E x   lxu d u  
i x
L x .
0

Le quotient de mortalité t q x est calculé en rapportant un nombre de décès sur


la période à l’effectif en début de période ; on calcule également le taux de mortalité,
obtenu en rapportant le nombre de décès à l’effectif moyen sur la période, soit :
d
t m x  t x
.
t L x
Les quotients de mortalité sont des probabilités (nombres sans dimension)
alors que les taux de décès sont exprimés en inverse de l’unité de temps et
décomptent des décès par personne sous risque et par unité de temps. Cette
différence conduit aux relations suivantes avec la fonction de hasard, appelée dans
ce contexte « taux instantané de mortalité » :
1 
µ x  t  lim h 1 P (t  Tx  t  h / Tx  t )  qx ,
h 0 P
t x  t t

1 qx t qx
Car h P (t  Tx  t  h / Tx  t ) 
th
; donc lorsque h est petit,
ht p x
h qx  hµx et

269
h p x  1  hµ x . Le lien entre le taux instantané de mortalité et le taux de
mortalité est direct :
µ x  lim m x , ce qui justifie ex-post la terminologie.
h 0 h

Modèles de durée
La relation entre fonction de survie conditionnelle et fonction de hasard s’écrit
avec les notations utilisées ici :
 t 
t p x  ex p    µ x  s d s  .
 0 
2.2. Le diagramme de Lexis
Lors des études de mortalité, il est rare que l’on dispose d’une information
exacte sur les âges au décès et les dates de décès ; ces données sont le plus souvent
disponibles sous forme arrondie, en âge entier et année entière. Afin de déterminer
correctement les taux bruts de mortalité dans ce contexte, on utilise un formalisme
particulier, le diagramme de Lexis120.

2.2.1. Présentation
L’analyse de la mortalité d’un groupe donné fait intervenir trois mesures de
temps : l’âge des individus, leur génération (date de naissance) et la date
d’observation ; bien entendu ces 3 informations sont liées et la connaissance de 2
d’entre elles détermine la troisième.
Chacune de ces dimensions a toutefois son importance dans la détermination
du niveau de la mortalité :
 L’âge : cette variable influence évidemment le risque de décès ;
 La date d’observation : le risque de décès peut varier en fonction de
circonstances comme une épidémie, un événement exceptionnel (la canicule de
l’été 2003 par exemple), etc.
 La génération : des phénomènes tels que l’amélioration des conditions
sanitaires, les progrès de la médecine conduisent à modifier le risque de mortalité à
un âge donné au cours du temps ; de plus, on peut imaginer que le passé d’une
génération donné puisse modifier le niveau de sa mortalité future : typiquement,
une épidémie intervenant à une date t et touchant les gens d’âge x à cette date peut
contribuer à diminuer les taux de décès aux âges supérieurs à x pour cette
génération, en entraînant la mort prématurée des individus les moins résistants.
Il est alors commode de représenter la vie d’un individu dans un système d’axes

120
Du nom du statisticien et démographe allemand Wilhelm LEXIS (1837-1914).

270
rectangulaire appelé « diagramme de Lexis », de la manière suivante :
Modèles de durée

Fig. 3 : Diagramme de Lexis

La vie d’un individu est donc représentée par une ligne parallèle à la première
bissectrice, qui coupe l’axe des abscisses l’année de la naissance et s’arrête au « point
mortuaire » au jour du décès. En traçant une bande horizontale entre x et x  1
on isole les individus décédés à l’âge x , et en traçant une bande verticale entre g
et g  1, , on isole les décès des individus de la génération g. Dans ce formalisme,
x et g sont entiers, et x mesure l’âge en années révolues.

2.2.2. Diagramme de Lexis et mesure de mortalité


Les points mortuaires qui se situent dans le carré ci-dessous sont associés aux
décès à l’âge x au cours de l’année t :

271
Fig. 4 : Identification des décès à l’âge x l’année t

Modèles de durée
Les individus concernés appartiennent aux générations t  x et t  x  1. . De
même on peut décompter le nombre de décès à l’âge x parmi la génération g

272
Fig. 5 : Identification des décès à l’âge x dans la génération g

Ces décès se sont produits au cours des années g + x et g + x + 1. On obtient


également le nombre de décès à l’âge x parmi la génération g au cours de l’année t :
Fig. 6 : Identification des décès à l’âge x l’année t dans la génération g
Enfin, on peut représenter de la même manière le nombre de décès au cours de
l’année t parmi les individus de la génération g :
Modèles de durée
Ces décès se sont produits au cours des années g  x et g  x  1 . On
obtient également le nombre de décès à l’Age x parmi la génération g au cours de
l’année t.

Fig. 6 : Identification des décès à l’âge x l’année t dans la génération g

Enfin, on peut représenter de la même mainiére le nombre de décès au cours


de l’année t parmi les individus de la génération g :
Modèles de durée

273
Fig. 7 : Identification des décès dans la génération g l’année t

2.3. Mortalité longitudinale et mortalité transversale


La mesure « naturelle » de la mortalité consiste à comptabiliser les décès
survenus au cours d’une période donnée (une année par exemple), puis à calculer
les taux de décès par âge en rapportant ce nombre de décès à l’effectif sous risque.
Cela revient à considérer une bande verticale du diagramme de Lexis.
On voit que si la mortalité évolue au fil du temps, cette approche biaise la
mesure de la mortalité, plus précisément, dans une période de baisse tendancielle
de la mortalité, elle conduit à sous estimer les durées de vie (ou à surestimer les taux
de décès). En effet, dans cette approche on considère des individus de générations
différentes pour calculer les taux de décès, la table obtenue ne représente donc la
mortalité d’aucune génération réelle.

274
Fig. 8 : Mortalité longitudinale et mortalité transversale

Modèles de durée
La mortalité réelle d’une génération s’obtient en considérant les taux le long
d’une bande comme ci-dessus.
On aura besoin par la suite de calculer le quotient de mortalité à l’âge x pour
l’année t ; comme on l’a vu en 2.2.2 ci-dessus, ce quotient fait intervenir deux
générations, t  x et t  x  1. On détermine donc les « quotients partiels de
mortalité » suivants, en notant D xt ( g ) le nombre de décès à l’âge x pour la
génération g intervenus l’année t:
D xt ( t  x )
qˆ 1xt  .
l x , t  1  D xt ( t  x )
(lx,t1 désigne le nombre de personnes d’âge x au 01/ 01/ t  1) ; ce quotient
approche donc la probabilité pour les individus de la génération t  x de décéder
à l’âge x l’année t . On estime de même la probabilité pour les individus de la
génération t  x  1 de décéder à l’âge x l’année t :
D x t ( t  x  1)
qˆ 1x t  .
l xt
Le quotient cherché résulte alors de l’agrégation de ces 2 quotients partiels :
pour survivre entre son x ié m e
et son ( x  1)iéme anniversaire, il faut survivre de

275
son ( x  1) iéme anniversaire à la fin de l’année civile, puis de la fin de l’année civile
ié m e
à son x anniversaire, soit :
1  qˆ xt  (1  qˆ 1xt )(1  qˆ xt2 ) .
Lorsque l’on veut déterminer le taux de mortalité à l’âge x pour l’année t, on
calcule classiquement, avec des notations évidentes :
D xt
mˆ x  .
 x ,t x ,t  1 
/2
1  l

2.4. Répartition des décès dans l’année


Les données disponibles sont souvent des données regroupées dans lesquelles
l’unité de temps est l’année. Il convient alors de se donner une règle de répartition
des décès dans l’année. Ce point a été abordé précédemment ; trois hypothèses sont
classiquement proposées :
 la constance des taux instantanés de décès entre 2 âges non entiers
(hypothèse exponentielle) : t q x  1  (1  q x ) t ;
 la répartition linéaire des décès au cours de l’année : t qx  1  t  qx ;
t  qx
 l’hypothèse de Balducci, qui postule que t q x 
1  (1  t ) q x
Modèles de durée
L’hypothèse de Balducci peut être écartée d’emblée car elle conduit à des taux
instantanés de mortalité décroissants entre 2 âges entiers ; en effet, on trouve dans
ce modèle que :
 qx
µx  t   In (t p x )  ,,
t px t qx
t qx px
ce qui résulte de t p x  1  t q x  1   Le choix entre
p x  t q x p x  tq x
les 2 hypothèses restantes n’est pas neutre sur l’appréciation que l’on aura du
c
niveau de la mortalité. En effet, si T x et T xl sont les durées de vie résiduelles
respectivement dans le modèle de constance des taux instantanés et dans le
modèle de répartition linéaire des décès, on a, avec des notations évidentes :
S xl ( t )  S xc ( t ), ce qui implique en particulier que e xl ( t )  e xc ( t );
l’hypothèse de constance des taux instantanés conduit donc à des durées de vie
inférieures : de ce fait, il s’agit d’une hypothèse prudente dans le cas de garanties
en cas de décès, moins prudente pour des contrats de rentes. Toutefois, l’écart

276
entre les 2 approches est faible.
Pour prouver l’inégalité S xl ( t )  S xc ( t ), on fixe t  k  r , avec
k  t  et 0  r  1 et on note que :
S xl (t )  P (Txl  k  r )  k p x (1  rq x  k )
et
S xc ( t )  P ( T xc  k  r )  k p x p xr  k .
L’inégalité à démontrer est donc équivalente à 1  r (1  p x  k )  p xr  k . et
cette dernière inégalité est la conséquence directe121 de (1  x) r  1  rx pour
tout 0  r  1 . . Dans les modèles présentés ci-après, l’hypothèse de
constance du taux instantané de mortalité entre 2 âges entiers est effectuée, de sorte
que l’on a t q x  1  (1  q x ) t .
2.5. Les indicateurs synthétiques du niveau de la mortalité
Les caractéristiques d’une table de mortalité sont usuellement résumées au
travers d’un certain nombre d’indicateurs : l’espérance de vie et l’entropie sont deux
indicateurs importants, présentés ci-après.

2.5.1. Espérance de vie résiduelle


Ex
L’espérance de vie résiduelle est par définition e e  E ( T x )  ; on a
lx

1
donc e x 
lx 0
l x  u d u ; on déduit en particulier de cette expression que :

Modèles de durée
d e x
  1  µ x e x .
d x

 d 
de
 l x2  
 dx
lx 

 lu d u
En effet ex  2
x
,, et comme
dx lx
d
µx   Inlx , on a bien l’égalité ci-dessus. La version discrète de cette formule
dx
est simplement

121
On a même l’inégalité stricte si r  0.

277
1
e x 
L x
h  0
L x  h .

Cette expression signifie que lorsque le taux de mortalité est petit, l’espérance
de vie résiduelle diminue d’environ un an chaque année ; en revanche, lorsque le
taux de mortalité est grand, on peut avoir une espérance de vie résiduelle qui
augmente.
D’un point de vue pratique, cela signifie que le graphe des ex est à peu près
aligné sur une droite de pente –1 jusque vers 75 ans, pour s’incurver ensuite, comme
on le constate sur le graphique ci-dessous :

Fig. 9 : Espérance de vie résiduelle en fonction de l’âge

A partir de 75 ans, un ajustement polynomial d’ordre 2 fonctionne en général


correctement (ce qui fournit une paramétrisation simple d’une table de mortalité
du moment). On peut noter que l’espérance de vie résiduelle peut s’interpréter
comme le prix d’une rente viagère continue actualisée à taux 0.

2.5.2. Entropie
La baisse des taux de mortalités aux âges jeunes, sans pour autant que l’âge
ultime de vie semble évoluer sensiblement, a pour conséquence un phénomène
d’« orthogonalisation » des tables de mortalité, de plus en plus de personnes
décédant à un âge élevé122 :

122
Ce phénomène s’accompagne d’une baisse de la variance de la durée de vie au cours du temps.

278
Fig. 10 : Illustration du phénomène d’orthogonalisation des tables de mortalité

L’entropie se propose de mesurer ce phénomène ; on la définit par :


 

 lx In (l x )d x
H   0
 
.
0
lxd x

d
Comme on a µ x   In ( l x ), on peut réécrire cette quantité sous la
dx
forme :
 

 lxµ x e x d x
H   0
.
l0 e 0

 L x h In ( L x h )
La version discrète de cette formule est H   h0
.

h0
Lxh

L’entropie rapporte donc le nombre moyen d’« années perdues » du fait du décès
au nombre d’années possibles « en stock » à la date 0.
On peut remarquer que H  0 si et seulement si tous les décès se produisent
au même âge et que H  1 correspond à la situation extrême opposée dans
laquelle le taux instantané de mortalité est constant : cette grandeur mesure est donc

279
bien adaptée à la mesure du phénomène d’orthogonalisation.
L’entropie est passée d’environ 50 % à la fin du 1 9 i é m e siècle à 15 %
aujourd’hui.
Modèles de durée

3. Quelques indicateurs
L’objectif de cette section est de fournir quelques ordres de grandeur utiles sur
le niveau de la mortalité. On illustre également la manière de quantifier l’impact sur
la mortalité de caractéristiques particulières de la population, en prenant l’exemple
du critère fumeur / non fumeur.

3.1. Données générales


Les espérances de vie à la naissance et à 60 ans, ainsi que le taux de décès à cet
âge, sont indiqués dans le tableau ci-dessous :
Femmes Hommes
TV73/77 TV88/90 TV99/01 TD73/77 TD88/90 TD99/01
Naissance 76,5 80,2 82,2 68,6 72,0 74,7
60 ans 20,9 23,5 25 16,1 18,3 19,9
q60 0,77 % 0,57 % 0,48 % 1,90 % 1,57 % 1,18 %

Ce tableau fait clairement apparaître des disparités entre les hommes et les
femmes :
Femmes / hommes
TV73/77 TV88/90 TV99/01
Naissance 112 % 111 % 110 %
60 ans 130 % 128 % 126 %
q60 41 % 37 % 41 %

On lit également la baisse tendancielle de la mortalité :


Femmes Hommes
TV88/90 / TV99/01 / TD88/90 / TD99/01 /
TV73/77 TV88/90 TD73/77 TD88/90
Naissance 105 % 102 % 105 % 104 %
60 ans 112 % 106 % 114 % 109 %
q60 74 % 85 % 82 % 75 %

L’écart de mortalité entre les hommes et les femmes se traduit par le fait que,
dans les pays développés123, on a 70 hommes pour 100 femmes au sein des plus de
60 ans et 44 hommes pour 100 femmes au sein des plus de 80 ans.

123
D’après une étude du US bureau of the census de 1998.

280
3.2. Impact du tabagisme
L’impact du tabagisme sur la mortalité est illustré sur la base de :
 L’étude de tables homme fumeur / homme non-fumeur canadiennes.
 Des études épidémiologiques menées par le Ministère de la Santé en France.
Modèles de durée

3.2.1. Etude de tables canadiennes


Le caractère non-fumeur des assurés a un impact favorable sur leur mortalité.
Au Canada, des études ont conduit à l’établissement de tables de mortalité pour les
hommes âgés de plus de 30 ans différentiées en fonction de cette caractéristique.
Leur étude nous permet de quantifier l’impact du tabagisme sur la mortalité.
Le graphique suivant reprend ainsi l’évolution du taux de mortalité annuel en
fonction de l’âge selon que l’homme fume ou ne fume pas.

Comme on pouvait s’y attendre, les taux de mortalité des fumeurs sont
systématiquement supérieurs à ceux des non-fumeurs. L’abattement de la mortalité
des non-fumeurs par rapport à celle des fumeurs connaît un maximum à 59 ans
(63,35 %).

281
Modèles de durée
L’abattement moyen entre 31 ans et 71 ans ressort à 53,4 %. Cette analyse
permet de mesurer l’impact du tabagisme sur la mortalité. Par rapport à l’ensemble
de la population, l’abattement des non-fumeurs ressort en moyenne à 20 % entre
31 et 70 ans.

Un maximum est atteint à 58 ans avec un taux d’abattement de près de 30 %.

3.2.2. Etude de Ministère de la Santé


L’étude « Tabagisme et mortalité : aspects épidémiologiques » fournit des
indicateurs intéressants permettant de quantifier la sous-mortalité des non
fumeurs. Ainsi les éléments clés peuvent être résumés comme suit :
 Entre 39 et 65 ans, 1 décès sur 3 chez les hommes est attribuable au tabac et
1 décès sur 16 chez les femmes.

282
 Entre 35 et 49 ans, 40 % des hommes et 29 % des femmes sont des fumeurs
réguliers. Ces pourcentages diminuent respectivement à 28 % et 14 % entre 50 et 64 ans.
En faisant l’hypothèse que ces proportions sont homogènes sur les plages
d’âges indiquées, il est possible d’estimer la sous mortalité des non-fumeurs par
rapport aux fumeurs :
Notons :
qtabac le taux de sur mortalité lié au tabagisme,
q le taux de mortalité hors tabagisme,
F la proportion de fumeurs,
NF la proportion de non fumeurs,
 la proportion de décès dus au tabagisme.
 F  q tabac

 F  ( q  q tabac )   NF  q
Modèles de durée
Donc :
q ta b a c 

q  F  (1   )
Le taux de sous mortalité des non-fumeurs par rapport au fumeur s’écrit donc :
q  F (1   )
 1   1
q  qtabac    F  (1   )
Les taux calculés à partir des éléments de l’étude du Ministère de la Santé sont
résumés dans le tableau suivant :
Hommes Femmes
35-49 ans 55,56 % 20,41 %
50-64 ans 64,10 % 32,26 %

Concernant les hommes, les taux de sous mortalité des non fumeurs par
rapport aux fumeurs (56 % et 64 %) sont comparables à ceux issus des tables
canadiennes (53 %). Ces mêmes taux sont inférieurs pour les femmes ; toutefois le
tabagisme féminin est plus récent et son impact moins bien cerné que celui des
hommes.
En supposant que les proportions de fumeurs citées plus haut sont homogènes
sur toutes les tranches d’âges, les taux de sous-mortalité des non-fumeurs par
rapport à la population dans son ensemble sont donnés par :
Hommes Femmes
35-49 ans 33,33 % 6,25 %
50-64 ans 31,71 % 6,25 %

283
Les taux masculins sont légèrement supérieurs à ce qui est observé avec les
tables canadiennes. Les taux féminins sont nettement inférieurs aux taux masculins.

4. La construction de tables de mortalité d’expérience


On se place ici dans le contexte paramétrique ; la démarche de construction
d’une table comporte systématiquement deux étapes : tout d’abord l’estimation de
taux bruts, par âge, ou par âge et génération dans le cas de tables prospectives, puis
ensuite l’ajustement de ces taux bruts à un modèle paramétrique.
En pratique on peut distinguer deux situations : tout d’abord, la situation « de
référence » dans laquelle on dispose de données en quantité suffisante pour
construire une table fiable. Mais dans certains cas il se peut que les données
disponibles ne soient pas suffisantes pour
Modèles de durée
déterminer de manière suffisamment précise la structure de la table, et on
pourra alors chercher à positionner simplement la mortalité du groupe étudié par
rapport à une mortalité de référence, qui fournira la structure générale.

4.1. Tables du moment


4.1.1. Construction complète
La démarche standard de construction d’une table de mortalité dans un cadre
paramétrique a été décrite précédemment, elle n’est donc pas reprise ici. On
retiendra simplement qu’elle s’appuie sur le choix d’une forme paramétrique pour
la fonction de hasard, avec comme modèle de référence le modèle de Makeham,
l’estimation des paramètres s’effectuant par la méthode du maximum de
vraisemblance.
Dans certaines situations particulières, on pourra toutefois se tourner vers
d’autres modèles, tels que les régressions de type Poisson ; l’exemple type
d’application de tels modèles est l’analyse de la mortalité d’un événement rare,
comme les conséquences de l’exposition à l’amiante (la justification de l’intérêt de
la loi de Poisson pour des événements « rares » provient de l’observation que la
distribution binomiale
  
B  n ,  converge en loi vers P (  ) lorsque n   ) .
 n 
Comme le nombre de décès est très faible en regard des effectifs sous risque,
on peut utiliser une loi de Poisson comme modèle pour le nombre de décès par âge
et par période.

284
La table suivante donne le nombre de décès par mésothéliome124 constaté par
classe d’âge, pendant cinq périodes, ainsi que la population à risque pendant cette
période :
1970-74 1975-79 1980-84 1985-89 1990-95
25- 10041742 1 10978690 1 10602254 1 10680272 1 10791607
29 0
30- 2 7720583 1 10038396 0 11005461 1 10651073 1 10837520
34
-39 2 8074903 3 7589268 5 9904593 5 10922900 6 10657919
35
-44 5 8510762 7 7879250 7 7457766 10 9761988 11 10853140
40
-49 9 8211522 9 8220829 14 7662805 14 7265550 17 9464014
45
-54 10 7173352 18 7821153 22 7866442 26 7354438 24 7022582
50
-59 16 4824443 20 6743790 32 7372021 41 7446988 41 7071006
55
-64 28 6069611 26 4404567 38 6213936 58 6813378 68 6988969
60
-69 33 5371770 42 5298248 41 3889820 63 5575185 84 6148376
65
-74 34 4157113 49 4371284 56 4387290 56 3277849 72 4829840
70
-79 24 2432745 37 3018047 53 3254297 73 3391145 64 2511709
75
-84 10 1229739 22 1467570 35 1878692 54 2112437 63 2362417
80
-89 7 527277 11 560756 16 691452 23 927740 31 1123450
85

Si on veut expliquer les décès en fonction de l’âge et de la période, on peut


choisir deux séries de paramètres, ( a i ) et ( c j ) décrivant chacun l’effet d’une
tranche d’âge donnée et d’une cohorte donnée. Pour satisfaire les contraintes de
positivité (les décès sont un nombre positif), on peut proposer un modèle
multiplicatif a i c j . On choisira par exemple de modéliser le nombre de décès
  
espéré  jj  E ( d jj ) avec un modèle de la forme I n  jj
  a i  c
 N j
 jj 
ou, de manière

124
Cancer de la plèvre conséquence de l’exposition à l’amiante

285
Modèles de durée
Équivalente  jj  N ij esp ( ai  ci ). Dans une cellule, on a finalement
une vraisemblance liée à la loi de Poisson :
N (ai  c j ) 
d jj
ij e sp exp (  N ij e sp ( a i  c i )) / d ij !, et la
vraisemblance globale s’obtient en multipliant les vraisemblances de chaque cellule.
L’application de ce type de modèles à la construction de tables prospectives est
présentée en 4.2.2 ci-dessous.

4.1.2. Utilisation d’une référence externe


L’utilisation d’une référence externe consiste à rechercher un
« positionnement » de la table d’expérience par rapport à une table de référence
donnée ; la table de référence peut être par exemple une table INSEE.
De nombreux modèles sont possibles, mais l’approche la plus courante consiste
à appliquer un taux d’abattement (ou de majoration) aux taux de la table de
référence, ce qui consiste à rechercher un coefficient  tel que
q xe x    q xr e f . En se souvenant que le quotient de mortalité est la version
discrète du taux de hasard µ x (avec la relation µ x   In (1  q x ) si on fait
l’hypothèse de constance de la fonction de hasard entre deux âges entiers), on
remarque que ce modèle est donc un modèle à hasard proportionnel dans lequel on
suppose connue la fonction de hasard de base. Plus précisément, si on suppose que
µ xex    µ xref d’une part et que µx   In(1  qx ) d’autre part, on obtient la
relation suivante entre les quotients de mortalité :

1  

1 q ex
x  q ref
x .
relation qui au premier ordre lorsque les taux sont petits est équivalente à
q xex    q xref . On a vu que dans ce contexte un estimateur de type « moindres
carrés ordinaires » pouvait être proposé pour    I n (  ) On obtient ainsi
l’estimateur :
1/ n
 1 n   n 
ˆ  exp     InH ref ( xi )   e    H ref ( xi ) 
 n i 1   i 1 
Avec  la constante d’Euler125 et H ref ( x )   InS ref ( x )   InLx la
ref

fonction de hasard cumulée.


On peut également considérer comme critère de choix du paramètre  ‘écart
125
Dont la valeur est approximativement 0,577215665.

286
entre le nombre de décès observés et le nombre de décès théorique associé à la table
abattue. En notant L oxb s l’effectif sous risque à l’âge x dans la population
considérée, le nombre de décès prédit par la table abattue à l’âge x est
 q ref
x Lobs .
x
. Si on contraint le nombre total de décès prédits à égaler le nombre observé,
on obtient l’estimation suivante de   :
Modèles de durée
 D obs
x
ˆ  x
.
 x
q ref
x  L ox b s
Une approche alternative consiste à raisonner âge par âge et à considérer une
statistique de type Khi-2 définie par :

q 
2
n obs
   q xref
 (ˆ )   Lobs
x
.
x
i 1   q xref
et à chercher la valeur de  qui rend minimale cette distance.

4.2. Tables prospectives


L’objectif de tables prospectives est de tenir compte des évolutions à venir de
la mortalité ; les méthodes usuelles cherchent tout d’abord à ajuster les tendances
passées, puis à les extrapoler à l’avenir. L’approche prospective consistant à intégrer
dans l’avenir l’effet de progrès médicaux futurs n’est pas examinée ici.
Les modèles utilisés se proposent d’ajuster les taux bruts calculés par des
méthodes telles que celle présentée en 2.3 ci-dessus à un modèle paramétrique,
permettant d’une part de lisser les fluctuations d’échantillonnage et d’autre part de
projeter l’évolution des taux dans le futur, par extrapolation.
On dispose taux de taux bruts indicés par l’âge x et l’année calendaire t, qui ont
typiquement l’allure suivante :

287
Fig. 14 : Taux de décès bruts par année

Le passage des quotients de mortalité bruts au taux instantané de mortalité, qui


est la variable modélisée dans certaines approches, s’effectue via une hypothèse sur
la répartition des décès dans l’année (voir 2.4 ci-dessus) ; dans le cas où l’on fait
l’hypothèse de constance du taux instantané dans chaque carré du diagramme de
Lexis, on obtient l’estimateur suivant :
Modèles de durée
µ *
xt   I n (1  qˆ xt )

4.2.1. Le modèle de Lee-Carter


Il s’agit d’une méthode d’extrapolation des tendances passées initialement
utilisée sur des données américaines, qui est devenue rapidement un standard (voir
l’article original LEE et CARTER [1992]). La modélisation retenue pour le taux
instantané de mortalité est la suivante :
In µ xt   x   x k t   x t ,
avec les variables aléatoires  xt ; l’idée du modèle est donc d’ajuster à la série
(doublement indicée par x et t ) des logarithmes des taux instantanés de décès
une structure paramétrique (déterministe) à laquelle s’ajoute un phénomène
aléatoire ; le critère d’optimisation retenu va consister à maximiser la variance
expliquée par le modèle, ce qui revient à minimiser la variance des erreurs.
Le paramètre  x s’interprète comme la valeur moyenne des In ( µ xt ) au
dIn( µxt ) dk
cours du temps. On vérifie que  x t et on en déduit que le
dt dt

288
coefficient x traduit la sensibilité de la mortalité instantanée à l’âge x par rapport
à l’évolution générale kt ,
d In ( µ x t )
au sens où   x En particulier, le modèle de Lee-Carter
dkt
suppose la constance au cours du temps de cette sensibilité. Cette contrainte du
modèle peut apparaître relativement forte :
• Pour tout âge x les quotients des variations relatives des taux de mortalité
à des dates différentes ne dépendent pas de l’âge x. Si la variation relative du taux
de mortalité à 50 ans en 2000 était 80 % de ce quelle était en 1990 ce coefficient de
80 % est retenu pour tous les âges ;
• Pour une même date t les quotients des variations relatives des taux de
mortalité à des âges différents ne dépendent pas de la date t. Si en 2000 la variation
relative du taux de mortalité à 20 ans est 50 % de la variation relative du taux à 50
ans ce coefficient de 50 % s’appliquera à toute date future ou passée.
Enfin, on peut remarquer que la forme du modèle implique l’homoscédasticité
des taux de mortalité, ce qui est manifestement faux en pratique. Cet inconvéni