Vous êtes sur la page 1sur 463

Moulay El Mehdi Falloul

Actuariat et management des risques

1
2
Introduction

L’actuariat est une science qui applique les mathématiques et les statistiques
pour évaluer les risques en a assurances, en finance et dans d’autres disciplines et
professions. Les Actuaires sont des professionnels possédant les qualifications
requises dans ce domaine par le biais de l’acquisition des compétences dans le
domaine de l’actuariat. Dans de nombreux pays, les actuaires doivent démontrer
leur compétence en passant d’une série d’examens professionnels rigoureux.
L’actuariat comprend un certain nombre de disciplines interdépendants dont les
probabilités, les mathématiques, les statistiques, la finance, l’économie, l’économie
financière et la programmation informatique. Historiquement, les actuaires ont
utilisé des modèles déterministes dans la construction des tables et des primes. La
science a connu de changements révolutionnaires au cours des 30 dernières années
en raison de la prolifération des ordinateurs de haute vitesse et de l’union des
modèles stochastiques actuariels avec la théorie de la finance moderne.
Habituellement le travail d’un actuaire (l’actuariat) conduit à l’identification et
à la quantification des montants qui représentent à une date donnée une somme
d’argent ou que peuvent mettre en jeu une responsabilité financière future. Des
modèles stochastiques peuvent être utilisés pour déterminer une distribution et les
paramètres de la distribution (par exemple, la valeur moyenne probable).
Récemment la portée du domaine actuariel s’est étendue pour inclure les conseils
d’investissement, et même la gestion d’actifs.
Cet ouvrage est divisé en 4 grandes parties, la première partie est consacrée aux
statistiques et quelques méthodes d’évaluation utilisée en actuariat, La deuxième
partie porte sur les risques en assurance et les modèles actuarielles usuels. La
troisième partie traite des tables de mortalités et de quelques méthodes
stochastiques utilisées en actuariat. La quatrième partie traite sur la réglementation
Solvabilité 2 et ses aspects pratiques.

3
4
Partie I

Méthodes statistiques
et d’évaluation en actuariat

5
6
Chapitre 1
La Value at Risk (VaR)

1. Introduction
Définir et mesurer les risques n’est pas une tâche simple pour les institutions
financières notamment les banques. Pour cela il doit y avoir une mesure du risque
pertinente, applicable à toute situation pas justement pour une action ou un swap
de taux d’intérêt, mais également aux portefeuilles de ces mêmes instruments ou
d’instruments reliés ainsi qu’aux portefeuilles contenant une variété d’instruments
différents avec leurs risques sous-jacents. En second lieu, une mesure du risque de
marché adéquate doit pouvoir tenir compte de tous les facteurs de risque possibles,
par exemple une variation de prix, la convexité, la volatilité, la corrélation, la perte
de valeur due au temps, le taux d’actualisation, etc. Troisièmement, la mesure doit
considérer ces facteurs de risque de manière cohérente et logique ; ces facteurs
doivent être réunis en un dénominateur commun qui mesure le risque de marché
de chaque instrument ainsi que le risque agrégé du portefeuille total. La VaR est
une mesure qui semble satisfaire à ces critères, sachant bien évidemment qu’elle se
base sur l’étude du passé pour prédire les évolutions futures des cours ainsi que dans
son calcul l’horizon est toujours fixé et donné mais pour cela il faut plus ou moins
affiner les calculs et étudier les facteurs de risques d’une manière détaillée pour que
cette méthode en question soit fiable.
La Value-at-Risk (VaR) donne au gestionnaire du risque financier la pire perte
prévue dans des conditions de marché moyenne sur un certain intervalle de temps
à un niveau de confiance donné. En d’autres termes, la VaR donne au gestionnaire
des risques le sens de ce qu’il peut s’attendre à perdre potentiellement dans un
intervalle de temps donné, en supposant des conditions de marché « normales ».

7
2. Une solution générale au problème de base VaR
La solution au problème de la VaR généralisée peut être décrite comme suit.
Supposons qu’il y a un portefeuille composé d’actifs 1,2, 3,…, N. Di dollars sont
investis dans des actifs i, de sorte que la valeur totale du portefeuille est D1 + D2 +…
N
+ DN = = D
i 1
i = D dollars. Supposons que le retour d’une journée sur l’actif i est

normalement distribué avec la valeur attendue E [ri] et la variance  i . En outre, la


2

covariance entre les rendements de 1 jour d’actifs i et j est donnée par  ij . Compte
tenu de cette information, trouver la VaR 1 jour à un niveau de 5 % de confiance.
Tout d’abord, déterminer le rendement attendu et la variance de l’ensemble du
portefeuille. La première étape est de calculer la pondération de chaque actif. La
proportion du portefeuille de rendement attendu des actifs attribuable à i
Di
est  i = . Ce sont les facteurs de pondération de l’actif.
D1  D2  ...  DN
 1   E[r1 ] 
   
2   E[r2 ] 
Soit K =   3  et U =  E[r ] 
   3 
     
   E[r ]
 N   N 
Maintenant, Nous formalisons une combinaison linéaire de variables
aléatoires, où les variables aléatoires sont les rendements attendus de 1 jour pour
chaque actif, et les coefficients sont les facteurs de pondération de l’actif.
n n
Tirant profit des propriétés des espérances tels que E[ i X i ] =
i1
  E[ X ]
i 1
i i

et la méthode matricielle pour obtenir cette espérance. On obtient le résultat


suivant :
 E[r1 ] 
 
N  E[r2 ] 

N
E[portefeuille] = E[  i ri ] = KTU =  1  2  3   N   E[r3 ]  =   i E [ ri ] =  p
i 1   i 1
  
 E[r ] 
 N 
.
Ensuite, nous devons calculer la variance du portefeuille total. En d’autres
termes, nous devons calculer la variance de la combinaison linéaire de variables
aléatoires. La variance de la combinaison linéaire des variables aléatoires est donnée

8
par
n n n
Var (  X ) =  Var(X ) + 2   Cov( X , X
i1
i i
i 1
i
2
i
i j
i j i j ).

Nous pouvons modifier les conditions de notre problème :


N N N
 2p = Var (   i ri ) =   i2Var (ri ) + 2   i j Cov(ri , rj )
i 1 i 1 i j
N N
=  
i 1
i
2
i
2
+2   i j
i j ij

 1    12  12  13   1N 
   
2    21  22  23   2N 
Pour calculer  p , soit K =   3  et Σ =    3 N 
 31  32  3
2 2
 
         
   
 N   N1  N 2  N 3   N2 
n
Puisque Var (  X ) = K ΣK, Par conséquent, on obtient
i1
i i
T

N
 2p = Var (   i ri ) = KTΣK = 1  2   N 
i 1

  12  13
2
  1N   1 
 1
  
  21  22  23   2N  2 
   3 N   .
 31  32  3
2
 3 
         
   
 N1  N 2  N 3   N2   N 
Maintenant que nous avons l’espérance et la variance pour le rendement global
du portefeuille, nous pouvons trouver la VaR. Nous supposons que le rendement du
portefeuille est normalement distribué avec une moyenne et une variance, qui sont
tous deux chiffres que nous avons calculés. Puisque nous voulons calculer la VaR à
un niveau de confiance de 5 %. Mathématiquement, nous résolvons r * tel que :
r*
1 ( x   p ) 2 2 2p

 p 2
e dx = 0.05.

9
Fig. 1.Courbe de la loi Normale de Gauss

Beaucoup de logiciels mathématiques ont une fonction de NORMINV à


résoudre pour r *.Par conséquent, supposons que nous avons trouvé r * tel que
r*
1 ( x   p ) 2 2 2p

 p 2
e dx = 0,05.

Habituellement, r * est un petit décimal négatif. 100 r * est un pourcentage, et


peut être considérée comme la perte d’une journée pour cent de sorte que, dans des
conditions normales de marché, le portefeuille perd plus de 100 % r * seulement
5 % du temps. Par conséquent, la valeur d’une journée à risque à un niveau de
confiance de 5 % est r * .

3. La Value at risk et la cvar


Dans la littérature, il existe trois méthodes principales pour l’estimation de la
VaR, qui sont : la méthode de l’analyse historique, la méthode variances –
covariances et la technique de simulation de Monté Carlo.

3.1 La méthode variances-covariances


La méthode variances-covariances a été proposée par JP Morgan en 1994. Cette
méthode se base sur l’hypothèse de la normalité de la distribution de la valeur de
portefeuille.
Dans ce cas la variable aléatoire V (t)  V (t) V (0) est distribuée suivant
 
une loi normale N E  V (t )  ,   V (t )  , alors la Var au niveau de probabilité
(1-∝ se calcule de la manière suivante :
P  V  VaRa   1  

10
  V  E (V )  VaR  E (V ) 
Il s’ensuit que P    1
  ( V )   ( V ) 
VaR  E (V )
Il en résulte que  Z
 (V )
Donc
VaR  E (V )  Z (V )
où Z  représente le quantile d’ordre 
3.2 La méthode historique
La méthode historique est une méthode très simple qui permet d’estimer la
VaR fondée sur la distribution empirique des données historiques de rendements.
La méthode historique ne pose aucune contrainte sur la distribution de
rendements, ainsi les cours passés doivent refléter les cours futurs de notre
portefeuille.
Pour estimer la VaR, tout d’abord on classe par ordre croissant toutes les
observations à considérés puis on identifie le centile qui, en fonction de seuil de
confiance choisi correspond à la VaR historique.
Par exemple, si on dispose d’un échantillon de 1000 observations historiques
de rendements et un niveau de confiance de 95 %, la VaR est donnée par la valeur
du rendement qui correspond à la 50éme de données observée.

3.3 La méthode de Monte Carlo


La méthode de simulation Monte Carlo consiste à simuler plusieurs
trajectoires ou scénarios possibles d’un actif financier en choisissant le modèle
décrivant sont évolution d’une manière très fiable.
Elle suppose que ce modèle suit une loi paramétrique connue dont les
paramètres sont estimés en se basant sur les données historiques.
La VaR obtenue pour un niveau de confiance donné est le quantile sélectionné
correspondant au scénario choisi.
La VaR représente plusieurs avantages tels que la facilité de comparaison et
d’interprétation. Cependant, des études comme celles de Szergo ont montré que la
VaR ne prend pas en compte le montant des pertes excédant la VaR. Ainsi la VaR
n’est pas sous-additive, cela veut dire qu’une diversification n’implique pas un
risque réduit.
Pour surmonter les limites de VaR, une nouvelle mesure de risque appelée la
VaR conditionnelle (VaR), définie comme la perte attendue dépassant la VaR peut
être adoptée. C’est la valeur moyenne des pertes qui excédent la VaR.

11
La CVaR est exprimé comme suit :
1
1
1   
CVaR ( X )  VaR ( X )d

2 – La VaR de portefeuille d’actions


On sait bien que dans le cas où la variable aléatoire V (T )  V (T ) V (0) est

distribuée suivant la loi normale N  V (T )  ,   V (T )  , la VaR au niveau de
probabilité  est donnée par :
VaR   E  V (T )       V (T ) 

Ainsi, le calcul des deux paramètres de l’équation au dessus, c’est-à-dire E


  Vi  , V ar   Vi   
et cov Vi , V j pour toutes les actions Ai  i  1,..., n  ce
n(n 1)
qui donne lieu au calcul de 2n  paramètres au total.
2
Ceci constitue l’inconvénient de cette équation en terme de charge de calcul.
Pour remédier à ce problème, nous proposons d’employer le modèle de marché
qui est plus simple et plus utilisé.
Soient Vi (t ) et V (t) respectivement le cours de l’action i et la valeur du
portefeuille de n actions investies sur un marché déterminé à l’instant t.
Notions par xi la proportion investie dans l’action Ai . Il s’ensuit que :
n
V  t    xiVi (t )
i 1

La valeur de portefeuille à l’horizon T est donnée par :


n n
V  t    xiVi (t )   xi Vi (0)  V (T ) 
i 1 i 1

Or le rendement Ri de l’action i  i  1,..., n  :

Vi (T )  Vi (0) Vi (T )
Ri (T )  
Vi (0) Vi (0)
Alors on obtient :
n
V (T )   xi Vi (0)  Ri (T )Vi (0) 
i 1

12
Il en résulte que :
n
V (T )   xiVi (0) 1  Ri (T )
i 1

Sous l’hypothèse de validité du modèle de marché :



 

R i (T )  r0  i  Rm (T )  r0 
 
pour tout i=1, …, n.
Il s’ensuit que :

 

E  V (T )  V (0)  r0   ( Rm (T )  2r0  
 
Et

 n
Vi (0) xi  2 
2

Var  V (T )  V (0)   m    
2 2
  i 
 i 1  V (0) 

Où  est donné par :
n n

 i xiVi (0)   x V (0)


i i i
 i 1
n
 i 1

V (0)
 x V (0)
i 1
i i

On sait que sous l’hypothèse de la normalité, la VaR au niveau de probabilité


 pour le portefeuille est donnée par :
VaR   E  V (T )       V (T ) 
Il en résulte que :

  
 2 n
Vi (0) xi  2 
2

VaR  V (0)    r0   ( Rm (T )  2r0 )       m     i 


   i 1  V (0) 

Pour la modélisation de l’évolution des prix futurs des actions, nous utilisons
souvent la distribution log-normale.
dVt
Par l’utilisation du lemme d’Itô, la solution de l’équation   dt   dz et
Vt

13
dVt
celle de l’équation   dt   dz s’exprime comme suit :
Vt

 V (T )   1 2
log  m     m   m  T   m TZ m
 Vm (0)   2 

Où Z m suit la loi normale réduite N (0,1)

 V (T )   1 2 1 2
log  i    i   m   i  T   im TZ m   i TZ i
 Vi (0)   2 2 

Avec les Zi (i  1,..., n) sont des variables aléatoires suivent la loi normale
centrée réduite, mutuellement indépendantes et indépendantes de Z m .

Supposons que Vm (0)  1 . Comme :

E Vm (T )   exp   mT 

Alors on obtient :
 VS m (T )  2 T
log     m   m TZ m
 E (Vm (T ))  2
Il s’ensuit que :
 V (T )   2T 2 
log  m   N   m ,  mT 
 E (Vm (T ))   2 
Donc pour tout quantile bilatéral   /2 de la loi normale réduite, on a :

P    / 2  Z m    / 2   1  
Par consequent :
 T T T 
P   m2   m T  / 2   m2   m TZ m   m2   m T  / 2   1  
 2 2 2 
Ou encoure
 T  V (T )  2 T

P   m2   m T  / 2 log  m    m   m T  / 2   1  
 2  E (Vm (T ))  2 
Il en résulte que :

14
 E Vm (T )exp  m2 T2  m 
T   /2  
 
 
P  Vm (T )   2 T 
 1
E Vm ( T )  exp   m  m T   /2 
  2 

Ce résultat nous permet de construire un intervalle de confiance pour la
variable aléatoire Vm à l’horizon T à un niveau de probabilité 1-  donné :

P Vm (T ) min  Vm (T )  Vm (T ) max   1  

  2T
Vm (T ) max  E Vm (T )  exp   m 2   m T   /2 
 

V (T )  E V (T )  exp   2 T   T  
 m min m  m m  /2
 2

Le rendement aléatoire de marché Rm (T) est donné comme suit :


Vm (T )
Rm (T )  Vm (0)

Alors

Vm (0)(1  Rm (T )) Vm (0)  Vm (T ) Vm (T )  T 


  exp   m2   m TZ m  .
E (Vm (T )) E (Vm (T )) E (Vm (T ))  2 
 2T 
Il en résulte que Rm (T )   
 exp   m 2   m TZ m   1
E (Vm (T ))
Vm (0)

Donc

E (Vm (T ))  V (0)(1  Vm (T )   Vm (T ) 


E m E   1  E  Vm (T )   1
Vm (0)  Vm (0)   Vm (0) 
Vt Vt t  Vt
Or   m t   m Z tm où Z tm N (0, t ).
Vt Vt
Pour t , t  t    0, T  on a E  Rm (T )    mT . Alors on obtient :
 T 
Rm (T )  ( mT  1) exp   m2   m TZ m   1
 2 
Supposons que les relations d’équilibre de l’équation
  2

df      dt   dz sont vérifiées et considérons le modèle de marché décrit
 2 

15
n n
1
par l’équation Var ( R ( x )) 
n2
 
i 1 j 1
ij alors on a :
i j
n
V (T )   xiVi (0) 1   i   i ( Rm (T )  r0T )   i (T ) 
i 1

Remplaçons Rm (T ) par sa formule, on obtient :


n
  2T  
V (T )   xV i i (0) 1   i  i  mT  1 exp  m   m TZ m    i (T ) 
i 1   2  
n
xiVi (0) n
xV (0)
Posons Y= 
i 1 V (0)
 i (T )  
i 1
X i i (T ) où X i  i i
V (0)
En remplaçant  i par ( i   , m ) T, alors on a :
 n    2T   
V (T )   xV i i (0) 1  iT  i mT  i  m  1) exp     TZ m   1  r0T    V (0)Y
 i 1    2   

En utilisant les relations d’équilibres de modèle de Merton, il en résulte.


n    2T   
V (T )   xV i i (0) 1  r0T  i  mT  1)exp   m   m TZm  1  r0T    V (0)Y
 i1    2   
n n

  x V (0)   x V (0)
i i i i
Posons   i 1
n
 i 1

V (0)
 x V (0)
i 1
i

   T   
V (T )  V (0) 1  r0T   (mT  1)exp   m2   m TZm  1  2r0T   Y 
   2   
Supposons que le portefeuille soit suffisamment diversifié, tel que :
n
xiVi (0)
Y   i  0.
i 1 V (0)
Alors on obtient :

   T  
V (T )  V (0) 1  r0T   (  mT  1) exp   m2   m TZ m   1  2r0T  
   2  
xV
i i (0)
Les variables aléatoires Yi   i sont indépendantes, avec
V (0)
Selon le théorème de Alan [4] on a :

16
xi2 Vi (0) 
2
 

 E Yi 2      2i 
V (0) 
2
i 1 i 1


Alors Y  0
i 1
i
p.s

Soit  a /2 le quantile bilatéral de la loi normale réduite, alors

P   a / 2  Z m   a / 2   1   .

Si   0 alors P V (T ) min  V (T )  V (T ) max   1  

   T  
V (T ) min  V (0) 1  r0T   (  mT  1) exp   m2   m T  /2   1  2r0T  
   2  
et
   T  
V (T )ùax  V (0) 1  r0T    (  mT  1) exp   m2   m T  /2   1  2r0T  
   2  
Il en résulte que :

P V (0)  V (T ) max  V (0)  V (T )  V (0)  V (T ) min   1  

Donc la VaR pour le portefeuille à l’horizon T, au niveau de probabilité 1- 


est donnée par VaR  V (0)  V (T ) min
ou encore
   T  
VaR  V (0)   r0T    (  mT  1) exp   m2   m T  / 2T   1  2r0T  
   2  
Si   0 alors VaR  V (0)  V (T )max
Donc
   T  
VaR  V (0)   r0T    (  mT  1) exp   m2   m T  /2T   1  2r0T  
   2  
4. Quelques observations
Il est important de noter la grande quantité de données nécessaires pour
entreprendre un calcul de la VaR. Dans le problème généralisé, les rendements
attendus et les variances de chaque actif, ainsi que les covariances entre les actifs. Avec
la puissance de l’informatique moderne, il est relativement facile d’obtenir ces valeurs.
Normalement, un gestionnaire de risque aura accès à des données historiques de

17
rendements pour chaque actif, de sorte que seules quelques lignes de code sont
nécessaires pour calculer les rendements attendus, les écarts et les covariances.
Il est également important de noter que la VaR est un modèle très polyvalent.
Bien qu’on utilise dans notre étude une distribution normale, pratiquement toute
distribution peut être mise en œuvre. Cela donne au gestionnaire des risques la
possibilité d’adapter un modèle de la VaR pour les caractéristiques spécifiques du
portefeuille implémenté.
Enfin, une tendance intéressante dans la gestion des risques a été le mouvement
vers des distributions de probabilités qui ont des « queues de plus épaisses » (c’est-à-
dire. Distributions qui donnent plus de poids à périphériques, des événements multi-
sigma). Une réalisation majeure de la récente crise financière a été que les retombées
financières ne sont pas toujours modélisées par une distribution normale ou une autre
distribution bénigne. Les événements extrêmes, souvent appelés « cygnes noirs », ont
tendance à se produire plus fréquemment que ces distributions seraient à prévoir.

4.1 Construction de la base de données et résultats


4.1.1 Constitution de l’échantillon
Les données utilisées sont les actions de la banque d’affaires marocaines CIH,
le cours de change dollar américain /dirham marocain et le bond de trésor de 5 ans.
Elles sont extraites de la base de données de BMCE Capital. La période
d’observation s’étale du 26 mars 2004 jusqu’à 27 mars 2009 (un échantillon
continu). On calcule la VaR 1 jour à un niveau de 5 % de confiance.
Les choix de la période et du nombre de branches sont dictés par la
disponibilité des données.

4.1.2 Evolution et tendances des variables du modèle

Fig. 2. Evolution du cours du bon de trésor de 5 ans

18
Ce graphique présente l’évolution du bons de trésor de 5 ans durant la période
2004 jusqu’à 2009.Ce titre se caractérise par une volatilité évidente. Il montre aussi
la baisse de la valeur après l’année 2007.

Fig. 3. Evolution du taux de change US/MAs

Ce graphique présente l’évolution du cours de change dollar américain


/dirham marocain durant la période 2004 jusqu’à 2009. Ce titre se caractérise par
sa volatilité.

CIH
900

800

700

600

500

400

300

200

100

0
2004 2005 2006 2007 2008

Fig. 4. Evolution du cours de l’action CIH

Ce graphique présente l’évolution du cours de l’action


ATTIJARIWAFABANK durant la période 2004 jusqu’à 2009. Ce titre se caractérise
par une évolution à la hausse EN 2005 suivi d’une chute en 2006 et reprise en début
de 2008.

19
4.1.2 Résultats de l’étude
Tableau 1.VaR du bon de trésor

Tableau 2. VaR du taux de change USD/MAD

20
Tableau 3. VaR du cours de l’action CIH

La matrice de corrélation entre les 3 titres se présente comme suit :

Tableau 4. Matrice Variance-Covariance


Corrélation – 5Y_US CIH USD_MAD
– 5Y_US 1.000000 – 0.627694 0.261691
CIH – 0.627694 1.000000 – 0.577917
USD_MAD 0.261691 – 0.577917 1.000000

A partir de la matrice variance covariance, la VaR de notre portefeuille se


calcule comme suit :
VaR p   x2   y2   z2  2 yx  2 zx  2 zy

VaRp   x2   y2   z2  2r y x  2r z x  2r z y

VaRp   5730^29266^233000^2   2*5730*9266*0.26   2*33000*573*0.62   2*33000*0.57


VaR p  34811

21
4.1.3 Résultats graphiques

20

15

10

-5

-10

-15

-20
2006M07 2007M01 2007M07 2008M01 2008M07 2009M01

NVARS_CIH CIH

Fig. 5. Graphique de la Normal VaR de l’action CIH

Fig. 6. Graphique de la Normal VaR du taux de change US_MAD

Fig. 7. Graphique de la Normal VaR du cours du Bon de trésor

22
Conclusion
La Value-at-Risk (VaR) donne au gestionnaire du risque financier la pire perte
prévue dans des conditions de marché moyenne sur un certain intervalle de temps
à un niveau de confiance donné. En d’autres termes, la VaR donne au gestionnaire
des risques le sens de ce qu’il peut s’attendre à perdre potentiellement dans un
intervalle de temps donné, en supposant des conditions de marché « normales ». La
VaR présente cependant certaines limites, en effet Limite technique liée à la
distribution de la perte qui n’est pas forcément normale, par exemple leptokurtique
qui implique donc des évènements extrêmes plus fréquents que pour la loi normale.
La VaR est aussi une fonction non convexe, ce qui fait que fusionner deux
portefeuilles ne réduit pas forcément le risque. Ainsi elle ne constitue pas une
Mesure Cohérente de Risque. De plus, la VaR indique la perte potentielle maximale
à un horizon de temps pour un niveau de confiance donné. Ainsi, la VaR ne donne
aucune indication sur les valeurs prises une fois le seuil passé.

23
24
Chapitre 2
L’évaluation des produits dérivés
et structuré de crédits

L’évaluation des produits dérivés de crédit est au centre des préoccupations des
intervenants du marché et de la recherche scientifique.
Dans ce sens, les institutions financières ont développé des modèles internes
permettant d’évaluer les produits dérivés de crédit. Entre autres, nous connaissons
des modèles basés sur des méthodes statistiques et des modèles basés sur des
méthodes de portefeuille. Dans le premier cas, nous pouvons citer par exemple des
méthodes de notation ou rating ; la note d’une dette réflète la probabilité de défaut
de son émetteur ainsi que la sévérité de perte de son détenteur.
Dans le second cas, on synthétise en une valeur (value at risk ou VAR) le risque
qu’encourt une institution financière du fait de son exposition au risque de crédit. Très
peu de travaux théoriques publiés se sont interessés à l’évaluation de produits dérivés
de crédit. Les principaux modèles considèrent que la date de défaut d’un agent
économique est imprévisible : une variable aléatoire à intensité. Schönbucher (2000)
s’intéresse à la tarification des produits dérivés sur le risque de défaut référencés sur un
seul débiteur et des produits dérivés sur le risque de marge de crédit. Duffie (1998),
donne une méthode générale d’évaluation de produits dérivés de crédit “first-to-
default”, c’est-à-dire de contrats financiers dont l’objet est de se défaire du premier
défaut d’un panier de signatures. Kijima et Muromachi (2000) s’intéressent à deux types
de contrats ; le premier, qualifié de swap de type F, est un cas particulier de swap “first-
to-default” ; le second, qualifié de swap de type D, protège son détenteur contre les deux
premiers défauts d’un panier de débiteurs. Enfin, Bielecki et Rutkowski (2001)
développent une méthode générale d’évaluation de dérivés de crédit dont l’objet est de
se défaire des i premiers défauts d’un panier de signatures. Ils généralisent notamment
les résultats de Duffie (1998) et de Kijima et Muromachi (2000).1

1
Idriss Tchapda Djamen, ÉVALUATION DES PRODUITS DÉRIVÉS DE CRÉDIT, Institut de
Science Financi`ere et d0Assurances (ISFA).(2003)

25
1. L’évaluation du risque de crédit
Trois facteurs sont placés au cœur de l’évaluation du risque de crédit : la
probabilité de défaut, la corrélation entre temps de défaut et le taux de
recouvrement.

1.1. La probabilité de défaut(PD)


La mesure de la probabilité de défaut est au centre de l’évaluation du risque de
crédit d’un produit dérivé de crédit. Intuitivement, il est facile de distinguer deux
approches pour évaluer la probabilité de défaut :
– L’évaluation par le biais des données historiques ;
– L’évaluation par les modèles mathématiques.
L’évaluation de la probabilité de défaut par les données historiques a long
temps joué un rôle majeur dans l’évaluation du risque de crédit mais cette approche
a été confronté à quelques reproches :
– La rareté de l’événement de crédit a souvent mis en avant le reproche selon
laquelle ces estimations étaient limitées.
– Les probabilités historiques étant un indicateur du passé, les acteurs
financiers ont souvent contesté l’exactitude de ces données en tant qu’un indicateur
futur.
Les modèles mathématiques ont pris une grande place dans le monde de la
finance en général et dans celui des produits dérivés en particulier au cours des
dernières années.
Aujourd’hui nous distinguons deux familles de modèles dans l’évaluation du
risque de crédit :
– Les modèles structurels qui représentent le défaut comme un événement
endogène défini à partir de la structure du capital ;
– Les modèles sou formes réduites qui représentent le défaut et les événements
de crédit comme des événements exogènes, dont le modèle spécifie la probabilité
de survenance.
Nous consacrerons toute une section pour l’étude de ces modèles.
Aujourd’hui, le marché reconnait quartes méthodes d’évaluation de la
probabilité de défaut :
– La probabilité de défaut implicite d’un CDS ;
– La probabilité de défaut à partir du prix d’une obligation ;
– La probabilité de défaut à partir d’une matrice de transition ;
– la probabilité de défaut à partir des modèles structurels.

26
Il faut bien noter que cette liste des méthodes n’est pas exhaustive, elle met en
lumière les principales techniques utilisées à ce jour par les acteurs des marchés
financiers

1.1.1 La Probabilité de défaut implicite d’un CDS


Pour une courbe de défaut donnée, la courbe de swap spread peut être calculée.
Cette méthode se base sur le processus inverse autrement dit, à partir d’une
courbe se swap spread, on calcule la courbe de défaut. C’est méthode est plus
connues sous le nom de « bootsrapping ».
Donnons un exemple pour illustrer cette méthode. Rappelons que si on
considère une période d’observation, la perte espérée d’un CDS, PE, est déterminée
par la formule suivante :

P étant la probabilité de défaut et RR le taux de recouvrement en cas de


l’occurence du défaut. On suppose qu’il ya indépendance entre le taux de défaut et
le taux de recouvrement. En l’abscence de frictions dans le marché, le Primium S
du CDS (ou perte espéreé actualisée au taux sans risque) devrait égal à :

Géneralisons ce procédé à un CDS de maturité M utilisant une intrensité de


défaut λ. La marge de crédit ou spread du CDS est a lors payé cahque période M (i),
i = 1, …, n avec M (n)= M et la probabilité de défaut à la période M (i) est de :

Si on évalue la valeur actuelle de la jambe de défaut2 du CDS (Default Leg)


comme étant :

2
La jambe de défaut représente la somme totale versée par le vendeur à l’assuré.

27
Et la valeur actuelle de la jambe de premium (Premium Leg PL) comme étant :

Y (i) étant le taux sans risque pour la période M (i), et S (M) le premium payé
par l’acheteur de protection pour le CDS de maturité M.
Le breakeven spread d’un CDS est défini comme étant la valeur du spread da la
jambe fixe (premium leg) qui vient annuler la valeur actuelle d’un CDS. En d’autres
termes, le breakeven spread est la valeur S pour laquelle :

On en déduit la relation suivante :

Il suffit de connaitre le taux de recouvrement et d’avoir la courbe de taux sans


risque pour extraire l’équation de l’intensité de défaut et estimer la probabilité de
défaut.

1.1.2 La probabilité de défaut à partir du prix d’une obligation


Cette méthode consiste à extraire la probabilité de défaut du prix d’une
obligation.
Prenons un exemple pour illustrer cette méthode. Soit P la probabilité de
défaut de l’obligation, RR le taux de recouvrement et r le taux de défaut sans risque.
Si le prix de l’obligation est de B, la neutralité du risque implique :

De l’équation précédente, on peut aisément extraire la probabilité de défaut :

En généralisons le raisonnement précédent au cas d’une obligation à N


périodes de remboursement est d’un montant nominal de 100. Le prix B (t) de cette
obligation à la période t est égal à la somme des flux futurs actualisés :

28
Avec rit le taux sans risque pour chaque période.
Supposons que la probabilité de défaut est constante pour chaque période :
pt1 = pt2= pt3=… = ptn, si le taux de recouvrement RR et le coupon payé sont
les mêmes pour chaque période, on peut alors écrire que :

En connaissant le prix B (t) actuel de l’obligation, le taux de recouvrement, le


coupon et le taux sans risque, on peut extraire la probabilité de défaut.

1.1.3 La probabilité de défaut à partir d’une matrice de transition


Comme nous l’avons déjà mentionné dans le chapitre précèdent, les agences
de Rating publient régulièrement des matrices de transition qui indiquent le
pourcentage d’obligations sur une période donnée (en l’occurrence 1 an) qui sont
passées d’un rating i à un rating j.
Donnons un exemple, cette matrice nous indique Si une obligation est notée
AAA en début d’année, la probabilité que son rating ne change pas, c’est-à-dire
reste AAA est de 90.81 %, par ailleurs, la probabilité que son rating se dégrade à
BBB est de 0.06 % et la probabilité que cette même obligation fasse défaut est nulle.
Rating AAA AA A BBB BB B CCC default
AAA 90.81 % 8.33 % 0.68 % 0.06 % 0.12 % 0.00 % 0.00 % 0.00 %
AA 0.70 % 90.65 % 7.79 % 0.64 % 0.06 % 0.14 % 0.02 % 0.00 %
A 0.09 % 2.27 % 91.05 % 5.52 % 0.74 % 0.26 % 0.01 % 0.06 %
BBB 0.02 % 0.33 % 5.95 % 86.93 % 5.30 % 1.17 % 0.12 % 0.18 %
BB 0.02 % 0.14 % 0.67 % 7.73 % 80.53 % 8.84 % 1.00 % 1.06 %
B 0.00 % 0.11 % 0.24 % 0.43 % 6.48 % 83.46 % 4.08 % 5.20 %
CCC 0.22 % 0.00 % 0.22 % 1.3 % 2.38 % 5.00 % 64.85 % 19.79 %
default 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 0.00 % 100 %

Cette matrice de transition permet de déterminer les probabilités cumulatives


qu’une obligation de rating i migre à un rating j à la fin de la nième année.
Pour cela supposons que les probabilités suivent une chaine de Markov, c’est-
à-dire que les migrations d’un coté comme de l’autre sont indépendantes d’une
année sur l’autre.
En multipliant la matrice de transition par elle-même une fois (M2), nous

29
obtiendrons les probabilités cumulatives de migrations à la fin de la 2éme année.
En la multipliant par elle-même (n-1) fois, nous obtiendrons la probabilité
cumulative de migration de rating i à j à la fin de la nième année. Si nous prenons
la dernière colonne sur cette matrice de transition, celle-ci représente la probabilité
pour une obligation d’être en défaut.
Ainsi en suivant ce principe nous pouvons déterminer les probabilités de
défaut cumulatives à la fin de la nième année.
Exemple des probabilités de défaut pour chaque rating sur 30 ans à partir de la
matrice de transition ci-dessus.

Du tableau précédent nous pouvons lever les remarques suivantes :


– Les probabilités marginales de chaque année, c’est-à-dire les accroissements
des probabilités cumulatives, différent selon le rating. Ainsi, les probabilités
marginales des ratings élevés augmentent avec le temps, celle des rating faibles
augmentent durant les premières années puis baissent par la suite. Ceci montre
qu’une obligation avec un mauvais rating aura autant plus de chance de survivre, si
elle survie durant ses premières années. (Le rating CCC dans le graphique suivant
illustre bien ce comportement).

30
Figure 21 : Les probabilités cumulatives des ratings

Paul SAINT-PASTEUR, les dérivés de crédit, ESCEM Tours Poitiers 2008

1.1.4 La probabilité de défaut à partir des modèles structurels


Cette étude fera l’objet de la sous-section en bas.
Ces méthodes d’évaluation ont fait l’objet de nombreuses critiques quant à leur
exactitude,
– Les données historiques utilisées dans les matrices de transitions se sont vues
reprochés de ne pas être un bon indicateur des valeurs futures, quoi que cette
méthode est bien d’actualité ;
– Les méthodes décrites ci-dessus utilisent des probabilités risque neutre qui
supposent l’absence d’arbitrage sur les marchés et reflètent l’aversion au risque des
investisseurs, incluant généralement un risque premium. Les probabilités risque
neutre sont jugées trop pessimiste par rapport à ses concurrentes (les probabilités
objectives) et sont peut être aujourd’hui l’une des raisons de la sous évaluation du
risque de crédit relatif à un actif car pas assez conservatrices. Las situation actuelle
pourrait exiger l’addition d’un premium encore plus sévère à la valeur de la
probabilité risque neutre, cependant il ne faut pas tomber dans une généralisation
de cette correction qui est très exigeante en terme de capital réglementaire ou de
provisions réglementaires en cas de pertes potentielles.

1.2. L’évaluation de la corrélation entre temps de défaut


La corrélation est un paramètre fondamental dans l’évaluation du risque de
crédit relatif à un actif financier au même titre que la probabilité de défaut.
L’évaluation de cette variable se justifie par le fait que les sous-jacent de dérivés
de crédit sont souvent diversifiées. En d’autre termes, l’objet de la méthode est

31
d’évaluer la probabilité au sein du sous-jacent entraine un ou plusieurs autres.
La corrélation entre temps de défaut est donc une mesure de l’intensité qu’un
certain nombre de défauts arrivent ensemble.
Prenant un produit structuré CDO pour illustrer la corrélation de défaut.
La première hypothèse à mettre en valeur pour expliquer et évaluer la
corrélation est d’admettre que cette dernière n’affecte en rien la perte espérée
globale du portefeuille mais affectera la distribution de pertes sur le passif.
Le graphique suivant montre bien les changements de la courbe de
distributions des pertes lorsque l’on fait varier la corrélation

Figure 22 : Courbes de distribution et corrélation

La corrélation permet de calculer le niveau de perte qu’une tranche peut


supporter. Elle est dont une valeur déterminante du fair spraid que devrait payer
une tranche.
Le changement de corrélation modifie la valeur des tranches entre elles dans la
mesure où, pour un coefficient de corrélation ρ donné indique que certaines
tranches perdront de la valeur au profit d’autres.
La méthode des « copules gaussiennes » est considérée comme La méthode
standard actuelle de pricing des tranches des produits dérivés de crédit, elle lie les
temps de défaut des actifs sous-jacent par des séries de variables aléatoires corrélées.
Il y a trois types de variables à déterminer pour pricer une tranche :
– les spreads de chaque actif sous-jacent dans le portefeuille
– les caractéristiques de la tranche à pricer : les points d’attachement, la largeur
de la tranche ;

32
– Enfin, il faut estimer une méthode pour intégrer la corrélation de défaut entre
les actifs du portefeuille sous-jacent ;
Pour introduire la corrélation de défaut, supposons que chaque actif Xi du
portefeuille sous-jacent soit défini par :

Zc et εi (les variables explicatives) sont des variables aléatoires indépendantes et


normalement distribuées avec pour moyenne 0 et variance 1. Xi (la variable
expliquée) est elle aussi normalement distribuée avec pour espérance 0 et variance
1. Zc s’interprète comme étant le facteur commun (exemple contexte économique
général) et εi comme étant le composant idiosyncratique de la variable Xi (spécifique
à chaque actif). En d’autres cette relation peut se lire de la façon suivante : un actif
peut faire défaut pour des raisons générales dues à L’état de l’économie ou encore
pour des raisons liées à son propre environnement.
La corrélation entre et Xj est aiaj est appelée corrélation copula. L’actif Xi est
relié au temps de défaut ti par la relation suivante :

Ou N est la fonction de la distribution cumulative normale est Qi est la fonction


de distribution cumulative de ti, le facteur Zc évalue la dépendance des défauts entre
les actifs. Si on suppose que Zc a une valeur donnée, la probabilité de survie de l’actif
i par la relation suivante :

Maintenant que la corrélation a été a introduite, nous allons voir les méthodes
qui existe afin de l’évaluer. Il faut noter que ces méthodes sont semblables à celle du
modèle Black & Scholes. Les acteurs du marché utilisent le niveau des prix des
produits dérivés pour déterminer une corrélation implicite.
Il existe deux méthodes d’évaluation de la corrélation implicite :
– La corrélation composée (compound correaltion) ;
– la corrélation de base.
Le principe de la méthode de la corrélation composée, étant de fixer le spread
du produit de dérivé de crédit (de la tranche dans notre exemple) pour déterminer
la corrélation qui d’après le modèle décrit ci-dessus correspond à ce niveau de
spread.
Cette méthode est critiqué pour la raison suivante : Si certaines tranches (la

33
tranche senior) perdent systématiquement de la valeur lorsque la corrélation
augmente alors que d’autres en gagnent (la tranche equity), les tranches mezzanines
entretiennent une relation incertaine avec la corrélation et peuvent prendre comme
perdre de la valeur.
C’est pourquoi une autre méthode a été établie. Il s’agit de la méthode de
corrélation de base développé par Mc Ginty & Ahluwalia de JP Morgan.
Cette méthode interprète chaque position comme une position long/short.
Considérons une position dont les points d’attachements et de détachement
respectivement 4 % et 8 %. Si on souhaite déterminer la perte espérée de cette
tranche on peut écrire cette relation :
E[L (4 ; 8)] = E[L (0 ; 8)] – E[L (0 ; 4)]
Dans cette relation, le détenteur d’une position dont les points d’attachements
et de détachements sont (4 ; 8) est dans la même situation qu’il se trouvait long
d’une posision (0 ; 8) et short d’une position (0 ; 3). Les tranches equity, étant
longues corrélation (ce qui signifie qu’elles prennent de la valeur lorsque la
corrélation augmente), il est plus facile d’évaluer la corrélation pour les tranches
equity (0 ; 4) et (0 ; 8). Les points 4 et 8 sont appelés les points d’attachements de
des corrélations de base (0 ; 4) et (0 ; 8).
La courbe de corrélation de base est donc l’unique série de corrélation de
tranches equity cohérente avec les prix observés.
Il existe une remarque semblable à celle qu’on peut trouver sur le smile de la
volatilité des options. En effet suivant l’endroit ou en se place dans le capital
structure, la corrélation est différente. Ce comportement est appellé base correlation
skew.

1.3 Le taux de recouvrement


Au même titre que la probabilité de défaut et la corrélation, le taux de
recouvrement est considéré comme un paramètre fondamental dans la
détermination du risque de crédit.
Comme nous l’avons bien précisé dans les chapitres précédents ce taux mesure
la part du montant de l’exposition au moment du défaut que la contrepartie sera à
même de rembourser.
Prenons un exemple simple pour comprendre son application, un investisseur
détenteur d’une position longue d’obligation pour un montant de 1.000.000 de
dollars, sachant que la probabilité de défaut est de 10 % est le taux de recouvrement
est de 40 %, la perte espérée peut se déduit de la façon suivante :
1.000.000 * 10 %* (1 – 40 %) = 60000 dollars

34
Si le taux de recouvrement baisse et atteint 30 %, dans ce cas la perte espérée
sera de :
1.000.000 * 10 % * (1 – 30 %)= 70000 dollars
Soit la perte espérée a accusé une augmentation de 16.67 %
Pour évaluer le taux de recouvrement, on recourt le plus souvent à la méthode
d’étude des résultats historiques. D’après une étude réalisée par Til Schumerman,
économiste à la Federal Reserve Bank (FED) de Newy ork, publié dans son article
« What do we know about loss given default »3, il constate que la distribution du
taux de recouvrement est bimodale. En effet comme c’est bien montré sur le
graphique juste au dessous, on distingue deux modes dans la distribution du
recouvrement : les taux de revouvrement sont soit assez faibles, soit assez élevés, la
partie faible étant nettement plus importante.

Figure 23 : Caractéristiques de la distribution des taux de recouvrements

Probability Distribution of Recovries, 1970-2003 : All bonds and loans


(Moody’s)
Cette étude justifie le fait que la séniorité du titre et sa nature (emprunt ou
obligation) ont un impact significatif sur la distribution du taux de recouvrement.
Selon la même étude, il s’est avéré qu’un autre élément peut avoir une influence
sur la distribution du taux de recouvrement. En effet, le cycle économique, qu’il soit
en récession ou en expansion modifie la courbe de distribution. Le graphique
suivant montre bien cette influence :

3
http://www.newyorkfed.org/research/economists/schuermann/Schuermann_LGDWhat_do_we_
know_1.5.pdf.

35
Figure 24 : Distribution des taux de recouvrements et cycles économiques

Probability Distribution of Recovries, 1970-2003 : All bonds and loans


(Moody’s)
D’après le même article de Til Schumerman, Altman et Kishore (1996) ont
prouvé à leur tour que le taux de recouvrement était fonction de l’industrie du sous-
jacent. Les résultats de cette étude figure sur le tableau suivant :

Tableau n 6 : Taux de recouvrement et industrie du sous-jacent

Industry and Impact, from Altman and Kishore (1996)


Nous avons présenté les trois paramètres au cœur de l’évaluation du risque de
crédit que supporte un produit dérivé de crédit, dans ce qui suit nous passerons en
revue un panorama des approches de modélisation du risque de crédit.

36
2. Les modèles d’évaluation des produits dérivés et structurés de crédit
2.1 Le modèle structurel de Merton
Le fameux article de de Black & Scholes publié en 1973 intitulé « The pricing
of options and Corporate Liabilities » présentait déjà le point de vue selon laquelle
la dette d’une entreprise peut être analysée et évaluée comme une option sur la
valeur de celle-ci. Ce point de vue, développé ensuite par Merton et d’autres,
représente le défaut comme un évenément endogène défini à partir de la structure
du capital d’une firme, d’où le nom de « modéles structurels » qui est souvent donné
a ce type de modèles.
Cette section est consacrée à la description du modèle structurel de Merton.
Le modèle de Merton destiné à évaluer le risque de crédit d’une entreprise fait
appel au modèle Black and Scholes, se base sur le levier financier de cette dernière.
Illustrant le modèle de Merton par l’exemple suivant :
Soit une entreprise X dont le bilan se constitue d’actions et d’une émission
d’obligations zéro-coupon. Ces deux éléments ont les caractéristiques suivantes :
– Le nombre d’actions est de n dont le prix initial est de S0 ;
– la valeur des obligations émises est de F, de maturité T et dont le prix initial
et de B0
La valeur V de la firme en t = 0 est donc égale à la somme des valeurs des actions
et de la dette :

Le modèle de Merton se fonde sur l’hypothèse selon laquelle les capitaux


propres d’une entreprise sont analogues à une option d’achat sur les actifs de cette
entreprise. Selon Merton, lorsque la valeur VT d’une entreprise, qui suit un
processus de diffusion, est inférieure à la valeur de sa dette, alors l’entreprise est en
défaut.
En prêtant à l’entreprise, les créanciers se sont portés acquéreurs de l’entreprise
et on vendu une option call aux actionnaires puisque si l’entreprise venait à faire
faillite, ils en deviendraient les propriétaires.
A l’inverse si l’entreprise est en mesure de rembourser la valeur de sa dette, les
actionnaires exerceront alors leur option call.
Ainsi, la valeur à maturité de la dette émise par la firme s’exprime comme

Si la valeur nominale des obligations F est supérieur à la valeur de l’entreprise,


cette dernière est alors en défaut et la valeur des obligations est égale à la valeur de

37
l’entreprise VT. Si l’entreprise est solvable, alors l’entreprise rembourse la valeur de
sa dette BT = F.
On reconnait bien l’écriture de l’option d’achat CT de maturité T dont le prix
d’exercice est de F :

En remplaçant cette équation dans celle sui lui précède, on obtient :

Soit encore pour t = 0

Ce qui traduit bien le fait que les créanciers sont propriètaires de l’entreprise
mais ont vendu une option d’achat.
Si on adopte un raisonnement simillaire en se plçant du côté des actionnaires
en tant que propriétaire de l’entreprise ayant emprunté un montant F et acheté une
option put pour se protéger du risque que présente la dette. Nous aurons :

Avec le put PT de maturité T et de prix d’exercice F :

On a cette fois BT = F – PT soit encore t = 0 Bo = Fe-rt (r étant le taux sans


risque)
Cette dernière équation nous permet d’écrire l’obligation risquée est égale au
prix d’une obligation sans risque moins le prix d’un put. Ce dernier peut être
assimilé à une prime de risque.
Sachant que, d’après les formules Black & Scholes, le prix d’un put européen P
est de :

En substituant dans l’équation précédente, on déduit que :

Tout ce qui est entre les crochet représente le facteur d’escompte d’une
obligation.
Si on suppose la composition des intérêts comme continue, on a alors le tauc
de rendement de l’obligation risquée rB :

38
La prime de risque liée à cette entreprise sera donc

L’une des premières limites de ce modèle est le fait qu’il suppose que le défaut
n’arrive qu’à l’échéance de la dette. Ce point a pu être amélioré par Black et Cox
(1976) en permettant la survenance le défaut à tout moment à maturité.
D’autres études empiriques ont montré que les modèles structurels impliquait
des marges de crédit inférieurs à celles constatées sur le marché (Jones, Mason et
Ronsefeld, 1984).En d’autre terme ces modèles sous-estiment le risque de crédit
qu’il évaluent.
Il existe une deuxième famille de modèles que l’on dit à forme réduites et qui
reposent sur la distribution des pertes d’une entreprise dans un monde risque
neutre.

2.2 Le modèle à forme réduite


Comme nous l’avons annoncé précédement, les modèles basé sur la « valeur de
la firme » présentent plusieurs limites fondamentales :
– Ils réduisent le risque de crédit au risque de marché, lui-même lié à la
volatilité des actifs de la firme. Ceci implique en particulier un lien étroit entre lme
risque des actions et le risque obligataire d’un même émetteur ;
– Le facteur de risque principal, la « valeur de la firme », n’est pas une grandeur
observable sur les marchés, ce qui complique l’estimation et l’utilisation de ces
modèles ;
– Il est difficile d’y intérgrer des facteurs de risques supplémentaires tels que le
risque de taux d’intérêt, tout en gradant un niveaux de complexité raisonnable ;
A ces limites conceptuelles s’ajoutent des problèmes de mise en œuvre : étant
donné que la « valeur de la firme » ne peut être observé directement, l’estimation
des paramètres de ces modèles n’est pas aisée.
Les modèles à formes réduites, appelés aussi modèles à intensité, ont été
introduites pour pallier à ces critiques. Introuduits en 1995 par Jarrow and Tunbull,
ces modèles n’exigent la détermination de paramètres sur la valeur de l’entreprise.
Par ailleur l’autre différence dans ce type de modèles est que le défaut est une
variable aléatooire et donc totalement imprévisible. Pour donner plus de précision,
le temps de défaut est défini de manière exogène.
Une version simple de ce modèle a été présenté dans les différentes méthodes

39
utilisées pour évaluer la probabilité de défaut. Nous la rappelons içi.
D’après ce modèle, l’occurrence du défaut suit un processus Poissonien
d’intensité constante
λ. Rappelons que par définition,
Un processus de Poisson avec intensité λ est un processus de renouvellement dont
la distribution des durées de vie est la loi exponentielle.
Un processus de renouvellement est défini comme étant
Un processus de dénombrement pour lequel les durées de vie sont des variables
aléatoires indépendantes et identiquement distribuées.
Une loi exponentielle de paramètre λ > 0 est définie comme étant une loi
continue avec densité :

La fonction de répartition FT de la loi exponentielle se définit comme suit :

Ainsi, dans le cas des modèles à formes réduites, on pose λ l’intensité de défaut.
Soit la première occurrence du défaut, on alors la probabilité de survie qui s’écrit
comme suit :

Généralement, l’intensité de défaut est modélisée comme un processus


stochastique pour refléter que l’intensité de défaut d’un emprunteur peut fluctuer à
travers le temps.
Nous rappelons ci après la formule générale qui permet de déterminer le fair
spraid d’un CDS de maturité M :

Les modèles à intensité présentent une plus grande flexibilité dans leur

40
utilisatiuon car les paramètres qu’ilexigent sont donnés par le marché Cet avantage
que présentent ces modèles est peut être l’une des raisons pour lesquelles les acteurs
de marché qui cherchent à pricer des produits dérivés de crédit ou qui cherchent à
ce hedger utilisent plutôt les modèles à intensité de défaut.
Les modèles développés ci-dessus traitent le cas d’un seul émetteur. Lorsqu’il
s’agit d’évaluer des dérivés de crédit portant sur un panier de multiples entités de
référence ou de quantifier l’exposition au risque de portefeuille, il faut non
seulement modéliser le risque de crédit de chaque émetteurs, mais également les
probabilités de défaut simultané de ces différentes entités risquées.
L’objet de cette section est de présenter des modèles de portefeuille, développés
dans cet objectif.

2.3 Modèles de portefeuilles de crédit


Alors que les modèles décrits ci-dessus se focalisent sur le cas d’un seul
émetteur de dettes, la gestion des portefeuilles de crédit soulève de nouvelle
dificultés dans la mesure ou ces paniers regroupent des expositions à un grand
nombre d’émetteurs, répartis dans différents seceteurs et catégorie de risque. Ces
portefeuille benéficient d’un effet de diversification évident qu’il s’agit de
comprendre et de modèliser, à travers la modèlisation de corrélations de défaut, et
plus généralement de la dépendance entre qualités de crédit des différents
émetteurs.
Un premier objectif qui a contribué fortement au développement des modèles
de portefeuille de crédit a été l’exigence pour les banques de calculer le risque de
perte qu’elles encourent du fait de leur exposition au risque de crédit. Pour ce faire,
à l’instar des pratiques en vigeur pour les risques, la norme utilisée dans ce domaine
est de calculer une Credit VaR, mesure défini comme un quantile de distribution
des pertes dues à l’exposition au risque de crédit. Le calcul du Credit VaR repose
généralement sur étapes complémentaires :
– Dans une première étape, on génére une distribution de probabilités des
risque de pertes au niveau d’un portefeuillede crédits, pour un horison
d’investissement donné (un an par exemple) ;
– Dans une deuxième étape, on calcule le montant du capital économique à
mettre en regard d’une telle position.4

4
Le capital économique peut être défini étant le montant de fonds propres nécessaires afin de couvrir
les pertes non anticipé su un portefeuill de de crédits dont la probabilité de survenance dépasse un
certain seuil (exemple 1 %). Le montant du cpaital économique dépend donc de la volatilité des pertes
et des probabilités de défaut.

41
Pour ce faire, il est nécessaire de prendre en considération l’ensemble des
ressources d’exposistion au risque de créditet de modéliser les dépendances entre
les évenements de défaut associés. Sur le plan thèorique ; tous les actifs incorporant
un risque de crédit devraient donc être intégrés dans le calcul de la Credit VaR du
portefeuille : créances bancaires, obligations, lettres de crédit, expositions liées au
mark to market favorable de transactions de swaps et autre produits dérivés.
Etant donné la taille importante de ces portefeuilles et la compléxité des
problèmatiques, une approche systèmatique est apparue comme nécessaire dés le
commencement de la recherche, ce qui a conduit au développement de plusiseurs
logiciels commerciaux qui proposeent chacun une méthodologie pour représenter
les corrélations de défaut dans les portefeuilles.
Il existe plusieurs modèles de portefeuille qui qui résouent la problèmatique
d’évaluation du risque de crédit, les modèles pionniers en la matière sont Credit
Metrics développé le 2 Avril 1997 par la Banque Américaine JP Morgan et Credit
Risk + développé en octobre 1997 par
Dredit Suisse Financial Prodcuts (CSFP), la filiale de la banque Credit Suisse
sur les marchés dérivés. D’autres modèles et approches ont depuis été développés,
notamment par les agences de notation. Nous présenton dans ce qui suit un modèle
de portefeuille utilisée par les agences de notation pour déterminer leur notations.
D’après un article du professeur Michel Aglietta, « De la crise financière à
l’enjeu d’une meilleur évaluation des crédits structurés »5 : Le modèle de référence
utilisé a pour architecture la théorie des options aussi bien pour le pricing (Finger
(1999), Mc Ginty & Ahluwalia (2004)), la gestion des risques ou encore le calcul du
montant de fonds propres réglementaires dans le cadre de Bâle II (Gordy 2003)). Il
suppose qu’une signature est en défaut dès qu’elle se trouve en situation
d’insolvabilités. En d’autres termes dès que la valeur de ses actifs devient inférieure
à celle de ses dettes. Dans sa formulation, on écrit le rendement des actifs d’une
firme comme une équation factorielle :

Ou
εi : facteur spécifique normalement distribué
X : facteur systématique s’interprétant comme le cycle économique
ρ : la corrélation de la signature au cycle

5
Un article rédigé par le professeur Français Michel Aglietta (professeur de sciences économiques à
l’Université Paris-X Nanterre) en collaboration avec deux autres chercheurs Ludivic Moreau et Adrian
roche et qui peut être téléchargé sur le site suivante :
http://congres.afse.fr/docs/629210delacrisefinanciereagliettamoreauroche.pdf

42
D’après la définition du défaut, on écrit

Bi étant le seuil de défaut de la firme


A l’aide la première équation, on en déduit

Les notations jouent toujours un rôle central, car Bi qui est une distance au
défaut exprimée en rendement, est déduit des tables statistiques des faillites. Soit :

A ce stade, on procède à un calcul la distribution de perte du panier titrisés par


la simulation Monte Carlo. Elle consiste à tirer aléatoirement (selon la loi normale)
les facteurs titrisés une centaine de milliers de fois les facteurs aléatoires et à
sommer les pertes obtenus pour chaque tirage.
Une fois la distribution est obtenue, les agences de rating déterminent leurs
notations pour chaque tranche en fixant le point de subordination pour lequel la
probabilité de taux de défaut associé correspondant à celle répertoriée dans les
matrices de transition sur corporate.
Supposons par exemple que ces matrices indiquent un taux de défaut de 3 %
les tranches notées A, alors dans le cadre de la distribution ci-après, on détermine
que le taux de défaut satisfaisant une telle probabilité est de 28 %. Le point
d’attachement de la tranche doit être de ce niveau pour n’être atteinte que dans 3 %
des cas et notée A.
Figure 25 : Distribution de pertes d’un panier titrisés et subordination

Source : M. Aglietta, L. Moreau, M. Roche, de la crise financière à l’enjeu d’une meilleur évaluation
des crédits structurés Université Paris X Nanterre Avril 2008.

43
Les modèles de crédit déterminent la probabilité de défaut et prévoient le
montant des pertes non attendues sur le portefeuille de crédit au seuil de confiance
choisi par le modélisateur. Ces pertes sont couvertes par des fonds propres
économiques. Etant donné le caractère stratégique de ces prévisions, il est
nécessaire de s’assurer de leur qualité et de leur relative stabilité. Cela est d’autant
plus important que, quel que soit la méthodologie choisie, deux grandes critiques
sont généralement adressés aux modèles de portefeuille de risque de crédit :
– La première concerne l’estimation des coefficients de corrélation. Pour des
raisons pratiques, il est impossible de calculer l’ensemble des coefficients de
corrélation entre les crédits d’un même portefeuille. Si le portefeuille est composé
de N crédits, cela reviendrait à calculer N (N-1) corrélations pour les seuls
probabilités de défaut. Il faut, en conséquence, soit faire des choix discrétionnaires,
soit procéder à des regroupements de crédits en classes de risque. Ces options
n’évitent pas un certain arbitrage ;
– La seconde critique a trait au fait que les modèles de risque de crédit mesurent
le risque en utilisant des valeurs estimés ou, si l’on préfère approchées, et non des
valeurs réelles. Même estimés avec les outils les plus perfectionnés, ces modèles
comportent une erreur, ce qui peut avoir effet de sous-estimer le risque.6

2.4 Les Tests des modèles d’évaluation du risque de crédit


Par nature les modélisations ne peuvent être parfaites. Elles aboutissent à une
représentation partielle de la réalité et sont construites sur la base d’historiques. La
performance des modèles est donc susceptible d’évoluer fortement, en raison, soit
de l’évolution des comportements par rapport à l’historique, soit de l’apparition de
situation de crise. La première rend nécessaire de procéder à des back-testing des
modèles, la seconde à des opérations de stress-testing.

2.4.1 Le back-testing
Le principe de ce type de test est que, de façon continue, le comportement réel
des pertes sur les crédits est comparé au comportement prévu par le modèle étudié,
le principe du back-testing des modèles de risque de crédit sont les mêmes utilisés
dans le cadre de risque de marché. Toutefois, la nature du risque et celles des
données imposent des aménagements particuliers.
Selon les modèles, le back-testing peut prendre des formes différentes, dont on
peut citer les exemples suivants :
– Il s’agit, par exemple, de vérifier que le pourcentage de défaut par tranche de

6
Michel Dietsch, Joel Petey, Mesure et gestion du risque de crédit dans les institutions financière,
Revue Banque édition, 2003

44
risque ne s’écarte pas du pourcentage prévu ;
– Il s’agit aussi de s’assurer que le nombre de dépassements de la limite fixée
par la VaR au cours du temps ne dépasse passe pas un seuil.
Ce dernier cas peut être illustré à travers le graphique ci-dessous :
Figure 26 : back-testing d’une VaR avec un niveau de confiance de 95 %

Source : Michel Dietsch, Joel Petey, Mesure et gestion du risque de crédit dans les institutions
financière, Revue Banque édition, 2003

Sur le graph, on voit bien que la VaR est dépassé 2 mois sur 30, c’est-à-dire
dans 7 % des cas. Dans ce cas, on doit rejeter le modèle en raison de cette défaillance
de prévisions.
En matière de risque de crédit, le back-testing est rendu délicat du fait de
l’horizon temporel des modèles. En matière de risque de marché, l’horizon de
temps est de l’ordre de temps est de l’ordre de quelques jours et les données permet
de procéder au back-testing sur 250 jours de bourse ou plus. En matière de risque
de crédit, l’horizon de temps est de en général d’un an et les banques ne peuvent
procéder à des vérifications sur des données couvrant plusieurs cycles, ce qui leur
imposerait de disposer en l’occurrence de plusieurs dizaines d’observations
annuelles.

45
46
Chapitre 3
Statistique des modèles non paramétriques

1. Introduction
1.1. Généralités
On peut souhaiter, dans un certain nombre de situations, ne pas faire
d’hypothèse a priori sur la forme de la loi de survie ; on cherche donc à estimer
directement cette fonction, dans un espace de dimension infinie ; ce cadre
d’estimation fonctionnelle est le domaine de l’estimation non paramétrique. Sous
réserve de disposer de données en quantités suffisantes, on peut alors obtenir des
estimations fiables de la fonction de survie, et des fonctionnelles associées.
Dans le contexte usuel d’un échantillon i.i.d. non censuré T1 , ..., T n  , on
dispose de l’estimateur empirique de la fonction de répartition
n
1
Fn ( t ) 
n
 1
i 1
ti  t 
Cet estimateur possède un certain nombre de « bonnes

propriétés » bien connues : il est sans biais, convergent et asymptotiquement


gaussien. Plus précisément, la convergence est uniforme au sens presque sur, et on
a le « théorème central limite » suivant :
n ( Fn ,  F )  W
Où W est un processus gaussien centré de covariance
 (s, t )  F (s)  F (t )  F (s) F (t ). Ce
résultat découle directement du
théorème de Donsker dans le cas de la loi uniforme7 et du fait que F ( T ) suit une
loi uniforme sur  0 ,1  L’objectif de l’estimation empirique dans les modèles de

7
Le processus limite étant alors le pont brownien, processus gaussien centré de covariance
s  t  st

47
durée est de rechercher un estimateur vérifiant des propriétés équivalentes en
présence de censure. Pour ce faire, on commence par introduire la présentation des
modèles de durée à partir de processus ponctuels, qui facilite ensuite l’obtention
d’un certain nombre de résultats via les résultats limite sur les martingales.

1.2. Notations
Dans la suite on note F la fonction de répartition du modèle non censuré, G la
fonction de répartition de la censure et T  X  C la variable censurée. On note
également :
S 0 ( t )  T  t , D  0 ), S 1 ( t )  P (T  t, D  1) e t

S ( t )  S 0 ( t )  S 1 ( t )  p ( T  1))(1  G ( t )).

2. Modèles de durée et processus ponctuels


L’étude d’une durée de survie s’effectue en général en étudiant la loi de la
variable X , associée à la fonction de survie S. On se propose ici de raisonner
différemment et de considérer le processus ponctuel naturellement associé à
X , N ( t ) , égal à 0 tant que l’événement n’a pas eu lieu, puis 1 âpre
X , ( t )  1 X  t . Lorsque l’on prend en compte la censure, on construit de même
N 1 ( t )  1  X  t , D  1. le processus des sorties non censurées8.
La présentation faite ici est heuristique et a pour ambition de faire comprendre
les mécanismes en jeu. Le lecteur intéressé par la formalisation mathématique
rigoureuse des outils évoqués pour se reporter à l’article fondateur de GILL [1980]
ou à l’ouvrage de FLEMING et HARRINGTON [1991], ou encore pour une
présentation en français à DACUNHA-CASTELLE et DUFLO [1983].
Cette approche fait largement appel à la théorie des martingales, dont les
résultats essentiels sont rappelés ci-après.

2.1. Rappels sur les martingales


On dit qu’un processus (M t ) adapté à une filtration ( Ft ) t  0
est une martingale s’il est à trajectoire continues à droites avec des limites à
gauche (càd-làg), et vérifie :
E  M     t  0 et
t E  M t F s   M s  s  t . Une martingale peut
être vue comme un processus d’erreurs, au sens où d’une part son espérance est

8
On reprend les notations du support sur les modèles paramétriques, avec X la variable non censurée,
et le couple (T, D) en situation de censure droite.

48
constante (on pourra donc toujours supposer qu’elle est nulle) et d’autre part les
incréments d’une martingale sont non corrélés :
cov( M t  M s , M v  M u )  0, 0  s  t  u  v.
Si la condition de constance de l’espérance conditionnelle est affaiblie et que le
processus est croissant en espérance conditionnelle au sens où
E(M t Fs )  M ss  t , on dit que M est une sous-martingale. Par l’inégalité
de Jensen, si M 2 est une martingale alors est une sous-martingale puisque
E ( M t2 Fs )  ( E ( M t Fs )) 2  M s2 s  t .
Afin de poursuivre la formalisation, il est nécessaire d’introduire une nouvelle
définition :
Définition : Un processus prévisible est une variable aléatoire mesurable définie
sur l’espace produit  0,      , P  muni de la tribu P engendrée par les
ensembles de la forme
s , t     F s . La tribu des évènements prévisibles est engendrée par les
processus adaptés à la filtration ( F t  ) t  0 avec F t    F s et à
st

trajectoires continues à gauche.


De manière intuitive, on peut dire qu’un processus prévisible est un processus
dont la valeur en t est connue « juste avant » t. Ainsi un processus continu à gauche
(et adapté) est prévisible du fait de la propriété de continuité. Ces différents outils
conduisent à la décomposition de Doob-Meyer d’un processus X càd-làg adapté9,
qui exprime qu’un tel processus est la différence de deux sous-martingales (locales)
si et seulement si il existe une unique décomposition de X sous la forme
X  A  M avec A un processus prévisible à variation bornée (au sens où
t

 d A s  s u p  Ati  Ati  1   avec D l’ensemble des subdivisions de


0 D

 0, t ) et M une martingale (locale) centrée. On en déduit en particulier que si


M est une martingale, M 2 possède un compensateur prévisible, que l’on note
M (que l’on prendra garde de ne pas confondre en général avec la variation
quadratique  M )

2.2. Application aux modèles de durée


Rappelons la définition d’un processus ponctuel :

9
Voir par exemple DACUNHA-CASTELLE et DUFLO [1983].

49
Définition : un processus ponctuel  N ( t ), t  0  est un processus à valeurs
entières adapté à une filtration  F t t  0 tel que N (0)  0, N ( t )   presque
sûrement et tel que les trajectoires soient continues à droite, constantes par
morceaux et ne présentent que des sauts d’amplitude  1 . En pratique on
considérera souvent pour ( F t ) t  0 la filtration naturelle associée à N , soit
Ft    N ( u ), 0  u  t   N avec N les évènements P-négligeables.
Le processus de Poisson fournit un exemple de processus ponctuel ; le
processus N ( t )  introduit ci-dessus est un cas simple dans lequel le processus
ne saute qu’une fois.
Les processus ponctuels sont à trajectoires positives et croissantes, donc à
variation bornée, et on peut alors définir pour un processus adapté X ( t )
t
l’intégrale comme une intégrale de Stieljes, trajectoire par

0
X (u )d N (u )

trajectoire. Par exemple, en présence de censure le processus d’évènements non


censurés N 1 ( t )  1 T  t , D  1 peut s’écrire :
t
N (t )   C (u ) d N
1
(u )
0

Avec C ( u )  1 0 , C  ( s ) . La censure agit donc comme un filtre. Comme un


processus ponctuel est une sous-martingale (puisqu’il est croissant), on lui associe
son compensateur prévisible, qui est donc un processus prévisible croissant, de
sorte que la différence entre le processus ponctuel et son compensateur soit une
martingale. De manière plus formelle on a le résultat suivant : Proposition : Si un
processus ponctuel ( N ( t ), t  0 ) adapté à la filtration  F t t  0 est tel que
E N ( t )    , alors il existe un unique processus croissant continu à droite
 tel que  (0 )  0 E   ( t )    et M ( t )  N ( t )   ( t ) est une
martingale.
t
Lorsque  peut se mettre sous la forme  ( t )    (u ) du , le processus
0

s’appelle l’intensité du processus ponctuel. Par exemple le compensateur d’un


processus de Poisson homogène est  ( t )   t , ou, de manière équivalente,
l’intensité d’un processus de Poisson homogène est constante égale à  D’un point
de vue heuristique, la décomposition N ( t )   ( t )  M ( t ) exprime que le
processus N « oscille » autour de la tendance prévisible  de sorte que la différence
entre le processus d’intérêt N et sa tendance soit assimilable à un résidu, dont on

50
maîtrise les variations. L’équation N ( t )   ( t )  M ( t ) eut ainsi se lire comme
« observations = modèle + terme d’erreur ». On a en particulier E ( N t )  E (  t ) .
On cherche maintenant à déterminer le compensateur prévisible du processus
N ( t )  1  X  t . On note N (t  )  lim N ( µ ) la limite à gauche de Nt et
µt

on s’intéresse à la loi de la variable aléatoire N ( t ) , en ayant noté formellement


P  dN t  1 N ( t  )  , avec d N ( t ) « petit ». La variable aléatoire N ( t ) ne peut
prendre que la valeur 0 et 1. Par définition de la fonction de survie et de la fonction
de hasard, on a :
P  d N t  1 N ( t  1)   h ( t ) d t Avec la probabilité S ( t )
Et
P  dN t  1 N ( t  1)   0 Avec la probabilité 1  S ( t )
En effet, si N ( t  )  1, la sortie s’est déjà produite et le processus ne peut plus
sauter. Cet événement se produit avec la probabilité 1  S ( t ) . Le processus N ne
peut sauter entre t et t  d t que si N ( t  )  0 (événement de probabilité
S ( t )) et la probabilité de saut est h ( t ) d t . On pose alors  ( t )  h ( t )1 X  t  ,
produit de la fonction de hasard en t et de l’indicatrice de présence juste avant
t , Y ( t )  1  X  t  . Le processus  ( t ) est prévisible et Y ( t )  1 est équivalent à

N ( t  )  0 . Donc P  dN t  1 N (t  )    (t ) dt , ou encore de manière


équivalente E ( d N t N ( t  ))   ( t ) d t . . Les remarques ci-dessus impliquent
que :
Modèles de durée
t t
M (t )  N (t )    (u ) du  N (t )   h(u )Y (u ) du  N (t )  H (t  T )
0 0

est une martingale centrée puisque E (dM t N (t))  0 et que l’intensité


de processus N peut se calculer selon :
1
 ( t )  lim P  N ( t  µ )  N ( t )  1 Ft   .
u0 µ µ

Le processus  ( t ) est donc l’intensité de processus N ( t ) , qui est aléatoire.


Conditionnellement au « passé immédiat », l’accroissement de N ( t ) entre t
et t  d t suit donc une loi de Bernouilli de paramètre  ( t ) d t .
A titre d’illustration, on trouve, dans le cas d’une loi exponentielle les allures
suivantes de N , M et H :

51
On peut montrer de même que le compensateur prévisible du processus
d’évènements non censurés N 1 ( t )  1 T  t , D  1 s’écrit :
t
 (t )  
1
R (u )h (u ) d u ,
0

Avec R ( t )  1T  t  l’indicatrice de présence à risque avant t (ie la fonction


valant 1 si l’individu n’est ni mort ni censuré ; on rappelle en effet que comme
T  X  C , T  t    X  t , C  t ). On est donc passé du modèle
statistique où l’on se donnait le couple  T , D  comme informations observées au
modèle composé de  N 1 , R  .
Dans le cas d’une population, dont on suppose que tous les individus ont la
même fonction de hasard h , on associe à chaque membre de la population un
processus d’évènement non
Modèles de durée Censuré N i1 ( t )  1 ainsi que l’indicatrice de
T j  t , D i  1
présence sous risque, comptabilisant les individus ni morts ni censurés
R1( t )  1 T  t et
 on
 construit les processus agrégés
j

n n
R (t )  
i 1
Ri ( t ) et N 1 (t )  N
i 1
1
i ( t ). Ils comptabilisent respectivement

l’effectif sous risque et le nombre d’évènements survenus non censurés.


On se trouve donc en présence d’un modèle à « intensité multiplicative »
(AALEN [1978]), en ce sens que le processus de comptage N 1 possède une intensité
qui se met sous la forme :
 (t )  R (t ) h (t )
Avec R un processus observable (prévisible) et h la fonction de hasard,

52
inconnue et à estimer. Ces processus vont permettre d’introduire simplement les
estimateurs non paramétriques usuels.

3. Les estimateurs non paramétriques dans les modèles de durée


On notera en préambule que la distribution peut être, comme on l’a vu,
caractérisée par différentes fonctions : fonction de hasard, fonction de hasard
cumulée, fonction de répartition, densité… Il est évident que l’estimation de la
fonction de hasard est du même degré de complexité que l’estimation de la densité ;
on se tournera donc de manière privilégiée vers l’estimation empirique du hasard
cumulé ou de la fonction de survie, a priori plus simple. L’estimation de la fonction
de hasard nécessitera alors de régulariser l’estimateur de la fonction de hasard
cumulée, qui sera en général discontinu. Ces aspects ne sont pas abordés ici10.
Les deux estimateurs principaux dans ce contexte sont l’estimateur de Nelson-
Aalen du taux de hasard cumulé et l’estimateur de Kaplan-Meier de la fonction de
survie.

3.1. L’estimateur de Nelson-Aalen11 du taux de hasard cumulé

3.1.1. Présentation générale


t
Le fait que M ( t )  N 1 ( t )   R (u ) h (u ) du soit une martingale centrée
0
t
1
suggère de proposer N ( t ) comme estimateur de 0
R (u )h (u )d u

t 1 R ( u )  0 
Mais alors le processus 
0
R (u )
d M ( u ) est également une martingale et on

a par construction de M :
t 1R ( u )  0 t 1R ( u )  0 t 1R ( u )  0
 dM ( u )   dN ( u )   dN 1 ( u )  H ( t )
1

0
R (u ) 0
R (u ) 0
R (u )
pour autant que t soit tel que R ( t )  0 . Ainsi
t 1R ( u )  0
Hˆ ( t )   d N 1 ( u ) est un estimateur naturel de H . Cet estimateur
0
R (u )
s’appelle l’estimateur de Nelson-Aalen. Il a été proposé initialement par NELSON
[1972]. On peut en donner une autre justification, en remarquant que la fonction

10
Le lecteur intéressé pourra consulter DROESBEKE et al. [1989].
11
L’étude originale de Nelson-Aalen porte sur la durée de fonctionnement de ventilateurs.

53
de hasard cumulé vérifie, par construction : H (u  du )  H (u )  h (u ) du
Et ( h ( u ) d u  P un estimateur naturel de cette quantité est donc
N 1 (u  du )  N 1 (u ) dN 1 (u )
 si R ( u )  0, de sorte qu’en sommant sur un
R (u ) R (u )
découpage de  0 , t  suffisamment fin pour chaque subdivision contienne au plus
t 1 R ( u )  0 
un saut on obtient : Hˆ ( t )   d N 1 ( u ) ce qui est bien l’expression
0
R (u )
précédente. Comme les processus considérés ici sont purement à sauts on peut, en
notant  N ( t )  N ( t ) N ( t  ), mettre cette expression sous la forme :
 N (Ti )
 Hˆ ( t )   R (Ti )
i / T i  t

En posant d ( t )   N ( t ) le nombre de décès en t et r ( t )  R ( t )


l’effectif sous risque juste avant t, on peut ainsi réécrire l’équation ci-dessus sous la
forme intuitive suivante :
d (Ti ) di
Hˆ ( t )     n  i  1'
,
i / T i  t  r ( T i ) Tit

la seconde égalité n’étant vrai que si il n’y a pas d’ex-æquo. La fonction Ĥ est
continue à droite. On peut vérifier que cet estimateur est biaisé et sous-estime en
moyenne la fonction de hasard cumulée. En effet,
t
 R (u )  0 1 t
R (u )  0 dM (u )  R (u ) h(u )du .
Hˆ (t )  
R (u )
dN (u )  
R (u )
 
0 0

Comme M est une martingale, il vient en prenant l’espérance des deux


membres de l’équation ci-dessus

1  h ( u ) d u . Mais :
t
E  Hˆ ( t )    E R ( u )  0
0

Modèles de durée

E 1R (u )0   P  R (u)  0  1  P  R (u)  0 .


 
On en déduit finalement :
t t t
E  Hˆ (t )    h(u )du   P  R (u )  0 h(u)du  H (t )   P  R (u)  0  h(u )du
0 0 0

ce qui implique que E  Hˆ ( t )   H ( t ) l’estimateur de Nelson-Aalen a


 
bien tendance à sous-estimer la fonction de hasard cumulée du modèle.

54
3.1.2. Variance de l’estimateur de Nelson-Aalen
Il résulte de l’approximation effectuée à la section précédente que
l’accroissement du processus
N 1 (t ) entre t et t  u suit approximativement une loi de Poisson de
tu
paramètre 
t
R ( s ) h ( s ) d s  R ( t ) h ( t ) u . En effet, on avait vu que
1
conditionnellement au « passé immédiat », l’accroissement de N ( t )
entre t et t dt suit donc une loi de Bernouilli de paramètre h ( t ) R ( t ) d t .
La somme sur les différents individus conduit donc à une variable binomiale, que
u
l’on peut approcher par une loi de Poisson en choisissant d t  . On en déduit
n
 N 1 (t  u )  N 1 (t )  h (t )u
donc que, conditionnellement à R ( t ), V   ;
 R (t )  R (t )
d’or on a vu à la section précédente que h ( t ) u pouvait être estimé par
N 1 (t  u )  N 1 (t )
d’où l’estimateur de la variance
R (t )
 N 1 (t  u )  N 1 (t )  N 1 (t  u )  N 1 (t )
Vˆ   , qui conduit finalement à
 R (t )  R (t ) 2
proposer comme estimateur de la variance de Ĥ :
 N 1 (T i )

Vˆ Hˆ ( t )   
i / T i  t  R ( T i )
2

qui peut s’écrire avec les notations simplifiées, en l’absence d’ex aequo :


Vˆ Hˆ ( t )      (n d (iT 1))
i / Ti  t
i
2 .

3.1.4. Propriétés asymptotiques


L’estimateur de Nelson-Aalen est asymptotiquement gaussien ; plus
précisément on a le résultat suivant :
Proposition : si les fonctions de répartition de la survie et de la censure n’ont
aucune discontinuité commune, alors :
n  Hˆ  H  W H

Avec W H un processus gaussien centré de covariance

55
st
d s1 ( u )
 (s, t )  0
S c (u ) 2
avec S c ( t )  (1  F ( t ) ) (1  G ( t ) ) et

S 1 (t )  P (T  t, D  1)

3.2. L’estimateur de Kaplan-Meier de la fonction de survie


On peut remarquer que l’estimateur de Nelson-Aalen du taux de hasard
cumulé conduit à un estimateur naturel de la fonction de survie, en exploitant la
relation S (t )  exp(  H (t )); on peut ainsi proposer comme estimateur de la
fonction de survie
Sˆ ( t )  e x p (  Hˆ ( t ) ) . .
Cet estimateur est l’estimateur de Harrington et Fleming ; sa variance peut être
obtenue par la méthode Delta qui, sous des conditions raisonnables de régularité
2

f permet d’écrire que V ( f ( X ))   


dt
de la fonction ( E ( X ))  V ( X ).
 dx 
X  µ   Z avec  petit et Z centrée réduite, on remarque que
En effet, si
pour une fonction x  f ( x ) suffisamment régulière, en effectuant le
df
développement limité f ( µ  h )  f ( µ )  h ( µ ), on trouve que
dx
 df  df
V ( f ( X ))  V   µ    Z (u )    2 (u ) 2 . En prenant ici f ( x )  e  x on
 dx  dx
trouve que V ( Sˆ )  e  2 E ( H )V ( Hˆ )  Sˆ 2 V ( Hˆ ) , ce qui conduit à l’estimateur
ˆ

de la variance :
 d (ti ) 
 
Vˆ Sˆ ( t )  exp   2 

 
d (ti )
n  i  1  i / t j  t  n  i  12
 i / t j  t 
Toutefois, cet estimateur peut être amélioré, ce qui amène à introduire
l’estimateur de Kaplan-Meier.

3.2.1. Présentation générale


L’estimateur de Kaplan-Meier (KAPLAN et MEIER [1958]) peut également
être introduit via les processus ponctuels, en remarquant que la fonction de survie
de base du modèle est l’unique solution de l’équation intégrale suivante :
t
S (t )  1  
0
S (u  )h (u ) d u

L’équation ci-dessus exprime simplement le fait que la somme des survivants

56
en t et des individus sortis avant t est constante. Lorsque la fonction de survie est
continue, la démonstration est immédiate en effectuant le changement de variable
v  I n S ( u ) , dv  h(u)du .
En remplaçant h ( u ) d u par son estimateur d N 1 ( u ) introduit à la
R (u )
section précédente on peut proposer un estimateur de la fonction de survie en
cherchant une solution à l’équation :
t
d N 1 (u )
Sˆ ( t )  1   ˆ
S (u  ) .
0
R (u )
On peut montrer qu’il existe une unique solution à cette équation, et on obtient
alors l’estimateur de Kaplan-Meier de la fonction de survie. Cet estimateur peut
s’exprimer à l’aide de l’estimateur de Nelson-Aalen de la manière suivante :
Sˆ ( t )   
1   Hˆ ( s )
s  t

Où  Hˆ ( s )  Hˆ ( s )  Hˆ ( s  ). . On peut toutefois proposer une
construction explicite plus intuitive de cet estimateur, décrite infra.
La construction heuristique de l’estimateur de Kaplan-Meier s’appuie sur la
remarque suivante : la probabilité de survivre au-delà de t  s peut s’écrire :
S ( t )  P (T  s ) P (T  s )  P (T  t T  s ) S ( s ) . .
On peut renouveler l’opération, ce qui fait apparaître des produits de termes
en P ( T  t T  s ) ; si on choisit comme instants de conditionnement les
instants où se produit un événement (sortie ou censure), on se ramène à estimer
des probabilités de la forme :

Pi  P T  T ( i ) T  T ( i  1 ) 
Pi est la probabilité de survivre sur l’intervalle  T ( i  1 ) , T ( i )  sachant qu’on
était vivant à l’instant T (i1)
Un estimateur naturel de q i  1  p i est
di di
qˆ i   
ri n  i 1
Modèles de durée
Systématiquement supérieur à l’estimateur de Kaplan-Meier. Au delà des
aspects strictement statistiques, des considérations prudentielles pourraient donc
orienter vers le choix d’un estimateur ou d’un autre.

3.2.2. Autre exemple


Sur 10 patients atteints de cancer des bronches on a observé les durées de survie

57
suivantes, exprimées en mois12 : 1 / 3 / 4 + / 5 / 7 + / 8 / 9 / 10 + / 11 / 13 +.
L’estimateur de Kaplan-Meier de la fonction de survie S ( t ) se calcule de la
manière suivante :

3.2.3. Principales propriétés


L’estimateur de Kaplan-Meier possède un certain nombre de « bonnes
propriétés » qui en font la généralisation naturelle de l’estimateur empirique de la
fonction de répartition en présence de censure : il est convergent13,
asymptotiquement gaussien, cohérent et est également un estimateur du maximum
de vraisemblance généralisé. Toutefois, cet estimateur est biaisé positivement. La

12
Le signe + indique une observation censurée
13
Pour autant que la fonction de survie et la distribution des censures n’aient pas de discontinuités
communes.

58
cohérence de l’estimateur signifie que la propriété suivante est vérifiée :
Modèles de durée
1 n n
Sˆ ( t )
Sˆ ( t ) 
n

i 1
1 T i  t )   
i 1
1 T i  t , D t  0 ) 
Sˆ ( T i )
Cette formule signifie que les survivants au-delà de t sont la somme :
 des individus ni morts ni censurés avant t ;
 des individus qui, censurés en Ti avant t, survivent après t avec la
Sˆ ( t )
probabilité conditionnelle .
Sˆ ( T i )
L’estimateur de Kaplan-Meier est l’unique estimateur cohérent de la fonction
de survie (voir DROESBEKE et al. [1989] pour la démonstration de cette propriété).
La notion de « maximum de vraisemblance » doit être adaptée au contexte non
paramétrique de la manière suivante14 :
Définition : soit  est une famille de probabilités sur n (avec la tribu
borélienne) non dominée ;  x   n , et P1 , P2   , on pose
dP1
l ( x , P1 , P2 )  ( x ); on dit alors que
d  P1  P2 
P̂ est GMLE pour P si l ( x , Pˆ , P )  l ( x , P , Pˆ ) . .
On peut alors montrer que l’estimateur Ŝ est GMLE pour S, pour autant que
les lois de la durée de vie non censurée et de la censure soient diffuses, et à condition
que la famille  contienne les lois de probabilité chargeant les points  T i , D i  .
Les autres propriétés sont détaillées ci-après.

3.2.4. Variance de l’estimateur de Kaplan Meier


On propose ici une justification heuristique d’un estimateur de la variance de
l’estimateur de Kaplan-Meier, l’estimateur de Greenwood.
 di 
L’expression Sˆ ( t )   1 
T( t )  t 
 permet d’écrire15 :
ri 
 d 

In Sˆ ( t )   T( t )  t
In  1  i  
 ri 

T( t )  t
In (  1 qˆ i ).

14
On verra en 3.2.6 le lien avec le maximum de vraisemblance dans un contexte paramétrique.
15
Cette formule fournit un estimateur de la fonction de hasard cumulé appelé estimateur de Breslow
de H.

59
Si on suppose en première approximation l’indépendance des variables
I n (  1 qˆ i ) comme la loi de r i Pˆ i est binomiale de paramètres ( r i , p i )
2
d  qˆi
on a par la méthode delta, V (In pˆ i )  V ( Pˆ )  In  pˆ i   
 dp  ri (1  qˆi )
2
 df 
V ( f ( X ))   ( E (X ))  V ( X ) :
 dx 
ce qui conduit à proposer comme estimateur de la variance de Sˆ ( t ) :


Vˆ In Sˆ ( t )    T( t )  t
qˆ i
ri (1  qˆ i )
 
T( t )  t
di
ri ( ri  d i )
En appliquant de nouveau la méthode delta avec pour f la fonction logarithme,
on obtient finalement : Vˆ  Sˆ ( t )   Sˆ ( t ) 2  ( t ) 2
d
Avec  ( t ) 
T
  t ri ( ri  d
i

)
Cet estimateur est l’estimateur de
( t ) i

Greenwood. Il est consistant pour la variance asymptotique de l’estimateur de


Kaplan-Meier.
Il permet avec la normalité asymptotique16 de l’estimateur de Kaplan-Meier de
calculer des intervalles de confiance (asymptotiques) dont les bornes sont, pour la
valeur de la survie en T( i )
   d1 d2 di 
S i   1  µ   (T( i ) )   Si   1  µ    ...  
 1
2  
1
2 r1 ( r1  d1 ) r2 ( r2  d 2 ) ri ( ri  d i ) 

On construit de la sorte des intervalles ponctuels, à t fixé. On peut alors


chercher à construire des bandes de confiance pour la fonction de survie. Nair
propose ainsi en 1984 (cf. KLEIN et MOESCHBERGER [2005]) des bandes de
confiance linéaires de la forme :
n   (t )2
Sˆ ( t ) 
1  n   (t )2
n   (t ) 2
Avec a ( t )  et où les coefficients de confiance
1  n   (t ) 2
c x1 , x 2  sont tabulés (ils sont fournis en annexe de KLEIN et
MOESCHBERGER [2005]).
On peut également observer que ces formules peuvent être utilisées pour
construire des intervalles de confiance pour les taux conditionnels de sortie

16
Voir 3.2.5.

60
qˆ x  1 
Sˆ  x  1  ; en effet, on en déduit de
Sˆ  x 
 di  di
Sˆ ( x )   1 
T( i )  x 
 que
ri 
1  qˆ ( x )  
x  Ti  x  1 ri ( ri  d i )
et donc :

di
Vˆ  qˆ ( x )   (1  qˆ ( x )) 2 
x  Ti  x  1 ri ( ri  d i )
Modèles de durée
d’où immédiatement l’expression d’un intervalle de confiance asymptotique :
 di 
qˆ  ( x)  1  (1  qˆ ( x))  1  µ a 
 1
  . .
x Ti  x 1 ri ( ri  di ) 
 2

3.2.5. Propriétés asymptotiques


L’estimateur de Kaplan-Meier est asymptotiquement gaussien ; précisément
on a le résultat suivant :
Proposition : si les fonctions de répartition de la survie et de la censure n’ont
aucune discontinuité commune, alors :
ˆ
n (S  S )  W s

Avec W s un processus gaussien centré de covariance :


st
d F (u )
 ( s , t )  S ( s ) S (t ) 
0
(1  F ( u ) ) 2 (1  G ( u ) )
..

En particulier lorsque le modèle n’est pas censuré (ie G ( u )  0) on retrouve


le résultat classique présenté en 1.1 ci-dessus. L’intérêt de résultats de convergence
au niveau du processus lui même plutôt que pour un instant fixé est que l’on peut
en déduire des bandes de confiance asymptotique pour l’estimateur de Kaplan-
Meier.
On peut trouver dans GILL [1980] une démonstration de la normalité
asymptotique de Sˆ KM ,

fondée sur la théorie des processus ponctuels. En notant F  1  S et


F  1  Sˆ K M , la bande de confiance qu’il obtient s’écrit :
ˆ
 sup Fˆ (s)  F (s) Vˆ (t )  
ˆ (t )  k
liminf P  x  (1)k (2k  1) (2k 1) x
n
 s   0, t  1  ˆ ( s)
F 1  F  

61
t d N 1 (u )
V ( t )  Sˆ K2 M 0 R ( u ) ( R ( u )   N 1 ( u ) ) estime la variance du
processus gaussien limite Ws .

3.2.6. Version discrétisée : lien avec l’approche paramétrique


Le calcul de l’estimateur de Kaplan-Meier implique que l’on dispose des
données individuelles avec les dates précises de survenance des évènements ; en
pratique, outre que sur des populations importantes le calcul peut être lourd, cette
information n’est pas toujours accessible.
On souhaite alors utiliser cette démarche pour des données regroupées par
période, par exemple en fixant comme unité de temps le mois et en comptabilisant
des sorties d’incapacité mois par mois. C’est la démarche suivie par le BCAC pour
l’élaboration des lois de maintien du décret de 1996. Formellement, si on considère
les instants t1  ..  t N auxquels se produisent les sorties (par exemple les âges
entiers de décès) et que l’on dispose d’un échantillon de taille n pour lequel on a
observé une séquence ( ri , d i ) d’effectifs sous risque et de décès aux dates
t 1  ..  t N N, on peut remarquer que le nombre de sorties Di sur l’intervalle
 t i , t i  1  suit une loi binomiale de paramètres ( ri , h i ) ; h i désigne ici le taux
de hasard à la date t i (homogène à un qx Les sorties dans les intervalles  t i , t i  1 
étant indépendantes les unes des autres, on trouve donc que la vraisemblance de ce
modèle s’écrit :
N
L  
i1
C d
ri
i
h id i ( 1  h i ) r i  di
.

La log-vraisemblance s’écrit donc :


N
In ( L )    C
i 1
di
ri  d i In ( hi )  ( ri  d j ) In (1  hi ) 


et les conditions du premier ordre I n L  0 conduisent aux
 hi
estimateurs :
d i
hˆ i  .
ri
On retrouve donc l’estimateur présenté en 3.2.1 ci-dessus.
Pour que cette démarche soit pertinente, il convient de s’assurer que la
discrétisation ne génère pas de biais important sur l’estimation des taux de sortie :
par exemple dans le cas de l’arrêt de travail, il est connu que les sorties sont très
importantes au cours du premier mois (en pratique environ 50 % des arrêts de

62
travail durent moins de 30 jours). Si donc on adopte un pas mensuel, on prend mal
en compte le rythme élevé des sorties au cours de la première période ; il
conviendrait donc ici de choisir un pas de discrétisation petit. Plus généralement,
le raisonnement ci-dessus est pertinent pour autant que la longueur de chaque
intervalle considéré soit « petite » au regard de la vitesse de variation de la fonction
de survie.

4. Prise en compte de variables explicatives


Lorsque la population étudiée est hétérogène, il est important de prendre en
compte les spécificités de chaque sous-groupe. En supposant que l’hétérogénéité est
la conséquence d’un mélange de sous-populations caractérisées chacune par des
variables observables, on s’intéresse ici à des modélisations de la fonction de hasard
intégrant l’effet des variables
Modèles de durée explicatives. Cette question a déjà été abordée dans un
contexte paramétrique et semi-paramétrique (modèle de Cox), on s’intéresse ici au
cas non paramétrique.
Ce chapitre est inspiré de MARTINUSSEN et SCHEIKE [2006] auquel le
lecteur pourra se reporter pour les démonstrations. Il est également précisé que la
mise en pratique des modèles présentés ici peut être effectuée à l’aide du package
timereg du logiciel R, développé par ces auteurs ou en utilisant le package survival.

4.1. Le modèle additif d’Aalen

La fonction de hasard est supposée s’écrire : h ( t )  X T


( t )  ( t ) avec
X (t )  ( X1 (t ),..., X p (t ))
T

un vecteur de variables explicatives (prévisible) et  ( t ) un processus p-


dimensionnel localement intégrable. On peut de manière équivalente dire que
l’intensité du modèle de comptage sous-jacent s’écrit :
 (t )  R (t ) X T
(t )  (t ) .
On dispose d’un ensemble d’observations N 1
i ( t ), Ri ( t ), X i ( t ) 
1 i  n
et on

cherche à estimer le vecteur  ( t ); en pratique on va être en mesure de construire


t
aisément un estimateur de B ( t )    (u ) du en s’appuyant sur les remarques qui
0

suivent.
On note pour alléger les formules  (t )   1 (t ),..., n (t ))T  et
N 1 (t )   N11 (t ),..., N n1 (t ))  , puis X ( t )   R1 ( t ) X 1 ( t ), ..., R n ( t ) X n ( t ) 
T T

63
qui est une matrice de taille n  p . Avec ces notations on a en désignant par
t
 (t )    ( u ) d u le processus vectoriel de taille
0
n des intensités cumulées,

M ( t )  N 1 ( t )   ( t ) est une martingale. En observant alors que :


dN 1 (t )  X (t )  (t ) dt  dM (t )  X (t ) dB (t )  dM (t )
comme le terme en d M ( t ) est centré et que les incréments de la martingale
sont non corrélés, on peut chercher à estimer les incréments d B ( t ) par des
techniques classiques de régression linéaire. Pour cela on pose :
X  (t )   X T (t ) X (t ) 
1
X T ( t ),
T 
Si X ( t ) X ( t ) est inversible et 0 sinon. X ( t ) s’appelle l’inverse
généralisé de X, qui est une matrice de taille p  n vérifiant
X  ( t ) X ( t )  J ( t ) I p avec J ( t ) qui vaut 1 si l’inverse existe, et 0 sinon. En
pratique lorsque X ( t ) est de plein rang  X T ( t ) X ( t ) est
inversible et on a alors simplement X  ( t ) X ( t )  I p . Il est alors naturel de
proposer comme estimateur de B le processus :
t
Bˆ ( t )   X 
(u )d N 1
(u ) .
0
t t
Le fait que Bˆ ( t )   J ( s ) dB ( s )   X

(s) dM ( s ) assure en effet que B̂
0 0

estime B essentiellement sans biais et on peut de plus montrer sous certaines


conditions techniques peu restrictives que  
n Bˆ  B converge en loi en tant
que processus vers un processus gaussien centré dont on peut de plus calculer la
fonction de covariance.
t
Le calcul de l’estimateur Bˆ ( t )  X

( u ) dN 1 ( u ) se ramène à des calculs
0

de sommes discrètes aux instants de saut du processus N 1 ( t ) De manière plus


précise on a Bˆ ( t ) qui est un vecteur de taille p et :
t
Bˆ j ( t )  X i

ji ( u ) d N i 1 ( u )
0

Mais N ( t ) saute au plus une fois à l’instant Ti et l’incrément à cet instant est
1
i

de 1 (si il y a saut). On en déduit l’expression suivante :

64
 Bˆ j ( t )  
Ti  t
X 
ji (T i )  D i . .

Le calcul nécessite donc la détermination de


X ( T i )  ( X ( T i ) X ( T i ))  1 X
 T T
( T i ) pour toutes les sorties non censurées.

4.2. Variante semi-paramétrique : le modèle de Lin et Ying


Dans les situations d’assurance, les variables explicatives sont en général
constantes au cours du temps (typiquement elles sont associées à une
caractéristique telle que le sexe, la CSP, le niveau du contrat, etc.).
Cela se traduit par la constance des variables X j ( t ) . Ce cas particulier conduit
à un modèle semi-paramétrique, et les méthodes décrites ci-dessus sont légèrement
modifiées. Parmi ces modèles on peut notamment mentionner le modèle de LIN et
YING [1994], dans lequel la fonction de hasard est supposée de la forme :
h (t Z  z )  h0 (t )   T
z. .
LIN et YING [1994] et KLEIN et MOESCHBERGER [2005] montrent qu’à
partir de la décomposition martingale du processus de Poisson, l’estimation des
coefficients du modèle est
  A 1
B ,

D n
1
A   z j  zi  T  Z j  zi , B   d i ( zi  zi ) et
i 1 j Ri i 1
zi 
Ri
 z .,
j Ri
j

La significativité globale du modèle peut être appréciée à partir de la statistique


de Wald qui suit une distribution du Khi-deux à p degrés de libertés (p étant la
dimension de Z représentant les variables explicatives du modèle) sous l’hypothèse
H 0 :   0 , soit :
 2
W   T
V 1
 , ,
n
Où V  A  1CA  1 avec C  d i 1
i ( z i  z i ) T ( z i  z i ). Dans le cas du

test de significativité d’un paramètre, on teste l’hypothèse de nullité chaque


paramètre  j (avec j  1,..., p et   ( y 1 , ...,  p )) et on considère donc
H 0 : j  0 , soit  W2   2
j / V jj .

5. Comparaison d’échantillons : approche non paramétrique


On se place dans la situation où on souhaite comparer les durées de vie
respectives de deux échantillons indépendants. Plus précisément, on dispose de

65
deux échantillons indépendants, éventuellement censurés, et on souhaite tester
l’hypothèse nulle d’égalité des fonctions de survie dans les deux échantillons.
En l’absence de censure, on dispose des classiques tests de rang (test de
Wilcoxon, test de Savage), que l’on va adapter à la présence de censure.

5.1. Rappel : principe des tests de rang17

On dispose donc de deux séries d’observations, E1 et E2 , de tailles respectives


n1 et n2 ; on note n  n 1 e t n 2 ; on range la séquence des valeurs observées
 x1 , ..., xn  par ordre croissant :
x (1 )  ..  x ( n ) . .
Le principe d’une statistique linéaire de rang est d’attribuer une pondération
(un score)  i l’observation x ( j ) de rang i dans le classement commun des deux
échantillons. On construit alors deux statistiques :

R1  
i E 1
i et R2 
i E 2
i .

Comme R 1  R 2   i 1
 i
qui est connue et déterministe, il est indifférent

de travailler sur l’une ou l’autre des statistiques ; en pratique on retient celle associée
à l’échantillon le plus petit.
En choisissant  i  1 , on obtient le test de Wilcoxon ; le test de Savage est
i
1
quant à lui associé au choix  i  1 j 1 n  j 1
.

Enfin, le choix d’un test plutôt que d’un autre peut être guidé par la forme de
l’alternative, en retenant le test (localement) le plus puissant pour une alternative
donnée.

5.2. Adaptation des tests de rang au cas censuré18


L’adaptation des tests précédents au cas censuré conduit à introduire la suite
ordonnée des instants de décès observés (non censurés) dans l’échantillon
commun, que l’on notera t 1  ..  t N . . A chaque instant t j on désigne par d ij
le nombre de décès et rij l’effectif sous risque dans le groupe j. L’effectif sous risque
est calculé avant les sorties en t j , de sorte que les vivants après ti sont en nombre

17
Pour des développements sur le sujet se reporter à CAPÉRAÀ et VAN CUTSEM [1988].
18
Voir par exemple HILL et al. [1996] pour de plus amples développements.

66
rij  d ij . On peut synthétiser cela dans le tableau ci-après :

Décès en ti Survivants après tj Total

Groupe n°1 di1 ri1  di1 ri1


Groupe n°2 di2 ri 2  d i 2 ri2
Ensemble di ri  d i ri
Sous l’hypothèse nulle d’égalité des distributions de survie dans les deux groupes,
à chaque instant on doit avoir égalité des proportions de décès dans les deux groupes,
ce qui a pour conséquence l’indépendance des lignes et des colonnes dans le tableau
ci-dessus. On est donc dans le cas d’un tableau de contingence à marges fixées, et alors
la variable aléatoire d ij est distribuée selon une loi hypergéométrique19
 r 
H  r i , d i , i j  (puisqu’on compte le nombre de décès dans le groupe n j
 ri 
choisis parmi les di décès totaux, la probabilité d’appartenance au groupe n j étant
r
p  ij et la taille de la population étant ri ).
ri
rij
On en conclut que l’espérance et la variance de d ij : E ( d ij )  d i et
ri
ri  d i ri 1 ri 2
V ( d ij )  d i .
ri  1ri 2
Ces observations conduisent à construire des statistiques fondées sur des
sommes pondérées des d i j  E ( d i j ) , qui sont asymptotiquement gaussiennes.
En notant ( w i ) les pondérations retenues, on utilise finalement des statistiques
de la forme :
2
 N  ri j  
  w i  d ij  d i 
 i1  ri  
 
j n
r  d i ri 1 ri 2

i1
w i2 d i i
ri  1 ri 2

qui suit asymptotiquement un  2


(1 ) Dans le suite on notera

19
On rappelle que la loi hypergéométrique H (n, k , p ) est la loi du nombre de boules noires
lors d’un tirage avec remise de k boules dans une urne contenant n boules et les boules noires étant en
proportion p.

67
N
ri  d i ri 1 ri 2
 2
 
i 1
w i2 d i
ri  1 ri 2

5.2.1. Le test du log-rank


La choix le plus simple que l’on puisse imaginer pour les pondérations est
wi  1, il conduit au test dit du « log-rank ». Dans ce cas le numérateur de la
statistique de test  j est le carré de la différence entre le nombre de décès observés
et le nombre de décès théoriques, sous l’hypothèse nulle :

D 
2
th
j  D obs
j
  .
j
 2

Ce test généralise au cas de données censurées le test de Savage. On peut noter


que sous l’hypothèse nulle D 1o b s  D 2o b s  D 1t h  D 2t h , en d’autres termes
la valeur de la statistique de test ne dépend pas du groupe sur laquelle on l’évalue.
La forme de la statistique suggère la formule approchée suivante :

D  D 1o b s  D  D 2o b s 
th 2 th 2
1 2
  
D 1th D 1th
dont on peut montrer qu’elle est inférieure à celle du log-rank (cf. PETO et
PETO [1972]). Sa forme évoque celle d’un Khi-2 d’ajustement usuel. Le test du log-
rank est le test le plus couramment employé.

5.2.2. Le test de Gehan

Gehan (GEHAN E.A. [1965]) propose de retenir w i  ri , ce qui conduit à


pondérer plus fortement les décès les plus précoces. Ce test généralise au cas de
données censurées le test de Wilcoxon. La statistique de test n’admet pas
d’expression simplifiée comme dans le cas du
Modèles de durée log-rank. Il présente l’inconvénient de dépendre assez
fortement de la distribution de la censure.

5.2.3. Exemple : application aux données de Freireich


On reprend ici les deux groupes du protocole utilisé par Freireich. Les calculs
des statistiques de test peuvent être menés à partir du tableau suivant :

68
On obtient les résultats résumés ci-après :

69
On trouve dans les deux cas des p-valeurs très faibles, ce qui confirme le
comportement différent des deux groupes, qui avait déjà été mis en évidence lors
de l’étude des fonctions de risque cumulées respectives.

5.3. Approche par les processus ponctuels


De la même manière que les estimateurs du hasard cumulé ou de la fonction
de survie peuvent être obtenus de manière « naturelle » dans le cadre des processus
ponctuels, ce formalisme peut s’appliquer aux tests présentés ci-dessus. Cette
méthode est détaillée dans GILL [1980].
On se place donc dans la situation où deux groupes sont observés, et on dispose
donc des deux processus d’évènements non censurés N 11 ( t ) et N 21 ( t ) On fait
l’hypothèse que les deux processus ne sautent pas en même temps (ce qui traduit
l’orthogonalité des martingales M 1 et
M 2 ,  M 1, M 2   0 ) . L’idée est, pour un processus K prévisible
positif de considérer le processus :
t t
d N 11 ( u ) d N 21 ( u )
 (t )  
0
K (u )
R1 (u )
 
0
R 2 (u )
t t
dM 1 (u ) dM 2 (u )
Le processus M (t )   K (u )
0
R1 (u )

0
R 2 ( u )
est une martingale et

vérifie de plus :
t
M (t )   (t )  
0
K ( u ) ( h1 ( u )  h 2 ( u ) ) d u . .

Enfin, sous l’hypothèse nulle d’identité de la loi sous-jacente des deux


populations,
M (t )   (t ) .
Les tests classiques s’obtiennent alors en spécifiant le processus K. Ainsi
K ( u )  R1 ( u ) R 2 ( u ) à la conduit à la statistique de Wilcoxon-Gehan et
R1 (u ) R 2 (u )
K (u )  à la statistique du log-rank.
R1 (u )  R 2 (u )
Les résultats généraux sur les processus ponctuels permettent d’obtenir la loi limite
de  (t ) sous l’hypothèse nulle ; plus précisément, on montre que  ( t ) converge en
loi vers une loi normale centrée de variance  2
( t ) un estimateur convergent de la
variance est donné par la variation quadratique de la martingale  (t ) :
2 2
t
 K (u )  t
 K (u ) 
 , t    
1 1
  D N 1 ( u )   D N 2 ( u ).
0  R1 ( u )  0 
R 2 (u ) 

70
Chapitre 4
Statistique des modèles paramétriques
et semi-paramétriques

1. La prise en compte de censure dans les modèles de durée


L’objet de cette section est de déterminer la forme générale de la vraisemblance
d’un modèle de durée censuré en fonction du type de censure et d’illustrer, dans le
cas de la distribution exponentielle, l’impact sur la vraisemblance des phénomènes
de censure20.
En pratique on peut être confronté à une censure droite (si X est la variable
d’intérêt, l’observation de la censure C indique que X  C ) ou à une censure
à gauche (l’observation de la censure C indique que X  C ; les deux types de
censure peuvent s’observer de manière concomitante. L’exemple classique est
donné par la situation suivante : on veut savoir à quel âge X les enfants d’un
groupe donné sont capables d’effectuer une certaine tâche. Lorsque l’expérience
débute, certains enfants d’âge C sont déjà capables de l’accomplir, et pour eux
X  C : il s’agit d’une censure gauche ; à la fin de l’expérience, certains
enfants ne sont pas encore capables d’accomplir la tâche en question, et pour eux
X  C : il s’agit d’une censure droite.
Dans la suite on s’intéressera à la censure droite, courante dans les situations
d’assurance.

1.1. Censure de type I : censure fixe

Soit un échantillon de durées de survie ( X 1 , ..., X n ) et C  0 fixé ; On


rappelle21 que la vraisemblance du modèle associé aux observations

20
Et, marginalement, de troncature, qui seront mentionnés pour mémoire mais pas développés.
21
Voir le document « Introduction ».

71
(T1 , D1 ),..., (Tn , Dn ) avec :

1 si Xi  C
Di  
0 si Xi  C
possède une composante continue et une composante discrète ; elle s’écrit :
n
L ( )   i 1
f  (Ti ) D i S  ( C )1  D i

en d’autres termes lorsqu’on a observé la sortie avant la censure, c’est le terme


de densité qui intervient dans la vraisemblance, et dans le cas contraire on retrouve
le terme discret, avec comme valeur la fonction de survie à la date de censure. La
distribution est donc continue par rapport à Ti et discrète par rapport à D i .
Pour démontrer cette formule, il suffit de calculer
 
P T j   t j , t j  dt j  , d j  d . Comme Di ne peut prendre que les valeurs 0 et
1, on calcule, sur  0, C 

P (Ti   t j , t j  dt j  , Di  1)  P ( X i  C   t j , t j  dt j  , X i  C )

 
 P X i   t j , t j  dt j   f 0 (ti ) dti

(on peut toujours supposer d t i suffisamment petit pour que t i  d t i  C ) et

= P(Ti  t j , t j  dt j  , Di  0)  P( Xi  C  t j , t j  dt j  , Xi  C)  S (C)


Ces deux cas peuvent se résumer en :

P (Ti   t j , t j  dt j  , Di  d i ) f 0 (ti ) d i S (C ) 1di


On peut retrouver cette expression également en observant que :
C
P(Ti  ti , Di  1)  P( X i  ti , X i  C )   f (u )du
ti

Et dans le cas où D i  0 comme alors T i  C il n’y a pas de densité, mais


simplement la probabilité de cet événement est égale à S  ( C )
Comme pour une observation censurée, par définition, Ti  C l’expression
ci-dessus peut se réécrire :

72
n
L ( )   i1
f 0 (T i
) h (T i
) D i

En se souvenant que la densité peut s’écrire en fonction de la fonction de hasard


et de la fonction de survie f 0 ( t )  h ( t ) S  ( t ) on peut également écrire la
vraisemblance sous la forme (à une constante multiplicative près) :
n
L ( )  i1
S  (T i
) h (T i ) D i

Cette expression est donc simplement le produit des valeurs de la fonction de


survie (qui traduit le fait que les individus sont observés au moins jusqu’en Ti ),
pondérée pour les sorties non censurées par la valeur de la fonction de hasard (qui
traduit le fait que pour ces observations la sortie a effectivement lieu à l’instant Ti ).
On utilise en général la log-vraisemblance, égale, à une constante additive près, à :
n
In L ( )    D In ( h (T ))  In ( S  (T )) 
i 1
i i i

A titre d’illustration, on détaille ci-après les cas de l’estimation ponctuelle et de


l’estimation par intervalle dans l’exemple de la loi exponentielle.

1.1.1. Estimation ponctuelle


On considère donc maintenant le cas où la distribution sous-jacente est
n
exponentielle, de paramètre  ; on pose R   i 1
D i le nombre de décès observés :

Comme f  ( t )   e   t , la vraisemblance s’écrit donc


n Di

  e 
1 Di
L ( )    e   Ti  C
,
i 1

ce qui devient :

 n

L( )   R exp    Ti 
 i 1 
On peut incidemment remarquer que la loi de R est discrète, et est une loi
binomiale de paramètres  n ,1  e  C
 : le nombre de sorties non censurées

73
correspond à un tirage dans n valeurs, la probabilité de succès étant égale à
1  e   C  ( P ( T  C ).
n
Si T  T
i 1
i
désigne l’« exposition au risque » totale22, on a ici
R
T  T
i 1
(i )  ( n  R )C ; en annulant la dérivée première de la log-vraisemblance

 R 
l ( )  RIn ( )     T( i )  ( n  R )C  par rapport à  , on trouve que
 i 1 
R
l’estimateur du maximum de vraisemblance (EMV) de  est ˆ  . La
T
statistique exhaustive est donc bi-dimensionnelle, (T , R ) ,
L’estimateur de  est donc le rapport du nombre de décès observés à
l’exposition au risque ; dans un modèle non censuré (obtenu comme cas limite du

modèle censuré lorsque C   ), l’expression ˆ  1 devient ˆ  1 ; en


X X
effet, on observe alors tous les décès, et l’estimateur est le classique « inverse de la
moyenne empirique des durées de vie ».

1.1.2. Estimation par intervalle


On peut utiliser l’efficacité asymptotique de l’estimateur du maximum de
vraisemblance pour déterminer un intervalle de confiance pour l’estimateur. Dans
le cas de la loi exponentielle on peut également remarquer que, si m c ( ) et
 c ( ) désignent l’espérance et l’écart-type de T ,
T  m c ( )
Alors par le théorème central-limite on a n qui converge en loi
 c ( )
vers une loi normale centrée réduite. En effet, les variables aléatoires Ti  X i  C
sont iid, puisque les X i le sont. Les expressions de m c ( ) et  c ( ) peuvent être
obtenues par quelques calculs :

1  e  C
C
* m C ( )   u e   u du  Ce   C 
0

1
* C2 ( )  E (Ti 2 )  ( mC ( )) 2  (1  2 Ce  C  e  2 C )
2
Dans l’hypothèse où la durée de l’expérience C est petite devant la durée de vie

22
T est parfois appelé le « temps global de fonctionnement au cours des essais ».

74
1
a priori de chaque individu , on a  C qui est petit devant 1 et on peut donc

faire un développement limité des exponentielles à l’ordre 3 en C , qui conduit à :
C3
 C2 ( )  . On obtient ainsi une forme relativement simple de région de
3
confiance pour le paramètre  .

1.2. Censure de type II : « arrêt au  iéme décès »


On se place maintenant dans le cas où la date de fin d’observation n’est pas
définie à l’avance, mais où l’on convient d’arrêter l’observation lors de la survenance
de la  iéme sortie. La date de fin de l’expérience est donc aléatoire et est égale à X ( r )
De manière plus formelle, soit un échantillon de durées de survie ( X 1 ,..., X n )
et r  0 fixé ; on dit qu’il y a censure de type II pour cet échantillon si au lieu
d’observer directement
( X 1 ,..., X n ) on observe (T1 , D1 ) , …, (T n , D n ) avec :
1 si Xi  Ti
T i  X i  X ( r ) et D i  
0 si Xi  Ti
Avec X ( r ) la  iéme statistique d’ordre de l’échantillon. ( X 1 , ..., X n ) La
définition de l’indicatrice de censure peut se réécrire,
1 si Xi   Ti
Di   qui est une forme analogue au cas de la censure
0 si Xi  X (r )
fixe avec C  X (r )

La vraisemblance a une forme proche du cas de la censure de type I ; on


remarque pour l’écrire que, dans la partie discrète de la distribution, il convient de
choisir les instants des r sorties parmi les n observations. Cela conduit à écrire :

n!  r 
 f ( X ( i )  S   X ( r ) 
n 1
L ( )  
( n  r )!  i 1 
r
n!
 f  ( T ( i ) ) D i S  T i  i
1 D

( n  r ) ! i 1
Si la loi de référence est la loi exponentielle, on trouve ainsi que :
n!
L ( )   r
e x p (  T )
(n  r )!

75
r
Avec T  T
i 1
(i )  ( n  r )T( r ) ; la statistique T est donc exhaustive pour le

modèle. L’estimateur du maximum de vraisemblance se déduit facilement de


r
l’expression ci-dessus ˆ  . En fait on peut dans ce cas déterminer
T
complètement la loi de T ; précisément :
Proposition : 2 T suit une loi du Khi-2 à 2 r degrés de liberté ou, de manière
équivalente, T suit une loi  ( r ,  ) puisque la loi du Khi-2 à 2r degrés de liberté
est une loi Gamma de paramètres ( r ,1 / 2 ) .
Démonstration : On veut montrer que P (T  x )  P (  22r   2 x ) ;
comme la loi du Khi-2 à 2 r degrés de liberté est une loi Gamma de paramètre
( r ,1 / 2) , sa densité est :
x
1 r 1 2
f (x)  x e ..
2T (r )
On écrit :
n!   r 
p (T  x )   r  exp     ti  (n  r )tr  dt1..dtr ,
( n  r )! Ax   i 1 
 r 1

Avec.  0  t1 ...  t r /

t
i 1
i  ( n  r  1)tr  u  On fait le changement de

variable :
r 1
t1  u1 ; t 2  u1  u 2 ;...; t r 1  u1  ...  u ;  ti  ( n  r  1)t r  u
i 1
On vérifie que le déterminant de la matrice jacobéenne de terme générique
 ti 1
vaut , , ce qui conduit à :
u f n  r 1
n! n!
P (T  x )  r  e  u du1 ..du r 1du
( n  r )! Bx n  r  1!
 t 1

Avec B x  u1  0, ..., u r 1  0;  ( r  i ) u i  u  x  Le nouveau
 i 1 
changement de variable :
v i  ( r  i ) u i ,1  i  r  1; v  u
permet finalement d’obtenir :

76
x  
n! 1
P (T  x )  r dv1 ..dv r 1 e  v dv
( n  r  1)! 0  C v ( r  1)! 
 t 1

Avec Cv  v1  0,..., v r  1  0;

v
i 1
i  v  ; en observant que l’intégrale

t 1
multiple sur Cx est de la forme x on en conclut finalement que :
x
1
P (T  x ) 
 (r ) u
0
r 1 e  u du  P (  22r  2 x )

On déduit en particulier de cette proposition que l’estimateur EMV est biaisé


r
et que E (ˆ )   : en effet, si T suit une loi gamma de paramètre ( r ,  )
r 1
(r  p )
alors E (T P )    P pour tout p   r et donc :
(r )
 1  1  ( r  1) r
E (ˆ )  2 rE    2 r 
 2 T  2  (r ) r 1
r 1
Le meilleur estimateur sans biais pour  est donc   . On montre de
T
2
même que la variance de  est V  ( )  .
r2
.Ce résultat peut être obtenu plus simplement. On utilise pour cela le fait que
la loi conjointe de la statistique d’ordre X (1) , ..., X ( n )  est
n
f  x1 ,..., x n   n ! f ( xi )1 x1  ...  x n  . Par un changement de variable, on
i 1
montre alors que les variables aléatoires
Yi   n  i  1  X ( i )  X ( i 1)  sont indépendantes et de loi commune la loi
exponentielle de paramètre  .
r
Comme T  Y
i 1
i
on a immédiatement le résultat en observant que la

somme de r variables exponentielles de paramètre  a une loi  ( r ,  ) . On en


déduit également très facilement la durée moyenne de l’expérience : puisque
r
Yi 1 r
1
T (r )   n  i  1 , on a E T ( r )     n  i  1,
i 1 i 1

77
1.3. Censure de type III : censure aléatoire23
La censure de type III généralise la censure de type I au cas où la date de
censure est une variable aléatoire ; plus précisément, soient un échantillon de durées
de survie (X 1 , ..., X n ) et un second échantillon indépendant composé de
variables positives ( C 1 , ..., C n ) ; on dit qu’il y a censure de type III pour cet
échantillon si au lieu d’observer directement (X1 ,..., Xn ) on observe
( T1 , D 1 ) , ..., ( T n , D n ) avec :

1 si X i  Ci
Ti  X i  Ci et Di  
0 si X i  Ci
La vraisemblance de l’échantillon ( T1 , D 1 ) , ..., ( T n , D n ) s’écrit, avec des
notations évidentes :
n
L ( )    f X Ti ,   S C (Ti ,  )  Di  f c (Ti ,  ) S X (Ti ,  ) 
1 Di

i 1

La forme de la vraisemblance ci-dessus se déduit par exemple du fait que


(T1 ,..., Tn ) est un échantillon de la loi S T ( ; .) avec :
S T ( )  P (Ti  t )  P ( X i  C i  t )  P ( X i  t )  S X (t ,  ) S C (t ,  ).
Plus précisément on écrit comme en 1.1 que :

P Ti  t i , ti  dt i  , Di  1  P ( X i  C i  t i , t i  dt i  , X i  C i )
 P ( X i  ti , t i  dt i  , t i  C i )  FX ( , t i ) S C ( , ti ) dt i

et

P Ti  t i , t i  dt i  , D i  0   P ( X i  C i  t i , t i  dt i  , X i  C i )
 P ( C i  t i , t i  dt i  , X X  t i )  S X ( , t i ) f C ( , t i ) dt i

ces expressions sont directement obtenues de celles vues en 1.1 en


conditionnant par rapport à la censure, puis en intégrant par rapport à la loi de
celle-ci. Plus précisément, on écrit :

23
Ces modèles peuvent s’analyser comme des modèles à 2 risques concurrents indépendants.

78
P (Ti  ti , Di  1)  P ( X i  C i  C i )  P (ti  X i  C i )
 
c 
 
ti
P (ti  X i  c ) f c ( , 0) dc  
ti
  f X ( , x ) dx  f C ( , c ) dc
 ti 

puis par Fubini on inverse les intégrales pour obtenir :


c   
P (Ti  t i , D i  1)  f X ( , x )   f C ( , c ) dc dx
 t 
ti  i 

 
ti
f X ( , x ) S C ( , x ) dx

et finalement
d
P (Ti   t i , t i  dt i  , D i  1  P (Ti  t i , D i  1) f X ( t i ) S C ( , t i ) dt i .
dt i
On fait alors l’hypothèse que la censure est non informative, c’est-à-dire que la
loi de censure est indépendante du paramètre  . La vraisemblance se met dans ce
cas sous la forme :
n
L ( )  c o n s t  f  ( T i ) h ( T i ) D i
i 1

Le terme const regroupe les informations en provenance de la loi de la censure,


qui ne dépend pas du paramètre. Cette dernière expression peut s’écrire comme en
1.1 ci-dessus :
n
L ( )  i 1
S  ( T i ) h ( T i ) D i

On observe ici simplement le fait que la censure fixe est un cas particulier de la
censure aléatoire non informative dans laquelle la loi de censure est une loi de Dirac
au point C . L’expression établie dans le cas particulier de la censure fixe se
généralise donc aisément.

1.4. La prise en compte de covariables


Lorsque le modèle comporte p variables explicatives (covariables)
**************, on fait l’hypothèse que la loi conditionnelle de X sachant Z dépend
d’un paramètre *****
L’échantillon observé devient une séquence de triplets Z  ( Z 1 , ..., Z p ) ; on

79
reprend l’hypothèse de censure non informative ; on suppose de plus que X et C
sont indépendantes conditionnellement à Z et que C est non informative pour les
paramètres de la loi conditionnelle de X sachant Z . On suppose enfin que Z admet
une densité qui dépend d’un paramètre  , f z ( z ,  )
Dans ces conditions, l’expression de la vraisemblance vue en 1.3 ci-dessus
devient :
n
L ( )  
i 1
h / z ( T i ) D i ( T i ) f z (Z i ,  )

Lorsque la loi de T sachant Z et la loi de Z n’ont pas de paramètre en


commun, on retrouve simplement l’expression de 1.3, dans laquelle la loi de X est
remplacée par la loi conditionnelle de X sachant Z . Ce raisonnement se
généralise sans difficulté au cas de covariables dépendant du temps.

1.5. Troncature
On dit qu’il y a troncature gauche (resp. droite) lorsque la variable d’intérêt
n’est pas observable lorsqu’elle est inférieure à un seuil C  0 (resp. supérieure à
un seuil C  0).
Le phénomène de troncature est très différent de la censure, puisque dans ce
cas on perd complètement l’information sur les observations en dehors de la plage :
dans le cas de la censure, on a connaissance du fait qu’il existe une information,
mais on ne connaît pas sa valeur précise, simplement le fait qu’elle excède un seuil ;
dans le cas de la troncature on ne dispose pas de cette information.
La distribution observée dans ce cas est donc la loi conditionnelle à l’événement
c  t  C  . La fonction de survie tronquée s’écrit donc :
1 si t  c

 S (t )  S (C )
S (t / c  T  C )  
 S ( c )  S (C )
 0 si t  C
La fonction de hasard a également le support c  t  C  et s’écrit
S (t )
h (t / c  T  C )  h (t ) , ce qui montre que l’expression de h
S (t )  S (C )
ne dépend pas de c La troncature droite augmente la fonction de hasard, et s’il n’y a
que de la troncature gauche (C  ) alors la fonction de hasard n’est pas modifiée.
La troncature peut s’observer par exemple dans le cas d’une migration

80
informatique au cours de laquelle n’auraient été repris dans la nouvelle base que les
sinistres encore en cours au moment de la bascule ; les informations sur les sinistres
de durée plus courte, pour les mêmes survenances, sont alors perdues. La troncature
s’observe également dans le cas d’un contrat d’arrêt de travail avec une franchise :
les arrêts de durée inférieure à la franchise ne sont pas observés, et on ne dispose
donc sur eux d’aucune information.
La plupart du temps les individus ne sont pas observés depuis l’origine, mais
depuis l’âge (ou l’ancienneté) atteint au début de la période d’observation, qu’on
notera Ei . La censure Ci peut être inférieure à l’âge atteint en fin de période
d’observation si la sortie a lieu de manière anticipée (résiliation par exemple). Dans
ces conditions, l’expression de la vraisemblance du modèle est :
n
L ( )   h / z, E(t i ) di S / Z,E (t i ) f z (Zi ,  )
i 1
Lorsque la loi de T sachant Z et la loi de Z n’ont pas de paramètre en
commun, on trouve l’expression suivante :
n
In L ( )  cste  d i In  h / z , E ( t i )   In S  / z, E ( t i )
i 1

S  / Z (ti )
Comme h / z,E (ti )  h / z (ti ) et S  / Z , E ( t i )  on a finalement :
S  / Z ( ei )
n
L ( )  cste   d i In  h / Z ( t i   InS  / Z ( ei )
i 1

Bien entendu si tous les individus sont observés depuis l’origine, e i  0 et on


retrouve l’expression classique :
n
InL ( )  cste   d In  h
i 1
i /Z (ti   S  / Z (ti )

Exemple : on considère le modèle à hasard proportionnel de Weibull


( cf .3.2) dans lequel :
h ( x / Z ;  ,  )  exp(  z '  ) x  1 .
La log-vraisemblance de ce modèle s’écrit d’après l’expression générale
rappelée supra :
n n n
InL( y / z; ,)  dIn()  ( 1)di In(ti )  di zi'  exp(zi' )(ti  ei )
i 1 i 1 i 1

81
d
où on a noté d  d
i 1
i
le nombre de sorties non censurées.

Exemple : on considère n individus pour lesquels on fait l’hypothèse que la


fonction de hasard sous-jacente est constante sur un intervalle  x , x  1  ; ; à
l’aide de ce qui précède on trouve que la log-vraisemblance du modèle est, à une
constante près :
n
InL ( )    d i In (    (ti  ei )   d x  In ( )    E x
i 1

d d
Avec d x  
i 1
d i et E x   (t
i 1
i  e i ) . On remarque alors que tout se

passe comme si la variable D x qui compte le nombre de sorties sur l’intervalle


x , x  1  était une loi de Poisson de paramètre   E x ; ; en effet, dans ce cas
In  P  D x  d    cste  d x  In ( )    E x .

2. Vraisemblance latente et vraisemblance observable en présence de censure


Dans ce paragraphe, on considère des observations de durées (t1 ,...t n ) ,
censurées par une censure de type I (censure fixe) ou III (censure aléatoire non
informative), dépendant de l’observation24 ; c’est en effet un type de censure que
l’on rencontre souvent dans les problèmes d’assurance. On note ( c 1 , ...c n ) les
valeurs observées de la censure. Enfin, on suppose que les durées de vie observées
dépendent également de p variables explicatives25
( z 1 , ... z p ) . On a déterminé dans la partie précédente la forme de la
vraisemblance générale, et on souhaite maintenant réaliser l’estimation des
paramètres par maximisation de cette vraisemblance, en intégrant la prise en
compte de ces variables explicatives. On s’attachera ainsi à exprimer la relation
entre le score latent et le score observable, et à obtenir l’information de Fisher du
modèle observable.
On observe donc comme précédemment :

1 si X i  Ci
Ti  X i  Ci et Di  
0 si X i  Ci

24
Cela revient au même qu’une censure aléatoire en raisonnant conditionnellement à la valeur de la
censure.
25
est donc un vecteur composé des n valeurs de l’explicative pour les individus de l’échantillon

82
et les variables Y i  (Ti , D i ) sont indépendantes. Lorsque la censure est
connue Yi est une fonction de la variable latente X i ; le modèle observable est donc un
modèle qui fournit une information incomplète sur X i . Cette relation fonctionnelle
entre variables latentes et variables observables a des conséquences sur la forme de la
vraisemblance observable. Plus précisément, on a une relation fonctionnelle de la
forme Y   ( X ) ; les densités respectives de Y et X sont notées26 l ( ) et l* ( ) ;
l’observation de Y fournit une information sur la loi de X , et il est naturel de
s’intéresser à la loi conditionnelle de X Y  y ; on a :

l * ( x ,  )  l ( y ,  )l ( x / y , )
et en passant à la log-vraisemblance on peut donc écrire :

Inl * ( x ,  )  In ( y ,  )  Inl ( s / y ,  )
En dérivant cette expression par rapport à  , puis en intégrant par rapport à
la loi de X Y  y , , on trouve27 :

  Inl  x y ,     In  y ,     Inl  x y ,   
E y  E y
      

  Inl  x y ,    l  x y , 
Mais E
 
y 

 
dx puisque la loi

conditionnelle de X Y  y a pour densité l x y , ; ; en inversant


dérivation et intégrale, comme l’intégrale de la densité est égale à un, on trouve que
l  x y ,  
 
dx  0 , et donc le score s’écrit :

 In l  y ,     In l *  x ,   
E  y
   
Le score observable est donc la meilleure prédiction du score latent,
conditionnellement aux observations. En dérivant 2 fois l’expression de la log-
vraisemblance on obtient de même :

26
On notera l la vraisemblance pour une observation et L la vraisemblance d’un échantillon
27
Les espérances dépendent du paramètre  qui est omis dans les notations pour alléger les écritures.

83
 2 Inl *  x ,    2 In l *  y ,     2 In l  x y , 
 '  '  '
puis en prenant l’espérance on trouve que les informations de Fisher des
modèles latent et observable sont liées par la relation :

   2 In l  x y ,   
I *
( )  I( )  E  E  y 
X
   ' 
 
 2 f  
Remarque : la notation désigne la matrice Hessienne associée à
 '
 2 f  
f, de terme courant
  i  j

2.1. Application de la méthode du maximum de vraisemblance


On présente dans cette section les liens entre vraisemblance observable et
vraisemblance latente dans un modèle général, avant de spécifier les écritures dans
le cas d’un modèle de durée.

2.1.1. Généralités
On suppose l’indépendance des observations conditionnellement aux variables
explicatives et aux censures ; la log-vraisemblance du modèle s’écrit :
n
In L ( y z , c ; )  i 1
In l ( yi zi , ci ; )

et dès lors que la log-vraisemblance est dérivable, l’estimateur du maximum de


 In L ( y z , c ; )
vraisemblance annule le vecteur des scores :  0 .

Sous des conditions techniques de régularité la plupart du temps satisfaites en
pratique, on sait alors qu’il existe un maximum local de la log-vraisemblance
convergeant presque sûrement vers la vraie valeur du paramètre et que, de plus,
l’estimateur du maximum de vraisemblance est asymptotiquement efficace et
gaussien ie :

 
n ˆn  N  0, I ( )  1 
avec l’information de Fisher définie par

84
1 n   Inl ( yi zi ,  ) 
2

I ( )  lim  E   zi , ci , la limite étant en probabilité. La


n n
i 1    ' 
variance asymptotique de l’estimateur peut être estimée par :
1
  2 I n L ( y z , c ; ˆ ) 
ˆ ˆ 
V    
  '


 
On dispose ainsi d’un cadre assez général pour estimer le paramètre par
maximum de vraisemblance en présence de censure28 et de variables explicatives.

2.1.2. Vraisemblance latente et vraisemblance observable


La vraisemblance du modèle complet, latent, n’est pas observable ; on a
toutefois une relation simple entre le score latent et le score observable, au sens où
le score observable est la prévision optimale du score latent à partir des variables
observables, soit de manière formelle :

 2 In L ( y z , c; ˆ )   In L* ( x z , c;  ) 
 E y, z, c 
   
Cette propriété découle directement de la relation établie pour une observation en
 In ( y ,  )   In l * ( x ,  ) 
introduction :  E y.
   
En ce qui concerne l’information de Fisher, l’information du modèle latent
peut être décomposée en la somme de l’information du modèle observable et d’un
terme mesurant la perte d’information due à la présence de la censure. On a le
résultat suivant :
Proposition : I * ( )  I ( )  J ( ), avec :

 1 n   Inl * ( xi zi , ci ;  )  
J ( )  lim E   V  y i , z i , ci  z , c  ,
n
 n i 1    
la limite étant prise en probabilité.
Pour prouver ce résultat on applique l’équation de décomposition de la
variance

28
La forme de la vraisemblance dans le cas d’un modèle de durée est précisée en 2.2.

85
V  A   E (V  A B  )  V ( E  A B  ) à
 Inl * ( x i z i , c i ;  )
A z i , c i etB  Y


2.2. Écritures particulières aux modèles de durée


Dans le cas d’un modèle de durée, on calcule la vraisemblance en fonction du
taux de hasard et de la fonction de survie, plutôt que de la densité ; comme on a
f (t )  S (t )h(t ), on obtient
n n
InL* ( x z ;  )  
i 1
Inh ( ti z i ;  )   InS (t i z i ;  )
i 1

La log-vraisemblance observable est calculée conditionnellement à ( z , c ) et


s’exprime par29
n n
InL ( y z , c ;  )   d i Inh (ti z i ;  )   InS (ti zi ;  )
i 1 i 1

On retrouve donc, comme on l’avait établi en 1.3 ci-dessus que la log-


vraisemblance observable s’écrit de la même manière que dans le modèle latent,
mais en remplaçant la durée réelle par la durée tronquée et en ne conservant la
fonction de hasard que pour les informations complètes (repérées par d i  1 ).
Les équations de vraisemblance n’ont toutefois pas d’expression simple dans le
cas général ; on utilisera les algorithmes usuels pour déterminer l’EMV de manière
approchée : NEWTON-RAPHSON, BHHH (BERNDT, HALL, HALL,
HAUSMAN) et algorithme EM, ce dernier étant particulièrement bien adapté au
cas des données incomplètes. Ces algorithmes sont présentés en 2.4 infra.
Cependant, dans certaines classes de modèles une approche directe reste
possible : cela est notamment le cas des modèles à hasard proportionnel, étudiés ci-
après.

2.3. Exemple : le modèle de Weibull


On a vu en introduction l’estimation des paramètres du modèle de Weibull
dans le cas non censuré. On traite maintenant à titre d’exemple le cas d’une censure
droite. On considère donc le modèle :

29
Voir 1.1.

86
  1
  x      x   
f ( x) x exp      , S( x )  exp     
l   l     l  

pour lequel on observe un échantillon censuré ( t i , d i ) i1,..., n  où


 1 si ti  xi
di  est l’indicatrice d’une information non censurée.
 0 si ti  xi

2.3.1. Estimation des paramètres


La vraisemblance de ce modèle s’écrit :
n
L ( , l )  i 1
f ( t i ) d t S ( t i )1 d t

n
En notant d .  
i 1
d i le nombre de sorties observées non censurées, il vient :


  t i  
d.
  n
L ( , l )   
l 
t i
(  1) d t
exp   d i    ,
 l  
i 1 
d.
   n
  n

L ( , l )    exp   l    t i  exp  (  1)  d i Int i 
l   i 1   i 1 
D’où l’on déduit la log-vraisemblance :
n n
InL( , l )  Inl  d.(In   Inl )  l  ti  ( 1) di Inti
i 1 i 1

Les équations aux dérivés partielles s’écrivent donc :


  d. n

 I n L ( , 1 )     l   1  d i I n ti
 l l i1

   1   n n
 n
I n L ( , 1 )  d .   I n /   l    I n /  t i   t i I n t i    d i In ti
  l     i1 i1  i1

On cherche donc les solutions du système suivant :

87
1/
  1 n  
 l    t i 
 d . i 1

 n

 1
 t i I n t i
1 n
  i 1
n
  d i In ti
d . i 1



i 1
ti

La deuxième équation définit un algorithme qui converge vers ̂ pour autant


qu’on lui fournisse une valeur initiale pas trop éloignée. En pratique, cette valeur
pourra être l’estimateur obtenu par la méthode des quantiles sur l’ensemble des
observations complètes (cf. le support d’introduction). Une fois ̂ obtenu, lˆ s’en
déduit grâce à la première équation.

2.3.2. Application numérique


On propose une illustration dans laquelle 1 000 observations ont été simulées
dont 47 % censurées.
Une première estimation des paramètres a été effectuée sur les 1 000
réalisations du risque principal afin d’obtenir des estimations qui serviront d’étalon
pour la comparaison des estimations obtenues dans le cas censuré.
Remarque technique : Il faut définir un critère d’arrêt pour les algorithmes
permettant d’obtenir l’e.m.v. ̂ Dans cette application, on s’est arrêté lorsque la
variation relative de la valeur lors d’une itération devenait inférieure (en valeur
absolue) à 0,01 %.
Il convient de remarquer qu’avec le critère d’arrêt qui a été choisi, l’algorithme
qui fournit
̂ est nettement plus rapide (facteur 10 en nombre d’itérations) dans le cas où
l’on ne conserve que des données complètes que dans la situation où l’on dispose
de données censurées.
Le tableau suivant reprend les différentes estimations des paramètres effectuées
et indique l’espérance et la variance correspondant à ces estimations. Les
simulations ont été effectuées en prenant comme valeur théorique pour les
paramètres   2, 5 et l  4 5 . 7

88
Le tableau suivant reprend les erreurs relatives d’estimation en référence à la
situation dans laquelle toutes les observations sont complètes.

L’utilisation des toutes les données disponibles, même incomplètes, s’avère


essentielle. En particulier, ne pas prendre en compte les censures conduit à sous-
estimer de 15 % la durée de survie. Dans le même esprit, en présence de censures
de type I ou II, ne pas prendre la totalité des observations disponibles conduit à
estimer un modèle dans lequel la durée de survie maximale est le niveau de la
censure.

2.4. Les algorithmes numériques de maximisation de la vraisemblance


Comme on l’a vu en 2.2 ci-dessus, l’expression analytique de la log-
vraisemblance ne rend que rarement possible un calcul direct de l’estimateur du
maximum de vraisemblance. Bien entendu, les algorithmes standards de type
Newton-Raphson peuvent être utilisés dans ce contexte. Toutefois, des méthodes
spécifiques peuvent s’avérer mieux adaptées.
Le lecteur intéressé par une introduction aux méthodes numériques
d’optimisation pourra consulter CIARLET [1990].
2.4.1. L’algorithme de Newton-Raphson
On utilise ici pour résoudre l’équation f ( x 0 )  0 un algorithme construit à

89
partir d’une linéarisation au voisinage de la solution, sur la base du
développement de Taylor à l’ordre un ; en notant que
df
 xk   o( xk  1  xk ) , on propose ainsi la
f ( xk 1 )  f ( xk )  ( xk 1  xk )
dx
récurrence définie par f ( x k  1 )  0 , qui conduit à :

f (xk )
x k 1  x k 
f (xk )
Dans le cas d’un modèle de durée, on utilise comme fonction f la dérivée de la
log-vraisemblance par rapport au paramètre (le score), ce qui conduit à
l’expression :
1
 2   In L ( y z , c ; k )
 k 1  k   In L ( y z , c ;  k ) 
  '  

L’écriture ci-dessus est une écriture matricielle, valable pour un 


multidimensionnel.
Afin que cet algorithme converge il convient de partir d’une valeur initiale
« proche » de la valeur théorique. Il possède une propriété intéressante : si l’on
dispose d’un estimateur convergent, pas nécessairement asymptotiquement
efficace, on peut l’utiliser comme valeur initiale de l’algorithme de Newton-
Raphson. On obtient alors l’efficacité asymptotique dès la première itération30.
Il existe une variante de l’algorithme de Newton-Raphson, appelée algorithme
BHHH (BERNDT, HALL, HALL, HAUSMAN), qui consiste à remplacer dans
l’expression itérative ci-dessus la matrice d’information de Fischer par son
expression ne faisant appel qu’à la dérivée première de la log-vraisemblance. On
obtient ainsi :
1
 n Inl ( yi zi , ci ;k ) Inl( yi zi , ci ;k )  n
Inl ( yi zi , ci ;k )
k 1  k    
 i1   '  i 1 
Cette version de l’algorithme de Newton-Raphson a les mêmes propriétés que
la précédente.

2.4.2. L’algorithme Espérance-Maximisation (EM)


Cet algorithme a été imaginé plus spécifiquement dans le cadre de données

30
Dans ce cas l’estimateur obtenu n’est pas du maximum de vraisemblance, mais il est tout de même
asymptotiquement efficace.

90
incomplètes ; il s’appuie sur la remarque que, si les variables ( x1 , ... x n ) étaient
observables, l’estimation serait effectuée simplement en maximisant la log-
vraisemblance latente In L ( x z , c ;  ); comme on ne dispose pas de ces
observations, l’idée est de remplacer la fonction objectif par sa meilleure
approximation connaissant les variables observables ( y1 , ..., y n ) . Il a été proposé
initialement par DEMPSTER et al. [1977].
On introduit, pour ( , ˆ ) fixé, la fonction
ˆ
q ( ,  )  E ˆ  In L ( x z , c ;  ) y , z , c  ; l’algorithme EM est alors défini par la
*

répétition des étapes suivantes :


– calcul de (  , ˆ k ) ;
– maximisation en  de q (  , ˆ k ) , dont la solution est  k 1 
En pratique cet algorithme est intéressant lorsque le calcul de q (  , ˆ k ) est
sensiblement plus simple que le calcul direct de
 In L ( y z , c ;  ) ; dans le cas contraire, on peut être conduit à utiliser un
algorithme de Newton-Raphson pour l’étape d’optimisation de q (  , ˆ k ) , ce qui
alourdit la démarche.
L’algorithme EM possède sous certaines conditions de régularité qui ne seront
pas détaillées ici les « bonnes propriétés » suivantes :
Proposition : L’algorithme EM est croissant, au sens où
InL( y z, c;k1)  InL( y z, c;k1); ; de plus toute limite   d’une suite de
solutions ( k ) satisfait la condition du premier ordre :

 In L ( y z , c ;   )
 0

Démonstration : le lecteur intéressé pourra se reporter à DROESBEKE et al.
[1989].

2.4.3. Les autres méthodes


D’autres méthodes peuvent s’avérer utiles dans le cas d’échantillons fortement
censurés ; en effet dans ce cas, l’estimation « fréquentielle » usuelle utilisée jusqu’ici
peut s’avérer mal adaptée ; on peut alors se tourner vers des algorithmes
d’échantillonnage pondéré bayésiens, notamment les algorithmes MCMC.
Cette situation étant peu courante en assurance ne sera pas développée ici ; le
lecteur intéressé pourra consulter ROBERT [1996].

91
3. Les modèles à hasard proportionnel
Dans ces modèles la fonction de hasard est écrite
h ( x z ;  )  ex p(  z '  ) h 0 ( x ) avec h0 la fonction de hasard de base, qui est une
donnée. Cette situation se rencontre par exemple lorsque l’on veut positionner la
mortalité d’un groupe spécifique par rapport à une mortalité de référence, connue,
représentée par h0 . On peut par exemple imaginer que l’on a ajusté la mortalité d’un
groupe important selon un modèle de Makeham31 et que l’on s’intéresse au
positionnement de la mortalité de certaines sous-populations : hommes / femmes,
fumeurs / non fumeurs, etc. Dans cette approche, on s’attachera essentiellement à
définir le positionnement d’une population par rapport à une autre, sans chercher
toujours le niveau absolu du risque. L’expression de la fonction de hasard d’un
modèle proportionnel peut s’écrire :

h ( x z; )
In   z ' ,
h0 ( x )
Ce qui exprime que le logarithme du taux de risque instantané, exprimé
relativement à un taux de base, est une fonction linéaire des variables explicatives. Les
p
variables explicatives sont au nombre de p, ce qui implique que z '    z  . . On
i 1
i i

vérifie aisément que la fonction de survie du modèle est de la forme :


S ( x z ;  )  e x p (  e x p (  z '  ) H 0 ( x ))
Avec H 0 la fonction de hasard cumulée de base32. Compte tenu de la forme de
la fonction de survie, il est naturel de s’intéresser à la variable transformée
V  In ( H 0 ( X )); ; en effet si on considère le modèle suivant :
v  z '  
(en d’autres termes on pose   v  z ' ) on trouve que
P(  t z; )  P( InH 0 ( x)  z '  t z; )  P( H 0 ( x)  exp(z' ) exp(t ) z; ),

soit :
P (   t z ;  )  S ( H 0 1  exp(z'  ) exp( t )  z ;  )  exp(  exp( t )

31
Voir la section 5.
 t 
32
En utilisant la relation S (t )  exp    h( S )ds  .
 0 

92
La loi (conditionnelle) du résidu  est donc une loi de Gumbel33, qui vérifie
 2
E ( )   et V (  )  ,  étant la constante d’Euler34.
6
On reconnaît dans l’équation v  z '   une formulation formellement
équivalente à celle d’un modèle linéaire, dans lequel les résidus ne sont toutefois ni
gaussiens, ni centrés, puisque E (  )    : 
E (V z ;  )     z '
Le point important ici est que la loi de 
ne dépend pas du paramètre.
Si on souhaite obtenir un modèle avec des résidus centrés on considère la
transformation
V  H 0 ( X ) . On a P (V  t )  P ( X  H 0 1 ( t ))  S ( H 0 1 ( t ))
et donc :

P(V  t )  exp(  exp(  z ' )  t )


V suit donc une loi exponentielle de paramètre exp(  z ' ) , ce qui conduit
à poser le modèle non linéaire :
v  ex p( z '  )  
Avec E     0 et V     ex p ( 2 z '  ) , et E ( V z ;  ) e x p ( z '  ) . On
note que les résidus de ce modèle sont hétéroscédastiques.
On peut noter que le taux de décès d’une sous-population s’exprime
simplement à l’aide du taux de décès de base :
xp (  z ' )
 S ( x  1 z; )   S 0 ( x  1) 
q ( x z ;  )  1     1     1  (1  q0 ( x )) exp(  z ' )
 S ( x z; )   S0 ( x) 
Lorsque q 0 ( x ) est petit on retrouve comme on pouvait s’y attendre :

q ( x z ;  )  q 0 ( x )  e x p (  z ' )

3.1. Cas où la fonction de hasard de base est connue35


On s’intéresse dans un premier temps au cas de données non censurées dans le
cadre du modèle linéaire défini ci-dessus.
On cherche à estimer  en supposant H 0 connue ; l’équation ci-dessus peut

33
Cf. la partie du support d’introduction consacrée à la loi de Weibull et
http://fr.wikipedia.org/wiki/Loi_de_Gumbel
34
Dont la valeur est approximativement 0,577215665
35
Dans le modèle de Cox la fonction de hasard de base est supposée inconnue, alors qu’ici elle est
supposée connue.

93
être utilisée pour construire un estimateur convergent du paramètre, mais cet
estimateur est non asymptotiquement efficace ; on peut imaginer de l’utiliser
comme valeur d’initialisation d’un algorithme de maximisation de la log-
vraisemblance. Toutefois, l’expression du modèle sous la forme d’un modèle
linéaire conduit naturellement à proposer l’estimateur des moindres carrés
1
 n '  n
ordinaires (MCO) : ˆ   zi zi   z InH'
MCO i 0 ( xi )
 i 1  i 1

Dans l’écriture ci-dessus zi  ( z i 1 , ..., z ip ) est le vecteur ligne de taille P


composé des valeurs des variables explicatives pour l’individu n  i. Si on suppose
que le modèle intègre une constante et que celle-ci est la première composante de
 , alors on peut montrer que ˆ  (  , 0, ..., 0 ) ' est un estimateur convergent de
 . La transposition directe du cas du modèle linéaire conduit donc à un estimateur
simple à calculer et disposant a priori de « bonnes propriétés » pour  .
Dans le cadre du modèle v  exp(z' )   , qui présente l’avantage d’avoir
des résidus centrés, l’estimateur EMV est solution du programme de moindres
carrés non linéaires :
n 2

M in   H
i 1
0 ( x i )  ex p ( z  ) i
'

Cet estimateur peut être aisément calculé ; toutefois, les estimateurs ci-dessus
sont utilisables pour des données complètes, mais pas dans le cas de données
censurées.
En effet, en présence de censure, l’estimateur ˆM C O restreint aux données
complètes est asymptotiquement biaisé. Le biais étant toutefois peu important en
pratique, cet estimateur pourra servir de valeur initiale pour des algorithmes
numériques.
En présence de données incomplètes, on revient aux équations de
vraisemblance du modèle.

3.1.1. Équations de vraisemblance


D’après les équations générales déterminées en 2.1.2 ci-dessus, on a :
n n
InL* ( x z ; )     zi'  Inh0 ( xi )    exp(  zi' ) H 0 ( xi )
i 1 i 1

pour la vraisemblance latente et :

94
n n
InL* ( x z ;  )     z i'  Inh0 ( xi )    exp(  z i' ) H 0 (ti )
i 1 i 1

pour la vraisemblance observable. Par dérivation on trouve le vecteur des


scores latent :
InL* ( x z ;  ) n n n
   zi'   zi' exp(  zi' ) H 0 ( xi )   zi' exp(  zi' ) i
 i 1 i 1 i 1
Le score latent est donc le produit scalaire entre les erreurs
 i  H 0 ( xi )  exp( z i' ) et les variables explicatives, pour la métrique définie par
les poids e x p ( z i' ) . En ce qui concerne le vecteur des scores observable, on a :

 In L (y z , c ;  ) n


 
i 1
z i' e x p (  z i' )  i

Avec i  E (  i y i , z i , c i ,  ) . Comme le résidu du modèle non censuré est


défini par  i  H 0 ( xi )  exp  zi'  , il s’agit donc de montrer que
E ( i yi , zi , ci )  H 0 (ti )  di exp  zi'  .
Les équations de vraisemblance s’assimilent donc à une condition
d’orthogonalité entre variables explicatives et erreurs prévues, comme dans le cas
d’un modèle linéaire classique.

3.1.2. Information de Fisher


L’information de Fisher a ici une expression particulièrement simple :
n
I ( )   i1
z i' z i p i

Avec Pi  E ( d i z i , c i )  P ( X i  c i ) la probabilité que l’observation soit


complète. On écrit pour cela que
 2 InL ( y z , c;  ) n
   z i' z i exp(  zi' ) H 0 (ti ) puis on prend l’espérance en
 ' i 1
observant que le vecteur des scores est, dans ce modèle, centré. La décomposition
de l’information de Fisher présentée en 2.1.2 ci-dessus s’écrit ici :
n n n

i 1
z i' z i  i 1
z i' z i p i  i 1
z i' z i (1  p i )

95
3.2. Cas d’un hasard de base paramétrique : le modèle de Weibull
On a examiné en 2.3 le modèle de Weibull sans variables explicatives ; on
souhaite ici généraliser ce modèle dans le cadre d’un modèle à hasard
proportionnel. La fonction de hasard de base n’est plus supposée connue et est
supposée suivre une loi de Weibull ; elle dépend d’un paramètre, qui devra donc
être estimé et le modèle comporte donc un paramètre supplémentaire par rapport
à la version précédente.

3.2.1. Présentation générale


Ce modèle est défini par la spécification36 :
h ( x z ;  ,  )  e x p (  z ' ) x  1

D’après ce qui précède la log-vraisemblance du modèle s’écrit37 :


n n
InL ( y z , c;  ,  )  dIn      1   d i z i'   exp   z i' t i
i 1 i 1

d
où on a noté d  i1
d i le nombre de sorties non censurées. Les équations de

vraisemblance sont donc :

 In L ( y z , c ; ˆ , ˆ ) n n
   d i z i'   z i' ex p (  z i'ˆ ) t iˆ  0
 i 1 i 1

 InL ( y z , c ; ˆ , ˆ ) n n
   d i In ( t i )   exp(  z i'ˆ ) t iˆ In ( t i )  0 .
 i 1 i 1

Comme dans le cas où la fonction de hasard de base est connue, la première


équation s’interprète comme un produit scalaire, entre les variables explicatives et
 ˆ '
 
les résidus généralisés i  t i  d i exp z iˆ , , comme en 3.1.1ci-dessus, mais
après estimation de la fonction de hasard de base. La seconde équation n’admet pas
d’interprétation particulière.
Ces équations doivent être résolues par des méthodes numériques.
Les termes de la matrice d’information de Fisher s’obtiennent en dérivant une
seconde fois, et on trouve :

36
On fixe le paramètre d’échelle de la loi de Weibull à 1.
37
On pourra rapprocher cette expression de celle établie en 2.3 dans le modèle sans variables
explicatives.

96
 2 InL  y z , c ;  ,   n

zz '
exp   z i' t i
 2 i i
i 1

 InL  y z , c ;  , 
2
 n

z '
exp   z i' t i In ( t i )
 2 i
i 1


 2 InL y z , c ; ˆ , ˆ  d n

 exp   z  t   In ( t ) 
' 2

 
2 2 i i i
i 1

3.2.2. Cas particulier du modèle exponentiel


Lorsque dans le modèle précédent le paramètre  est contraint à être égal à 1,
on obtient le cas d’une fonction de hasard de base exponentielle, dont on note  le
paramètre (égal à la leur de la fonction de hasard38). En 1.1.1ci-dessus on a étudié
ce cas et montré que l’estimateur du maximum de vraisemblance était égal39 à
d
.
n

i1
d iti  ( n  d ) c

On prend maintenant comme paramètre   1 ; dans le cas non censuré,



l’estimateur de  est la moyenne empirique de l’échantillon, qui est sans biais. En
présence de censure, l’estimateur EMV de  est l’inverse de l’estimateur ci-dessus
(par invariance fonctionnelle de l’estimateur du maximum de vraisemblance),
n

dt i i  (n  d )c
ˆ  i 1
, qui est un estimateur biaisé. L’existence de censure
d
introduit donc du biais dans le modèle. On peut montrer40 que le biais a pour
expression :

 c
c exp   
E (ˆ )        o n2 ,
2
  c 
n 1  exp    
   
et que la variance asymptotique s’écrit :

38
En d’autres termes on réintroduit ici la paramètre d’échelle dont on n’avait pas tenu compte dans le
modèle de Weibull.
39
En supposant les censures toutes égales à c.
40
Voir BARTHOLOMEW [1957] et BARTHOLOMEW [1963].

97
 2
V (ˆ )  .
  c 
n 1  e x p    
   
On en déduit l’approximation normale usuelle.

3.3. Cas où la fonction de hasard de base n’est pas spécifiée : le modèle de Cox41
On ne suppose plus maintenant de forme particulière pour la fonction de
hasard de base ; celle-ci devient alors un paramètre de nuisance, de dimension
infinie.
En effet, spécifier complètement un modèle paramétrique peut s’avérer trop
restrictif dans certains cas ; de plus, on peut n’être intéressé que par la mesure de
l’effet des covariables, et alors la spécification de la fonction de hasard de base
n’apporte rien au modèle (à part des contraintes). En d’autres termes, on se place
dans un contexte où l’objectif est le positionnement de différentes populations les
unes par rapport aux autres, sans considération du niveau absolu du risque. Cela
motive l’intérêt pour une spécification partielle, étudiée ici.
On part donc de la formulation suivante :
h ( x x ;  )  e x p (  z ' ) h 0 ( x )

Avec h 0 inconnue.

3.3.1. Estimation des paramètres


Pour mener l’inférence statistique dans ce modèle, COX [1972] a proposé de
s’appuyer sur une vraisemblance partielle dans laquelle le paramètre de nuisance
h 0 n’intervient pas. Cette approche est un cas particulier d’une démarche plus
générale consistant à déterminer une vraisemblance partielle lorsque le modèle
contient un paramètre de nuisance de grande dimension. Le principe de cette
démarche, décrite dans COX [1975], est présenté ci-après, puis appliqué au cas du
modèle de Cox.
On considère ici un vecteur X de densité f X ( x ,  ) . On suppose qu’il est
possible de décomposer X en une paire (V , W ) telle que :
f X ( x ,  )  fW /V (W v ,  ) f V ( v ,  )

Un exemple d’une telle décomposition est fourni par le vecteur V des valeurs

41
Pour un traitement détaillé du modèle de Cox on pourra se reporter à DUPUY [2002], dont on
reprend ici les notations et la logique de présentation.

98
de X ordonnées par ordre croissant et W le vecteur des rangs. On suppose de
plus que le paramètre  est de la forme   ( , h0 ),  étant le paramètre d’intérêt.
L’idée est que, si, dans la décomposition ci-dessus, l’un des termes de dépend pas
de h0 , on peut l’utiliser pour estimer  . La simplification occasionnée par cette
approximation doit compenser la perte d’information.
On rappelle que le modèle de base considéré est toujours le suivant :

1 si Xi  Ci
Ti  X i  C i et D i  
0 si Xi  Ci
avec. h ( x z ;  )  exp( z '  ) h0 ( x ). D’après l’expression générale de la
vraisemblance d’un modèle censuré en présence de covariables (cf. 1.4 ci-dessus),
on peut écrire la vraisemblance complète du modèle de Cox :
n
L ( , h0 )    h0 (ti ) exp(  ' zi ) exp(  H 0 (ti ) exp(  ' zi ))   exp( H 0 (ti ) exp(  ' zi )) 
di 1 d i

i 1

Dans l’expression ci-dessus, la fonction de hasard de base intervient de deux


manières : directement, et au travers de la fonction de hasard cumulée H 0 . On peut
montrer qu’il n’existe pas de maximum à la vraisemblance si on n’impose pas de
restriction à la fonction de hasard de base.
En décomposant la vraisemblance de sorte que l’on isole dans un terme que
l’on négligera l’incidence de la fonction de hasard de base, on obtient (après une
série de développements fastidieux qui ne sont pas repris ici, cf. DUPUY [2002])
l’expression suivante de la vraisemblance partielle (valable avec ou sans ex-æquo) :
di
 
 
 n exp(  ' z i )
n
L C ox ( )   


  exp(  ' z j )1Ti  T j  
i 1

 j 1 
On peut toutefois donner une justification heuristique simple de la formule ci-
dessous ; on observe en effet que dans le dénominateur de la fraction ci-dessus
n
intervient R i   1
j 1
Ti  T j 
, qui n’est autre que l’effectif soumis au risque au

moment de la sortie de l’individu i (si celle-ci est observée). En conditionnant par


les instants de survenance des décès 0  t1 ...  t k (avec
Donc k  n correspondant aux sorties non censurées), on considère les
évènements (ordonnés) suivants : Ci est l’ensemble des censures intervenues entre

99
ti  1 et Di l’ensemble des décès intervenus en t i . On notera que l’on se ramène
ainsi à un problème d’analyse combinatoire consistant à compter les configurations
des sorties conduisant à la séquence observée, les dates de décès étant connues. En
d’autres termes, on retrouve ici le fait que l’on n’est pas intéressé par le niveau
absolu de la sinistralité, mais simplement par le positionnement des individus les
uns par rapport aux autres, en fonction des valeurs prises par les variables
explicatives pour chacun d’entre eux. On peut alors décomposer la probabilité
d’observer la séquence ( C i , D i ) selon :

P   C i , Di  ,1  i  k   P  C1  P  D1 C1  P  C 2 C1 , D1  ...P  D k C1 ...C k D1 ...D k 1 

En regroupant les évènements relatifs aux décès d’une part et ceux relatifs aux
censures d’autre part on met l’expression ci-dessus sous la forme :
k k
P   Ci , Di  ,1  i  k    P  D1 C1 ...Ci D1 ...Di 1    P  Ci C1 ...C i 1 D1 ...Di 1 
i 1 i 1

On remarque l’analogie de la formule ci-dessus avec l’expression générale de la


vraisemblance donnée supra. On peut alors noter que l’événement Ri
complémentaire de
C 1 ...C i D 1 ... D i  1  décrit la population sous risque juste avant l’instant t i .
L’idée de base de la vraisemblance partielle de Cox consiste à ignorer dans la
vraisemblance le terme associé aux censures pour ne conserver que :
k
P   C i , D i  , 1  i  k    P  D i R i .
i 1

Il reste à évaluer P ( D i R i ) ; on suppose pour simplifier l’absence d’ex-


æquo, ce qui revient à dire que l’ensemble D i est un singleton : Di   ji  . On
trouve alors que :

h (ti , z j ) exp(  ' z ji )


P ( Di Ri )  
 h (t , z
jRi
i j )  exp(  ' z
jRi
j )

ce qui conduit finalement à l’expression cherchée.


L’expression de la vraisemblance partielle se généralise sans difficulté au cas de
covariables dépendant du temps ; dans le cas de covariables fixes, on peut montrer
(cf. FLEMING et HARRINGTON [1991]) que cette expression est égale à la loi du
vecteur des rangs associé à
( T1 , ...T n ) . En pratique la résolution du système d’équation

100

In L C o x    0 est effectuée via un algorithme numérique (cf. infra).
 i
L’intérêt de l’estimateur ˆ ainsi obtenu est légitimé par le fait qu’il est
convergent et asymptotiquement normal, comme un estimateur du maximum de
vraisemblance standard42.

3.3.2. Tests du modèle


Deux types de tests peuvent être menés dans le cadre du modèle de Cox :
– La validation de l’hypothèse de hasard proportionnel ;
– La nullité globale des coefficients, ie   0 .
La validation globale du modèle peut être effectuée en s’appuyant sur un test,
dont le principe est étudié en détail par THERNEAU et GRAMBSCH [2000], basé
sur les résidus de Schönefeld. Ces derniers sont définis pour chaque individu i et
chaque covariable j comme la différence entre la valeur, à la date Ti de sortie de i,
de la covariable pour cet individu, z i  ( z i 1 , ... z ip ) et sa valeur attendue :


 exp   ' z  
zj

 j  Ri
j

ri  d i   z i  .
  exp   ' z  j 
 j Ri

En introduisant alors le produit de l’inverse de la matrice de variance-
covariance des résidus de Schönefeld pour l’individu i avec le vecteur de ces mêmes
résidus, appelé résidu de Schönefeld réduit, on peut construire un test de
l’hypothèse de hasard proportionnel. Ce test sera étudié en détails ultérieurement.
La nullité globale des coefficients peut être testée via un test classique de type
Wald ou score (cf. la section 4)

4. Les tests fondés sur la vraisemblance

On se propose ici de tester une hypothèse de la forme g ( )  0 , où g est une


fonction à valeurs dans  , contre l’alternative g ( )  0 . Trois tests
r

asymptotiques faisant appel à la vraisemblance sont classiquement utilisés : le


rapport des maxima de vraisemblance, le test de Wald et le test du score. On peut
en fait montrer qu’ils sont équivalents, au sens où les statistiques associées diffèrent
d’un infiniment petit en probabilité. On choisira donc celui dont la mise en œuvre
est la plus simple.

42
Ce résultat est démontré par ANDERSEN et GILL [1982].

101
On note ˆ l’estimateur du maximum de vraisemblance dans le modèle non
contraint et ˆ son équivalent dans le modèle contraint. g() est un vecteur de
0

g '  g j 
dimension r (une matrice ( r ,1) et on suppose que la matrice   qui
  i 
est de dimension ( p , r ) , est de rang r .

4.1.1. Rapport des maxima de vraisemblance


L’idée est ici de comparer les vraisemblances contraintes et non contraintes et
d’accepter l’hypothèse nulle si ces 2 valeurs sont proches. On utilise donc la
statistique :

 R  2 ( In L (ˆ )  In L (ˆ 0 ))
qui converge sous l’hypothèse nulle vers un  2 ( r ) , d’où un test dont la
région critique est donnée par W    R
  12   r  .

4.1.2. Test de Wald

 
L’idée du test de Wald est que, si g ˆ  0, , alors on accepte l’hypothèse
nulle. De manière formelle la statistique :
1
 g (ˆ ) g (ˆ ) 
   
1
 W
 ng '(ˆ )  I ˆ  g ˆ
   '  

converge sous l’hypothèse nulle vers un r   2 ( r ), d’où un test dont la



région critique est donnée par W     1   ( r ) . .
W 2

4.1.3. Test du score
On s’intéresse ici à la condition du premier ordre du modèle contraint, qui fait
apparaître le Lagrangien InL ( )  g '( ) . . La condition du premier ordre
s’écrit donc :

 In L (ˆ 0 )  g '(ˆ 0 ) ˆ
  0
 ' 
et on utilise la statistique :

102
1  InL (ˆ 0 )  InL (ˆ 0 )
S  I (ˆ 0 )  1 
2  ' 
qui converge sous l’hypothèse nulle vers un  2 ( r ), , d’où un test dont la
région critique est donnée par W    S
  12  ( r ) . .

5. Ajustement de taux de mortalité bruts


Dans ce paragraphe on illustre la mise en œuvre d’une démarche paramétrique
dans le cas de la construction d’une table de mortalité. On dispose pour différents
âges, X 0  x  x1
D’observations constituées d’une part des effectifs sous risque en début de
période43, notés N x et, d’autre part, des décès observés pendant la période de
référence, D x .
Le nombre de décès à l’âge x est une variable aléatoire binomiale de paramètres
N x et qx , où qx désigne le taux de mortalité à l’âge x. . Il est naturel d’estimer ce
Dx
taux par l’estimateur empirique qˆ x  , , qui est sans biais, convergent et
Nx
asymptotiquement normal44. On supposera que l’on dispose de suffisamment de
données pour considérer que l’approximation gaussienne est valide. On pourra par
exemple utiliser le critère de Cochrane, qui consiste à vérifier que N x  qˆ x  5 et
N x  (1  qˆ x )  5. .
D’après ce qui précède, la méthode la plus directe pour estimer les paramètres
d’un modèle paramétrique dans ce contexte consiste, une fois la forme de la
fonction de hasard fixée, à écrire la log-vraisemblance :
n n n
InL ( y1 ,..., y n ;  )  d
i 1
i Inh0 ( ti )  InS 0 (t i )   InS ( ei )
i 1 i 1


Puis à résoudre les équations normales InL( y1 ,..., yn ; )  0 . C’est ce qui

a été fait dans l’exemple 1.1.1 ci-dessus. Toutefois, en pratique ces équations
peuvent être délicates à résoudre. Ainsi, si l’on souhaite utiliser le modèle de
Makeham, la log-vraisemblance d’un échantillon censuré45 a la forme suivante :

43
En général la période de temps sera l’année.
44
En pratique souvent on obtiendra le taux de décès brut dans un cadre non paramétrique (Kaplan-
Meier) puis on déduira l’exposition au risque de ce taux et du nombre de décès observés à l’âge
considéré.
45
Supposé non tronqué à gauche pour simplifier l’écriture.

103
n n
 b 
 
InL( y1 ,..., yn ; )   di In a  b  cti     ati
un(c)

cti  1  . 
i 1 i 1  
  
La résolution du système d’équations InL  0, InL  0, InL  0 est
 b c
fastidieuse, lorsqu’elle est possible. En effet, d’une part les sommes intervenant dans
les expressions ci-dessus comportent potentiellement un très grand nombre de
termes. Aussi, on est conduit à proposer une démarche en deux temps :
 on commence par calculer des taux de décès bruts qˆx par une méthode
intégrant les éventuelles censures (et tenant compte du degré de précision associé
aux données individuelles),
 puis on ajuste dans un second temps le modèle paramétrique retenu à ces
taux bruts. Pour cela on utilise la « formule de passage » entre l’expression du
modèle à temps continu et les taux bruts suivante :

q x  1  exp    µ ( y ) dy 
x 1

 x 
Cette relation entre le taux de mortalité discret qx et la fonction de hasard46 µ x
exprime simplement le fait que la probabilité de survie entre x et x  1 ,
conditionnellement au fait que l’individu est vivant à l’âge x, est égale à. S ( x  1 )
S (x)
La recherche d’un ajustement est justifiée par le fait que la courbe des taux bruts
présente des irrégularités en fonction de l’âge et que l’on peut supposer que ces
variations assez brusques ne sont pas dues à des variations de l’incidence réelle du
risque, mais à une insuffisance de données. Un ajustement par une fonction
modélisant le risque sous-jacent constitue un moyen de lisser ces fluctuations
d’échantillonnage47. Parmi les lois les plus souvent utilisées figure la loi de
Makeham, que l’on appliquera ci-dessous, après avoir présenté l’approche générale.

5.1. Maximum de vraisemblance discrétisé


Dans le cadre du modèle binomial48, le nombre de décès observés à l’âge x,
x , D x , , suit une loi binomiale de paramètres  N x , q x    et la vraisemblance
associée à la réalisation d’un nombre d x de décès est donc égale à :

46
La fonction de hasard h est traditionnellement notée µ en démographie.
47
Pour des arguments plus développés, voir le support sur les « lissages et ajustements ».
48
On peut en pratique souvent se ramener à ce modèle modulo une détermination adaptée de l’effectif
soumis au risque.

104
P ( D x  d x )  C Nd xx q xd x 1  q x 
N
xd x
.
Pour l’ensemble des observations on obtient donc la log-vraisemblance
suivante (à une constante indépendante du paramètre près) :
InL ( )  d
x
x In q x ( )  N
x
x  d x ) In (1  q x ( )).

Cette expression n’est pas très aisée à manipuler (par exemple dans le cadre du
x
modèle de Makeham on montrera que q x ( )  1  S  g c ( c 1) ), quoique
numériquement la recherche du maximum ne pose pas de problème majeur. Afin
de parvenir à un problème de moindres carrés pondérés, on réalise toutefois plutôt
en général l’approximation de la loi de qˆx par une loi normale :
 q x   1  q x    
qˆ x  N  q x ( );  2 ( )  
 Nx 
 
La fonction de vraisemblance s’écrit alors, en faisant l’hypothèse
d’indépendance entre les âges :
2
1  1 ( q x ( )  qˆ x ) 
L ( )   exp  
x  ( ) 2  2  ( ) 
2

d’où la log-vraisemblance :

 1  1 ( q x ( )  qˆ x )
In ( L ( ))   In   .
  ( ) 2  x 2  ( )
2
x

La fonction objectif est là encore complexe et le paramètre intervient à la fois


dans l’espérance et dans la variance de la loi normale ; cela peut engendrer une
certaine instabilité des algorithmes de recherche de l’optimum ; aussi, on va utiliser
la vraisemblance approchée dans laquelle on remplace la variance théorique par la
variance estimée. La maximisation de la vraisemblance est alors équivalente à la
minimisation de :

1 ( q x ( )  qˆ x ) 2 Nx
x 2   qx ( )  qˆ x  .
2

ˆ 2
ˆ x (1  qˆ x )
x q

Le problème est ainsi ramené à un problème de moindres carrés pondérés dans


le cas non linéaire ; il peut être résolu numériquement dans la plupart des logiciels
statistiques spécialisés.
Il reste toutefois à spécifier correctement ce que l’on utilise comme effectif de

105
référence N x pour l’expérience binomiale. Il apparaît raisonnable de souhaiter qu’en
moyenne le modèle soit sans biais, ce qui se traduit par E ( D x )  q x  N x . . En
l’absence de troncature et de censure, on choisit donc N x  S ( x ). . En présence de
troncature et / ou de censure, il faut prendre en compte ces phénomènes dans le
calcul. On peut montrer qu’il est alors raisonnable de retenir l’exposition au risque
N x  E x où E x   d i ( x ) avec d i ( x ) la durée de présence à risque de
i I

l’individu i. Ce résultat sera justifié dans le support sur les tables de mortalité.

5.2. Application : le modèle de Makeham

La loi Markham vérifie la relation : µ x  a  b  c x où µ x représente le taux


instantané de décès à l’âge x . Le paramètre a peut s’interpréter comme une
incidence accidentelle ; le coefficient b  c , correspondant à un vieillissement de
x

la population, fait croître le taux de décès de manière exponentielle. Compte tenu


de la croissance des taux de décès avec l’âge, on doit avoir une constance c
supérieure à 1 et un b positif. On a alors :

 b x 
Px  exp   µy dy   exp   (a  b  c y )dy   exp(a) exp  
x 1 x 1
c (c  1) 
 x   x   In(c) 
 b 
Posons s  exp(  a ) et g  exp    , , la fonction utilisée pour
 In(c ) 
l’ajustement des taux de décès discrets est donc : q x  1  Px  1  s  g c  c  1  .
x

C’est sur la base de cette version discrétisée du modèle que nous allons
dorénavant nous appuyer.

5.2.1. Adéquation de la courbe au modèle de Makeham


Avant de réaliser l’ajustement proprement dit, on cherche à valider
l’adéquation de ce type de fonction à la situation proposée. Pour cela on observe
que l’on a In(1  qx )  In( s )  cx (c  1) In( g ). Pour les qx proches de zéro49, on
peut faire l’approximation In (1  q x )   q x , , et donc :
 q x  In ( s )  c ( c  1) In ( g )
x

Il en résulte que q x  q x  1  c x ( c  1) 2 In ( g ), ce qui conduit à remarquer en


prenant le logarithme de cette expression que :

49
On peut retenir que le taux de mortalité à 60 ans est en France de l’ordre de 0,50 % pour les femmes,
et de 1,20 % pour les hommes (source : TV/TD 99/01).

106
In ( q x  1  q x )  xIn ( c )  In c  1 2

In ( g ) .

Sous l’hypothèse que les taux de mortalité suivent une loi de Makeham, les
points ( x, y  In(qx 1  qx )) sont donc alignés sur une droite de pente In ( c ) .
L’idée est donc de faire une régression linéaire et de produire une analyse de la
régression sur le modèle suivant :
Analyse de variance

Tab. 1 – Analyse de variance


On conclut éventuellement à l’ajustement par une droite sur l’intervalle
x 0  x  x1 en effectuant un test de Fisher (à un seuil à définir, par exemple 5 %).
On rappelle que la statistique de test de Fisher utilisée pour tester la significativité
globale d’un modèle de régression linéaire50 yi   0   1 x1  ..   p 1 x P 1   i
R2n  P
est Fp 1  avec
1 R2P 1
n

  yˆ  y 
2

R 2
 i 1 . Cette statistique suit une loi de Fisher (1, p  1) ,
n

  yi  y 
2

i 1

5.2.2. Ajustement par la méthode du maximum de vraisemblance


Une fois validé le fait qu’un ajustement de type Makeham peut s’avérer
pertinent, on cherche à en estimer les paramètres par la méthode du maximum de
vraisemblance. On notera incidemment que le maximum de vraisemblance
déterminé dans le modèle discrétisé étudié ici n’est pas identique au maximum de

50
C’est-à-dire pour valider le fait que les coefficients de régression soient non tous nuls.

107
vraisemblance direct que l’on obtient à partir du modèle de base continu.
On note   ( s, g , c) le vecteur des paramètres à déterminer et
x
q x ( )  1  s  g c ( c  1)
la fonction de Makeham à ajuster. On cherche le vecteur de
paramètre qui donne la fonction ajustant au mieux la courbe des qˆx (taux
d’incidence bruts observés).
On peut également simplement utiliser le solveur d’Excel. Dans tous les cas,
l’algorithme ne converge vers la vraie valeur du paramètre qu’à la condition de
partir d’une valeur initiale
0 assez proche de  .
Il convient donc de déterminer des valeurs initiales acceptables des paramètres.
On peut utiliser pour cela la propriété établie en 5.2.1 ci-dessus sur l’alignement des
points ( x, y  In ( q x 1  q x )); l’ordonnées à l’origine et la pente de la droite
déterminent g et c on peut trouver à partir de la relation
In ( Px )  c ( c  1) In ( g )  In ( s ). 51
x

Afin de tester si les coefficients de la fonction de Makeham ainsi déterminés ne


sont pas significativement égaux à zéro, on effectue un test de Student qui consiste
à comparer le ratio (estimation/écart type) à une loi de Student à m degrés de liberté
( (m  nombre d’âges observés – 3 paramètres estimés). On réalise enfin des tests
( qˆ x  q x ) 2
du Khi-2, sur la base de la statistique W   N x , q x étant le taux de
qx
décès théorique du modèle à l’âge x . La loi asymptotique de W est une loi
 2 ( p  3 1) , où p désigne le nombre d’âges intervenants dans la somme. Il
convient en pratique de manipuler avec précaution le test du Khi-2, la loi
asymptotique n’étant un  ( p  k  1) , p étant le nombre de classes et k le
2

nombre de paramètres du modèle que parce qu’ici l’estimateur est du maximum de


vraisemblance. Pour d’autres méthodes de détermination du paramètre, ce résultat
n’est plus vrai en général (voir FISCHER [1924]).
Le graphique suivant reprend l’ajustement Makeham réalisé par pseudo-
maximum de vraisemblance (en normant les effectifs sous risque à chaque âge) sur
la tranche d’âges 40-105 ans de la TF 00-02.

51
Le membre de gauche de l’égalité ne doit donc que peu dépendre de x.

108
Figure 1 – Ajustement de la TH00-02 à une loi de Makeham

5.3. Le modèle de Thatcher


En pratique, le modèle de Makeham conduit à une surestimation des taux de
décès conditionnels aux âges élevés. Afin de corriger cet surestimation, THATCHER
  e t
[1999] proposé un modèle proche en posant µ (t )    . En posant
1    e t
v  , (  )  1   exp( ) on remarque que 
 exp( ) 1 dv
du  , , ce qui conduit après quelques manipulations à
1   exp( )  v
1

 t 
S (t ) e v  , ( t ) . On en déduit notamment :

 1  1

e e
 t  t
E (T )  v  , (t ) dt 

(1   e ) t 
dt
0 0

Il reste à calculer q x  1 e x p   
x 1


x
µ ( y ) d y  , qui conduit à :

1

 v  , y ( x  1)  
q x  1  e   
 v ,y ( x) 
On obtient des ajustements proches de ceux obtenus avec le modèle de
Makeham, mais avec des taux légèrement plus faibles :

109
Figure 2 – Comparaison des ajustements Makeham et Tahtcher de la TH00-02

5.4. Ajustement des taux bruts sur la base des Logits

L’estimation des taux de mortalité qx est contrainte par le fait que l’on doit avoir
q x   0 ,1  ; ; en posant lg( x)  In(qx / (1  qx )), , le logit du taux de décès, on est
ramené à une valeur « libre » dans  ,   , et on peut alors utiliser les techniques
de régression linéaire sur des variables explicatives. Les variables explicatives candidates
les plus simples peuvent être l’âge et le logit des taux de décès d’une table de référence.

5.4.1. La fonction logistique

 x 
La fonction logistique est par définition lg( x )  In   est définie sur
1 x 
d 1
0 , 1  , elle est croissante sur cet intervalle : lg ( x ) 
dx x (1  x )
d2 1
On a par ailleurs : lg( x )  2
dx 2
x (1  x ) 2
Sur l’intervalle 0 ,1 / 2  , la fonction l g ( x ) est donc concave. Rappelons
que selon l’inégalité de Jensen, si f est convexe, alors E f ( X )  f ( E ( X )). . On
en déduit que, dans une zone où les taux de décès sont petits, et si l’on a estimé le
taux de décès par qˆx supposé dans biais, alors : E lg ( qˆ x )  lg ( q x )
En d’autres termes, les logits empiriques ainsi obtenus sont biaisés
négativement (ils sous-estiment les vrais logits). Comme la fonction lg( x ) (et son
inverse) est croissante, en sous-estimant les logits théoriques, cette démarche sous-
estime les taux de décès théoriques. La conclusion est inverse pour des taux de sortie
supérieurs à ½.

110
Dans le cadre d’un ajustement des yˆ x  lg( qˆ x ) , on obtient les taux de décès
ey
ajustés par la transformation inverse y  . La présence d’exponentielles
1 ey
dans cette expression conduit à une amplification importante du biais d’estimation
évoqué ci-dessus. Ainsi, dans le cas d’un risque décès, un modèle d’ajustement des
logits des taux de décès conduit à sous-estimer dans des proportions qui peuvent
être importantes (typiquement de 5 % à 10 %) les taux de décès.
Les modèles utilisant les logits des taux de décès doivent donc être utilisés avec
prudence dans le cas d’un risque en cas de décès. Ils intègrent au contraire une
marge de sécurité dans le cas d’un risque en cas de vie.
L’utilisation des régressions logistiques dans le cadre de variables qualitative
qx
est de plus « légitimée » par la remarque suivante : la quantité c x  est le
1  qx
rapport de la probabilité de « succès » à la probabilité d’« échec » dans le cadre d’une
expérience de Bernoulli ; cette grandeur s’interprète donc en disant qu’il y a « c x
fois plus de chances que le décès survienne qu’il ne survienne pas ». Il est alors
relativement naturel de chercher à expliquer le niveau atteint par c x à l’aide de
variables explicatives, et du fait de la positivité de c x le modèle le plus simple que
l’on puisse imaginer est obtenu en posant c x  exp( t  z x ) , avec z x le vecteur
des variables explicatives.
On se trouve alors dans le contexte d’un modèle linéaire généralisé52 avec une
fonction de lien logistique : lg ( q x )  t  z x   x ,
ce qui permet d’utiliser les procédures standards d’estimation disponibles dans
la plupart des logiciels spécialisés (une fois spécifiée la loi de x ). On peut également
e ' zx
noter que ce modèle peut s’écrire sous la forme : qx ( )  .
1  e ' zx
On peut donc rechercher la solution par la méthode décrite ci-dessus de
maximum de vraisemblance discret.

5.4.2. Ajustements logistiques


Le modèle de base d’ajustement logistique part du constat que sur une large
plage le logit des taux de décès présentent une tendance linéaire ; on propose alors
la modélisation suivante, version la plus simple du module présenté infra si l’on

52
Voir NELDER et WEDDERBURN [1972] pour la présentation originale et PLANCHET et al. [2005]
pour une introduction.

111
suppose que l’âge constitue une variable explicative pertinente :
lg ( qˆ x )  a  b x   x

où  est un bruit gaussien iid ; on régresse donc simplement les logits des taux
ey
de décès sur l’âge. La transformation inverse du logit étant y  , , le
1 ey
modèle lg( q x )  a  bx s’écrit de manière équivalente :

c e dx
q x 
1  ced x

en posant c  e a et d  b . . Une approche alternative à la régression


linéaire lg( qˆ x )  a  bx   consiste donc à effectuer une estimation par
ce dx
maximum de vraisemblance dans le modèle paramétrique q x  . . Cette
1  ce dx
approche évite a priori l’effet de sous estimation des taux de mortalité associée à
l’approche par régression linéaire, le taux de décès étant la variable modélisée (mais
l’estimateur du maximum de vraisemblance n’a toutefois pas de raison d’être sans
biais).
La détermination de la fonction de survie et de la fonction de hasard, liées l’une
 t 
à l’autre part la relation S ( t )  exp    µ ( s ) ds  nécessite de faire des
 0 
s ( x  1)
hypothèses. En effet, la relation q ( x )  1  conduit dans le cas général à
s( x)
la contrainte sur la fonction de hasard :
x 1
 I n 1  q x   µ (s)ds
x

Dans le modèle discret spécifié jusqu’alors x est a priori entier. Il faut donc
une règle de passage du temps discret au temps continu. On peut utiliser différentes
approches (Balducci, constance des taux de hasard par morceau, etc.). Si on choisit
l’hypothèse de constance de la fonction de hasard entre deux valeurs entières, on
trouve que la fonction de hasard est une fonction en escalier avec aux points entiers :
c d e d x
µ x  .
1  c e d x

En pratique il peut apparaître que la courbe des taux bruts qˆx présente un
décrochage à partir d’un âge pivot qui indique une accélération de l’incidence. Dans
ce contexte, on est amené à rechercher un ajustement via des modèles de type

112
logistique construits sur des ajustements de
In ( qˆ x / (1  qˆ x )) sur l’âge, qui jouera donc le rôle de variable explicative.
On cherche à ajuster les taux bruts sur une fonction de la forme :
In ( qˆ x / (1  qˆ x ))  ax  b  c  0   x  xc 
où x c est un « âge charnière » au-delà duquel la mortalité s’accélère (modèle
logit standard). En d’autres termes, on écrit le modèle de régression logistique
suivant :
In ( qˆ x / 1  qˆ x )  ax  b  c  0  ( x  x c )
où les (  X ) forment un bruit blanc gaussien. On peut généraliser ces modèles
en écrivant :
In ( q x / (1  q x ))  ax  b  c  0  ( x  x c )    x
Si on ne dispose pas de données suffisantes pour structurer correctement la
table complète, on peut imaginer d’utiliser la structure d’une table de référence
existante et de simplement positionner la mortalité du groupe considéré par
rapport à cette référence. Lorsque l’on souhaite positionner une table par rapport à
une autre, il peut apparaître naturel d’effectuer la régression des logits des taux
bruts sur les logits de la table de référence, ce qui conduit au modèle suivant :
In ( qˆ x / (1  qˆ x ))  aIn ( q x / 1  q x ))  b   x

5.4.3. Estimation des paramètres


Dans le cas du modèle de régression sur l’âge, l’estimation peut être effectuée
selon la procédure suivante : avant l’âge charnière x c , , on effectue une régression
linéaire de
In ( qˆ x / (1  qˆ x )) sur x , puis au-delà on fait une seconde régression (non
linéaire) de In  qˆ x / (1  qˆ x   ( a x  b )).
Dans le cas d’une régression des logits des taux bruts sur les logits d’une table de
référence, l’estimation est une estimation des moindres carrés ordinaires classique.

5.5. Intervalles de confiance pour les taux bruts


La première étape de la construction de la table de mortalité est constituée par
l’estimation des taux bruts à chaque âge. Il convient, au-delà de l’estimation
ponctuelle, d’avoir une idée de la précision de l’estimation effectuée. Celle-ci
dépend de deux facteurs :
 l’effectif sous risque, Nx , ,
 le niveau du taux de mortalité à estimer qx .

113
En effet, la précision sera d’autant meilleure que Nx est grand, et que qx est
grand. La précision sera mesurée par la largeur de l’intervalle de confiance. Pour
déterminer celui-ci, deux méthodes sont possibles :
 l’utilisation de l’approximation gaussienne, si l’on dispose de suffisamment
d’observations ;
 le calcul de l’intervalle à distance finie, qui est a priori possible puisque la loi de
qˆx est connue.
Dans un premier temps, on cherche donc quel type d’intervalle de confiance
utiliser. Pour cela on remarque qu’une relation lie l’incertitude de l’estimation, le
nombre d’observations et le niveau de confiance de l’intervalle désiré :
f (1  f )
 p  µa/2
N
où f est la valeur autour de laquelle est construit l’intervalle. (i.e. f est égale à la
valeur estimée *******) et up désigne le quantile d’ordre p de la loi normale centrée
réduite.
Exemple
Si la valeur à estimer x q vaut 0.2, si l’on souhaite un intervalle à 95 % pour une
précision de l’ordre de 0.01. Il est nécessaire de disposer de :
2
f (1  f ) 0, 2  0,8
N x    1, 9 6 2
p 2
µ / 2 0, 01 2

soit environ : N   6150


Si l’on ne dispose que de 3 000 observations on se tournera vers l’intervalle de
confiance à distance finie.
Au niveau de 95 %, en se plaçant dans le cas le plus défavorable d’une fréquence
égale à ½, on obtient un majorant (assez large) du nombre d’observations
1
nécessaires à l’obtention de la précision  p par N  .
P 2

5.5.1. Intervalles de confiance asymptotiques

Nx Désigne l’exposition au risque à l’âge x Dx le nombre de décès dans l’année


des personnes d’âge x, et on a estimé qx par qˆx . D’après le théorème central-limite :
q x  qˆ x  N (0,1)
Nx ,
qˆ  (1  qˆ ) N  
L’intervalle de confiance asymptotique de niveau *****pour x q est donc donné
par :

114
 q x (1  qˆ x ) q x (1  q x ) 
I   qˆ x  µ / 2 , q x  µ / 2 
 Nx Nx 
La limite de cette approche est qu’elle ne permet de construire que des
intervalles de confiances ponctuels, pour un âge fixé, mais ne permet pas d’encadrer
les taux de décès sur une plage d’âges fixées à un niveau de confiance connu. On
souhaite désormais encadrer les taux de décès simultanément sur tous les âges x
d’une plage d’âges  x 0 , x 0  n 
(où n est un nombre entier positif). L’encadrement des taux de décès
correspond donc désormais à une bande de confiance, et non plus à un intervalle
de confiance ponctuel.
On souhaite ici construire des bandes de confiance pour les taux de décès, et
non pour des fonctions de survie. En pratique, on cherche ainsi t ( qˆ x ) tel que
P ( q x  qˆ x  t ( qˆ x ),  x   x 0 , x 0  n   1   . . À cet effet, on s’appuie sur la
méthode d’estimation de Sidak, qui repose sur le principe d’inflation du seuil du
test lorsque le nombre de tests augmente (cf. par exemple ABDI [2007]).
Pour mémoire, une bande de confiance au niveau de confiance1   sur la plage
d’âges  x 0 , x 0  n  peut être présentée comme une collection d’intervalles de
confiance pour les différents âges x   x 0 , x 0  n  construits de manière à avoir un
intervalle simultané de probabilité égal à 1. Soit donc
P(qx  qx  t (qx ), x  x0 )  1   l’intervalle de probabilité de niveau 1  
(avec   0,1 pour q x à l’âge x  x0 . La probabilité simultanée d’encadrer les

taux de décès qx aux deux âges x  x 0 . et x  x 0  1 est alors 1   


2
, en
supposant l’encadrement indépendant sur ces deux âges. En répétant l’opération de
 n  est 1   
n 1
manière à inclure tous les âges de x0 , x0 , il apparaît
alors, toujours sous l’hypothèse d’indépendance, que la probabilité simultanée
d’encadrer les taux de décès qx pour les différents âges x   x 0 , x 0  n  est
x0 , x0  n.
Sur ces bases, on peut ainsi construire une bande de confiance au seuil  sur la
tranche d’âges  x 0 , x 0  n  , en constituant des intervalles de confiance
ponctuels pour chaque âge x   x 0 , x 0  n  au seuil :
puisque dans ce cas on a bien   1 1   
1/( n 1)

. Aussi, une approximation de
la bande de confiance permettant d’encadrer simultanément les taux de décès sur
tous les âges

115
x0 , x0  n  à partir de la méthode de Sidak est :

 q x (1  q x ) 
P  q x  q x  µ / 2 , x   x0 , x0  n    1  
 Rx 
avec   1  (1   )
1/( n 1)
. Les intervalles et bandes de confiance ci-dessus
permettent d’encadrer les taux de décès bruts au titre des fluctuations
d’échantillonnage, respectivement pour un âge donné ou sur une tranche d’âges. Les
bandes de confiance sont par construction plus larges que les intervalles de confiance.

5.5.2. Intervalles de confiance à distance finie


Ici on considère le cas où Nx n’est pas assez grand pour pouvoir utiliser le
théorème de la limite centrale, on s’appuie sur le fait que
P( Dx  k )  C  q  1  q k
Nx
k
x
k
x  pour calculer l’intervalle de confiance exacte à
distance finie. On cherche donc m tel que :
P  qˆ x  m   q x  qˆ x  m   1
En multipliant par x N les termes de l’inégalité dont on veut calculer la
probabilité on trouve que l’on doit avoir :
 N ( qˆ x  m a ) 1
 P  D x  k   P  qˆ x  m  q x  qˆ x  m   1  
k   N ( qˆ x  m a ) 

On peut imaginer une procédure itérative pour trouver m :


étape n°0
On calcule P ( Dx  k ) avec k  N x qˆ x que l’on compare à 1 , et si
P ( Dx  1)  1   , on passe à l’étape suivante.
étape n°j
On calcule P ( D x  k ) avec k  N x qˆ x que l’on compare à 1 .Si
Nqx  j
P ( Dx  k )  1   , on passe à 1   . Si  P  D x  k   1   , l’étape
k  N qˆ x  j

j + 1.
étape finale
j
Lorsque ce processus itératif s’arrête on pose m  
Nx

116
Chapitre 5
Méthodes de lissage et d’ajustement

1. Introduction
Lors de la construction d’une loi de survenance ou d’une loi de maintien, la
première étape consiste en l’estimation de taux bruts53 ; cette étape est incontournable,
que l’approche retenue soit une approche paramétrique ou une approche non
paramétrique. Les valeurs ainsi obtenues présentent une certaine irrégularité, dont il
est légitime de penser qu’elle ne reflète pas le phénomène sous-jacent que l’on cherche
à mesurer, mais qu’elle est le résultat de l’imperfection des conditions de l’expérience ;
les fluctuations d’échantillonnage induisent ainsi une variabilité « parasite » dans les
valeurs estimées. On souhaite alors « ajuster » ou « lisser » les valeurs brutes pour
représenter de manière plus fidèle la loi (inconnue) que l’on veut estimer. De manière
formelle, et en se plaçant dans le cas standard de l’estimation de taux d’incidence
(taux de mortalité, taux de sortie de l’incapacité, taux d’entrée en dépendance, etc.),
la procédure d’estimation initiale a conduit à une valeur qˆ x pour estimer qx , et donc
à une erreur e x  qˆ x  q x l’objectif de la révision de l’estimation que l’on va
conduire est de diminuer cette erreur, tout en construisant une courbe des taux en
fonction de x plus « lisse » que la courbe des taux bruts. On voit également que le
processus d’estimation des taux bruts considère en général les différents âges (ou
anciennetés) indépendamment les uns des autres, et ne tient donc pas compte des
relations qui existent manifestement entre eux : par exemple dans le cas de la
mortalité, et au moins à partir d’un certain âge, il semble naturel que la série théorique
des qˆ x soit croissante. La série des qx n’est en général pas croissante.

53
Ou l’estimation empirique d’une caractéristique de la distribution de survie : fonction de hasard
cumulée, fonction de survie, etc.

117
1.1. Régularité et précision
Le choix d’une procédure de révision des données brutes fait intervenir deux
types de contraintes qui devront être prises en considération de manière conjointe :
➢ la précision (ou fidélité) : il est naturel d’attendre des taux révisés qu’ils
soient proches des taux initiaux ; la régularité : la suite des taux ajustés sera
recherchée aussi régulière que possible. Comme lors de toute démarche statistique,
la pertinence de la procédure d’ajustement devra être validée par des tests.

1.2. Les différentes approches


Le processus de révision de l’estimation initiale peut être conduit de deux
manières :
– on peut se fixer une forme a priori pour la loi sous-jacente, en supposant par
exemple que la fonction de hasard est une fonction de Makeham ; il s’agit là d’une
démarche d’ajustement à une distribution définie par un certain paramètre  ; on
trouve dans cette classe de procédures les lissages par splines et les interpolations à
« jonction lisse »
– on peut ne pas chercher une représentation paramétrique, mais simplement
définir un certain nombre de traitement à appliquer aux données brutes initiales
pour les rendre plus « lisses » ; on trouve dans ces méthodes non paramétriques les
moyennes mobiles54, les lissages de type Whittaker-Henderson et leur extension
dans un cadre bayésien plus général.
D’un point de vue sémantique, on aura tendance par la suite à parler
d’« ajustement » dans le cadre paramétrique et de « lissage » dans le cadre non
paramétrique, quoi que cette terminologie ne soit pas fixée55. Les deux approches
sont développées ci-après.

1.3. Définitions et notations


Les méthodes de lissage font souvent appel à la série des différences terme à
terme de la série d’origine. On distingue en pratique trois opérateurs de
différentiation discrète :
• différence avant :  u ( x )  u ( x  1 )  u ( x )
• différence arrière :  u ( x )  u ( x )  u ( x  1 )
• différence centrale : ( x )  u  x  1   u  x  1 
   
 2   2 
Ces différent opérateurs peuvent être appliqués de manière récursive :

54
Qui sont d’une certaine manière les ancêtres des procédures de lissage.
55
Les anglo-saxons parlent de graduation.

118
  ; ainsi :  1  ;
  x   x  2 2 x  1 u  x 
2
u u  2u  u 
 2 
plus généralement,  u ( x ) s’écrit en fonction des coefficients binomiaux :
n

n
 n 
  
n  1
 n
u ( x )    1 u ( x  j )
j  0  j 
On obtient des expressions analogues avec

2. Les méthodes d’ajustement paramétrique


L’approche usuelle décrite dans le support « statistique des modèles
paramétriques » consiste à effectuer un ajustement à une loi paramétrique en
général continue ; elle ne sera donc pas redéveloppée ici.
Modèles de durée
On peut d’ailleurs noter que dans ce cas la méthode du maximum de
vraisemblance conduit directement des observations aux valeurs ajustées via
l’obtention des paramètres de la loi sous-jacente ; le raisonnement en deux étapes,
obtention de taux bruts, puis ajustement de ces valeurs, peut donc être simplifié.
Dans le cas de l’arrêt de travail, des méthodes initialement développées pour la
construction de tables de mortalité prospectives, comme la méthode de Lee-Carter,
peuvent être adaptées à l’ajustement de taux instantanés de sortie µ x t où x est
l’ancienneté de l’arrêt et t l’âge à l’entrée56.

2.1. Lissage par splines


2.1.1. Présentation
L’ajustement à une loi continue présenté en Erreur ! Source du renvoi
introuvable. Suppose implicitement que la courbe des taux d’incidence peut être
représentée sur toute la plage d’âges ou d’ancienneté considérée par une seule
fonction paramétrique. En pratique, du fait par exemple de ruptures dans
l’évolution des taux bruts, cette condition est assez restrictive. L’idée du lissage par
splines est de découper la plage de la fonction à ajuster en sous-intervalles, puis
d’ajuster sur chaque sous-intervalle une fonction simple, en prenant des
précautions pour le raccordement aux points de jonction. Un découpage bien choisi
doit en effet permettre d’utiliser sur chaque sous-intervalle une fonction
sensiblement plus simple que la fonction qu’il aurait fallu ajuster globalement. Les
polynômes sont des fonctions simples et peuvent à ce titre être utilisés pour
construire des lissages par spline ; en pratique, on considère à présent uniquement
des polynômes de degré 3 qui vont nous permettre de construire des splines

56
Voir le support de cours « tables de mortalité » pour la présentation de ces méthodes

119
cubiques. Le raccordement de ces arcs se fera en imposant aux points de jonction
la continuité ainsi que l’égalité des pentes et des courbures.

2.1.2. Spline cubique à deux arcs


Dans un premier temps, on suppose qu’un découpage en 2 parties de la plage
de variation des âges (ou anciennetés) est suffisant, et on pose donc :
 P ( x ) x  x  x
q x  
0 0 1 
 P 1 ( x ) x 1  x  x 2

Pi ( x ) étant un polynôme de degré 3, avec les contraintes au point de


jonction :
d d d2 d2
P0 ( x )  P1 ( x 1) P0 ( x 1 )  P1 ( x 1 ) P0 ( x 1 )  P1 ( x 1 )
dx dx dx 2 dx2
Cela conduit à poser P0 ( x )  c1  c 2 x  c3 x 2  c4 c 3 et
P1 ( x )  P0 ( x )  c5 ( x  x1 ) 3 . . Le problème comporte donc 5 inconnues (les 8
coefficients des polynômes moins les 3 contraintes de régularité). On utilise pour le
résoudre un critère de moindres carrés pondérés, sur la base de poids ( w x ) , , qui
conduit à rechercher les paramètres qui minimisent
x 2

M  
x  x
w x (q x  qˆ x ) 2
.
0

 On peut noter que dans cette approche il n’est pas nécessaire de disposer
de toutes les valeurs brutes qˆ x et que le spline pourra être interpolant pour les
valeurs manquantes. Si on note alors
x 1 la plus grande valeur de x inférieure ou égale à x 1 pour laquelle on
dispose d’une valeur de qˆ x , on décompose la somme intervenant dans le critère
M en deux sommes puis on écrit les équations normales en annulant les dérivées
M
par rapport aux paramètres :  0
ci
Après calculs, ces équations peuvent se mettre sous la forme :
X ' w X c  X ' w qˆ
la matrice X de taille ( m , 5) pour m valeurs de qˆ x disponibles sur  x 0 , x 2 
étant définie par :

120
1 x0 x 02 x 03 0 
 
 .. .. .. .. .. 
1 x1 x1 2
x1 3
0 
X   
 1   1   
3
1 x 11 x 1 2
x 1 3
x 1
1
 x 1

 
1 x2  2 
1  
2 3 3
 x 2 x 2 x  x
 Avec x 11 la valeur de l’indice postérieure à x1 pour laquelle qˆ x est
connue.

2.1.3. Splines cubiques : le cas général


Les expressions ci-dessus se généralisent aisément au cas de n nœuds
x1 ,..., xn , , avec une matrice de taille ( m , n  4 ) ; les coefficients sont obtenus par
l’estimateur des moindres carrés ordinaires :
X 
 1
c  " w X X ' w qˆ

2.1.4. Choix des paramètres


Le choix des paramètres se ramène ici au choix de l’emplacement des nœuds.
Comme la fonction d’ajustement est un polynôme de degré 3, on remarque que si
on ne dispose que de 4 valeurs de x qˆ dans l’intervalle  xi , xi 1  , les valeurs ajustées
seront égales aux valeurs brutes :
il convient donc de choisir des intervalles suffisamment larges ; en pratique les
changements de forme de la courbe brute pourront donner des indications sur
l’emplacement des nœuds.

2.1.5. Généralisation
La méthode de lissage par splines peut être présentée dans un cadre plus
général de régression non paramétrique, qui permet notamment d’introduire un
arbitrage fidélité / régularité au travers d’un critère analogue à celui de Whittaker-
Henderson (voir la section 3.3 ci-dessous).
Cette présentation ne sera pas développée ici, mais le lecteur intéressé pourra
consulter sur ce sujet BESSE et CARDOT [2001].

2.2. Interpolations à jonctions lisses


Si au lieu de calculer une estimation brute à chaque âge, on est amené à
regrouper les individus par groupe d’âges, on obtient ainsi des estimations brutes
par « paliers » (un palier correspond à un regroupement d’âges). Cette situation se

121
rencontre par exemple dans le cas de la construction de lois de maintien en arrêt de
travail, avec regroupement par âge pour l’âge à l’entrée.
On souhaite alors se ramener à des estimations pour chaque âge. La technique
des « interpolations à jonctions lisses » répond à cet objectif. On notera que
l’objectif n’est pas ici de lisser ou d’ajuster des valeurs irrégulières, mais de
compléter des valeurs manquantes. La technique de l’ajustement pas splines
cubiques permet également d’interpoler des valeurs manquantes, et elle devra être
utilisée de manière préférentielle à ces interpolations.

2.2.1. La formule d’interpolation d’Everett


On s’intéresse ici aux procédures d’interpolation symétriques, au sens où le
sens de l’interpolation ne modifie pas le résultat. Il est alors possible d’écrire la
formule d’interpolation sous la forme générale suivante :
q x  s  F ( s ) qˆ x  1  F (1  s ) qˆ x
 Pour 0  s  1 et F ( s ) un opérateur de différentiation de la
forme :
 F ( s)  P0 ( s)  P1 ( s) 2  P2 ( x) 4  ..
Avec  l’opérateur de différence centrale et les P i des polynômes. On peut
par exemple imaginer que l’on a des taux bruts quinquennaux, et on va utiliser cette
approche avec s  0 , 2; 0 , 4; .. F ( s ) pour obtenir les taux annuels par
interpolation. Si dans ‘expression de F ( s ) ci-dessus le dernier terme est en  2m

, alors q xs est déterminé à partir des 2 ( m  1) valeurs qˆ x  m ,..., qˆ x  m 1 . On


parle alors de « formule d’interpolation à 2 ( m  1) points ». Lorsque m  0 et
P0 (s) on obtient la formule d’interpolation linéaire classique. Enfin, on peut noter
que x s q  est un polynôme en s. On retrouve donc une interpolation de type
spline, comme en 2.1 ci-dessus.
On impose des conditions de régularité à la fonction d’interpolation ainsi
obtenue :
• la continuité implique que Pi (0)  0;
• l’égalité des dérivées aux points de jonction, qui implique l’égalité (formelle) ;
• l’égalité des dérivées secondes aux points de jonction, qui implique Pi " (0)  0 .

Les conditions ci-dessus n’imposent pas que la formule d’interpolation


redonne les valeurs d’origine aux points entiers, ie on peut avoir q x  qˆ x . . Pour
que l’on retrouve les valeurs d’origine aux points entiers, il faut de plus que
P0 (1)  1 et Pi (0)  0, i  1. On peut de même déterminer des conditions sur

122
les polynômes Pi pour que la formule soit exacte pour interpoler les polynômes de
degré Z fixé57.

2.2.2. Les formules à quatre points


En pratique les formules à 4 points, avec donc m  2 sont les plus utilisées. On
cherche donc à exprimer q xs en fonction de ; qˆ x  1 , qˆ x , qˆ x  1 , qˆ x  2 on
F ( s )  P0 ( s )  P1 ( s ) 2 a et il faut donc déterminer les polynômes P0 et P1 .
Les contraintes de continuité, de dérivabilité et d’invariance pour les polynômes de
degré un implique aisément que P0 ( s)  s, P1 (0)  0, P1 ' ( 0 )  0 et
1
P1 ' (1 )  ; on contrôle la régularité via l  P1 (1) . Au global, on a donc 4
2
contraintes et le polynôme de degré minimal qui les satisfait est de degré 3, avec
 1  2 1  3
l’expression suivante : P1 (s)   3 l   s    2l  s
 2  2 
Le cas particulier l  0 conduit à la formule de Karup-King, souvent utilisée en
1 2
pratique P1 ( s )  s ( s  1)
2

3. Les méthodes de lissage non paramétrique


3.1. Les moyennes mobiles
Les moyennes mobiles ont l’avantage de la simplicité de mise en œuvre ;
toutefois elles présentent un certain nombre d’inconvénients, liés pour l’essentiel à
la sensibilité de la moyenne arithmétique aux valeurs extrêmes, qui conduiront à ne
pas les utiliser souvent. A tout le moins, la moyenne mobile ne sera pas alors le seul
moyen de révision des taux bruts mis en œuvre.
Pour autant que l’on se restreigne aux moyennes mobiles symétriques, la
formule de base est ici :
 r
q x  
i r
a i qˆ x  i

Avec a  i  a i . La limitation majeure des moyennes mobiles est que leur


utilisation aux bords pose problème. Dans l’optique de diminuer une erreur
d’estimation dans le cadre de la mesure de taux théoriques qx on pourra se fixer des
contraintes consistant à exiger que si la série des qx présente la régularité d’un

57
On pourra se reporter à LONDON [1995].

123
polynôme, par exemple de degré 3, alors on souhaite que l’application de la
moyenne mobile ne modifie par les valeurs de qx ; en d’autres termes, on écrit
 r  r  r
q x  
i r
a i qˆ x  i ce qui conduit à : 
i r
a i  1 i2a
i r
i  0

Dans certains cas (arrêt de travail, avec les dimensions âge à l’entrée et
ancienneté de l’arrêt, ou mortalité prospective avec les dimensions âge et année), la
double dimension des tables amène à rechercher la méthode de lissage la mieux
adaptée dans chacune des dimensions.
L’idée est que, si on choisit de lisser dans un sens puis ensuite dans l’autre, on
risque de détériorer le premier lissage. On cherche donc à lisser la série dans les
deux sens en une seule fois. La méthode des moyennes mobiles est bien adaptée
pour cela. Elle est par exemple utilisée pour lisser les provisions calculées à partir
des tables réglementaires brutes. Dans ce cas le BCAC utilise :
1 1
q (i, j ) 
2
qˆ ( i , j ) 
16
k ,l
qˆ ( k , l ) , la sommation étant étendu aux 8

points entourant ( i , j ) . Cette démarche peut se généraliser à n’importe qu’elle


moyenne mobile, comme en Erreur ! Source du renvoi introuvable ; cependant, ce
procédé est mal adapté au traitement des bords du tableau, et conduit en pratique
à laisser subsister des irrégularités à ce niveau.

3.2. Les méthodes de noyau


Lorsqu’on estime la fonction de survie par une méthode non-paramétrique, la
fonction obtenue n’est pas dérivable, et il n’est donc pas possible de recalculer
simplement la fonction de hasard. Lorsqu’on souhaite régulariser la fonction de
1 n
répartition empirique Fn ( x)  1 X t  x , une méthode classique consiste à
n i 1
choisir une fonction K régulière, positive et d’intégrale unité, appelé noyau, puis à
poser :

1 n  Xi  x 
fˆh , n ( x )  K
nh i 1  h 

Lorsque h  0 et nh    , fˆh , n ( x ) converge vers f ( x ) et on a :

 
nh fˆh,n ( x)  f ( x)  N (0, f ( x)  K (u )2 du ).
Parmi les noyaux souvent utilisés on peut citer le noyau gaussien
1  x2  3
K (u ) exp    et le noyau d’Epanechnikov K (u )  1  u 2 1 u 1 . La
2  2  4

124
principale difficulté pratique consiste à déterminer la « bande passante » h optimale.
Dans le contexte d’un modèle de durée censuré, l’application directe de ces
formules introduit un biais du fait de la censure (droite). MARRON et PADGETT
[1987] ont proposé d’utiliser l’estimateur :
 fˆh , n ( t )  1  d i K  T i  t 
n

h i  1 ri  h 
1
dans lequel le saut uniforme du cas non censuré est remplacé par le saut de
n
l’estimateur de Kaplan-Meier lors d’une sortie non censurée. Pour une présentation
complète de ces méthodes, le lecteur pourra se reporter à WAND et JONES [1995].

3.3. Méthode de Whittaker-Henderson


Le principe de la méthode de Whittaker-Henderson est de combiner un critère
de fidélité et un critère de régularité et de rechercher les valeurs ajustées qui
minimisent la somme des deux critères.

3.3.1. Cas de la dimension un

On se fixe des poids (wi ) et on pose pour le critère de fidélité58 :


P
F  
i1
w i q i  qˆ i 
et pour le critère de régularité59 :
P  z 2

S    z
q i 
i  1
z étant un paramètre du modèle. Le critère à minimiser est une combinaison
linéaire de la fidélité et de la régularité, le poids de chacun des deux termes étant
contrôlé par un second paramètre h : M  F  h  S
La solution de ce problème d’optimisation satisfait aux conditions
M
 0,1  i  p; ; la résolution de ce système d’équations peut être effectuée
qi
au moyen de quelques manipulations matricielles. A cet effet, on pose
q  ( q i ) 1  i  p , et qˆ   qˆ i 1  i  p ; et w  diag ( wi )1i  p avec ces

notations on peut écrire F  (q  qˆ ) w(q  qˆ ) ; pour ce qui concerne le critère de


'

58
« fit » en anglais
59
« smoothness » en anglais.

125
régularité, si on note  q  (  z qi )1i  p  z , S  (  z q )  z q alors. Pour
z '

détailler cette écriture, on introduit la matrice de taille ( p  z, p) , dont les termes


sont les coefficients binomiaux d’ordre z dont le signe alterne et commence
positivement pour z pair60. Par exemple pour z  2 et p  5 on a
1 1 1 0 0 
K 2   0 1  2 1 0 
 0 0 1  2 1 
 1 1 0 
Si p  3 et z  1, on obtient K 2    . On vérifie aisément que
 0 1 1
zq  Kz  Kzq
, ce qui permet finalement d’écrire le critère M sous la forme :
En développant l’expression ci-dessus on trouve que :

M  q 'w q  2 q ' w qˆ  qˆ ' w qˆ  h q 'K z K z q


M
ce qui conduit à :  2 w q  2 w qˆ  2 h K '
z K z q . La
q
résolution de  M  0 conduit alors à l’expression des taux ajustés :
q

q  (w  hK K z )1 wqˆ
* '
z

L’inversion de la matrice C  w  hK z' K s nécessite toutefois certaines


précautions, car hK z' K s n’est pas inversible, et l’addition du terme w rend C
inversible, mais de ce fait l’inversion de C peut être délicate. On peut en pratique
utiliser la décomposition de Cholesky de la matrice symétrique positive C pour
l’inverser.

3.3.2. Extension en dimension deux


L’extension de la méthode de Whittaker-Henderson en dimension 2 (ou plus)
ne pose pas de problème majeur. On dispose donc d’estimations
qˆ   qˆ 
ij 1 i  p , j  q
; le critère de fidélité se généralise immédiatement :
P q

  q 
2
F  w ij ij  qˆ i j . L’extension en dimension 2 du critère de
i 1 j 1

60
Voir la section 1.3

126
régularité est un peu plus délicate ; on distingue d’abord la régularité verticale via
l’opérateur  vz qij (qui agit sur q i j à j fixé vu comme une série indicée par i) qui
P q 2

permet de calculer un indice de régularité verticale : S v     vz q i j  .


i1 j 1

De la même manière on calcule l’indice de régularité horizontale S h , puis on pose :


M  F    X v    S h qui doit être minimisé. La résolution du
problème d’optimisation s’effectue en réarrangeant les éléments pour se ramener
au cas unidimensionnel. Pour cela on définit le vecteur de taille p  q , u tel que :
u q ( i  1)  j  qˆ ij cela revient à prendre pour les q premiers éléments du vecteur u
la première ligne de la matrice q̂ , puis ensuite les éléments de la seconde ligne, et
ainsi de suite. De même on fabrique une matrice de poids en copiant sur la
 
*
diagonale les lignes de la matrice w ij . On pose donc w * q ( i 1)  j , q ( i 1)  j  wij
On procède de la même manière pour définir les matrices K zv et K yh . Les valeurs

 
1
lissées s’obtiennent alors par q  w   K z ' K z   K y ' K y
* * v v h h
w*u.
Un exemple
Voici un cas concret simple qui illustre cette méthode. Les taux bruts forment
une matrice P  q avec P  4 et q  3 . On choisit z  2 (resp. y  1)
v
comme degré de régularité verticale (resp. horizontale), on aura K de dimensionsz,

( q ( p  z ), m )  (6,12) et K yh , , de dimensions ( q ( p  z ), m )  (8,12) . La


construction en dimension un a déjà été faite précédemment. La ventilation de la
matrice verticale donne :
Modèles de durée
1 0 0 2 0 0 1 0 0 0 0 0
0 0 0 1 0 0 2 0 0 0 1 0

0 1 0 0 2 0 0  0 0 0 0
Kh2   
0 0 0 0 1 0 0 2 0 0 0 1
0 0 1 0 0 2 0 0 1 0 0 0
 
0 0 0 0 0 1 0 0 2 0 0 1
La ventilation de la matrice horizontale conduit à :

127
1 1 0 0 0 0 0 0 0 0 0 0
0 1 1 0 0 0 0 0 0 0 0 0 

0 0 0 1 1 0 0 0 0 0 0 0
Kh2   
0 0 0 0 1 1 0 0 0 0 1 0
0 0 0 0 0 0 1 1 0 0 0 0 
 
0 0 0 0 0 0 0 0 0 0 1 1
La méthode de Whitaker-Henderson en dimension 2 peut notamment être
appliquée sur des données de maintien en arrêt de travail, qui sont usuellement
estimées en fonction de l’âge à l’entrée et de l’ancienneté de l’arrêt. Cette méthode
permet un lissage conjoint dans les deux directions, plus efficace que le lissage
séparé selon chaque variable. Elle est illustrée ci-dessous sur des données de ce type :
Taux bruts Taux lissés

3.3.3. La méthode de Whittaker-Henderson comme lissage bayésien61


 z 2
p
La mesure de régularité S ( q )   
i 1
z
q i  peut être utilisée pour

définir une loi a priori pour le vecteur q  (qx ) ; en effet, on est naturellement
conduit à supposer que de petites valeurs de S sont associées à des valeurs « plus
probables » de q, ce qui amène à poser comme densité a priori :
fq (q )  c exp(  S )
avec c une constante de normalisation62 et  un paramètre. Si on fait de plus
l’hypothèse que l’erreur d’estimation ex  exp  qˆx  qx est distribuée selon une loi

61
Voir notamment TAYLOR [1992].
62
La notation c désigne dans la suite un terme constant qui peut changer en fonction de la formule
considérée.

128
normale centrée de variance  x2 , et que les différents âges (ou anciennetés) sont
 1 P  qˆ i  q i  2 
indépendants, on trouve que : f qˆ / q ( qˆ q )  c e x p  1  
 2 i 1  x2 
 
On se trouve alors dans les conditions d’application du théorème de Bayes pour
écrire la densité de q  (qx ) conditionnellement aux observations qˆ  (qˆx )
  q i  qˆ i  
2
P
1
f q / qˆ  q / qˆ   c exp    S 
2
  x2


 i 1

Maximiser cette expression en q est équivalent à minimiser
q i 
2
1 P
 qˆ i
M   S 
2
i1  2
;
x
on reconnaît le critère de Whittaker-Henderson ; le lissage de Whittaker-
Henderson a donc une interprétation probabiliste dans le cadre des lissages
bayésiens, décrits de manière plus générale ci-après.

3.4. Les lissages bayésiens


On a vu que la méthode de Whittaker-Henderson pouvait être justifiée par un
raisonnement probabiliste en faisant une hypothèse sur la loi a priori des vraies
valeurs et sur la forme de la loi conditionnelle des erreurs. Cette démarche se
généralise et conduit à la définition des lissages bayésiens, dont le plus connu est la
méthode de Kimeldorf-Jones.

3.4.1. Présentation générale

On considère donc q  (qx ) le vecteur des vraies valeurs que l’on suppose issu
d’une loi a priori fq (.) . Dans le cadre de l’expérience de mesure, on réalise des
observations issues de la loi conditionnelle sachant q, f qˆ/ q (.) . Cette loi est dans le
cas de l’estimation de taux de mortalité un produit de lois binomiales de
paramètres63 (nx , qx ); ; d’une manière générale cette loi est déterminée par le
contexte de l’expérience64.
A partir de ces deux distributions, on utilise la formule de Bayes pour
déterminer la distribution a posteriori de q :

63
Que l’on pourra approcher par une loi normale multidimensionnelle lorsque le nombre
d’observations est important.
64
C’est-à-dire de la procédure d’estimation des taux bruts.

129
f q / qˆ  qˆ / q 
f q / qˆ q / qˆ  fq (q )
f qˆ ( qˆ )
Enfin, à partir de cette distribution a posteriori on peut définir une version
révisée de l’estimateur
q̂ , par exemple par la méthode du « maximum de vraisemblance » en retenant
le mode de la densité a posteriori comme valeur ajustée. La difficulté de cette
approche est de définir les caractéristiques de la loi a priori. La méthode de
Kimeldorf-Jones, présentée ci-dessous, fournit un cadre de mise en œuvre de
l’approche bayésienne relativement général et bien adapté au contexte des lois
d’incidence (ou de maintien), dans lequel certaines indications utiles pour définir
les caractéristiques de la loi a priori sont fournies.

3.4.2. La méthode de Kimeldorf-Jones65


On se place dans le contexte de l’estimation de taux d’incidence. On fait
l’hypothèse que f q ( .) est une loi normale multidimensionnelle de paramètres
m ,   ; on a donc :
 1/ 2
 1 
f q ( q )    2  
p
exp   ( q  m ) '   1 ( q  m ) 
   2 
Avec q  q1 , ..., q p ) les p taux d’incidence à estimer. A ce stade de la
démarche, on suppose donné, et connu, ( m ,  ) . Dans ce contexte, et comme on
l’a vu en 3.4.1 ci-dessus, la loi de l’expérience est un produit de lois binomiales, qui
peuvent chacune être approchées par une loi normale, et on peut donc écrire :

ˆ q)   2  V 
p 1/2
 1 
fqˆ/ q (q/ exp   (q  m)'V 1 (qˆ  q) 
   2 
car les estimateurs bruts initiaux sont sans biais ; la matrice V est ici diagonale,
avec les éléments ni qi (1qi ) . La densité a posteriori est donc de la forme :
 1 
f q / qˆ (q/ qˆ )  C exp    ( q  m ) '  1 ( q  m )  ( qˆ  q ) 'V  1( qˆ  q )  
 2 
C étant une constante ; après quelques manipulations on peut mettre cette
expression sous la forme :
 1 1 
f q / qˆ ( q / qˆ )  C 'exp     ( q  z ) ' W 1 ( q  z )  
 2 2 
Avec z  (   V ) V qˆ   m  et W
1 1 1 1 1 1 1 1
  V V . Cela

65
Voir KIMELDORF et JONES [1967].

130
montre que cette loi est également normale. On en déduit l’expression naturelle des
taux ajustés66 :
q *  (  1  V 1 ) 1 (V 1  qˆ   1m )
Cette expression signifie que les taux ajustés sont une moyenne pondérée entre
les taux bruts et les taux a priori. Cette expression peut être écrite de la manière
suivante, utile pour les calculs :
q *  qˆ ( I p  V  1 )  1 ( m  qˆ )
Remarque : en toute rigueur les éléments de la matrice diagonale V sont les
n i q i (1  q i ) qui sont inconnus ; on peut dans la formule ci-dessus les remplacer
par l’estimateur n i qˆ i (1  q i ) , soit par les estimations a priori ni m i (1  m i )
Au-delà de l’obtention d’une version lissée des taux bruts, cette approche offre
au surplus l’intérêt de fournir un cadre simple de modèle stochastique de mortalité,
en fournissant une loi (normale) pour les taux de sortie du modèle.
Il reste toutefois à expliciter les paramètres de lissage ( m ,  ) ; les valeurs de
m sont l’idée que l’on peut se faire des taux d’incidence sans observations ; on peut
par exemple utiliser une référence comme les tables du BCAC en arrêt de travail,
une table de mortalité INSEE pour des taux de décès, etc. La situation est plus
délicate pour la matrice de variances-covariances  .
L’idée est de décrire une dépendance en fonction de l’écart d’âge ou
d’ancienneté décroissante entre les taux ; cela conduit à proposer la forme suivante
pour les coefficients de la matrice 
i j
 ij   i j p
Avec  i
2
et ( q i ) le coefficient de corrélation de 2 termes consécutifs. Il reste
à fixer des valeurs numériques pour ces p  1 éléments.

4. Validation de l’ajustement
Une fois l’ajustement terminé, il convient de vérifier sa validité par quelques
tests statistiques classiques, qui permettront notamment de s’assurer que les taux
révisés ne sont pas trop éloignés des taux bruts. Toutefois, dans certaines situations
(construction d’une table demortalité d’expérience par exemple), l’application de
règles de prudence peut conduire à des valeurs des taux ajustés délibérément
différentes des taux bruts (plus élevées par exemple pour un contrat en cas de
décès), et les tests statistiques devront alors être adaptés à cette situation.
Concrètement, il faudra abandonner les tests bilatéraux au profit de tests
unilatéraux mieux adaptés à la situation.

66
L’espérance d’une loi normale étant également son mode.

131
L’objectif de cette section n’est pas de décrire de manière exhaustive les tests à
conduire, mais plutôt de donner quelques pistes et illustrations pour conduire cette
démarche de validation.

4.1. Test du Khi-deux


Une fois l’ajustement (ou le lissage) effectué, le test du Khi-2 permet de vérifier
la qualité globale des taux révisés en s’assurant qu’ils ne sont pas « trop loin » des
taux estimés. On calcule la statistique :
 qˆ i
 qi 
2
P
Z  
i 1
ni
q i (1  q i )
Dans le cas d’un ajustement paramétrique par maximum de vraisemblance
avec r paramètres, alors la distribution (asymptotique) de Z est un
 2 ( p  r  1) ; dans le cas d’un lissage non paramétrique le nombre de degrés
de libertés est moins facile à déterminer.

4.2. Standardized mortality ratio (SMR)


Le SMR est défini comme le rapport du nombre de décès observé au nombre
de décès prédits dans une population de référence, avec l’objectif de décider si la
mortalité du groupe observé est identique à celle du groupe de référence ; on a ainsi :
P

D  D i
S M R   i 1
P
E

i 1
n iq i

Dans cette expression, E est une constante et D une variable aléatoire binomiale
que l’on peut approcher par une loi de Poisson, ce qui conduit à l’intervalle de
confiance suivant pour la variable SMR, dans le cas où la mortalité de référence ne
dépend pas du groupe étudié :
 u
1 
  u
1 

D 1   D 1 1  
 1  2
  SMR   1  2

E 9  ( D  1) 3 D  1  E  9  ( D  1) 3 D  1 
   
Dans le cas d’une mortalité de référence dépendant des données (à la suite donc
d’un ajustement), comme pour le Khi-2, la formule ci-dessus doit être adaptée en
fonction du contexte.

4.3. Test des changements de signe

Le signe de la différence d x  q x  qˆ x a, dans les conditions d’application

132
de l’approximation normale, une probabilité ½ d’être positif. Si les âges sont
indépendants, la probabilité que d x n’aient pas le même signe est donc aussi égale
à ½. Si la plage d’âge considérée contient p valeurs, alors on en déduit que le nombre
de changement de signe dans la série des d x 1 est distribué suivant une loi
 0 n  ( p  1) 
binomiale de paramètres  p  1, .
 P 1 
En particulier, le nombre moyen de changements de signe est d x . On en déduit
aisément un test, ou bien à distance fini67 ou bien en faisant l’approximation
gaussienne, en s’appuyant sur la statistique
2 n  ( p  1)
S 
P  1
où n est le nombre de changements de signe constaté.

67
Voir l’algorithme de construction d’intervalles de confiance pour une loi binomiale.

133
134
Partie II

Risques assuranciels et modèles actuariels

135
136
Chapitre 1
Risque et assurance

Dans ce chapitre, nous allons présenter quelques modèles utilises par les
assureurs afin de quantifier les risques pris. Nous insisterons sur deux risques
(parmi beaucoup d’autres). Le premier sera la modalisation des provisions pour
sinistres à payer, et plus particulièrement, la présentation de méthodes permettant
de quantir la marge d’erreur associe à ce calcul de provisions. Le second sera le
risque démographique présent dans les contrats d’assurance en cas de décès, ou
surtout en cas de vie.

1.1 Prise en compte de la dynamique en assurance


1.1.1 La problmatique du provisionnment en assurance
Comme le dénit (26), « les provisions techniques sont les provisions destinées
à permettre le rglement intgral des engagements pris envers les assurs et beneciaires
de contrats. Elles sont lies à la technique même de l’assurance, et imposees par la
reglementation ». D’un point de vue plus formel, à la date t, la compagnie
d’assurance est tenue de constituer une provision pour les sinistres survenus avant
la date t qu’elle sera tenu d’indemniser. Elle doit donc estimer le coût des sinistres
survenus, et retrancher les montants deja verses. Il s’agit donc fondamentalement
d’un probléme de prévision. En eet, contrairement a l’hypothese faite dans la
plupart des modeles actuariels, les couts de sinistres ne sont pas connus le jour de
la survenance du sinistre. Il y a tout d’abord un délai avant que le sinistre ne soit
declare a la compagnie d’assurance par l’assuré, puis un temps (plus ou moins long)
de gestion du sinistre, d’expertises, de paiements, avant de le clôturer plusieurs
mois, ou plusieurs années plus tard. La Figure 1.1 illustre la problématique du
provisionnement, avec un diagramme de Lexis de la vie des sinistres.

137
Figure 1.1– -Evolution de la vie des sinistres, sur un diagramme de Lexis, avec
en abscisse le temps calendaire, et en ordonnée l’âge des sinistres. Les sinistres
surviennent à la date •, sont declarres à l’assureur à la date + et clôoturés à la date
x. L’exercice de provisionnement consiste à estimer à une date donnée (ici fin 2010,
correspondant au trait plein vertica), le montant des paiements restant à faire pour
l’ensemble des sinistres survenus (déclarés ou pas). En pratique, le jour de la
déclaration du sinistre à l’assureur (  ) , le gestion de sinistre est tenu d’estimer un
montant pour le sinistre (à l’aide de facture à sa disposition, ou de ûts moyens de
sinistres similaires). Le montant reel du sinistre ne sera connu que le jour de la
clôture ( ) Entre ces deux dates, le gestionnaire de sinistre peut reviser ses
estimations de coûts, mais aussi eectuer des paiements. Toutefois, au lieu de
travailler sur des donnees individuelles, les donnees sont ici aggregees par annees
(comme indiquee sur la Figure 1.1) : on s’interesse à l’annee de survenance du
sinistre (notee i) et l’annee du paiement (par rapport à l’annee de la survenance,
notee j). Parmi les methodes reconnues par les autorites de contrôles, les plus
classiques sont basees sur les cadences de paiements. On raisonne pour cela par
annee de survenance de sinistre, et on suppose une certaine regularite dans la
cadence de paiement.
Le déroulement depend fortement du type de risque considere. Ainsi, le
tableau suivant donne une idee des cadences de réglement pour dierentes.

138
MODELES STATISTIQUES DU RISQUE EN ASSURANCE
Table 1.1 { Cadences de paiements, pour quelques branches d’activit_e (source
(9)). branches :
Réglements en n n 1 n 2 n 3 n 4
Multirisque habitation 55 % 90 % 94 % 95 % 96 %
Automobile 55 % 79 % 84 % 99 % 90 %
dont corpore l 13 % 38 % 50 % 65 % 72 %
Responsabilite civile 10 % 25 % 35 % 40 45 %

On constate donc que pour les branches RC, automobile (partie corporelle) et
générale, moins de 15 % des sinistres sont regles apres 1 an et il faut attendre 2 à 5
ans pour que la moitie des sinistres soient regles. Pendant tout ce temps, le bilan
doit reeter le coût probable de ces sinistres.

1.1.2 Quelques denitions et notations, aspects reglementaires et comptables


La plupart des methodes presentees ici sont detaillees dans (9), ou (28).
Classiquement, on notera i (en ligne) l’annee de survenance, i  1 , . . . , n ,
 j (en colonne) l’annee de developpement, j  0, ..., n  1,
Y i , j les incréments de paiments, pour l’annee de developpement j , pour les
sinistres survenus l’annee i, tableau 1.3
Ci , j les paiments cumules, au sens ou C i , j  Yi ,0  Yi ,1  ...  Yi , j , , pour
l’annee de survenance j, tableau 1.3
Pi i , la prime acquise pour l’annee i, tableau 1.4
Ni, j le nombre cumule de sinistres pour l’annee de survenance i vu au bout de
j annees, tableau 1.5

Table 1.2 – Triangle des incréments de paiements, Y= Y i , j .

0 1 2 3 4 5
1 3209 1163 39 17 7 21
2 3367 1292 37 24 10
3 3871 1474 53 22
4 4239 1678 103
5 4929 1865
6 5217

139
Table 1.3 -Triangle des paiements cumules, C = C i , j

0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730
3 3871 5345 5398 5420
4 4239 5917 6020
5 4929 6794
6 5217

Table 1.4 – Vecteur des primes acquises, P = (Pi).


Year i 1 2 3 4 5 6
Pi 4591 4672 4863 5175 5673 6431

1.1.3 Formalisation du probléme du provisionnement.


Le provisionnement est un probleme de prediction, conditionelle à
l’information dont on dispose à la date n. . On notera H n l’information disponible
à la date n, soit formellement
H n  (Yi , j ), i  j  n  (C i , j ), i  j  n
On cherche à étudier, par année de survenance, la loi conditionnelle de C i ,

sachant Hn , ou plutôt, si l’on suppose les sinistres clos au bout de n années la loi
de C i , n  1 (voire Ci ,n si l’on souhaite se laisser la possibilte d’incorporer un tail
factor) sachant Hn . Si l’on se focalise sur une annee de survenance particuli_ere,
osn pourra noter
Fi ,n i  (Yi , j ), j  0,..., n  i )  (Ci , j ); k  0,..., n  i )
Cette notation permet de prendre en compte que l’information disponible
change d’une ligne à l’autre (cf Figure 1.2).

Figure 1.2 – Les informations disponibles pour faire de la prédiction.

140
Table 1.5 -Triangle des nombres de sinistres, cumules, en milliers, N = (Ni ; j).
0 1 2 3 4 5
1 1043.4 1045.5 1047.5 1047.7 1047.7 1047.7
2 1043.0 1027.1 1028.7 1028.9 1028.7
3 965.1 967.9 967.8 970.1
4 977.0 984.7 986.8
5 1099.0 1118.5
6 1076.3

On cherchera par la suite à predire le montant des sinistres à payer pour l’annee
i , i.e.
Cˆ i(, nn  i )  e  C i , n F i , n  i 
et la dierence entre ce montant et le montant deja paye constituera la provision
pour sinistres à payer,
Rˆ  Cˆ ( n  i )  C
i i ,n i ,n  i

On essayera ensuite de quantier l’incertitude associee à cette prediction.


Comme on le verra les methodes usuelles visaient à calculer
m se  C i , n  i Fi , n  i  o u m se  Cˆ i(,nn  i ) 
ce que l’on appelera incertitude à horizon ultime. Mais ce n’est pas ce que
propose Solvabilite II, demandant plut^ot de mesurer une incertitude dite à un an.
Pour cela, on va s’interesser à la prediction qui sera faite dans un an,
Cˆ i(,nn  i  1 )  E  C i , n  i F i , n  i  1 
et plus particulierement le changement dans l’estimation de la charge ultime
 n  Cˆ ( n  i  1 )  Cˆ ( n  i  1 )
i i,n i ,n

Si cette dierence est positive, on parle de mali (il faudra goner la provision a_n
de pouvoir payer les sinistres), et si elle est negative, on parle de boni. On peut
montrer que
E   n
i F i , n  i   0
autrement dit, on ne peut esp_erer faire ni boni, ni mali, en moyenne. Les
contraintes reglementaires imposeees par Solvabilite II demandent de calculer
m s e   n
i F i , n  i  .
La Figure 1.3 montre les estimations de montant de provisions deux annees
consécutives.

141
Figure 1.3 – Estimation de la charge ultime Cˆ i , n deux annees consécutives ( n  1 et n ), avec en
gris le montant total de paiements deja eectues, C i,n  i et en noir le montant de provisions Rˆi .

1.1.4 Lecture transversale et longitudiligne des tables de mortalite


Classiquement en demographie et en assurance-vie, la probabilite qu’une
personne en vie à l’âge x soit en vie à l’âge x  h est calcule par
L  h
P (T  x  h T  x ) 
L
Où L j designe le nombre de survivants d’âge j, dans une table de mortalité.
Formellement, il faudrait toutefois prendre en compte la date à laquelle le calcul de
la probabilite se fait. Si on se place l’annee t, la probabilite precedante devrait s’ecrire
Pt (T  x  h T  x)  Pt (T  x  h T  x).Pt 1 (T  x  2 T  x  1)...
...Pt  h 1 (T  x  h T  x  h  1)
soit, si L t , j désigne le nombre de survivants âage j , observés l’année t,
Lt ,   1 Lt  1,   2 L
: Pt (T  x  h T  x )  . ... t ,  h 1   h
Lt ,  Lt 1,  1 Lt  h 1,   h 1
Il convient alors de pouvoir extrapoler ces données, car les L t , i pour des dates
futures sont aujourd’hui inconnnus. Et pourtant, ils interviennent dans les calculs
des pensions, des retraites, des assurances en cas de décés, etc, comme le montre la
Figure 1.4, correspondant au diagramme de Lexis Un des modéles les plus utilisés
pour modeliser la mortalite d’un point de vue dynamique est celui introduit par
(17), appelé communement modele de Lee & Carter. On suppose pour cela que le
taux de deces, a la date t pour une personne d’âge x dépend de trois facteurs,
µ  , t  e x p      . K t  ,
où       désigne l’evolution moyenne de la mortalite en fonction de
142
l’âge, et où k  ( k t ) permet de modéliser l’évolution de la mortalité dans le temps
(traduisant une globale amelioration des conditions de vie). Toutefois, en
multipliant par   (  x ) on peut prendre en compte le fait que les gains ne sont
pas identiques pour tous les âges.
En fait, la modelisation des durées de vie n’est pas tres eloignee de la modelisation
de la dynamique de la gestion des sinistres. Pour garder les mêmes notations, soit
L i , j le nombre de survivants d’âge j qui sont nes l’annee i. L i , j pourrait être vu
comme l’analogue de Ci , j , même si C etait croissant (en j) alors qu’ici L sera
decroissant en j. Dans le premier cas, on parlait de cadence de paiement, ici on parlera
de loi de survie. L’analogue de Y i , j , les increments de paiements, seront ici D i , j ,
le nombre de deces âge a l’âge j pour les personnes nées l’année i.

1.1.5 Plan du chapitre


La section 1.2 posera les bases de la m_ethode la plus populaire, a savoir la
methode dite Chain Ladder. L’idee est que l’on passe d’une annee de
développement a une autre un multipliant par une constante (reétant la cadence de
paiements), soit formellement C i , j  1   j .C i , j . Cette approche a ete formalisée
d’un point de vue stochastique par (19). On supposera alors que
E ( C i , j  1 Fi , j )   j .C i , j , soit Cˆ i , j  1  ˆ .C i , j . En rajoutant quelques
hypoth eses, il sera possible de calculer E ( C i , j  1 H n ) , , ainsi que mse
E ( C i , j  1 H n ), (21)
ont poursuivit les calculs sous ces hypotheses an d’etudier non plus
l’incertitude a ultime (comme le faisait Mack), mais l’incertitude a un an. Ils ont
ainsiobtenu une formule fermee pour un estimateur de mse   i F i , n  i  La
n

section
1.4 presentera une alternative a la modélisation proposee par (19) ou (21),
basée sur des approches par facteurs, utilisees dans les annees 70, et remise au go^ut
du jour à l’aide des modeles GLM. En particulier, dans la régression log-Poisson,
on supposera que Yi , j P ( Ai . B j ), c’est a dire que le montant de paiements
eectuee l’annee i  j pour les sinistres survenus l’annee i suivent une loi de
Poisson, avec un impact multiplicatif des facteurs Yˆi , j  Aˆ i . Bˆ j . Nous verrons
comment les methodes de simulation permettent d’estimer mse C i , n H  n  . En
fin, la section 1.5 se penchera sur la modelisation dynamique de la mortalite. En
particulier, nous insisterons sur les parralléles naturels qui existent entre les

143
modeles log-Poisson basés sur l’approche de Lee & Carter, et la regression.
log-Poisson appliquee a la problematique du calcul des provisions pour
sinistres à payer.

1.2 Les cadences de paiements et la methode Chain Ladder


L’utilisation des cadences de paiements pour estimer la charge future date des
annees 30. On suppose qu’il existe une relation de recurrence de la forme
C i , j  1   j . C i , j pour tout i , j  1 , . . . , n .
Un estimateur naturel pour  j , basé sur l’expérience passée est alors


n j
C
ˆ j  i 1 i, j1
pour tout j  1, . . ., n  1 .

n j
i1
C i, j

Il s’agit tout simplement du ratio moyen entre les annees de developpement j


et j  1 . De telle sorte que l’on peut alors predire la charge pour la partie
nonobservee dans le triangle,
Cˆ i , j   ˆn  i ....ˆ j  1  C i , j  1  i .

1.2.1 Des reecritudes du modéle


Notons qu’au lieu de calculer les facteurs de developpement, on peut aussi des
taux de developpement, cumules ou non. Autrement dit, au lieu d’ecrire
C i , j 1   j C i , j pour tout i , j  1, ..., n , on suppose que
C i, j   jC i,n ou Y i , j   j C i,n

On notera que
n
1  1 si j 1
  et   
  
j j
k  j1 k j j 1 si j 1
Ces valeurs ont ete calculees dans le Tableau 1.6. En n, un peu de reecriture
montre qu’il est possible de voir l’estimateur Chain-Ladder comme une moyenne
ponderee des facteurs de transition individuels, i.e.
n j
Ci, j C i , j 1
ˆ j   i , j où i, j  et i , j 

i, j n j
i 1 Ci, j Ci, j
i 1

144
Table 1.6 – Facteurs de développement, ˆ   ˆ  exprim_es en cadence de
i

paiements par rapport a la charge utlime, en cumule ( i .e .ˆ ) puis en

increments ( i .e .ˆ )

0 1 2 3 4 5
j 1,38093 1,01143 1,00434 1,00186 1,00474 1,0000

j 70,819 % 97,796 % 98,914 % 99,344 % 99,529 % 100,000 %

j 70,819 % 26,977 % 1,118 % 0,430 % 0,185 % 0,000 %

Aussi, on peut obtenir ces coecients a l’aide de regressions lineaires ponderees


sans constantes, en régressant les C . , j  1 sur les C . , j ,

 n j  C 
2

 
ˆ j  arg min   C i , j    i , j1   ,
 
 i 1  C i , j  

ou encore
 n  j 1 2
 j  arg min 
ˆ   Ci , j  Ci , j1   ,
  i 1 Ci , j 
 
A partir du calcul des facteurs de transition ˆ  ˆi on complete alors le
triangle, en remontant d’annee de survenance en annee de survenance, en
commencant par j  1, puis j  2 , etc (d’echelon en echelon, d’ou le nom de
cette methode). Le triangle complete est presente dans le Tableau 1.2.1.

Table 1.7 – Triangle des paiements cumules, C  ( C i , j ) i  j  n avec leur


projection future Cˆ  Cˆ i , j ) i  j  n .

0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730 4752.4
3 3871 5345 5398 5420 5430.1 5455.8
4 4239 5917 6020 6046.15 6057.4 6086.1
5 4929 6794 6871.7 6901.5 6914.3 6947.1
6 5217 7204.3 7286.7 7318.3 7331.9 7366.7

1.2.2 Une approche par sommes marginales


Au dela de l’approche Markovienne du probleme de provisionnement que l’on
vient de voir (et qui sera reprise dans la section 1.3), il existe une caract erisation

145
particuliement interessante, que l’on retrouvera dans la section 1.4.
En fait, si l’on cherche des vecteurs A  ( A 0 , ..., A n ) et
B  ( B 0 , ..., B n ),
avec B 0  ...  B n  1, , tels que
n j n j n j n j

i1
Ai B i  
i1
Y i , j pour tout j et i1
A i B i   Y i , j pour tout
i1
i,
(on ne somme que sur la partie observee du triangle) les montants predits dans
la partie inferieure du triangles, i.e. ( A i B i ) i  j  n , , concident avec les quantites
prédites par la methode Chain Ladder ((24)).
Proposition 1.1 S’il existe A  ( A 0 , ..., A n ) et B  ( B 0 , ..., B n ), avec
B 0  ...  B n  1, tels que
n j n j n j n j

i1
Ai B i  
i1
Y i , j pour tout j et i1
A i B i   Y i , j pour tout
i1
i,
alors
n 1
Cˆ i , n  Ai  C i , n .   k
k k i
n 1 n 1 n 1
1 1 1
Où B k   jk j
 
j  k 1  j
, avec B0  
jk j
.

Autrement dit, le montant de provision concide avec l’estimateur obtenu par


la methode Chain Ladder.
Preuve 1.1 La demonstration se fait de maniere recursive. Commencons par
reecrire les conditions,
n j n j n j n j

 Yi, j  Ai Bi  B j  Ai , et
i 1 i 1 i 1
Y
j 0
i, j C0,n .

Pour i  1 dans la derniére somme, on en déduit que


n j
Yi, j n 1
A0 
j0
  Yi , j  C 0 ,n .

n 1
j0
B j j0

Supposon que la relation sur les Ai soit veriee pour 0 , 1, 2 , ..., n  k  1,

 Bj  
i n 1
et que j0 j i
 j 1 aux étapes n , n  1 , . . . , k Alors à l’etape
n  k,

146

k
n j n  k 1 n  k 1 n 1 Yn  k , j
A  Ai  An  k   C i ,k  k 
j 0


i k
i 1 i 1 i 1 k  n i
j 0
Bj

qui peut se reecrire


n  k 1 n 1
C
 C i,k  k  n  k ,k


k
i 1 k ni
j 0
B j

soit encore
n  k 1 n 1 n 1 n 1 n 1


i 1
Ci ,k  k Cnk ,k  k 
k  n i k  n i

k  n i
Ci ,k 
k  n i
k

De plus, en reecrire

n  k 1
k k 1 n 1 Y
B B  B k 1   1 j0 j ,k
 

j j j n  k 1
j 1 j0 jk
j0
Aj
Pour le terme de droite, en notant que
n  k 1 n  k 1 n  k 1 n  k 1


j0
Y j, k  
j0
 S j , k  1  S j , k  j0
S j , k 1  j0
S j ,k

on obtient que :
k n 1 n 1

 B j  (1  1  n1k )
j 1

j  n  k 1
 j1  
jnk
 j1 .

En soustrayant a chacune des etapes, on obtient le resultat annonce. Nous


reviendrons sur ce mod_ele dans la sectionn 1.4, car la regression de Poisson (dont
les parametres sont estimes par maximum de vraisemblance) cocide avec la mthode
des marges ((2)).
Remarque 1.1 L’idee de cette methode remonte aux annees 30. Comme le note
(1), decrivant la methode Chain-Ladder, « son apparente rigueur mathematique et
sa simplicite semblent resoudre sans eort toutes les dicultes. Il n’en est
malheureusement rien. [… ] La cadence de rglements ne peutp être constante que
si l’assureur prend en charge un nombre de sinistres susant pour que la loi des
grands nombres puisse jouer. Les changements de jurisprudence qui aggravent la
responsabilite des assures et les depreciations monetaires aboutissement a une
augmentation des indemnites allouees, et ralentissent la cadence des reglements des
exercices anterieurs dont les sinistres non encore regles se trouvent majores ». Et
plus precisement, (13) remarquait que « la methode de la cadence numerique
appliquee aux elements statistiques que nous possedons nous parât donc devoir
donner des resultats empreints d’une assez grande incertitude. »

147
1.3 De Mack a Merz & Wuthrich
La methode dite Chain Ladder, que nous venons de voir, est une methode dite
deterministe, au sens ou l’on ne construit pas de modele probabiliste permettant de
mesurer l’incertitude associee a la prediction du montant des reserves. Dierents
modeles ont ete proposes a partir des annees 90, a partir du modeles de Mack,
jusqu’a l’approche proposee par Merz & Wuthrich qu introduira la notion
d’incertitude a un an.

1.3.1 Quantier l’incertitude dans une prediction


Nous avons obtenu, par la methode Chain Ladder un estimateur du montant
de provision, Rˆ. Classiquement, pour quantier l’erreur associee a un estimateur ˆ
d’un parametre,  on calcul la mean squared error mse – associee, E ˆ     
2

Or on cherche ici a quantier l’incertitude de l’estimateur R̂ associe a une variable
aleatoire R. Le mse sécrit alors en comparant ˆ a E ( R ),


msep ( Rˆ )  E  Rˆ  E ( R ) 
2
  E  biais ( Rˆ , R )   .
2

Si l’on souhaite comparer a R R (qui est ici une variable aleatoire) on ne parle
pas de mse, mais de mse de prediction, notee msep (on ne predit pas sur les donnees
passees, mais on utilisera les donneees pour calibrer un modele qui servira ensuite
a faire de la prediction pour les annees futures). Aussi


m e s p ( Rˆ )  E  Rˆ  R 
2
.
Ce terme peut se decomposer en deux (en faisant une approximation au
premier ordre), au sens où


E  Rˆ  R 
2
  E  Rˆ
 E ( R )    E  R  E ( R )  

2

     
2

Var ( R )
m s e ( Rˆ )

Où le terme de gauche est l’erreur d’estimation, compte tenu du fait que nous
avons dû estimer le montant de provisions a partir de la partie superieure du
triangle, et le terme de droite est l’erreur classique de modele (tout modele
comportant une partie residuelle orthogonale aux observations, et donc
imprevisible). En fait, en toute rigueur (et nous en aurons besoin par la suite), on
cherche plutôt a calculer un msep conditionnel a l’information dont on dispose au
bout de n annees,

m s p n ( Rˆ )  E   Rˆ  R 
 
2
H n 
148
(19) a propose un cadre probabiliste an de justier l’utilisation de la méthode
Chain-Ladder. Pour cela, on suppose que C i , j   j0
est un processus

Markovien, et qu’il existe   (  j ) et      tels que2


j

  
 E Ci , j 1 H i  j  E Ci , j 1 Ci  j   j .Ci , j
 

  
Var Ci , j 1 H i  j  Var Ci , j 1 Ci  j   j .Ci , j
2

On note que sous ces hypothéses,

   
E Ci , j 1 H i  j  E Ci , j  k Ci  j   j .. j 1 ... j  k 1Ci , j
(19) rajoute une hypothése supplémentaire d’indépendance entre les années de
survenance, autrement dit C 
i, j j  1,..., n
et C  i ', j j  1 ,..., n
sont indépendant
pour tout i  i ' .
Une réécriture du modéle est alors de supposer que
Ci , j 1   j Ci , j   j Ci , j  i , j
Ou les résidus (  i, j ) sont i.i.d, centres et de variance unitaire. A partir de
cette ecriture, il peut parätre legitime d’utiliser les methodes des moindres carres
ponderes pour estimer ces coecients, en notant que les poids doivent ^etre
inversement proportionnels a la variance, autrement dit aux C i , j , i.e. à j donne,
on cherche a resoudre
 n  j 1 2 
m in    C i, j   jC i j  
 i 1 C i , j 
Pour tester ces deux premieres hypotheses, on commence par representer les
C . k  1 en fonction des C . k  1 à j donne. Si la premiere hypothese est veriee, les
points doivent être alignes suivant une droite passant par l’origine. La Figure
1.5 montre ainsi les nuages de points pour j  1 et j  2 . Pour la seconde
hypothese, on peut etudier les residus standardises ((19)
C i, j1  ˆ j C i, j
parle de weighted residuals), i, j  .
C i, j

L’utilisation des residus standardises ous donnent d’ailleurs une idee simple
pour estimer le parametre de volatilite.
2
n  j 1  
1 C  1   jCi, j
ˆ 2j  
n  j  1 i 1 
 i, j
Ci, j


 

149
ce qui peut ussi s’ecrire
2
n  j 1  
1 C i, j 1
ˆ 2
j   
n  j  1 i 1  C i , j
  j
 C i, j

 
(ce qui est a rapprocher de l’ecriture du facteur de transition  comme
moyenne ponderee des facteurs de transitions observes).
Cette methode permet d’estimer les dierents arametres intervenants dans le
modele de Mack.

1.3.3 La notion de tail factor


Classiquement on suppose que la premiere ligne de notre triangle est close : il
n’y a plus de inistres ouverts, et donc le montant de provision pour cette annee de
survenance est nul. Cette igne servira de base pour tous les developpements
ultrieurs. Cette hypothese peut ^etre un peu rop forte pour les branches a
deroulement long. (20) a pose les bases des premiers modeles oujours utilises. On
supposera qu’il existe alors un    1 tel que
C i ,  C i,n   .
Une méthode ui a souvent ete utilisee a repose sur l’idee que l’on pouvait
projeter les i par une extrapolation xponentielle (ou une extrapolation linaire des
log (  k  1) ), puis on pose
   
k  n
ˆ k
Mais mieux vaut faire ttention, en particulier s’il y a des valeurs aberrantes.
Exemple 1.1 Sur notre triangle, cette ethode prevoit de rajouter 0 : 07 % de
charge par rapport a la prediction faite par les mthodes lassiques (en supposant la
premiere ann_ee close), comme le montre la Figure 1.6.

1.3.4 De ‘incertitude sur Rˆ i et R̂

L’incertitude est ici quantiee à l’aide du mean squared error,

  
mse( Rˆi )  mse(Cˆi ,n  Ci ,n1 )  mes Cˆi ,n  E Cˆi ,n  Ci ,n  H n
2

En utilisant l’approximation evoquee auparavant, on eut eecrire le mse sous la
forme

   
2
mse ( Cˆ i , n )  Var Cˆ i , n H n   E Cˆ i , n H n  Cˆ i , n 
 
ou l’on n terme d’erreur de modele, et un terme d’erreur d’estimation. Pour le

150
  
premier terme, Var Cˆ i , n H n  E Cˆ i , n Fi , n  i )  Var ECˆ i , n Fi , n  i )   
Soit
   
Var Cˆ i , n H n  E Cˆ i, n1 Fi , n  i . n2  Var E (Cˆ i , n Fi , n  i )  
d’où, en it_erant sur le dernier terme,

    
Var Cˆi,n Hn  E Cˆi,1n Fi,ni . n21   E(Cˆi,n2 Fi,ni ). n2z Var(Cˆi,n2 Fi,ni .n22  .n21
  
etc. On arrive, en iterant jusqu’a n  i (car Ci ,n1 est observe), à la relation
n 1
Var (Cˆ i , n H n )    
ln
n i ... k 1C i , n  i   k2  1... n21

en tilisant le fait que pour n  i  k  n


Cˆ i , n   n  i ... k  1 C i , n  i .
De l’autre côte,

    
E Cˆ i , n H n  E E Cˆ i , n Fn ,n  i  n 1.E (Cˆ i , n 1 Fi , n i 
ce qui donne, par iterations successives,

 
E Cˆ i , n H n   n 1 . n  i 1 ... n .C i , n  i .

Aussi,

 
2
E Cˆi ,n Hn  Cˆi,n   Ci2,ni  ni ...n1...ni ...n1 2
 
Pour estimer le premier terme, on remplace simplement  k par ˆ k et  2
k
n 1
par ˆ , de telle sorte que Var (Ci ,n H n ) 
2
k  ˆ
k  n i
n 1 ...ˆk 1Ci ,n i ˆ k2 ˆk21...ˆn21
ce qui se eecrit encore, en se basant sur ‘estimation de la charge ultime (et plus
sur la derni_ere valeur observee)
n 1
ˆ k2 / ˆk2
Var ( C i , n H n )  Cˆ i2,n 
k  n i Cˆ i , n
Pour le second terme, ça se complique un peu, car on ne peut pas simplement
remplacer k par on estimateur. On va alors reecrire sous la forme d’une somme,
n 1
 n i ...n 1  ˆn i ...ˆn 1    S k
  k  n i

151

S k  ˆn 1...ˆk 1  k  ˆk  k 1...n 1 ,
ce qui permet d’ecrire le arre de la somme
n 1


k ni
S k2  2  S j S k .
j k

En notant que

 2

E k  ˆk  H k  Var ˆk H k     k2
 j 1 C j,k
nk
,

on en deduit que
 k2
E  Sk2 H k   ˆn i ...ˆk 1 k 1...n1.
 j 1 C j ,k
nk

Et en revanche, pour j  k , E ( S j S k H k )  0. . Aussi, un estimateur pour le


second terme peut être
n 1
ˆ k2 / ˆ k2
ˆ n  i . . .  

n 1 n  k
k  n  i
j1
C j ,k

Proposition 1.2 Le mean quared error du montant de provision mse ( Rˆ i ) pour


une annee de survenance i, peut être stime par

n 1
ˆ k2  1 1

mes ( Rˆi )  Cˆ i2,n  C
ˆ2
  nk .
ˆ
k  n  i k  Ci , k  j 1 C j ,k 
i ,n 2
 
Toutefois, une compagnie doit au minimum provisionner pour la ranche
d’activite, et par par annee. Il faut ensuite calculer le mse pour
Rˆ  Rˆ  . . . 
1 Rˆ fait, on notera que
n

 n 
2

 
n
m es Rˆ  E    Rˆ i   Ri   Hn 
  i2  
 i2 
o.e.

 n  n
 
mes Rˆ  Var   Ci ,n H n    Var  Ci ,n H n 
 i 2  i 2
Comme on suppose que les annees de survenance sont nd_ependantes, le
premier terme se simplie,

152
 n  n
Var   Ci , n H n    Var  Ci , n H n 
 i2  i2
(dont les terms sous le signe sommee ont ete calculés auparavant). Pour le
second terme, il peut être réécrit
2
 n ˆ 
  E ( C i,n H n )  C i,n 
 i 2 
Soit
n

  E (C
i , j 2
i ,n H n )  Cˆi ,n .  E (Ci ,n H n )  Cˆi ,n  .
 

En utilisant les notations precedantes, notons que

 E (Ci ,n H n )  Cˆi ,n  .  E (C j,n  j H n )  Cˆ i ,n   Ci ,n i Fi  . Ci ,n i Fj 


1.        

Ce qui permet de reecrire le mean squared error pour R̂ . En eutilise alors


l’astuce de tout a l’heure pour estimer F i F j .
Proposition 1.3 Le mean squared rror du montant de provision mse ( Rˆ ) ,
pour l’ensemble des annees de survenance, peut être estime par
n n 1 n 1
ˆ k2 / ˆk2
mes ( Rˆ )   mes ( Rˆ i )  2  Cˆ i , n Cˆ i , n 

nk
i2 2i j n k  n i
l 1
C l ,k
Cette vision est parfois appelee vision a l’ultime de l’incertitude elative au
montant de provision. Exemple 1.2 Sur le triangle m e s ( Rˆ )  7 9 .3 0 , alors
que m es ( Rˆ n )  68.45, dmse m e s ( Rˆ n  1 )  3 1 .3 ou m e s ( Rˆ n  2 )  5 .0 5

1.3.5 L’incertitude a un an e Merz & Wuthrich


Pour comprendre la notion d’incertitude à un an, placons nous un an en
arriere. A la n de l’annee n  1 , nous disposions du triangle sans la derniere
diagonale, que ‘on avait alors complete par la méthode Chain Ladder (Tableau
1.3.5). Si l’on ne s’interesse u’aux annees antérieures, i  1, ..., n  1, , à la n de
l’annee n , nous avions obtenu un riangle avec une diagonale supplémentaire que
l’on avait alors compl ete par la méthode hain Ladder (Tableau 1.3.5).

153
Table 1.8 – Triangle des paiements cumulés sur les années antérieures,
C  ( C i , j ) i  j  n 1 avec les projection future Cˆ  ( Cˆ i , j ) i  j n 1 .

0 1 2 3 4
1 3209 4372 4411 4428 4435
2 3367 4659 4696 4720 4727.4
3 3871 5345 5398 5422.3 5430.9
4 4239 5917 5970.0 5996.9 6006.4
5 4929 6810.8 871.9 902.9 693.9

A la fin de l’année n  1, , e montant de provisions constitue était de 2114 ; 61,


pour ces n  1, premiéres années. Au nal, on pensait payer 27513 ; 61 (toutes

Table 1.9 – Triangle des aiements cumulés sur les années antérieures,
C  ( C i , j ) i  j  n 1 avec la projection future Cˆ  ( Cˆ i , j ) i  j  n .
0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730 4752.4
3 3871 5345 5398 5420 5430.1 5455.8
4 4239 5917 6020 6046.15 6057.4 6086.1
5 4929 6794 6871.7 6901.5 6914.3 6947.1

Années confondues). A la _n de l’ann_ee n, la charge totale était revue à la


hausse, assant à 27697 ; 33. Cette augmentation de 183 ; 72 est appelée mali. C’est
l’incertitude associee à cet quantite qui est aujourd’hui demande dans Solvabilite II.
Formellement, il onvient d’introduire dans les notations la date à laquelle est
faite l’estimation. Par exemple, on distinguera


n  i 1

n  i 1
C i , j 1 C i , j 1
ˆ jn  i 1 ˆ n 1
 i 1


et j n i

ni
i 1
C i, j i 1
Ci, j
La section précédante permet de monter que
E ( ˆ jn H n )   j et E ( ˆ jn 1 H n 1 )   j
Sauf qu’ici, on se place toujours à la date n . Il convient alors de calculer
E ( ˆ jn  1 H n 1 )
Notons ue si l’on pose S nj  C1, j  C2, j  ..., CC n 1

154
  
n i 1 n i n 1i
Ci , j 1 C Ci , j 1 Cn j , j 1
ˆ n 1
 i 1
 i 1 i , j 1
 i 1


j n i
Ci , j S nj 1 S nj 1 S nj 1
i 1
soit simplement :

ˆ S nj .ˆ jn C n  j , j 1
j 
n 1

S nj  1 S nj  1
Lemme 1.1 Sous les hypotheses du modeles de Mack,
S nj ˆ n C
ˆ 
E  j H n  n 1 . j   j . n nj1, n .
n 1

Sj Sj
On en deduit en particulier que
j 1

 
E ˆ jn 1 H n  Ci ,n i .n i.  E  ˆ
k  n i 1
n 1
k Hn . 
En reprenant les notations de (21), on peut _etudier la variation du boni/mali
d’une année sur l’autre, c’est-à-dire du changement dans la prediction de la charge
totale, entre deux annees.
Pour cela, on introduit le concept suivant
Denition 1.1 Le claims development result C D R i ( n  1 ) pour l’annee de
survenance i, entre les dates n et n  1 , aussi appele boni ou mali (suivant qu’il
est positif ou negatif), est
CDRi ( n  1)  E ( Rin H n )  Yi , n  i 1  E ( Rin 1 H n 1 )  ,
où Y i , n  i  1 correspond a l’increment de paiements,
Yi , n  i 1  C i , n  r 1 C i , n  i
On notera que C D R i ( n  1 ) est une martingale H n  1
mesurable, et
que l’on peut réécrire
CDRi (n  1)  E (Ci ,n H n )  E(Ci ,n H n 1 ).
De plus,
 n 1 n 1  S n C 
E (CDRi (n  1) H n )  Ci ,n i   ˆ jn  n i .   nj1 .ˆ jn   j . nnj1, j  
 j  n i 
j  n i 1  S j Sj 
 
On peut reecrire cette derniere expression
  n 1  Cn  j , j  
E (CDRi (n  1) H n )  Ci ,n i  1  nni .  1  ( j  ˆ jn ). n n 1   .
 ˆn i j  n i 1  ˆ j S j  
 

155
A l’aide de ces relations, on peut calculer, puis estimer, le mse de pr_ediction
conditionel du boni-mali, par annee de survenance i pour commencer, puis en
aggregeant toutes les annees. Pour l’erreur de modelisation, on peut noter que
 n2i / n2i
Var (CDRi (n  1) H n )  E (Ci ,n H n ) 2 .
Ci ,n i
Cette derniere grandeur est parfois appelee erreur de pr_ediction prospective
Pour l’estimation de ce terme, on considere naturellement
2 2
ˆ n  / nni 
n 2  n i 
ˆ
Var (CDRi (n  1) H n )  (Ci ,n ) . .
Ci ,ni

2
1 n j  Ci , j 
 i , j 1  C
2
ˆ nni    ˆ
 n
C j 1 

n  j i 1  i , j 1 
En revanche pour le second terme, c’est un peu plus complique. On peut
toutefois ecrire
  n 1 n 1  S n Cn j, j 
2

E    j   n  i .   n 1 ˆ jn   i . n 1
 ˆ   H n  .
2 n j
C i ,n i
  j  n 1 
j  ,  i 1  S j Sj 
   
Un peu de calcul permet alors d’obtenir l’ecriture suivante
n 1  n 1   2j /  j2  n 1  2  2j /  j2  n 1   2j /  j2  
  j2     1    j Sn   1  2  
 j  1 
S nj  
n
j  n i  j  n i   j  n  i 1 
 j 
 j  n  i 1 
 S j
n
S
Où  j  j
n 1
.
S j
On arrive nalement a la propriete suivante
Lemme 1.2 Sous les hypotheses du modele de Mack, un estimateur de
E ( C D R i ( n  1) 2 H n )

mse(CDRi (n  1) H n )  Cˆi2,n ˆ i ,n  ˆ i ,n  
2
ˆ n2i 1 n 1  Cn  j 1, j  ˆ 2j
ˆ i , n      ˆ 2 n

ˆn2i 1S nno11  S ,1
j  n i  2  j  j S j

156
   ˆ 2j 
ˆ n2 i 1 n 1
ˆ

Et i , n   1 
ˆn2 i 1
  

1 
ˆ n 1 2
C n  j  1, j  1

  j ni 2
  j  S j 
2

Remarque 1.2 On peut noter que Cˆ i2, n ˆ i,n
est un estimateur de
2
E (  E (CDRi (n  1) H n )  H n )
 
En revanche Cˆ 2
i,n ˆ i,n
est un estimateur de

Var ( CDRi (,  1) H n ).
(21) ont alors approche ce dernier terme terme par
2
ˆ n2i 1  Cn  j 1, j
n 1  ˆ 2j
ˆ i , n  2  
ˆn i 1Ci ,n i 1 k  n i  2  S nj 1
 ˆ 2
  j Cn  j 1 j
en faisant tout simplement un developpement de la forme
 (1  µi )  1   µi , mais qui n’est valide que si ui est petit, soit ici
ˆ 2
j
  C n  j1 j.
ˆ 2
j

Pour l’erreur d’estimation, on parle egalement d’erreur de pr_ediction


retrospective, il convient de calculer, puis d’estimer
E   C D R i n  1  
2
H n ,
et pas seulement E ( C D R i (n  1) H n )
2

Comme nous venons de le faire. Mais comme nous le rappelerons par la suite,
la r_eglementation ne tient pas compte de ce terme, car il est illegal de supposer
C D R i (n  1)  0 .
Toutefois, pour ce terme, il est possible de montrer la propriete suivante
Lemme 1.3 Sous les hypotheses du modele de Mack, un estimateur de
2
E (  C D R i ( n  1)  C D R i ( n  1)  H n ) est
 
mse(CDRi ( n  1) H n )  Cˆ i2,n 
ˆ  ˆ
i ,n i ,n  

  
 ˆ n2i 1   n1  ˆ 2j
ˆ
i , n   1  2   1 C   1
 ˆ C   j ni 1  ˆ 2  S n1  2 n j 1, j  
 n i 1 i , n i 1 
  j  j   
157
(21) ont alors approch_e ce dernier terme terme par
2
n1 ˆ 2j   Cn j 1, j 
i,n  
ˆ
2  n1  ,
ˆ
j ni 2   C Sj 
 j  n j 1, j 
2

en faisant l à encore un développement de la forme


 (1  µ )  1   µ , mais qui n’est valide que si µ
i i i
est petit, soit ici

ˆ 2j
 Cn j 1 j .
ˆ 2
j
En considerant ces approximations, et en supposant qu’il est legalement
impossible de predire autre chose que C D R i ( n  1)  0, on peut nallement
reecrire
Chapitre 1
Proposition 1.4 Sous les hypothéses du modéle de Mack,
dmsen (\CDRi (n + 1)) _ [ b Cn
 n 2 2
  Cˆ n  j 1 j 
2

2 ˆ n  i 1   1  ˆ nj 
 
n 1
   1  1 
 ˆ 
CDRn CDRi (n  1)  Ci ,n 
n
  ˆ n  2  Cˆ
  n 
S n i 1 
ˆ 
j  n  i  2  ˆ n 
2
 Sˆ nj
 n 1
 ˆ

 
  n i 1   i ,n i 1   j   Sj   
Pour rappel, la formule de Mack proposait
 n 2 2
 1 
2 ˆ n  i 1   1 1  n 1 ˆ nj  1 
ˆ  
ˆ
msen Ri  Ci , n 
n  
  ˆn 2
 
 ˆ
 n 
ˆ  
j  n  i  2  ˆ n 
2

 Cˆ
 n .
Sˆ j  

  n i 1   Ci , n i 1 S n i 1    j  i , j

Autrement dit, dans le mse du CDR, seulement le premiere terme de l’erreur
de modele de la formule de Mack est considérée, et pour l’erreur d’estimation, on
ne considere que la premiére diagonale i  j  n  1 (les termes suivants etant
ecrases par le facteur Cˆ n  j 1, j / Sˆ m 1
j ).
Enfin, si l’on regarde nalement ce qui se passe toutes annees de survenance
confondues, on a une formule qui peut encore se rapprocher de celle proposee par
Mack, a savoir
n
msen ,  CDR(n  1)    msen  CDRi (n  1) 
i 1

 ˆ n  2 / ˆ n  2 ˆ n



2
/ ˆnni 1  
2

    
n 1 C     
2 Cˆin,nCˆl,nn  
n i 1 n i 1 n j , j n i 1

 
 j n i 1  
i 1 n j i 1
i l  C
k 0 k ,,n i
C
k 0 k , j
C
k 0 k ,,n i 
 

158
n 1
Cette approximation n’est toutefois valide que si C n  j  1, j  S j . . Et dans
ce cas, on peut s’attendre a ce que l’incertitude a un an soit inferieure a
l’incertitude a ultime.
Exemple 1.3 Sur le triangle 1.2 msen (CDR ( n  1))  72.57, alors quedmsen
msen (CDRn ( n  1))  60.83, msen (CDRn ( n  1))  30.92 ou encore
msen (CDRn  2 ( n  1))  4 : 48. La formule approchee donne des résultats
semblables.

1.4 Regression Poissonnienne et approches économetriques


Dans cette section, nous nous eloignerons des modeles recursifs inspires de la
methode Chain Ladder, et nous reviendrons sur des classes de modéles trés utilises
dans les annees 70, appeles modeles a facteurs, remis au go^ut du jour en proposant
une lecture econometrique de ces modeles, permettant ainsi d’obtenir des
intervalles de conance des diéerentes grandeurs.

1.4.1 Les modéles à facteurs, un introduction historique


Avant de pr_esenter l’utilisation des modéles de régression, on peut
commencer par évoquer des mod_eles plus anciens. Par exemple (27) supposait que
Y i , j  r j .µ i  j ,
pour tout i , j
i.e. le paiement eectue l’annee i  j pour les sinistres survenus l’annee i est
function d’une et colonne (de cadence de paiement) et un eet diagonal, que Taylor
interprete comme un facteur d’ination. Ce mod_ele peut se reecrire, des lors qu’il
n’y a pas d’increment positif,
lo g Y i, j   i   i j
qui prend alors une forme lineaire. Comme nous l’avons noté à la fin de la
section 1.2 un modéle de la forme
Y i , j   i  b j pourra se rapprocher du modéle Chain Ladder.
(29) avait egalement propose d’utiliser une courbe d’Hoerl, c’est-à-dire
log Yi , j   i   i .. log( j )  i . j
Remarque 1.3 Dans cette section, nous travaillerons davantage sur les
incréments
de paiements Yi , j que sur les montants cumulés C i , j . En e_et,
conditionnellement aux facteurs (ligne, colonne ou diagonale), il semble plus

159
vraisemblable de supposer les C i, j comme étant des variables indépendantes,
alors que les C i, j ne le seront probablement pas.

1.4.2 Les modéles Gaussiens de de Vylder et de Christophides


(8) a été un des premiers modéles économétrique de provisionnement. Pour
cela, on suppose que Yi , j N  i  j ,  2
 , pour tout i , j
On peut estimer les coe_cients par moindres carres,
 
 
ˆ , ˆ  arg min  Yi , j  i  j   .
2

 i, j 
Les _equations normales s’ecrivent ici
 Y i, j ˆ j
et ˆ j
 j
Y i , jˆ i
ˆ j
,
i
 j
ˆ 2
j  j
ˆ 2
j

ce qui ne resoud pas explicitement. Pour le résoudre, (5) a suggere de le reecrire


comme n modele log-lineaire, i.e.
log Yi , j N ( ai  b j ,  2 ), pour tout i , j

1.4.3 La regression oissonnienne de Hachemeister & Stanard


(12), (15) et enfin (18) ont montre que dans une égression log-Poisson sur les
increments, la somme des predictions des paiments à venir orrespond à l’estimateur
Chain Ladder. On retrouve ici un resultat pouvant être relié à la m_ethode des
marges présentee à la n de la section 1.2. On suppose ici que
E Yi , j  µi , j  exp  ri  c j   a i .b j .
Il y a ici un 2n paramétres a estimer, a   a0 ,..., a n  et b   b0 ,..., bn 

avec une contrainte de la forme b0  ...  bn  1 (car il nous reste un degré de


liberté). ompte tenu du choix des facteurs (ici un facteur ligne r ( o u a ) et un
facteur colonne c ( ou b )) , une ois estimés ces paramétres, il est possible de
prédire la partie inférieure du triangle trés implement, i.e.
Yˆi , j  µˆ i , j  exp  rˆi  cˆ j   aˆ i .bˆ j .
Remarque 1.4 Si les seuls facteurs qui nterviennent dans la modelisation sont
un facteur ligne et un facteur colonne, on peut aisément redire toutes les valeurs
telles que 0  i , j . On a alors Yˆ  aˆ . bˆ , pour i + j > n. En revanche, si
i, j i j

l’on integre une et calendaire (d’ination comme dans (27)), il sera alors _ecessaire

160
e prevoir les valeurs futures du facteur diagonal, Yˆi , j  bˆ j .ˆi  j , pour
i  j  n. où i , j  bˆ j . i  j , esigne une prediction de l’eet diagonale (predit a
partir des ˆ 0 , ˆ1 , ..., ˆ n ).
La valeur de eference est la valeur dans le coin superieur gauche. Compte tenu
de la forme logarithmique u mod_ele, on a une interpretation simple de toutes les
valeurs, relativement a cette premiere valeur
E (Yi , j H n )  E (Y0,0 H n ).exp  ri  c j  .
Exemple 1.4 Sur le triangle 1.2, on obtient la ortie de régression suivante, en
régressant sur un facteur ligne, et un facteur colonne.
Call :
Glm (formula  Y lig  col , family  poisson (« log »), data = base)
Deviance Residuals :
Min 1Q Median 3Q Max

-2.343e + 00 -4.996e-01 9.978e-07 2.770e-01 3.936e + 00

Coefficients :

Signif. codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance : 46695.269 on 20 degrees f freedom Residual deviance : 30.214
on 10 degrees of freedom (15 observations deleted due to missingness) AIC : 209.52

161
Number of Fisher Scoring iterations : 4
Les prédictions Yˆi , j sont ndiquees dans le tableau 1.4.3.

Table 1.10 – Triangle des prédictions d’incréments de paiements,


ˆ ˆ par une égression log-Poisson.
Y  (Yi , j ) 0i , j  n
0 1 2 3 4 5
1 3209 4372 4411 4428 4435 4456
2 3367 4659 4696 4720 4730 4752.4
3 3871 5345 5398 5420 5430.1 5455.8
4 4239 5917 6020 6046.15 6057.4 6086.1
5 4929 6794 6871.7 6901.5 6914.3 6947.1
6 5217 7204.3 7286.7 7318.3 7331.9 7366.7

1.4.4 Incertitude dans un modele de regression


Nous avions note uparavant qu’obtenir une estimation du montant de sinistres
restant a payer ne susait pas, et u’il fallait avoir un intervalle de 26 Chapitre 1
conance, ou – au moins – une mesure de la ispersion du vrai montant autour de
cette valeur predite.
Les formules econometriques ermees
Les modeles de regressions pourraient para^_tre tres interessants car il existe
des formules ferm_es pour toutes sortes de pr_edictions. Par exemple, dans une
régression GLM avec un lien logarithmique, rappelons que
E ( Y i , j H n )  µ i , j  e x p ˆ i , j 
ou encore

Yˆi , j  µi , j  exp ˆi , j 


La delta method nous permet d’écrire que
2
 µi, j
 
V a r Yˆi , j 
 i, j
.V a r ˆ i , j 

ce qui se impli_e dans le cas où le lien est logarithmique, i.e.


 µ i , j
 µ
 
i , j
i , j

Aussi, pour une loi de Poisson urdispersée (comme dans (22)),

 
E  Yˆi , j , Yˆi , j   ˆ.µˆ i , j  µˆ i2, j .V ar ˆ i , j 
2

pour la partie inf_erieure du triangle. De plus, ar il sera n_ecessaire de sommer

162
tous les termes de la partie inférieure du triangle pour éterminer le montant total
de provisions,
C ov (Yˆ , Yˆ )  µˆ  µˆ .C ov ˆ , ˆ  .
i, j k ,l i, j k ,l i, j k ,l

Le montant de provision que l’on cherche à estimer étant la somme des


predictions de aiements à venir, Rˆ   i  j  n Yˆ i , j ,
Remarque 1.5 Cette formule est alheureusement asymptotique, ce qui est
rarement le cas en provisionnement ou l’on dispose de res peu de données.
Exemple 1.5 Sur notre triangle, on obtient un mean squared error de l’ordre
de 131 : 77. _

Les methodes de simulations


Les methodes de simulation sont une bonne alternative si on dispose de trop
peu de donnees pour invoquer des theoremes asymptotiques. Rappelons, comme le
notait (19) qu’il existe 2 sources d’incertitude,
– l’erreur de modele (on parle de process error)
– l’erreur d’estimation (on parle de variance error) Il sera alors nécessaire
d’utiliser deux algorithmes pour quantier ces deux erreurs. An de quantier l’erreur
d’estimation, il est naturel de simuler des faux triangles (supérieurs), puis de
regarder la distribution des estimateurs de montant de provisions obtenus pour
chaque triangles. A l’etape b, on genere un pseudo
triangle à l’aide des r_esidus de Pearson. Rappelons que pour une regression
de Poisson,
Y i , j  µˆ i , j
 i , n  . :
µˆ i , j
Les erreurs de Peqrson obtenues peuven être visualisées dans le Tableau 1.4.4

Table 1.11 – Le triangle des résidus de Pearson  , où


ˆi , j  µˆ i, 1/j 2 .  Yi , j  µˆ i , j  .
0 1 2 3 4 5
1 0.948 -1.128 -1.533 -0.489 -0.427 0.000
2 0.024 0.277 -2.213 0.792 0.414
3 0.116 0.056 -1.024 -0.297
4 -1.082 0.891 4.237
5 0.130 -0.211
6 0.000

On considére les erreurs de Pearson (et non pas les erreurs brutes Yi , j  µˆ i , j )
car les donn_ees ont hétérescéedastiques. Les erreurs de Pearson ont été déenies de

163
maniére à normaliser les résidus (que l’on pourra alors supposer i.i.d).
Remarque 1.6 Les résidus de Pearson ne sont générallement pas Gaussien, ils
sont simplement centres et reduits. La Figure 1.7 montre en particulier que les
supposer aussien nous ferait probablement sous-estimer la Value-at-Risk pour un
niveau élevé.
En imulant des erreurs (qui sont supposees independantes et identiquement
 b


distribuee),  b   i , j , on pose alors

ˆ b
 µˆ i, j  µˆ i, j . b
i, j .
Pour generer des erreurs, la methode la plus suelle st d’utiliser une simulation
nonparametrique, c’est a dire que l’on va bootstrapper les residus armi 28 Chapitre
1 les pseudoresidus obtenus. Sinon il est aussi possible d’utiliser un modele
arametrique (par exemple supposer une loi normale, même si rien – theoriquement
– ne ustie cette méthode).
Le Tableau 1.4.4 presente un triangle simulé Y b
 Y b
i, j 
Table 1.12 – Triangle de paiements bootstrapé, Y
b
 Y b
i, j 
0 1 2 3 4 5
1 3155.7 1216.4 42.2 18.2 9.0 22.9
2 3381.7 1245.4 84.0 18.2 11.1
3 3726.1 1432.5 61.44 23.44
4 4337.3 1642.8 74.6
5 4929.0 1879.8
6 5186.1

Table 1.13 – Triangle de residus simule par bootstrap, 


b
   ib, j  .
0 1 2 3 4 5
1 0.00 0.414 -1.082 -0.211 0.0277 0.414
2 0.277 -1.024 4.237 -0.489 0.792
3 -2.213 -1.024 0.056 0.000
4 0.414 0.024 0.792
5 0.130 0.130
6 -0.427

Une fois simule un pseudo triangle d’increments de paiments, on predit un


montant de provision Rˆ b (par exemple via une methode Chain Ladder, ou en
refaisant une modelisation log-Poisson si les increments de paiements sont tous
positifs). La variance des Rˆ b correspond a l’erreur d’estimation. Le Tableau 1.14
presente la modelisation du triangle simule 1.4.4 par un

164
Modele log-Poisson Yˆ b
 Yˆ  La
b
i, j
somme des termes dans la partie
inferieure donne une valeur possible pour l’estimation du montant de provision
Rˆ b  2 4 4 8 . 1 7 5 .
Afin de prendre en compte l’erreur de modele, plusieurs methodes peuvent
être utilisees. La premiere, et la plus simple, consiste à noter qu’a partir du pseudo
triangle Yi , j , peut obtenir des predictions pour la partie inferieure, Yˆi ,b j , .
b

Compte tenu du modele Poissonnien, on peut alors simuler une trajectoire


b
possible d’incr_ements de paiements en simulant les Y i , j , à l’aide de loi de
Poisson de parametre Yˆi ,b j , . Le Tableau 1.4.4 une simulation de paiements futurs

à partir du triangle simulé 1.4.4 Y


b
P ( Yˆ b ). . La somme des termes dans la
partie inferieure dans MODELES

Table 1.14 -Triangle des prédictions Yˆ b  ( Yˆi ,b j ) . obtenues sur le triangle


simulé, Yˆ b
 ( Yˆi ,b j ) .
0 1 2 3 4 5
1 3157.5 1199.1 56.7 18.4 9.7 22.8
2 3369.9 1279.8 60.5 19.6 10.3 24.4
3 3735.8 1418.7 67.1 21.7 11.5 27.0
4 4331.7 1645.1 77.8 25.2 13.3 31.4
5 4934.6 1874.0 88.6 28.7 15.2 35.7
6 5186.1 1969.5 93.1 30.2 16.0 37.6

une valeur possible pour les paiements restant a faire Rb .

Table 1.15 – Triangle de paiements simules, Y b


P ( Yˆ b )
0 1 2 3 4 5
1
2 29
3 10 24
4 27 11 37
5 94 34 16 40
6 1956 102 26 15 36

La seconde methode est d’utiliser une relecture du modele de (19), propos ee


par (10). A partir du pseudo triangle, on va utiliser les facteurs de developpement
ˆ j et les variances associes ˆ 2j obtenus sur le triangle initial. On prolonge alors le
triangle dans la partie inferience via le modele dynamique

165

Cˆ ib, j 1 Cˆ ib, j ,..., Cˆ ib,0  
N ˆ j Cˆ ib, j , ˆ 2j Cˆ ib, j 
Exemple 1.6 Sur le triangle 1.2 la variance empirique de R nous permet d’avoir
 
un bon estimateur de mse Rˆ Ici, a l’aide de 100 000 simulations, on obtient la
distribution pour R donnee sur la Figure 1.8. Sur cet exemple, on obtient un ecart-
type (empirique) pour les simulations de R b de l’ordre de 84 : 12 (ce qui se
rapproche davantage des 79 : 3 de la methode de Mack, que des 131 : 7 obtenus par
developpements asymptotiques).

1.4.5 Quel modele de regression ?


Nous avions justie l’utilisation de la loi de Poisson, car le montant de provisions
predit coincidait avec l’estimateur Chain Ladder. Mais rien ne permet de justier
statistiquement l’adequation de la loi de Poisson a nos donnees. 30 Chapitre 1 Prise
en compte d’une eventuelle surdispersion En fait, la regression quasi Poisson
peutéventuellement être plus adaptee (comme cela est mentionne par exemple dans
(25)).
Exemple 1.7 Sur le triangle 1.2 une modelisation par une loi quasiPoisson
donne la sortie suivante Call : glm (formula = Y ~ lig + col, family = quasipoisson
(« log »), data = base) Deviance Residuals :

166
Signif. codes : 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasipoisson family taken to be 3.18623) Null
deviance : 46695.269 on 20 degrees of freedom Residual deviance : 30.214 on 10
degrees of freedom
(15 observations deleted due to missingness) AIC : NA
Number of Fisher Scoring iterations : 4
Le parametre de surdispersion ˆ vaut ici 3 : 18 (qui est signi_cativement
supérieur à1).
Dans l’exemple considere, on obtient où Var (Yi , j )   .E (Yi , j , j ).
L’estimation donne les mêmes resulats que la régression de Poisson, toutefois, il
faut alors pour simuler une loi quasi Poisson.
La simulatin de cette quasi loi, se fait generalement suivant une des deux
methodes suivantes. La premiere idee est d’utiliser une approximation par une loi
binomiale negative B N ( r , p ) . Rappelons que pour cette loi
1 p
E (N )  r   et V a r ( N )  r 1  2 p    ,
p P
de telle sorte que, si on cherche à simuler une loi quasiPoisson de paramétres
 et  ,
E (N ) 1 
P   et r  .
Var ( N )    1
La seconde id_ee est d’utiliser une approximation par une loi Gamma (dont on
pourra rendre la partie entiere)
E ( N )      et V a r ( N )      ,
Soit    /  et V a r ( N )       , La Figure 1.9 ermet de
comparer la simulation de ces lois.
Entre un modéle Poisson et un modele Gamma
Si es modéles GLM sont generallement présentés comme des modéles où une
hypothése e loi est faite (la loi de la variable d_ependante Y devant appartenir a la
famille exponentielle), appelons les modeles GLM peuvent ^etre caracterises par
une modelisation des deux remiers moments,
E ( Y / X )  h ( X  ) et Var (Y / X )  V ( E (Y / X ))  g((X  )),

➢ la fonction lien, qui lie la prediction aux facteurs, ici
Yˆi , j  E (Yi , j / H n )  exp ˆ  ˆi  ˆ j  ,

167
➢ la loi ou la onction variance, V, qui donne la forme de la dispersion, ici
Var (Yi , j / H n )   .E(Yi , j / H n ).
L’unique motivation du modele precedent (loi de Poisson, i.e. fonction
variance identite, et ien logarithmique) est qu’il permet d’obtenir exactement le
même montant que la methode hain Ladder. Mais aucun critere statistique n’a ete
evoque, pour l’instant, an de legitimer e modéle. Les modeles Tweedie sont une
famille de sur-modele, incluant le modele Poissonnien. On suppose que
➢ la fonction lien, est une fonction puissance, ou plutôt une ranformee de
Box  C ox , Yˆi , j  g  1  ˆ  ˆ i  ˆ j  où

g  ( x )    1  x   1  si   0 avec le cas limite g o ( x )  lo g ( x ).


➢ la fonction variance, qui donne la forme de l’intervalle de confiance, ici Var
Var (Yi , j / H n )   .E(Yi , j / H n ) k ou les parametres et sont inconnus.
Remarque 1.7 Formellement, dans les modèles GLM, on suppose que la loi de
Y i , j appartient a a famille exponentielle, i.e. de densité :
 y i , j  b i , j  
f (y;i , j ,  )  exp   c( y,  )  .
  
 
La fonction variance est ici V ( µ )  b "( b '  )( µ ). our reprendre les
1

notations de (14), on se limite ici aux formes V ( µ )  µ k . Cela signifie que


2k
1
b ( )   (1  k )  k ,
1
pour k  1, 2 ,
2k
avec es cas particulier (on a alors une loi quasi-Poisson) et b
b (  )  e x p   pour k  1 (on a alors une loi quasi Poisson) et
b ( )   log    pour k  2 (on a alors une loi Gamma).
Si l’on supppose que une forme multiplicative Ai . B j pour modéliser les
increments de paiements, on aura alors
1 k

i, j  log  Ai .Bj  si k  1 et  i , j   A i . B j  sinon.


1  k
An de juger de la pertinance de l’ajustement, on peut calculer la
ogvraisemblance du modele, en gardant un lien logarithmique par exemple (ce qui
est parfois lus simple au niveau numerique, mais aussi au niveau de l’interpr
etation), ou le critere ‘Akaike.
La Figure 1.10 permet de visualiser l’inuence du parametre de la puissance de

168
la ponction variance sur la logvraisemblance. La Figure 1.11 montre aussi
l’evolution du montant de rovision R ˆ,
Exemple 1.8 Si l’on souhaite garder un lien logarithmique, le parametre le plus
raisemblable pour la fonction variance compris entre 1 et 2, est kˆ  1, ce qui
correspond a un odele de Poisson (ou plut^ot quasi-Poisson).
Remarque 1.8 Ces methodes de simulations ont susement souples pour
pouvoir être adaptees, en particulier pour quantier l’incertitude a n an. Toutefois,
cette approche repose sur l’utilsation de regression GLM (Poisson ou Gamma), ce
qui n’est possible que si les Y i , j sont positifs. En theorie, il s’agit d’increments de
paiements, ui doivent être positifs, mais en pratique, il n’est pas rare que de
increments negatifs soient bserves. C’est d’ailleurs possible de generer un pseudo
triangle possedant des increments egatifs (e.g. (7) ou (16)).

1.5 Modelisation et prediction de la mortalite future De même ue e


provisionnement posait le probleme de la dynamique de la vie des sinistres (dont le
montant est pas connu le jour de la survenance du sinistre), les contrats d’assurance
vie sont lies a des probabilites de deces (ou de survie) dans un futur plus ou moins
lointain. L’assurance vie doit donc egalemnt être vu comme un…………

1.5.1 Modelisation statique des contrats d’assurance vie


Si l’assurance non-vie repose essentiellement sur des modelisation
stochastique des sinistres a venir, l’assurance-vie consiste fondamentalement a
actualiser des ux futurs, incluant generalement un part d’incertitude (associee au
deces ou a la survie d’un assure). De la m^eme maniere que nous nous etions
attache à calculer primes a l’aide d’esperance de ux en assurance non-vie
(conditionnelles a des variables tarifaires dans le chapitre ?? par exemple), nous
allons ici calculer calculer des grandeurs de la forme :
  Ck 
E 1( paiement à la date Ti 
 k 1 (1  i )
Tk

ou l’assureur s’est engage a verser un capital Ci a des dates Ti, a condition
qu’une hypothese soit veriee a la date Ti. Compte tenu de la linearite de
L’esperance, si l’on suppose le taux d’actualisation non aleatoire, on peut reecrire
Cette derniere expression sous la forme :

Ck

k 1 (1  i ) T k
P ( p a ie m e n t à la d a te Ti ).

La valeur actuelle probable s’ecrit, de maniere tres generale,

169
k C
 j  1 ( 1 
j P

i
j

) j

Où C  ( C 1 , . . . , C k ) est l’ensemble des montants à verser, i est est le taux


d’actualisation, et p  ( p1 ,..., pk ) est le vecteur des probabilite de verser le
capital aux dierentes dates.
Exemple 1.9 Le plus simple est probablement la valeur actuelle probable d’un
capital diere (pure endowment) k E x , correspondant a la valeur actuelle probable
d’un capital de 1 dans le cas où une personne actuellement âge x soit encore en
viea au bout de k annees, i.e.
1 1
k E  P (T  x  k / T  x ) 
(1  i ) k
(1  i ) kP x
Où k Px designe la probabilite qu’un individu d’âge x atteigne l’âge
x  k .
Exemple 1.10 Considerons le cas du versement d’une unite monnetaire,
commen cant dés aujourd’hui, et continuant tant que l’assure sera vivant (on
parlera d’annuite vie entiere). On supposera l’annuite payable d’avance. On peut
montrer que
 
1
a  
k0 (1  i ) k k P 
 
k0
k E

Plus gneralement, on veut considerer non pas des assurance annuelles, mais
temporaires, d’une duree de n annees, i.e.
n 1 n 1
1

a  
k  0 (1  i )
k
k p   
k 0
k E 

Notons que l’on peut egalement dierer de h annees,


n 1 n 1
1
h / n a    k p    k E 
k  0 (1  i )
k
k 0
Exemple 1.11 Comme precedament, le cas le plus simple est probablement
l’assuranc deces vie entiere, dont la valeur actuelle probable s’ecrit, pour un assure
d’âge x qui souhaite le versement d’une unite a la n de l’annee de son deces,
1 T   1 T   1
Ax  E    
 E / T  k  k  1Px 1q k 1
 1 i   k
 k 0  1 i  k 1 (1 i )
Plus generallement, on peut denir une assurance temporaire deces, ou le
versement du capital n’a lieu que si le deces survient dans les n annees qui suivent
la signature du contrat,

170
n
1
n A    k 1 (1  i ) k k 1 P  1 q x  k 1

Classiquement, si p k correspond à une probabilite en cas de vie, ils sont


estimes a partir des tables de mortalites. Une table de mortalite est souvent presente
comme le suivi d’une cohorte dans le temps, avec L 0 individus a la naissance.
L k
est le nombre de survivants au sein de la cohorte – à l’âge k . Dans les
exemples precedants, k p x
designe la probabilite qu’un individu en vie a âge x
soit encore en vie a l’âge x  k alors que kqx designe la probabilite qu’un individu
en vie a l’âge x ne soit plus en vie a l’âge x  k , (en gardant les notations
L  k
actuarielles, e.g. (3)). Classiquement, k q   alors que
L
L  L x  k
k p  .
L
1.5.2 Extension dans un cadre dynamique
Dans le cadre statique, toutes les grandeurs pouvaient être construites a partir
des L  , ou des 1 p  , , ou x etait l’âge des individus (au moment ou ils
souscrivaient une police d’assurance). Ici, nous allons integrer la dimension
temporelle, en notant qu’une table de mortalité est construite à une date t . Aussi,
formellement, on notera L  ,t le nombre de personnes d’âge x en vie a la date t
. Nous disposons ici de donnees francaises, avec la mortalite des femmes, des
hommes, et de l’ensemble, entre 1899 et 2005. Ici on dispose de D  ,t le nombre de
personnes decedee a l’âge x l’annee t , et E  ,t l’exposition. Pour commencer,
on peut visualiser l’evolution de la surface du taux de mortalite, an de mieux
comprendre la necessite d’une analyse dynamique de la demographie, ou
D
µ  ,t  x ,t

E  ,t
Compte tenu du lien entre le taux de hasard et les fonctions de survie, on peut
en deduire les fonctions de survie à la naissance (c’est a dire x = 0), La figure ??
permet d’ailleurs de visualiser la rectangularisation des fonctions de survie, en
fonction du temps, en faisant varier t

1.5.3 La lecture transversale des tables


En fait, cette lecture transversale des tables – bien que correspondant a ce que

171
nous avions fait jusqu’a present – ne paraît pas valide. Pour s’en convaincre, il sut
de regarder le diagramme de Lexis, de la Figure 1.4.
Aussi, an d e lire la fonction de survie pour un individu (ou une cohorte), on
ne lit plus la base par annee, mais suivant une diagonale.

1.6 Le modele de Lee & Carter


La modélisation retenue pour le taux instantané de mortalité est la suivante :
Inµ  , t       k t    t ,
avec les variables aleatoires « xt iid ; l’idee du modele est donc d’ajuster à la
série (doublement indicee par x et t ) des logarithmes des taux instantan es de
deces une structure parametrique (deterministe) a laquelle s’ajoute un phenomene
aleatoire ; le critere d’optimisation retenu va consistera maximiser la variance
expliquee par le modele, ce qui revient à minimiser la variance des erreurs.
On retient en general les deux contraintes d’identifiabilite suivantes
1 2 0 2 0 0 5


  0
   0 et 
t  1 9 0 0
k t  0 ,

L’estimation des parametres s’eéctue en r_esolvant (numeriquement)

ˆ , ˆ, kˆ   arg min (Inµ


,t
xt    kt )2 ,

Où   (   ) ,   (   ) Ces cooefficients sont représentés sur la


Figure 1.16.
Une fois l’ajustement réalisé sur les donn_ees disponibles, on peut réaliser des
projections de la mortalité future, c’est-à-dire du coefficient k t , comme sur la
Figure 1.17
On peut utiliser ces predictions (en l’occurence a l’aide d’un processus
ARIMA (1 ; 1 ; 0) pour predire l’evolution l’esperance de vie des assurés,………
…………
Mais au dela des travaux sur les µ  ,t , on peut également travailler sur une
modelisation des nombres de décés D  ,t . Et le modele de Lee & Carter (qui repose
sur une idee de modele Gaussien pour x ; t peut alors servir de base. L’approche
proposee par (4), (11), (6) ou encore (23) consiste a supposer (comme sur les
modeles de provisions) que l’on peut modeliser le nombre de decesa l’aide d’un
modéle GLM Poissonnien. Or compte tenu de l’analyse precedante sur les taux de
décés µ  ,t , il est legitime de considerer un modele
D  ,t P ( E  , t e x p  µ  , t  ) .

172
On considere alors une regression Poissonnienne, avec le logarithme de
l’exposition comme variable oset, mais compte tenu du modéle de Lee & Carter, il
ne s’agit plus d’un modéle GLM, les facteurs,  ,  e t k et
n’intervenant plus de maniere lineaire. Mais il est toujours possible d’estimer les
parametres à l’aide d’algorithmes numeriques.
Et de même que pour les modeles de provisionnement on peut alors
commencer une analyse des residus,

Figure 1.4 – Evolution de la vie des assures, sur un diagramme de Lexis,


avec en abscisse le temps calendaire, et en ordonnee l’âge des assures.
Les assures naissent a la date, et decedent a la date X.

173
Figure 1.5 – Nuage de points C . j  1
en fonction des C . j pour j  1, 2 , et droite de regression passant par l’origine.

Figure 1.6 -Ajustement lineaire sur le nuage  k , l o g (  k  1)  ,


avec une prediction pour k  5 .

Figure 1.7 – Histogramme et densité des residus (à gauche) et fonctions de repartition (à droite), avec
l’ajustement Gaussien en pointilles.

174
Figure 1.8 – Distribution du montant de provision R , avec le trait plein vertical correspondant a R ,
et en pointilles (quasiment confondus), le montant de provision donne par Chain Ladder. A droite est
indique le quantilea 95% de R (obtenu par simulation), en trait plein, avec le quantile Gaussien
donne par la methode de Mack (sous hypothese de normalite de R ), en trait fin.

Figure 1.9 – Distribution de R , avec trois methodes de generations de scenarios, i.e. suivant une loi
de Poisson, ou une approximation de la loi quasiPoisson par une loi Gamma).

175
Figure 1.10 -Evolution de la log-vraisemblance prolee en fonction de k (avec un lien logarithmique).

Figure 1.11 – Evolution du montant total de provision bR, en fonction de (avec un lien logarithmique).

Figure 1.12 -Surface du taux de mortalite, en fonction de l’annee d’observation, et de l’âge, µ  ,t .

176
Figure 1.13 – Taux de hasard x  µ  ,t en t  2000
pour les hommes et pour les femmes.

Figure 1.14 – Fonctions de survie (à la naissance), en t  2000 ,


x  Pt (T  x )    µ y , t  dy .
x
pour les hommes et pour les femmes, i.e.
 0 

177
Figure 1.15 – Rectangularisation des fonctions de survie _a la naissance, entre 1900 et 20000.

Figure 1.16 – Estimation des coecients ˆ  ( ˆ x ) et ˆ  (ˆx )

178
Figure 1.17 – Estimation des coecients kˆ  ( kˆ t ) pour t allant de 1900 a 2005,
et projection pour les periode allant de 2006 a 2100.

Figure 1.18 -Estimation des fonctions d’esperance de vie a l’âge x , a la date t = 2000.

179
Figure 1.19 – Evolution des résidus de Pearson sur un modèle Poissonnien, ˆ  , t ,
avec l’évoltion en fonction de l’âge x , à gauche, et de la date t , à droite.

180
Chapitre 2
Les modèles actuarielles

1. Du choix du modèle
« La gestion du risque, c’est d’indure nos manques de connaissance dans un
espace mesuré », nous rappelle Daniel Sibony68.En pratique, cela signifie que nous
sommes conduits à introduire des concepts, des hypothèses… pour pouvoir titre
des conclusions, Ces concepts ne pourront toutefois être considérés comme
objectifs que lorsqu’ils auront été entièrement reconstruits en termes opérations, ils
passent alors de l’état de concept mathématique à celui de concept » physique »69.
Dans le choix d’un modèle, il y a trois étapes principales dont les statuts sont
différents.
Le premier choix est épistémologique on décidé, par exemple, de recourir à un
modèle probabiliste, c’est-à-dire de considérer que les grandeurs observables (la
charge de sinistres, par exemple) ne sont que les transformées des grandeurs utiles
(la charge de sinistres moyenne) par l’intermédiaire d’un processus aléatoire (la
réalisation des sinistres) que nous modéliserons par une variable aléatoire Ces
décisions sont des décisions constitutives qui définissent le cadre général dans
lequel nous allons travailler et déterminent le chois des outils que nous allons
utiliser. Ce ne sont pas des hypothèses expérimentalement contrôlables. LA validité
de telles décisions réside dans la qualité des résultats obtenus a posteriori et après
avoir traité un grand nombre de cas. Qualité qui ne permet pas de conduire que la
décision est « vraie » mais seulement qu’elle est efficace.
Nous devons ensuite définir des hypothèses « physiques » sur le phénomène
que l’on analyse. On fera par exemple l’hypothèse que la charge aléatoire de sinistres
se décompose comme la somme des coûts aléatoires des sinistres, sinistres qui

68
Revue risque (Sibony D, 1990).
69
Estimer et cb*** page 44, op, cit

181
surviennent eux-mêmes selon un processus de Poisson. Ces hypothèses conduisent
au choix d’un modèle « générique » qui se différencie du précédent dans la mesure
où il repose sur des hypothèses « physiques » et objectivement contrôlables soit par
des tests, soit par d’autres méthodes, y compris le jugement des experts. Cette
seconde étape est la plus importante car c’est l’introduction de ces hypothèses
« physiques » et leur traduction en termes de modèle qui permettent d’apporter une
information positive non contenues dans les données numériques. Cette
information périment de tirer plus des données que ce qui y est réellement contenu.
La contrepartie de ce gain est le plus grand risque d’erreur, la vulnérabilité du
modèle.
Afin d’être plus fin dans l’analyse, cette étape peut être divisée en deux sous-
étapes.
– Le choix d’une famille de modèles générique : le processus de survenance des
sinistres est un processus ponctuel stationnaire, par exemple.
– Le choix d’un type de modèle particulier dans la famille : le processus
ponctuel est un processus de Poissions. C’est cette seconde sous-étape qui apporte
le plus d’information, l’indépendance du nombre de sinistres entre deux périodes
disjointes, et qui ouvre le plus de possibilités opératoires.
– La troisième et demiére étape est le choix des paramètres du modèle – la
fréquence dans notre exemple précédent – ou encore son inférence statistique.
– Une dérive que l’on observe souvent est la « surpondération » accordée à la
troisième étape. Or celle-ci n’est en général qu’une question de calcul numérique,
alors que le problème principal réside dans le choix du type de modèle dans la
famille générique.
– Notons enfin que dans la seconde étape il convient d’apporter une attention
toute particulaire à la définition précise des mesures que l’on effecteur. En effet, la
complexité des phénomènes étudiés fait qu’il n’est pas rare de croire mesurer une
chose et d’en mesurer une autre. La confusion entre la mesure de la corrélation
entre « coût des sinistres » et (fréquence » au niveau collectif (les jeunes ont des
coûts de sinistres plus élevés et plus de sinistres que les seniors) et au niveau
individuel (il existe une corrélation entre la variable aléatoire nombre de sinistres
et la variable coût des sinistres pour un individu donné) est une erreur fréquente.
Face à cette difficulté, nous recommandons d’avoir, en permanence, un regard
critique par rapport aux outils de mesure utilisés. Outre le fait de prévenir les
erreurs, la recherche du sens de la mesure, et l’interprétation des résultats pénètrent
de mieux expliquer, de communiquer les décisions prises à de non-spécialistes et
d’éviter ainsi les contresens, Un exemple intéressant pour illustre ce point est la
différence de perception du temps d’attente d’un métro entre l’usager et la RATP :
Cette différence n’est pas due à la subjectivité ou à la relativité du temps mais au fait

182
que l’usager et la RATP ne mesure pas la même chose : l’usager mesure le temps
entre l’instant où il arrive sur le quai et l’instant où le métro arrive, la RATP mesure
le demi-tems moyen entre deux rames.70

1.1 Variabilité endogène et exogène


Une des particulaires dans l’application des probabilités à l’assurance est que
les grandeurs individuelle utiles à l’assureur ne sont jamais observables.
On ne peut en observer que les réalisations, et ce, sur une période courte
relativement à la fréquence des événements étudiés. Ce faisant, il est impossible
d’appliquer la loi des grands nombres aux individus.
Aussi, lorsqu’on étudie un phénomène au niveau d’un ensemble d’individus,
la variance des observations par exemple ou encore la fonction de distribution
expérimentale, nous observons une superposition de deux effets : un effet endogène
qui correspond aux variations au niveau individuel liées au processus aléatoire et
un effet exogène qui correspond aux différences entre les individus, le premier étant
prépondérant sur le second.
Par exemple, si on s’intéresse à la variance de la charge de sinistres, cette
variance se décompose en deux tempes.71
– La variance endogène qui correspond au risque que l’assuré transfert à
l’assureur à travers l’acte d’assurance. C’est la raison d’être de l’assureur qui, en
regroupant un grand nombre de clients, diversifie ce risque voire l’annule.
– La variance exogène qui correspond à la différence de risques individuels
(espérance de la charge de sinistres de chacun des individus) entre les assurés. Cette
variance ne peut pas être diversifiée et conduit aux phénomènes d’anti-sélection.
Avec la part de la variance endogène qui est très supérieure à la part de la
variance exogène.
La segmentation (ou individualisation) permet de réduire la variance exogène
en la transférant vers la variance interclasse voire de l’annuler complètement

70
Aussi surprenant que cela puisse paraître, ces deux mesures différent. En effet, la RATP prend la
moyenne sur tous les intervalles entre deux rames affectant ainsi un même poids à chacun des
intervalles, l’usager lui ne mesure que les intervalles de son arrivée, ce faisant, dans le calcul de son
temps moyen, il surpondère les intervalles longs car sa probabilité d’arriver dans un intervalle est
fonction de la durée de celui-ci et obtient ainsi un temps supérieur à celui de la RATP. Qui a raisin§
Les deux, c’est une question de point de vue et de communication.
71
Pour un ensemble d’assuré i ayant une charge de sinistres probable ri de moyenne r, la variance
d’un assuré pris aléatoirement est
1 1 1
 2  E  R  r     E  ri  r      i2    ri  r 
2 2 2
le premier terme
  n i
  n i n i
correspond à la variance endogène et le second à la variance exogène

183
« (segmentation parfaire avec maximisation de la variance interclasse qui est alors
égale à la variance exogène) La variance endogène, elle, ne peut être réduite et
correspond à la variance intra-classe minimale. Le problème dans la pratique est
que les variances endogène et exogène nous sont inconnues, Il est donc impossible
de savoir si une segmentation est bonne ou mauvaise. Nous pouvons tout au plus
dire que telle segmentation est meilleure que telle autre, mais nous ne zadons pas si
elle est nettement meilleure ou si la différence est minime.
Ce problème est particulièrement dérangeant quand on veut par exemple
utiliser une méthode de scoring de risque. En effet, lorsque l’on veut tester le modèle
obtenu et que l’on analyse le taux de bien classé on obtient un taux faible souvent
inférieur à 55 % soit un résultat peu différent de celui obtenu avec un tirage
aléatoire ! En fait, on a deux sources d’erreur qui réduisent ce taux :
– Il y a les bons, qui sont, du point de vue de la variable utile (la prime pure),
réellement bon mais qui n’ont pas en de chance et qui, sur la variable observable (la
sinistralité) sont considérés comme mauvaise,
– Il y a les mauvais, qui sont du point de vue de la variable utile réellement sont
considérés comme bons,
Et la variabilité endogène étant prépondérante par rapport à la variabilité
exogène, ce type d’erreur est fréquent de sorte que les résultats du test sont mauvais
ou plus précisément difficiles à qualifier : à partir de quant doit – on accepter le
modèle ?
Pour répondre à ces questions, il faut trouver de nouveaux indicateurs qui ont
un sens opératoire. Dans le cas du sconing, il ne faut pas s’intéresser au résultat
individuel mais à des moyennes (par exemple la fréquence moyenne de chacune
des classes si on s’intéresse au nombre de sinistres).
Ce type de résultat est non seulement perturbant pour le starisation pas habitué
à ce type de phénomène72 mais aussi pour les personnes qui autant à l’utiliser car
elles auront l’impression que l’on joue le sort des dents à « pile ou face », ce qui
semble contraire au rôle de l’assureur et aux techniques qui sous-tendent son
activité.

1.1.3 Conclusion
Cette étude des probabilités, et plus particulièrement de l’actuariat, met en
avant le risque de dérive scientiste, au sens où assiste à un déploiement des
techniques les plus sophistiquées déconnectées de tout sens « pratique », métier,
Au-delà du risque d’erreurs lié au dépassement du seuil d’objectivité, une telle

72
Dans les exemples analysés durant les mèdes, il est fréquent d’avoir des taux de « biens classés »
supérieurs à 80 % De même, dans de nombreuse activité, les taux de « biens classés » sont élevés

184
pratique est de nature à renforcer l’opposition aux nouvelles techniques, tant vis-à-
vis du client final qu’en interne (distributeurs, commerciaux, salariés).
Le choix de modèles ayant des contreparties dans le monde réel permet de
donner un sens à l’approche proposée et ainsi d’établir des ponts entre le client en
tant qu’individu statistique et le client en tant que personne.
Le choix de modèles ayant des contreparties dans le monde réel permet de
donner un sens à l’approche proposée et ainsi d’établir des ponts entre le client en
tant qu’individu statistique et le client en tant que personne.
La mise en œuvre d’une telle approche permet à l’actuaire d’augmenter son
impact. En amont, elle le contraint à poser les problèmes d’un point de vue du
métier et non de la technique En aval, elle le contraint à poser les problèmes d’un
point de vue du métier et non de la technique. En aval, elle le contraint à formuler
ses recommandations en termes opérationnels. Ce processus lui permet de mieux
traiter les problèmes, de mieux contrôler la technique, de mieux communiquer, Ce
changement d’approche, de positionnement nous semble être un préalable à tout
développement des techniques actuarielles dans les entreprises d’assurance.

2. Modélisation de la prime pure


Après nous être intéressé à l’épistémologie, nous abordons maintenant la partie
plus technique de ce chapitre. Nous présentons un ensemble d’outils à l’intention
des praticiens actuaires pour qu’ils puissent construire des solutions.
La démarche que nous proposons s’inspire de l’analyse précédente. Elle repose
sur la modélisation des processus individuels et se différencie en cela des approches
classiques basées sur la théorie collective des risques73. Par comparaison, nous
proposons de qualifiait notre approche de « théorie individuelle des risques ».
Dans la partie précédente nous avons montré que, pour réussir à obtenir des
résultats qui vont au-delà des informations directement contenues dans les données
brutes, il fallait introduire de la connaissance.
Le premier niveau de connaissance que nous proposons d’introduire est les
séparations entre le type de variables explicatives du risque. En pratique, nous
disposons de deux grandes classes de variables :
– des variables exogènes, c’est-à-dire les informations relatives au risque (l’âge
de l’assuré, son activité professionnelle, la zone géographique de circulation, le
groupe et la classe de véhicule, le nombre de pièces de sa résidence…) à l’exclusion

73
Ces méthodes reposent sur l’analyse de la charge de sinistres au niveau de groupes d’assurés. Elles
peuvent alors s’appuyer sur la loi des grands nombres ou des approximations de cette loi si la
population du groupe est réduire Voir pour une étude détaillé (Daykin CD.1994, Cumins J-D-1980 ;
Harrington S.E, 1986 ; Couts S ; 1984 P-1980).

185
de toute donnée relative aux réalisations du risque ;
– Les variables endogènes, c’est-à-dire les informations relatives aux
réalisations du risque.
A ces deux types de variable correspondent deux niveaux de modélisation :
– L’analyse a prion qui utilise les variables exogènes et que nous présentions
dans le premier paragraphe ( cf .§ 2.1.);
– L’analyse a pesterions qui utilise les variables endogènes et que nous
présentions dans le deuxième paragraphe ( cf .§ 2.2.);
Ces deux niveaux sont complémentaires dans la mesure où l’analyse a
pesterions permet d’améliorer les estimations obtenues par l’analyse a priori est
« précise » (c’est-à-dire plus les classes sont homogènes) moins l’analyse a posteriori
a d’importance (c’est-à-dire moins la survenance de sinistres est révélatrice de la
qualité du risque). Ces interactions devraient conduire les actuaires à intégrer leurs
analyses dans une approche globale : une somme d’études éparses statistiques ne
donne pas un bon estimateur de la prime pure A défaut d’une telle approche, la
majorité des assureurs pratiquent une sous tarifications des assurés qu’ils
considèrent comme rentables et une sur sous-tarification de ceux qu’ils considèrent
comme non rentables, ainsi les résultats des assurés ayant un bonnes 50 se
détériorent alors que des courtiers spécialisés sur les « mallousés » arrivent à
dégager des marges importantes.
Les analyses a Prior et a posteriori reposent souvent sur des données de
sinistres non définitives : au moment de l’analyse nous ne connaissons pas tous les
sinistres et, même pour ceux ouverts, nous n’avons pas les coûts définitifs. Aussi,
pour terminer les analyses est-il nécessaire de caler les résultats sur la base des
charges estimées définitives. Nous abordons ce sujet dans le troisième paragraphe
( cf .§ 2.3.);

2.1 Modélisation a priori


Dans le paragraphe précédent, nous avons montré que, d’un point de vue
« physique », la modélisation de la prime pure se décomposait, d’une part, en la
modélisation de la survenance des sinistres et, d’autre part, en la modélisation des
coûts des sinistres. Nous allons détailler dans ce paragraphe les différentes
méthodes de modélisation de la fréquence (cf .§2.1.1.); et des coûts moyens
(cf .§2.1.2.). Nous consacrerons ensuite un paragraphe à la création de variables
composites (cf .§2.1.3.), comme par exemple les zones de tarification Enfin nous
comparerons les résultats obtenus avec des modélisations séparées des fréquences
et des coûts aux résultats avec une modélisation directe des charges (cf .§2.1.4.).

186
2.1.1 LA fréquence
Dans cette partie, nous analyserons le risque en termes de nombre probable de
sinistres au cours d’une période donnée pour chaque assuré.
Toutefois, alors que la grandeur utile pour l’assureur est la fréquence, l’unique
grandeur observable est le nombre de sinistres. Nous proposons donc une approche
probabiliste reposant sur la modélisation du processus de survenance des sinistres,
c’est-à-dire le processus qui transforme la grandeur utile en grandeur observable.
Nous partirons d’un modèle « Natural » simple, le processus de Poisson, que nous
enrichirons en fonction de la comparaison entre les propriétés obtenues avec le
modèle et l’observation.

Le modèle de Poisson
Un processus de Poisson est caractérisé par la fréquence de survenance des
événements74 (les sinistres dans notre cas). L’application de ce modèle à l’étude du
nombre de sinistres repose sur trois hypothèses « physiques » pour un client :
– Les nombres de sinistres sur deux périodes différentes sont des variables
aléatoires indépendantes ;
– Le paramètre du processus est entièrement caractérisé par les seules variables
exogènes.
Cela peut se traduire de faon intuitif comme suit : le client, caractérisé par les
variables exogènes, a un comportement constant dans le temps, connu et fonction
des seules variables exogènes.
Après avoir choisi un modèle pour le nombre de sinistres, il reste à définir la
fonction permettant de relier la fréquence aux variables exogènes. Les choix sont
multiples. Nous avons montré dans la première partie que la solution retenue était
un compromis entre la robustesse et le biais des estimations75. Aux deux extrêmes
de cet éventail nous avons :
– La fonction constante, elle donne un résultat robuste – un seul paramètre à
estimer – mais un biais important ;

74
Pour un processus de Poisson de paramètre  la loi du nombre de sinistres Nt sur une période t
est donnée par

 t 
u

P (N t  n)  ex p (   t )
n!
Le nombre probable de sistres est égal a  t correspond donc à la fréquence du processus.
75
La robustesse du résultat décroît avec le nombre de paramètres à estimer alors que la précision croît.
Néons ne revenons pas ici sur la question la fonction correspond elle à la réalité ou non ? Dans la
mesure où elle a déjà été traitée.

187
– La fonction définie par les fréquences observées pour chaque croissement
donne le « meilleur estimateur » en terme de biais, mais que cet estimateur est le
moins robuste : le nombre de paramètres à estimer est égal au produit des nombres
de modalités par critère, c’est-à-dire 1010 pour 10 critères avec 10 valeurs chacun.
Dans la pratique, la solution retenue est un moyen terme entre ces deux
extrêmes. Pour le choix de la fonction, nous distinguons deux niveaux d’analyse, le
choix des paramètres et la forme de la fonction relaient les paramètres aux
estimateurs des grandeurs utiles

Choix des paramètres :


L’objectif est d’adapter le nombre des paramètres à la taille du portefeuille afin
d’avoir une robustesse » satisfaisante » Ce nombre est caractérisé par l’ordre du
modèle, c’est-à-dire le niveau maximal des croisements entre variables : un modèle
est d’ordre 1 s’il ne retient que les effets directs (effet de l’âge du véhicule par
exemple), d’ordre 2 s’il retient les effets croisés deux par deux des variables (effet de
l’âge du véhicule croisé avec le mode d’acquisition du véhicule par exemple, etc76.
Étant donné le grand nombre de variables utilisées pour la segmentation des
risques, on ne retient en pratique que les modèles d’ordre 1 et on néglige les ordres
supérieurs, sauf cas particuliers. On ramène ainsi, pour l’exemple précédent, le
nombre de paramètres à estimer à 101 – une constante plus dix paramètres par
variable – ; le seul passage à l’ordre deux ajouterait 10  10  9  10 paramètres,
c’est-à-dire 9 000.
Dans la pratique, la frontière entre les différents ordres n’est pas aussi nette.
On peut en effet créer des variables exogènes composites par croisement des
variables de base et ainsi introduire un effet d’ordre deux dans un modèle d’ordre
177 Par exemple, le critère sexe du conducteur est fortement discriminant pour les

76
Par généralisation on dit qu’un modèle est d’ordre 0 s’il ne retient aucun effet (c’est-à-dire que les
variables explicatives ne sont pas discriminantes).
77
Une telle opération est importante si le tableau des fréquences par segment contient une quantifié
importante d’informations au sens de l’analyse des données. Pour appliquer une telle méthode il est
toutefois nécessaire que le tableau de contingence de la répartition des assurés soit indépendant. En
effet, dans le cas contraire, l’information observée serait un cumul de celle liée à la réparation des
individus et de celle liée à la prime pure Par exemple, si nous avons des assurés équi-répartis dont les
fréquences observées par segment sont données par :

Primes pures A1 A2 Total A


B1 30 180 108
B2 70 120 95
Total B. 50 105 100

La quantité d’information est de 2 025.

188
conducteurs novices, mais pas pour les conducteurs confirmés .Afin de tenir
compte de ce phénomène croisé, il est possible de créer une variable ancienneté de
permis/sexe comportant trois modalités : novices hommes, novices femmes et
confirmés.

Choix de la fonction :
Pour le choix de la forme de la fonction, il y a deux classes usuelles de modèles :
les modèles additifs et les modèles multiplicatifs, En assurance, les modèles
multiplicatifs sont les plus utilisées (Ajne B, 1985 ; Bailey R.A, 1963) dans la mesure
où, d’une part, ils sont contraints à la positivité et, d’autre part, ils correspondent
aux structures tarifaires pratiquées par les compagnies d’assurances.
Dans cette étude, nous utiliserons une famille plus générale (Box and Cox) qui
permet de passer continûment du modèle additif au modèle multiplicatif tout en
les contenant78 (Box G.E.P ; 1964 ; Harrington S.E., 1986).Cette famille donne de

En pratique, un moyen simple d’analyse des phénomènes croisés est de classer les modalités par
risques croissantes et d’étudier les fréquences observées par croisement deux à deux des variables
exogènes de vase. Si l’on observe une ligne ou une colonne pour laquelle les charges sont
significativement non croissantes, il peut être nécessaire de créer des variables composites.
78
Le risque r se met sous la forme
H H i

– dans le cas additif :   


i 1 j 1
c i, ji, j ;
n ni

 
i, j
– dans le cas multiplicatif :    i c, j ;
i1 j1

– dans le cas de la transformation de Box et Cox :


H Hi
   1     c i , j bi , j  1   C t B .
i 1 j 1

Où est égal à si, pour la variable le risque vérifie la modalité j (1  j  ni ) et 0 sin on


On retrouve le modèle additif en prenant pour la valeur 1 :
n ni
 1  i 1 j 1
c i , j bi , j

Et le modèle multiplicatif en faisant tendre vers 0 :


 1 n ni  n ni
In( )  In  1    c bi , j  
i, j
 0
  c i , j bi , j
  i 1 j 1  i 1 j 1
Soit en passant à l’exponentielle :
n ni
    i ,j ;j j , où i , j  exp( bi , j )
i 1 j 1

189
meilleures estimations des fréquences individuelles sans diminuer la robustesse du
résultat. En effet, les biais sont plus petits alors que le nombre de paramètres à
estimer n’augmente que de 1.
Le choix des paramètres et de la forme de la fonction induit des relations fortes
sur les estimateurs du risque individuel. Par exemple, la différence de la fréquence
estimée entre deux modalités d’une même variable, toutes choses étales par ailleurs,
est constante soit en unité dans le modèle additif, soit en pourcentage dans le cas
du modèle multiplicatif. Ces hypothèses peuvent être testées.
Pour un processus de Poisson avec fonction de lien de Box 2& Cox, nous avons
l’expression de la vraisemblance :
m
 kt k
L(n ,..., n / C1 ,..., Cm , t ,..., t )  
1 m 1 m
k
exp( k t k )
k 1 n
Où m est le nombre d’individus.
Si nous prenons le logarithme de la vraisemblance, nous obtenons :
m
L(n1 ,..., nm / C1 ,..., Cm , t1 ,..., t m )    nk In( k )   k t k   cste
k 1
Si maintenant nous introduisons la fonction de Box & Cox, nous avons ;
  k c ki , j  k
 
  bi , j 1   C kT B

      C k B  In (1   C k B ) 
k k T T

 
   1   C kT  

D’où les dérivées partielles du logarithme de la vraisemblance :


 l i, j n   t
m k k k

   ck
 bi , j k 1 1   CkT B

 l  1 k k   Ck B 
m T


   k 1  nk   t    In 1   C T
B  
1   Ck B
2 T k
 
Nous avons donc la propriété suivante :
Propriété : La solution B ,  du maximum de vraisemblance existe et
vérifie le système :

190
 i, j n   t
m k k k



( a )0  
k 1
c k
1   C T
B
; (i , j ),1  i  n,1  i  ni
k
 m
 (b )  ( n k   k t k ) 1  In (1   C kT B ) 
 k 1
De plus, pour toute valeur de a donnée, le système (a) admet une unique
solution.

Démonstration :
Existence – Étant donné le phénomène étudié, la survenance des sinistres, il est
possible de réduire l’espace à :

 
m
E    bik, j ,  ,1  i  n,1  j  ni ,    0,1 , 0   k  1
k 1
C’est l’intersection d’un nombre fini d’espaces compacts (images réciproques
d’espaces compacts par une fonction continue), c’est aussi un espace compact. Il
existe donc au moins une solution.
Unicité à a donné – nous avons :
 2 k k
 ck ck (1   )
i ; j u ,v

bi , j bu ,v (1   CkT B)2


d’où la dérivée partielle seconde du logarithme de vraisemblance :
 2l m
n k    k t k (1   )
   c ki ; j c ku , v 0
 bi , j  bu , v k 1 (1   C kT B ) 2
Quand   0 on retrouve le cas particulier du modèle multiplicatif :
m m

 cki ; j n k   cki ; j  k t k  (i, j ),1  i  n,1  i  ni


k 1 k 1
Cette expression traduit le respect des marges par le modèle, c’est-à-dire que
pour toute population associée à une modalité d’une variable, le nombre probable
de sinistres (grandeur utile) estimé avec le modèle est égal au nombre observé de
sinistres (grandeur observable)79 : le modèle à une contrepartie dans le monde réel

79
Dans le cas d’un modèle d’ordre 2, le système (1) devient
 ( i , j ),1  i , i '  n ,1  j  n i ,1  j'  n i
m m


k 1
c i; j
k c i ', j '
k  t k k
 k 1
c ki ; j c ki ', j ' n k

191
forte. dans ce cas, si nous remplaçons les fréquences individuelles par leur forme
multiplicative, la relation ci-dessus peut se mettre sous la forme :
m

c i; j
k nk
(i, j ),1  i  n,1  i  ni , i , j  m
k 1
u u1

c  l,pc t k
l ,p
i; j
k
k 1 l 1 p 1

Après l’initialisation des paramètres à 1, ce système permet de calculer les i, j de


manière itérative. Notons que le numérateur est égal au nombre observée de sinistres
pour les assurés vérifiant la modalité j pour la variable i, et que le dénominateur est
égal après l’initialisation des paramètres à 1 au nombre de véhicules/ année vérifiant
la modalité j pour la variable i le modèle à une valeur opératoire.
Pour illustrer cette méthode, nous allons reprendre l’exemple présenté ci avant
avec trois variables ayant chacune trois modalités. Pour la simulation considérée
dans cet exemple, nous avons les fréquences observées sur les marges suivantes :
Variable A Variable B Variable C
Modalité 1 5,2 % 5,6 % 4,9 %
Modalité 2 5,4 % 5,8 % 5,7 %
Modalité 3 7,6 % 6,7 % 7,5 %

Ce tableau montre que lorsque nous passons de la modalité 1 de la variable A


(A1) à la modalité 3 (A3) le rapport des fréquences observées est de 148 % Le ratio
de B3 sur B1 est de 119 % et celui C3 sur C1 de 153 % Si on considère que ces ratios
représentent les écarts relatifs entre modalités, nous avons, avec un modèle
multiplicatif, une amplitude entre les segments (A1, B1, C1) et (A3, B3, C3) de
270 % (produit des ratios). Cette amplitude est bien inférieure à l’amplitude du
modèle utilisé pour la simulation (509 %) : l’observation de marges ne permet pas
de se faire une idée de la réalité du risque segment par segment. Cette différence
s’explique par la répartition des individus dans les segments qui ait telle que l’on
tend vers la moyenne.
Par exemple, le tableau suivant
A1, B1 A2, B2 A3, B3 Total
C1 80 284 350 714
C2 243 529 140 912
C3 488 290 79 857
Total 711 1 003 569 2 283

La propriété des marges se généralise aux tableaux croisés, la fiabilité du résultat est proportionnelle
aux nombres de risques/année par case.

192
Montre que :
– Les individus du segment (A1, B1) sont majoritairement dans le segment C3,
ce qui tend à augmenter la fréquence de ce segment à fréquence moyenne plutôt
faible ;
– Inversement, les individus du segment (A3, B3) sont majoritairement dans
le segment C1, ce qui tend à diminuer la fréquence de ce segment à fréquence
moyenne plutôt forte ;
Entre ces deux extrêmes, les individus du segment (A2, B2) se répartisse ment
symétriquement par rapport à la variable C1.
Après une première itération nous avons les relativités (c’est-à-dire les
exponentielles des paramètres b) suivantes :
Variable A Variable B Variable C
Modalité 1 5,2 % 90,4 % 74,7 %
Modalité 2 5,4 % 97,7 % 97,7 %
Modalité 3 7,6 % 114,3 % 135,3 %

Soit une amplitude entre les deux segments extrêmes (A1, B1, C1) et (A3,
B3C3) de 335 %. Par rapport au modèle multiplicatif sur les marges brutes (270 %),
on observe que l’amplitude augmente. Elle reste toutefois inférieure à l’amplitude
réelle (509 %).
Après une seconde intégration nous obtenons :
Variable A Variable B Variable C
Modalité 1 4,6 % 85,0 % 71,0 %
Modalité 2 5,3 % 98,9 % 98,1 %
Modalité 3 8,5 % 120,1 % 139,8 %

Soit une amplitude entre les deux segments extrêmes (A1, B1, C1) et (A3, B3,
C3) de 537 % ; soit une amplitude proche du modèle sous-jacent.
Ce système met en évidence le processus qui permet de rendre robuste le
résultat. En effet, l’estimation d’une paramètre est obtenue en étudiant le nombre
de sinistres relatif à chaque modalité de chaque variable et non à chacun des
segments, On applique ainsi le « principe de mutualisation des risques » par
modalité : la robustesse est donc proportionnelle à la taille de la population vérifiant
cette modalité. Par ailleurs, la méthode permet, comme nous venons de le voir dans
l’exemple ci-dessus, de corriger les observations brutes de la distribution des
individus80

80
Pour vérifier cette propriété du modèle, nous avons repris l’exemple ci-dessus en modifiant la
répartition des individus. La nouvelle répartition a comme effet, non pas de réduire l’amplitude brute,
pais à accentuer les écarts :

193
A1, B1 A2, B2 A3, B3 Total
C1 740 457 114 1311
C2 429 515 229 1173
C3 257 457 457 1171
Total 1 426 1 429 800 3 655

Les individus du segment (A1, B1) sont majoritairement dans le segment C1,
ce qui tend à diminuer la fréquence de ce segment à fréquence moyenne plutôt
faible Inversement, les individus du segment (A3, B3) sont majoritairement dans le
segment C3, ce qui tend à augmenter la fréquence de ce segment à fréquence
moyenne plutôt des zones rurales et, d’autre part, les jeunes (A3) ont des véhicules
de rapport poids/puissance élevé (B3) et habitent plutôt des zones urbaines (C3)
Variable A Variable B Variable C
Modalité 1 4,1 % 4,1 % 3n5 %
Modalité 2 5,4 % 7,5 % 5,6 %
Modalité 3 10,8 % 8,2 % 8,8 %

Le ratio de A1 à A3 est de 262 % (contre 148 % avec l’exemple précédent), celui


B3 sur B1 est de 198 % (contre 119 %) et celui C3 sur C1 de 253 % (contre 153 %) ;
soit une amplitude entre les segments (A1, B1, C1) et (A3, B3, C3) de 1315 % (contre
270 %). Cette amplitude est bien supérieure à l’amplitude du modèle utilisé pour la
simulation (509 %). Après une itération, l’amplitude est de 707 % (contre 339 %)
nous observons le même phénomène, mais dans cet exemple il se traduit par une
diminution. après convergence, l’amplitude est de 543 % soit une valeur peu
différente du modèle (509 %). Si maintenant nous comparons les résultats obtenus)
après normalisation sur la modalité 1) sur les deux exemples, nous avons :

Variable A Variable B Variable C


ex1 ex2 ex1 ex2 ex1 ex2
Modalité 1 4,9 % 4,9 % 80,9 % 80,9 % 65,1 % 65,1 %
Modalité 2 5,7 % 5,7 % 95,4 % 97,6 % 91,1 % 94,9 %
Modalité 3 9,4 % 9,2 % 116,6 % 118,0 % 130,5 %130,4 %

Les résultats sont très proches : ils sont bien indépendants de la répartition des
individus.
Cette démarche itérative fondée sur une analyse des marges est très proche de
celle utilisée par les assureurs dans le passé lorsqu’ils ajustaient, variable par
variable, leurs cotisations en fonction des résultats de l’année, le modèle permet de
reproduire la pratique des experts en en améliorant l’efficacité. A terme, les
cotisations ainsi calculées tendaient vers la solution obtenue avec le modèle décrit
ci-dessus Si une telle approche était bien adaptée en période de stabilité du marché,
elle ne l’est plus en période d’évolution rapide : les assureurs ont besoin d’outils

194
d’analyse leur permettant d’être plus réactifs Ce modèle permet d’avoir
instantanément ce que les assureurs mettaient plumeur années à obtenir.
Inversement, cette adéquation entre estimation et observation pur les marge
peut conduire à prendre ce système comme définition même des estimateurs de
paramètres en l’absence de toute modélisations81. On retrouve un cas particulier de
la méthode des marges appliquée à la fréquence Cette approche peut être étendue à
l’estimation directe du coût de la matière première Van Eeghen) 1884 ; Bailey
R.A.1963).
Si nous revenons au cas général, nous n’avons plus le respect des marges.
Le modèle perd-il pour autant sa contrepartie dans le monde réel ? Nous En
effet, le système (a) peut se mettre sous la forme :
m
* k 1
 tk

bi, j
 n   k k
t   k2
k 1
Il est donc équivalent au système obtenu par la méthode des moindres carrés
généralisés. En fait, c’est une généralisation des équations des marges qui tient
compte de la variance des observations en accordant un poids plus important aux
observations les plus fiables. Cette solution a donc une contrepartie dans le monde
réel et permet, grâce à la pondération, d’améliorer le résultat.
Nous avons repris l’exemple précédent et analysé l’erreur quadratique entre
l’observation et l’estimation (racine carrée de l’erreur quadratique rapportée à la
fréquence moyenne) en faisant varier le paramètre  . Nous avons :

81
Une approche plus pragmatique consiste à définir la forme des estimateurs (fonction multiplicative,
par exemple) et les contraintes qu’ils doivent satisfaire (respect des marges). Dans ce cas, la partie
modélisation (le processus de survenance des sinistres est, pour un assuré, un processus de Poisson)
est inutile, L’adéquation entre les résultats obtenus par l’approche inductive et par l’approche
déductive montre la valeur opératoire de la modélisation d’une part, et permet d’expliciter les
hypothèses sous-jacentes que doit vérifier le phénomène pour que la solution inductive soit
« optimale » d’autre part Quatre cette validation croisée, l’approche déductive peut permettre d’avoir
des conditions d’existence ou d’unicité.

195
Nous avons un optimum pour   0, 38 Si nous comparons les estimations
obtenues avec les modèles additif (  1), multiplicatif (  0) et de Box &
Cax(  0, 38),

Nous observons un meilleur ajustement aux observations, et ce, sans perdre en


robustesse (un seul paramètre supplémentaire à estimer).
Enfin, par rapport à une formule des marges, la modélisation par un processus
de Poisson permet d’avoir une estimation de la décomposition entre variance
endogène et variance exogène du phénomène. Ces deux variances peuvent être
comparées aux variances intr-classes et interclasses et ainsi avoir une estimation de
la qualité de la segmentation En effet, le ratio.
ˆ endogéue
2
ˆ k
s  
var( N k  ˆ k ) var( N k  ˆ k )
Est compris entre une valeur minimale (EN/var (N) qui est le ratio en absence
de segmentation) et 1, la valeur 1 correspondant à une segmentation parfaite. On
en déduit un coefficient de mesure de la qualité de la segmentation :

196
  
Q  s 0

1   0
Où  0 est le ratio en absence de toute segmentation.
Dans l’exemple précédent la valeur de  est, en absence de toute
segmentation, de 98,8 % Avec une segmentation avec les trois variables A, B et C et
le modèle de Box ans Cox, le ratio est le 99,48 % : cette segmentation permet
d’expliquer 61,1 % de la variance exogène (0,68 % sur 1,2 % explicable). Cet
indicateur périmer de comparer les différentes segmentations :
Segmentations B&C B&C B&C Additif multiplicatif
1 variable 2variables 3 variables 3 variables 3 variables
Qualité 3,0 % 23,6 % 61,1 % 95,5 % 60,5 %

Nous observons que,


– Pour une méthode donnée, la qualité augmente avec le nombre de variables
utilisées pour la segmentation ;
– Pour un nombre de variables donné, la qualité peut varier fortement, Nous
retrouvons que la meilleure segmentation est obtenue avec le modèle de Box ans
Cox, que le modèle multiplicatif est légèrement en retrait et que le modèle additif
est légèrement derrière.
Cet estimateur de la qualité est toutefois peu robuste avec des échantillons de
petite taille.

Le modèle de Poisson à paramètre aléatoire


En pratique, lorsque l’on utilise le modèle de Poisson, on constate que la
variance intr-classe est supérieure à la fréquence (ou moyenne). De même, l’analyse
de la sinistralité montre que les assurés qui ont eu des sinistres ont plus de chance
d’avoir de nouveaux sinistres, Ces observations sont contraires aux hypothèses du
modèle de Poisson égalité entre la variance et l’espérance, indépendance entre deux
périodes disjointes. Aussi, comment concilier ces expériences importantes pour
l’assureur et le modèle ? Doit-on rejeter ce dernier ?
Nous pensons que cet écart entre les propretés du modèle de l’observation est
dû à une hypothèse trop forte sur les fréquences individuelles des assurés : il est
illusoire de penser que l’on puisse attribuer à chaque assuré sa « vraie » fréquence à
partir des seules variables exogènes. Du point de vue du modèle, cela revient à dire
que la fréquence n’est plus une grandeur déterministe parfaitement déterminée par
les variables exogènes, mais qu’elle dépend de chaque individu .Du point de vue du
modèle, cette indétermination fait que l’on observe dans chaque segment une
variance exogène. Pour intégrer le fait que nous ne connaissons pas la fréquence

197
individuelle dans la modélisation, nous devons faire une hypothèse
supplémentaire : les fréquences individuelles d’un segment se répartissent selon une
distribution correspondant à une variable aléatoire  dont la moyenne  est
complètement déterminée à partir des variables exogènes. Les fréquences
individuelles peuvent alors être modélisées par des variables aléatoires
indépendantes et identiquement distribuées de loi  82.
Sous cette hypothèse, le processus de survenance des sinistres d’un assuré
donné est toujours un processus de Poisson, ce sont les fréquences individuelles qui
sont des réalisations d’une variable aléatoire (Dionne G, 1997 ; 1989 1988 ;
Lemaire), 1985 ; 1995).
D’un point de vue pratique, cela revient à faire l’hypothèse suivante ; « le
comportement de l’assuré est constant dans le temps, comme avec le modèle de
Poisson, mais son comportement est inconnu » ; ce n’est pas la fréquence
individuelle (grandeur caractéristique du risque( qui change au cours du temps,
mais l’estimateur de cette fréquence ,c’est-dire la connaissance que l’assureur en a
(voir le paragraphe sur l’analyse a posteriori). Grâce à cette généralisation, nous
avons réconcilié la réalité de l’assureur avec le modèle.
L’introduction de l’hypothèse selon laquelle les fréquences individuelles
suivent des lois gamma se traduit, pour l’analyse du risque, par une décomposition
de l’estimation de la fréquence en deux étapes.
– L’estimation des paramètres )moyenne et variance) de la loi de la fréquence
individuelle )en tant que variable aléatoire( est obtenue à partir des variables
exogènes. Nous obtenons ainsi le meilleur estimateur a priori de la fréquence.
– L’estimation, connaissant la loi de la Fréquence, de la fréquence individuelle
)grandeur déterministe), est obtenue à partir des variables endogènes, c’est-à-dire à
partir d’une réalisation du risque. C’est le meilleur estimateur a posteriori de la
fréquence que nous analyserons plus bas dans le paragraphe relatif à l’analyse a
posteriori.
La deuxième étape de cette généralisation est le choix de la loi de la variable
aléatoire Fréquence individuelle, afin que le modèle soit opératoire, nous nous
sommes limités à la famille des lois gamma83. La moyenne de la loi  s’exprime,

82
La spécification complète du modèle comprend la définition de la loi du paramètre du processus de
Poisson, c’est-à-dire de la loi que suit la variable aléatoire  . Le choix de cette loi n’est pas neutre :
une loi ne chargeant que la moyenne redonne le modèle de Poisson par exemple De plus, la loi est
contrainte, d’une part, par le fait qu’une fréquence est positive et, d’autre part, par son caractère
opératoire. Enfin, la recherche de cette loi doit être guidée par le souci d’améliorer l’estimation de la
fréquence individuelle.
83
Nous avons choisi la famille des lois gamma dans la mesure où elles :)

198
comme dans le cas du processus de Poisson, à partir des seules variables exogènes
par une transformation de Box et Cox, la variance relative est supposée constante
dans toutes les cases et égale à 1/****** et donc indépendante des variables exogènes.
Cette généralisation n’introduit qu’un paramètre supplémentaire a (on retrouve le
modèle de Poisson quand la variance de la loi de la fréquence individuelle  tend
vers 0 c’est-à-dire lorsque a tend vers l’infini).
La densité de la Fréquence  s’exprime de la manière suivante.
a u
a u  a 
f ,u (u)    esp   u 
   (a)   
Sous ces hypothèses, le nombre de sinistres survenus pendant un intervalle
d’emps t se met sous la forme :
u a
 t   a  (n  a)
P ( N  n)     
 a   t      t   ( n  1)  (a)
N suit donc une loi binomiale négative de moyenne t et de variance :
 a  t 
 2
 t 
 a 
A partir de ces-hypothèses, nous pouvons étudier les proprets du modèle la
vraisemblance admet comme expression :
Rk a
  ktk  
m
a  (n k  a)
L( n ,..., n )   
1 m
k k   k k 
k 1  a   t   a   t   ( n  a ) ( a )
k

Soit en passant au logarithme :


m
  ktk   a   (n k  a )

L ( n 1 , ..., n m )  In  k k 
 aIn  k k 
 In cste
k 1 a t  a t   ( n k  a ) ( a )
Par dérivation du logarithme de la vraisemblance, nous obtenons :

– vérifient la contrainte de positivité ;


Permettent des calculs simples ;
Permettent d’avoir une meilleure adéquation entre les propriétés du modèle et les observations.
D’autres modèles ont été proposée (Pinque J, 1998 ; walhin J.F. 2000) Par exemple, la loi Gamma peut
être généralisée en prenant la loi Inverse Gaussienne (étudiée dans organsin B, 1982) Bien que cette
loi semble mieux adaptée (Besson J.L, 1992) il nous paraît toutefois difficile de l’utiliser, vu la
complexité des formules obtenues en l’absence même de variables de segmentation. En fait, ces autres
modèles n’abordent pas la question de l’estimation de fréquences a priori mais seulement la mesure
de l’impact de la sinistralité sur les fréquences a posteriori, or les deux approches ne peuvent pas être
séparées dans la mesure où les résultats de la seconde dépendent de la première.

199
 l m
a nk   ktk

 b
  c i, j
k
1   C T
B a   k k
t
 i , j k  1 k
 l 1 m n k   k t k   C kT B 

  2 
 k  1 a   k t k  1   C kT B
 In 1   C T
B  
 
k


 l  
   n  t 
k k k
m
mi a
  In  k k 

  a k 1 a  i  1  a t  a   k t k 

Où m i est le nombre d’individus ayant eu au moins i sinistres


Nous avons donc la propriété suivante :
Propriété : LA solution ( B ,  , a ) du maximum de vraisemblance existe et
vérifie la système :

 m
a nk   kt k
 ( a )0   c i, j
k
1   C T
B a   k k
t
;  (i , j ),1  i  n ,1  i  ni
 k 1 k

 a m nk   kt k
 (b )0  2  k k 
1  In (1   C kT B ) 
  k 1 a   t
 mi m
  a  n  t 
k k k
 ( c )0    In  
 a  i  1 k 1   a   k t k  a   k t k 
De plus, pour tout couple ( , a) tel que a / ( a  1)   , la vraisemblance
admet une unique solution.
Démonstration :
Existence-Étant donné le phénomène étudié, la survenance des sinistres, il est
possible de réduire l’espace à :
E  E   0,  
De plus, l’intersection de E’ avec l’hyperplan **** est un espace compact : il
existe donc un maximum au moins Unicité – par dérivation seconde du logarithme
de la vraisemblance nous obtenons.
  kt k  k k  a 
nk    k k 
 t   
 2l m
a  a t  a t
k k

  cki , j ckn ,r
bi , j bn ,r k 1 a t
k k
(1   Ck B)
T 2

200
Si le couple ( a , a ) tel que a / ( a  1)   , nous avons :
 a 
 k ,      0
 a  
k k
t 
d 'o ù :
 2
/ l
 b i , j  b n ,r

Remarques : dans le cas du modèle multiplicatif (  0) ou dans le cas du


modèle de Poisson ( a   ), la relation a / ( a  1)   toujours satisfaite,
Propriété : Si la variance intra-classe expérimentale est supérieure à la
moyenne, c’est à-dire si
m 2 m

 
k 1
k
n k
  
k 1
nk

Alors la système admet au moins une solution en a


Démonstration :
A au voisinage de 0, nous avons :
l m

a
 m 1  
k 1&
I n ( a )   (1 )

d 'o ù
l
lim   
a  0 a

b – au voisinage de l’infini, nous avons.

 i 1  m  n   t  1   ktk    1 
2
l m
m k k k
 i 1     1      0 2 
a i 1 a  a  k 1  a  a  2  a    a 

D’après la définition des m i nous avons
l 1 m
 1 

a 2 a 2
   n
k 1
k
  k t k   n k   0  2 
a 
Si la condition est satisfaite, nous avons :
l 1 m 1
 2   nk   k t k   nk   0  2 
2

a 2a k 1   a 
 l
l i m  0
c    a

201
La fonction s’annule donc au moins une fois. Le premier 0 en partant de 0 est
un maximum (la fonction dérivée est décroissante).
Remarque :
– La condition suffisante correspond à une des observations qui conduisent à
rejeter le Processus de Poisson (la variance intra-classe est supérieure à la
moyenne), cette condition n’est donc pas limitative.
– La condition suffisante est déontique à celle utilisée dans la méthode des
moments. en effet, l’estimateur de a par cette méthode est.
m

 k
tk
a  m
k 1

   n   n k 
2
k
  ktk
k 1 
Estimateur qui est positif si la condition est vérifiée.
Propriété : pour tout couple (B, a) fixé, la vraisemblance admet au moins un
maximum sur l’intervalle  0, a / ( a  1) 

Démonstration :
Ce résultat est une conséquence directe de la compacité de l’intervalle.
Si nous nous limitions au cas du modèle multiplicatif où les estimateurs des
fréquences sont des fonctions multiplicatives des paramètres (Dionne G ; 1988 ;
1989), le système (a) précédent devient :
m
a
0   cki , j
a t k k n k
  k t k  ;   i, j  ,1  i  n,1  i  ni
k 1
Ce système est une généralisation du système des marges, il pondère les
k2
observations par p  a / (a   t )   /  . Les système est équivalent à :
k k k k

m
 k
 b  k2
n k
  k t k   0;   i , j  ,1  i  n ,1  i  n i
k 1 i, j

C’est le système obtenu par la méthode des moindres carrés généralisés lorsque les
variances intra-classe sont connues.84 Bien que la généralisation du modèle de Poisson
ne vérifie plus la propriété des marges (c’est-à-dire que le nombre observé de sinistres
ne soit pas ici égal au nombre prévu de sinistres pour chaque modalité de chaque
variable), les estimateurs obtenus sont « meilleurs » dans la mesure où les observations
les plus fiables85 ont un poids plus important. Ce modèle a une contrepartie dans le
monde réel et un sens opératoire. Notons que le modèle linéaire généralisé permet de

84
Cette propreté est aussi vérifiée dans le cas général
85
Une observation est d’autant plus « fiable » que la variance de la variable aléatoire associée est faible

202
traiter directement ce cas. Nous recommandons cependant notre approche car :
– Elle donne une solution explicite au problème qui permet d’analyser le sens
« physique » du modèle et donc d’en contrôler la validité ;
– Le modèle linéaire généralisé utilise un coefficient d’over-dispersion
correspondant à la variance intra-classe exogène résiduelle qui, dans certain cas,
peut être inférieur à 1 et correspondre alors à une Under dispersion dont le sens
pratique nous échappe.
– Toutefois, une fois le modèle défini et les équivalences établies, il est possible
d’utiliser le modèle linéaire généralisé comme solution opératoire de calcul et ainsi
bénéficier de logiciels
– préprogrammé.
Nous avons repris l’exemple précédent et avons calculé les estimateurs.
Nous avons obtenu une estimation de a égale à 15,1. Maintenant si nous
analysons les estimations des fréquences par segment nous ‘observons pas de
différences par rapport au modèle de Poisson simple (la valeur de a est importante).
Le paramètre a Péret toutefois de comparer les différentes segmentations, En
effet, plus il est grand moins la variance intra-classe est grande et donc plus la
segmentation est bonne. Si nous reprenons l’exemple précédent nous trouvons :
Sans Box and Cox avec Additif Multiplicatif
Segmentation 1variable 2variables 3varibables 3variables 3variables
a 5,3 5,5 7,2 15,1 14,4 14,8

Nous avons simulé un second exemple similaire au précédent mais dans lequel
les fréquences par segment ne sont plus constantes (elles sont obtenues par tirage
aléatoire selon une loi uniforme). Dans ce second cas, nous avons comme
estimation de a 1,9 ce qui correspond à une forte variance intra-classe (53 %)
toutefois, même avec une telle valeur du paramètre a, on observe peu de différence
entre les estimations de la fréquence avec le modèle de Poisson et celles avec le
modèle de Poisson à paramètre gamma (différence moyenne inférieure à 0,5 % et
différence maximale inférieure à 1 %). En fait le paramètre a caractérise la longueur
de la queue de distribution de la variable aléatoire nombre de sinistres. si nous
analysons la distribution des individus en fonction des sinistres nous observons que
quand a diminue le nombre d’individus sans sinistre augmente ainsi que le nombre
d’individus ayant 2 sinistres et plus en revanche, le nombre d’individus ayant 1
sinistre diminue.86

86
Pour avoir une estimation précise de a, il faut que le nombre de sinistres soit important afin d’avoir
suffisamment d’individus ayant au moins 2 sinistres C’est pourquoi, il est important de faire
l’hypothèse que a est indépendant des variables exogènes.

203
Nombre Modèle de Poisson aléatoire Simulation
Sinistres a a  15,1 a  1, 9 1 2
0 7 533 7 534 7 541 7 537 7 452
1 451 449 436 446 433
2 16 16 22 17 25
3 et + 0 1 1 0 0
Total 8 000 8 000 8 000 8 000 8 000

En conclusion,
– les estimateurs a priori des fréquences varient peu avec le modèle de Poisson
à paramètre aléatoire par rapport au modèle de Poisson simple ;
– le paramètre a est stable par rapport à la fonction de transformation
multiplicatif, additif ou Box & Cox), il caractérise la longueur de la queue de
distribution des individus en fonction du nombre de sinistres.
– Quatre la prise en compte de la longueur de la queue de distribution,
l’hypothèse portant sur les fréquences individuelles permet, pour une segmentation
donnée, de scinder la variabilité des fréquences individuelles (variance exogène) en
deux termes :
– La variabilité des fréquences individuelles à l’intérieur des classes variance
exognée intra-classe), elle est égale à la variance de la variable aléatoire fréquence,
c’est-à-dire à 1/a en valeur relative.
Dans notre premier exemple, l’utilisation de cette méthode (Q2) permet
d’estimer la qualité de la segmentation Nous avons :
Qualité de la B&C B&C Additif multiplicatif

Segmentatio 1 variable 2varialbes 3 variables 3 variables 3 variables


ns
Q2 2,9 % 23,0 % 60,1 % 58,8 % 59,3 %

Q1 3,0 % 23,6 % 61,1 % 59,5 % 60,5 %

Nous retrouvons des résultats très proches de ceux obtenus avec la méthode
proposée dans le cadre de l’étude du modèle de Poisson87 Si maintenant nous
analysons la qualité de la segmentation dans le cas de la simulation 2 obtenue avec
le modèle de Box & Cox et 3 variables, nous avons seulement 20,9 % cette faible

87
On montre (Boulanger F, 1993) que les méthodes de recherche de variables de segmentation
reposant sur la maximisation de la variance exogène expliquée par le modèle, c’est-à-dire la
minimisation de la variance exogène intra-classe, sont équivalentes aux méthodes classiques de
l’analyse de la variance, L’avantage de la variance exogène est de produit des mesures « absolues »

204
qualité s’explique par la variance intra-classe importante.
Une mesure moins précise, mais plus simple, de la qualité de la segmentation
consiste à calculer le rapport entre la valeur de a obtenue en l’absence de
segmentation et celle obtenue après. Ce rapport est compris entre 0 et 1 ; valeur 0
correspond à des classes parfaitement homogènes (variance exogène intra-classe
nulle), la valeur 1 correspond à une segmentation n’ayant aucun rapport avec le
risque.
Dans l’exemple de la première simulation, nous obtenons :
Qualité de la B& C B&C B&C
Segmentation 1 variable 2 variables 3variable
Simulation 1 96,4 % 73,6 % 35,1 %
Simulation 2 94,2 % 86,1 % 68,1 %

Conclusion
La modélisation de la survenance des sinistres par des processus de Poisson
permet d’obtenir une suite de solutions ayant toutes une contrepartie dans le
monde de l’assureur. Le modèle de Poisson simple permet d’obtenir l’égalité sur les
marges entre l’observation et l’estimation.
Le modèle de Poisson à paramètre aléatoire permet de rendre compte du
principe » qui a eu des sinistres aura des sinistres », principe important pour
l’assureur. Mais il modifie la propriété sur les marges sans, cependant en changer le
principe.
Par ailleurs, l’utilisation de ces modèles permet d’avoir une mesure absolue de
la qualité de l’estimation. Mesure qui permet, non seulement de comparer des
segmentations, mais aussi de dire si telle ou telle segmentation est bonne ou non
Enfin, avec le modèle de poisson à paramètre aléatoire, il est possible d’inscrire
l’approche dans une démarche globale et cohérente incluant l’analyse a posteriori,
c’est ce qui en fait le principal intérêt.

2.1.2. Le coût moyen


L’étude des coûts nécessite une analyse pré préalable beaucoup plus fine ; s’il
est simple de calculer le nombre de sinistres, il est beaucoup plus difficile d’en
définir les coûts Voici quelques exemples des questions qui se posent
Faut-il ignorer les frais de gestion liés aux règlements des sinistres ?
Comment traiter les sinistres réglés dans le cadre des conventions :
Convention automobile des sinistres matériels (IDA) ou la convention des
sinistres Dégâts des Eaux en assurance habitation ? Que faire des coûts négatifs que
les conventions induisent ?

205
Comment traiter les sinistres sans suite ?
Comment tenir compte de la cadence de règlement ?
–…
Le tout doit par ailleurs être cohérent avec les choix faits pour l’étude des
fréquences.88
La deuxième difficulté de l’analyse des coûts réside dans la plus grande
variabilité du risque (la variance peut être infinie) associée à des échantillons de
taille plus réduite89. Cette variabilité se décompose en un terme endogène de nature
purement aléatoire et un terme exogène lié au risque ; la part de l’aléatoire est, plus
encore que dans le cas de la fréquence, prépondérante. Les grandeurs observables
sont les coûts des sinistres, les grandeurs utiles sont les coûts probables.
La troisième difficulté réside dans le fait qu’il n’existe pas, à la différence de ce
qui se passe pour le processus de survenance des sinistres, de lois « naturelles »
permettant de modéliser le coût des sinistres90.
Nous proposons une approche paramétrique fondée sur la famille des lois
gamma et leurs dérivées, qui, même si elles ne sont pas parfaitement adaptées aux
observations, sont toujours préférables aux lois normales dans la mesure où, d’une
part, elles intègrent les modèles paramétriques classiques.91 Et où, d’autre part, elles
sont contraintes à la positivité Ainsi notre approche permettra d’obtenir de meilleurs
estimateurs. Enfin, les équations obtenues sont une généralisation de la propriété des
marges avec intégration d’un écrêtement et d’un écangage. Le modèle à une valeur
pratique et les résultats obtenus ont une contrepartie dans le monde réel.
Nous présentions dans une première partie le modèle gamma puis l’élargissons
dans une seconde partie afin que le modèle puisse s’adapter à tout type de
distribution, y compris celles avec une queue de distribution longue.

88
Pour mieux maîtriser ces difficultés dans le cadre de l’élaboration d’une structure tarifaire, il est
intéressant de séparer, d’une part, l’estimation des niveaux relatifs par segment, et d’autre part,
l’estimation du niveau de référence (le coût de la matière première moyen du portefeuille), laquelle
relève d’une approche globale.
89
Une des questions posées par cette variabilité est : comment doit-on traiter les sinistres graves ? à
partir de quel niveau doit-on les écrêter ? et comment mutualiser les crêtes ?
90
Notons qu’ils est possibles de lever, pour partie, ce problème en utilisant comme loi la répartition
expérimentale de tous les sinistres et en considérant que celle d’un assuré se déduit de celle-ci par une
transformation simple (méthode de l’échantillon saturé). Toutefois, nous sommes réservés sur une
telle approche dans la mesure où la loi d’une variable aléatoire obtenue par le mélange (loi globale) de
variables aléatoires (lois individuelles) ne se déduit pas simplement des lois individuelles (voir ci-après
le modèle gamma à paramètre aléatoire). Pour qu’une telle approche soit applicable, il faut que les
risques soient relativement homogène.
91
Comme nous projetons les observations sur un sur-espace (la loi normale est un cas limite des lois
gamma) les estimations obtenues ne peuvent être que meilleures.

206
Le modèle gamma.
L’hypothèse de base est que le Coût des sinistres suit, pour un assuré donné,
une loi gamma (Berg P, 1980b) L’expression de sa densité est donc :
r
1 r  r  r 1
f (x) 
X
s, f   exp     
( r )  s   s 
Où s est le coût moyen ( s  E  X ),
 1 Var(X ) 
r est l’inverse de la variance relative du coût 
 r
 

E X 
2
 
Le modèle est un modèle d’ordre 1 (afin d’assurer la robustesse des
estimateurs) de type multiplicatif avec un écart type relatif intra-classe indépendant
des variables exogènes (afin de simplifier les calculs et de rendre l’estimation des
variances plus robuste).Nous avons donc :
rk  r
 nr ni

s k  exp    c ki , j d i , j   e x p ( C kT D )
 i j 

Où Ck  c 
i , j 1 i  u i
k 1 j  u est le codage du risque associé au sinistre k,
i
1 i  u i
D  (d i, j ) 1 j  u i Est le vecteur des paramètres.
Sous ces hypothèses, la solution obtenue par le maximum de vraisemblance est
donnée par le système suivant :
m
xk
 cki , j
k 1 sk
 m si , j  i ,1  i  ni ,  j ,1  j  ni

Où m i est le nombre de sinistres ;


x k est le coût du sinistre k ;
msi, j est le nombre observée de sinistres pour les assurés vérifiant la modalité j
pour la variable i.
Ce système s’interprète comme suit pour chaque modalité de chaque variable,
la somme des rapports entre le coût observé (grandeur observable) et le coût prévu
(grandeur utile) est égal au nombre observé de sinistres, soit incère : la moyenne
des rapports est égale à 1
Ce systèmes s’interprète comme suit : pour chaque modalité de chaque
variable, la somme des rapports entre le coût observé (grandeur observable) et le
coût prévu (grandeur utile) est égal au nombre observé de sinistres, soit encore : la

207
moyenne des rapports et égale à 192. Le modèle a une valeur pratique.
Ce système peut encore se mettre sous la forme :93
m
xk  sk
 cki, j
k 1 sk
 i, 1  i  ni , j,1  j  ni 2

Démonstration :
Sous les hypothèses ci-dessus, la vraisemblance est égale à :
r
rr  1  m1
 xk  k 1
L( x / r, D, Ck ;1  k  ms )  
k
 k exp  r k x
k 1 (r )  s   s 
Par passage au logarithme, nous obtenons :
mi
xk  xk 
L( xk / r, D, Ck )   r s k
 rIn  k   In ( x k )  rIn ( r )  In (  ( r ))
k 1 s 
D’où par dérivation :
 l mi
i, j  x  s 
k k


d
  ck r 
s k  i,1  1  i  n ,  j ,1  j  ni
 i , j k 1  

 l mi  x k   x k  s k  (r )
   In 
r k 1  s   s k    k   In ( r ) 
(r )
 
D’où le système :
 mi
i, j  x  s 
k k

 ( a )  ck r  k   0 i,1  i  n ,  j ,1  j  ni
 k 1  s 


mi
 xk  (r )
 ( b )  In  k   In ( r ) 
(r )
0
 k 1 s 
Dans le cas où les variances relatives intra-classe sont constantes et connues
(hypothèse du modèle) le système (a) se met sous la forme :

92
C’est une propriété des marges appliquée aux rapports.
93
Cette forme est voisine de celle du système obtenu avec la méthode des moindres carrés. Par rapport
à ce dernier, le système obtenu accorde à chaque observation un poids inversement proportionnel au
carré du coût probable estimé. Nous avons la relation suivante.
m
xk  sk m
 1 
 c i, j
k   c ki , j  x k  s k  s k  k 2 
k 1 sk k 1      s 
¨ s o lu tio u d e s m o in d r e s c a r r é
Sous h’hypothése « la variance relative est constante » la variance est proportionnelle au carré de
l’espérance et le poids inversement proportionnel à la variance. La solution est donc « meilleure »,
puisqu’elle accorder un poids plus important aux observations les plus fiables (celles à à faible
variance) : c’est la méthode des moindres carrés généralisés.

208
mi
 x k  s k  s k
 
k 1 
2 
 k  d i , j
 0  i ,1  i  n ,   j ,1  j  n

Il est donc bien équivalent au système obtenu par la méthode des moindres
carrés généralisés.
Propriété : pour tout r positif le système (a) admet une et une seule solution,
Démonstration :
1 – Unicité de la solution
Par dérivation seconde nous obtenons :
 2l r
   c ki , j c kH , p k 2  0
d i, j d i, j s
Il en résulte que, pour toute valeur de r positive, la fonction est une fonction
concave de D ; le maximum est donc, s’il existe, unique (à un coefficient de
proportationnalité prés).
2 – Existence d’une solution :
Les paramètres s k vérifient :
lim s k
  
D  

D’où un équivalent de au voisinage de l’infini :


mi
l   r  In ( d k )  0(1)
k 1
Le logarithme de la vraisemblance vérifie donc
lim l   
D  

Il existe donc x tel qui


D , D  X , l (D)  l(1,...,1)  1
L’ensemble défini par
E   D / l ( D )  l (1,...,1)  1
est donc un ensemble compact non vide ; le logarithme de vraisemblance
admet donc au moins un maximum
Proposition : Pour tout d donné le système (b) admet une solution si la
condition
Suivante est vérifiée :
 xk 
 In  k   0
 s 
Démonstration
 In (l )
1  li m   
r 0 r

209
Étant donné que
In((r  1))  In(r )  In((r ))
On a la relation suivante
(  ( r  1) 1  (r )
 
(  ( r  1) r  (r )
D’où au voisinage de 0.
 (r ) 1
    (1)
 (r ) r
Si nous passons à la dérivée de la vraisemblance, nous avons :
 In ( l ) 1
 In ( r )    (1)
r r
D’où la valeur de la limite en 0.
  (r )  
2  lim  In ( r )   0
r
  (r ) 
La formule de Stirling généralisée donne comme équivalent de la fonction
Gamma en l’infini
c 1/ 2
2 r exp( r )
D’où, au voisinage de l’infini :
 (r ) 1 1
 In ( r )   0 
 (r ) 2r r
3-Si la condition suffisante est satisfaite, la fonction définie par :
 (r )  mi  xk 
f (r )  ms  In(r )     In  k 
 ( r )  k 1  s 
Vérifie
lim f (r )   
r  0

lim f (r )  0
r  
Par continuité de f, il existe au moins une valeur de r telle que
f ( r )  0 et f ( r )  0 (la première intersection de f avec l’axe des abscisses par
exemple). Il en résulte donc que si la condition satisfaisante est vérifiée pour D
donné (solution du système a), la vraisemblance fonction de r admet au moins un
maximum.
Remarque M l’analyse du modèle Bêta de seconde espèce laisse penser que la
condition ci-dessus est suffisante mais non nécessaire.
En pratique, on résout le système en D. On regard ensuite si la condition est

210
satisfaite. Enfin, on résout l’équation b.
La forme multiplicative des coûts moyens et le système (a) permettent un calcul
simple du vecteur des paramètres. En effet, en remplaçant s k par son expression
et en mettant en facteur le terme correspondant à la modalité j de la variable i, nous
obtenons :
mi
1 xk
exp( d i , j ) 
msi , j
 cki, j  n nl l , p 
i,1  i  n, j ,1  j  ni
exp    ck d l ,b 
k 1

 l 1 p 1 
Après initialisation des paramètres à 1, ce système permet de calculer les di, j de
manière itérative. Lors de la première itération, les estimateurs des paramètres
associés à la première variable sont égaux aux logarithmes des coûts moyens
observés pour chacune des modalités :
 1 ms 
d i , j  In  1, j  c 1k nj x k   jn1  j  n1
 m s k 1 
Ce système met en évidence le processus qui permet, à partir de l’hypothèse
multiplicative, d’avoir des estimateurs robustes. En effet, le système revient à
appliquer le principe de mutualisation à chaque modalité de chaque variable94.
Nous avons appliqué cette méthode à deux simulations correspondant au
second exemple présenté dans la première partie de ce chapitre. La loi utilisée est
une loi Bêta de seconde espèce de paramètre r=8 a = 1,5 dont le moyennes par
segment sont données par le tableau suivant.
€ A1 A2 A3 Total A
B1 2 643 2 776 3 564 3 110
B2 3 831 5 000 6 267 5 201
B3 0 850 5 538 7 407 5 552
Total B 3 499 4 565 5 513 4 637

Par ailleurs la répartition des sinistres est donnée par :


A1 A2 A3 Total A
B1 38 46 73 157
B2 41 55 63 159
B3 54 60 50 164
Total B 133 161 186 480

La première simulation a été obtenue par tirage aléatoire, Nous observons les

94
La robustesse du système est au moins aussi bonne que celle liée à la modalité à la quelle correspond
le plus petit nombre de sinistres. Ce résultat peut se démontrer en utilisant la propriété asymptotique
des estimateur du maximum de vraisemblance et en calculant la matrice de Fischer.

211
coûts moyens par segments suivants :
€ A1 A2 A3 Total A
B1 1 845 2 611 2 931 2 575
B2 3 622 3 699 4 345 3 935
B3 2 375 4 729 8 382 5 068
Total B 2 608 3 772 4 875 3 877

Le coût moyen global est significativement inférieur au coût du modèle sous-


jacent (16 %) Cette différence s’explique par l’absence de sinistre grave. La structure
par segment est globalement respectée sauf pour le segment (A1, B3) dont le coût
moyen observé est inférieur à celui du segment (A1, B2) et pour le segment (A2,
B2) dont le coût moyen observé est proche de celui du segment (A1, B2). L’écart
type relatif entre l’observation et la simulation est de 42,1 %.
La seconde simulation a été obtenue en remplaçant l’un des sinistres de la
première simulation par un sinistre grave (segment A1, B3) Nous observons les
coûts moyens par segments suivants :
€ A1 A2 A3 Total A
B1 1 845 2 611 2 931 2 575
B2 3 622 3 699 4 345 3 935
B3 24 688 4 729 8 382 12 415
Total B 11 667 3 772 4 875 6 387

Le coût moyen global est significativement supérieur au coût du modèle sous-


jacent (+ 38 %) Cette différence s’explique par la présence du sinistre grave L’écart
type relatif entre l’observation est la simulation est de 261,4 %.
Nous avons appliqué le modèle gamma pour l’estimation en prenant les trois
variables exogènes (A, B et C). Dans le cas de la simulation 1, nous avons obtenu
les coûts moyens par segment suivants :
€ A1 A2 A3 Total A
B1 1 778 2 498 3 133 2 619
B2 2 824 3 919 5 179 4 136
B3 3 281 4 700 6 315 4 725
Total B 2 711 3 804 4 681 3 841

LE coût moyen global de l’estimation est peu différent du coût moyen global
observé (-1 %) le modèle ne permet pas de corriger la différence entre le coût moyen
global observé et le coût moyen du modèle. toutefois la structure par segment est
nettement améliorée : le coût moyen du segment (A1, B3) est bien supérieur à celui
du segment (A1, B2) ; le coût moyen du segment (A2, B2). Cette amélioration se
retrouve au niveau de l’écart type relatif qui passe de 42,1 % à 23,1 % Par ailleurs, la
variance relative estimée est égale à 63 % valeur finie alors que le modèle utilisé n’en

212
admet pas l’introduction de la fonction multiplicative permet d’améliorer
l’estimation.
Nous avons appliqué la même méthode à la deuxième simulation Nous avens
obtenu les coûts moyens par segment suivants :
€ A1 A2 A3 Total A
B1 3 479 2 247 2 782 2 794
B2 5 557 3 558 4 879 4 597
B3 11 690 7 237 11 117 9 886
Total B 7 453 4 554 5 733 5 814

Les résulta sont très différents des résultats précédents, et ce alors que nous
n’avons modifié qui une valeur le coût moyen global baisse (584 € contre 6 387 €)
mais reste très élevé (+ 25 % par rapport au modèle utilisé pour la simulation). Cette
amélioration vient de la moindre pondération des sinistres appartenant aux
segments ayant un coût moyen élevé. Par ailleurs, la structure n’est plus respectée.
En effet, tous les segments (A2, *) ont un coût moyen inférieur au coût du segment
(A1, *) correspondant. C’est le sinistre en (A1, B3) qui tire à la hausse les coûts
moyens de l’ensemble des segments (A1, *).L’écart type relatif reste élevé à 83,4 %.
L’estimation des coûts moyens avec le modèle gamma est peu robuste aux sinistres
graves Une méthode classique pour résoudre ce problème est l’écrêtement des sinistres
« graves » Ces méthodes consistent à plafonner les sinistres à une valeur donnée et à
répartir la sur-crête (c’est-à-dire la charge dépassant le seuil chois) dans l’ensemble des
cases (par exemple au prorata de la charge estimée de la sous-crête) Nous avons
applique une telle méthode à la simulation 2 en prenant un seuil correspondant au
centile 99 % de la loi lognormal (seuil à 33 763 €, pour une moyenne observée de 6 387
€). Le coût moyen de la sous-crête est de 3 669 €, soit 57 % du coût moyen observé Avec
cette méthode, nous avons obtenu les coûts moyens par segment suivants.
€ A1 A2 A3 Total A
B1 3 307 4 431 5 082 4 462
B2 5 114 6 848 8 197 6 943
B3 5 798 7 818 9 590 7 693
Total B 4 885 6519 7 349 6 387

Par constriction, cette méthode donne un coût moyen global égal au coût
moyen observé : elle ne permet pas de corriger l’impact global des sinistres graves.
En revanche, la méthode permet d’améliorer l’estimation (l’écart type relatif passe
de 83,4 % à 40,8 %) et d’avoir une structure conforme au modèle sous-jacent utilisé :
tous les segments (A2, *) ont un coût moyen supérieur au coût du segment (A1, *)
correspondant.
Les modèles classique n’apportent qu’une réponse partielle à l’analyse des coûts

213
Ils ne sont pas opéables d’apporter une réponse aux cas où il y a des sinistres graves
ou exceptionnels (Responsabilité Civile automobile, lucanidé par exemple) Pour
traiter les longues Queens de distribution il est possible de prendre des méthodes
d’écrêtement Mais comment choisir le seuil d’écrêtement ? Que faire de la sur-
crêté ? A ces questions il n’existe pas de réponse scientifique C’est pourquoi nous
proposons de généraliser le modèle.

Le modèle gamma à paramètre aléatoire ou loi Bêta de seconde espèce


L’hypothèses de base est inchangée : » la loi des coûts de sinistres est une loi
gamma ». En revanche l’hypothèse « les coûts probables sont homogènes dans
chacun des segments » est trop forte dans la mesure où elle revient à considérer que
les variables exogènes permettent de caractériser parfaitement le coût des sinistres.
Pour pallier cette difficulté, nous allons généraliser le modèle (Boulanger F, 1994 a)
en supposant que la moyenne S est, pour chaque assuré ou chaque sinistre, une
variable aléatoire dont seule la loi est une fonction des variables exogènes. Cette
hypothèse peut correspondre à deux réalités :
– les coûts moyens des assurés d’un même segment sont, comme dans le cas
des fréquences, différents et sont modélisés par des variables aléatoires
indépendantes et identiquement distribuées de loi S ;
Les sinistres ne sont pas homogènes et les coûts dépendent du contexte (vitesse
du véhicule par exemple)
Pour des raisons opérations, nous supposons que 1/S suit une loi gamma.
a 1
De moyenne * ;
a 1 s
De variance relative 1/ a ;
Où s est, comme dans le cas du modèle gamma, une fonction multiplicatrice
des variables exogènes et a un réel strictement supérieur à 1. La variable aléatoire s
ainsi définie admet une espérance égale à s et, pour les valeurs de a supérieures à 2,
une variance s2 égale à s2 / (a 2); la variance relative de s est constante et
indépendante des variables exogènes.
Sous ces hypothèses, la loi des Coûts est une loi Béta de seconde espèce :
De moyenne s ;
1 r 1 1
De variance relative  * pour les valeurs de a supérieures à
r r a2
2, et  dans les autres cas.
La variance, quand elle existe, est indépendante des variables exogènes.
De plus, elle comporte un terme correspondant à la variabilité des Coûts
(grandeurs observables) pour un assuré /sinistre variance endogène et un terme

214
correspondant à la variabilité des coûts probables (grandeurs utiles) dans un
segment – variance exogène intra classe – due soit aux différences entre les
individus soit aux différances de nature entre les sinistres (loi mélange).
Le modèle intègre des lois sans variance (1  a  2) il s’adapte donc aux
distributions ayant de longues Queens de distribution.
Démonstration :
La densité de S se met sous la forme :

f (x)   0
f ( x ) g , (u ) d u
Où fn (x) est la loi gamma des coûts des sinistres conditionnellement à
s  u;
g s (u )
est la loi de S nous avons donc :
 1 1
f ( x)   (ru)c rxp(rux)xr 1 (s(a 1))a exp(s(a 1)u)ua1du
0 (r) (a)
Soit encore
( s ( a  1)) a r r x r 1 
f ( x) 
 ( r ) ( a )  0
u r  c 1 exp((  s ( a  1)  rx )u ) du

L’intégrale est, à un changement de variable prés, la valeur de la fonction


gamma au point ar Nous avons donc
(a  r )( s(a  1))a r r x r 1
f ( x) 
(r )(a)( s(a  1)  rx)a  r
Soit encore
r 1
 r x
 
 ( a  r )  ( a  1) s s  r 1
f s ,r ,a ( x ) 
x

 ( r ) ( a )  r x  ( a  1) s
 1  ( a  1) s 
 
r X
La variable aléatoire suit une loi Béta de seconde
(a  1) s
Espèce de paramètres r et a
LA robustesse du modèle vient du fait que l’on utilise la même loi dans tous les
segments à un facteur d’échelle prés qui dépend des seuls variables exogènes.
Propriété Le modèle gamma à paramètre alitions :
• Tend vers le modèle gamma lorsque a tend vers l’infini

215
• Tend asymptotiquement vers la famille des lois de Pareto
Démonstration
Pour tout x0 au voisinage de l’infini nous avons.
a 1
 a 1 s    1 
f s x, r , u / x  x 0 ( x )  k    1     
 r x    x0  
L’introduction de l’hypothèse selon laquelle les coûts probables individuels
sont des variables aléatoire se traduit, pour l’analyse du risque par une
décomposition de l’estimation du coût en deux étapes.
– L’estimation des paramètres de la loi, la moyenne s et la variance, du Coût
probable individuel s, à partir des variables exogènes. Nous obtenons ainsi le
meilleur estimateur a priori du coût probable.
– L’estimation connaissant la loi du coût probable, du coût probable individuel
(grandeur déterministe) à partir des variables endogènes, c’st à – dire à partir des
réalisations des coûts. C’est le meilleur estimateur à posteriori du coût probable
(voir plus bas le paragraphe relatif à l’analyse a posteriori).
– L’estimation du vecteur des paramètres par la méthode du maximum de
vraisemblance est solution du système.

xk a 1
mi k

( a ')  c k i, j s a  0  i ,1  i  n  ,  j , 1  j  n i
k 1 xk
r k  ( a  1)
s
 xk  xk a 1
 r  
ms k k  (a  r )  (r )
( b ')  In  s  a sk a    0
k 1
k
 r x  a 1 x  (a  r )  (r )
  r k  ( a  1)
 sk  s
  xk a 1
ms   
a 1 ra s k
a  (a  r )  (r )
( c ')       0
 a  1 r x  ( a  1)  ( a  r )  ( r )
k k
k 1  x
 r  a  1 
 sk  sk

Le système (a) est une généralisation Dy système (a) ci-dessus, mais ici chaque
observation est affectée d’un poids inversement proportionnel au coût observé.
Cette pondération est une forme d’écrêtement progressif dans lequel le « seuil » (en
réalité le poids) est une fonction :
– Croissante avec le coût probable du segment, c’est-a-dire qu’un sinistre grave
sera d’autant inions écrêté qu’il appartient à un segment ayant un coût élevé, ce qui
correspond à la réalité suivante il est plus normal d’avoir un sinistre grave dans un

216
segment ayant un coût moyen élevé que dans un segment ayant un coût moyen
moindre ;
– De r et de a (c’est-à-dire des variances relatives des processus de transformation).
– A la différence des méthodes classique d’écrêtement, le change global déduit
n’est pas nécessairement égale, dans ce système à la charge de sinistres observée.
Elle est plus élevée dans les cas où il n è a pas de sinistre grave ; elle est plus faible
dans les cas où la charge des sinistres graves est supérieure.
Démonstration
Sous les hypothèses ci-dessus, la vraisemblance est égale à :
r 1
 r xk 
 k 
(a  r )  ( a  1) s 
ms
L ( x k / r , a , D , C k ;1  k  ms )  
k 1  ( r ) ( a )  r xk 
a  r ( a 1) s k

1  k 
 ( a  1) s 
Par passage au logarithme, nous obtenons :


 m x ( In  ( a  r ))  In (  ( a ))  In (  ( r )))

l   
 ms
   r s   In ( x k )  ( a  r ) In  1  r x 
k k

 k  1  a  1 s  a 1 sk 
k

D’où par dérivation :
xk a 1

l mi
s k
a i,1  i  n , j,1  n
  ck ra k
i, j
 i
di , j k 1 x
r k  (a  1)
s
 x k
 xk a  1
r 
l m  i
s k 
s k
a  ( a  r )  ( r )
  k a k
r k 1  x  x ( a  ) t (r )
 r k  a 1  r k  (a  1)
 s  s
  xk a  1

l m  a  1  ra s k
i
a  ( a  r )  ( a )
  k  
a k 1  x  a  1 r x  (a  1) (a )
k
t (a)
 r k  a 1 
 s  s k

D’où le résultat.

217
Propriété : pour tout couple (r, a) donné tel que **** admet une et une seule
solutions

Démonstration :
1-Unicité de la solution :
Par dérivation seconde nous obtenons :
xk
r ( a  1)( a  r )
 2l mi
sk
   c ki , j c kn , r
d i , j d n ,r k 1  xk 
2

 r k  a  1
 s 
Il en résulte que, pour tout r positif et tout à supérieur à 1, la fonction est une
fonction concave de D ; le maximum est donc, s’il existe, unique (à un coefficient
de proportionnalité pris).
2 – Existence d’une solution :
Même démonstrations que pour le modèle gamma.
Proposition : Pour tout complet (D, a) donné le système (b’) admet une
solution.
Remarque : contrairement au modèle gamma, il existe toujours une solution
en r. Cela tendrait à montrer que la condition suffisante que nous avons donnée
dans le cas du modèle Gamma ne soit pas nécessiter dans la mesure o* le modèle
gamma est un cas limite du modèle présenté ici.

Démonstration :

In(l )
1  lim   
r 0 r
La démonstration est identique au cas gamma
2  lim  l /  r  0 
r 

Par application de la formule de Stirling généralisée, nous avons au voisinage


de l’infini.
 ( a  r )  (r)  a  1 a ( a  1)  1 
  In  1     0 2 
(a  r ) (r )  r 2 r 2
r 
Soit encore :
 ( a  r )  (r) a 1 a ( a  1)  1 
   0 2 
(a  r ) (r ) r 2 r 2
r 
D’autre part, nous avons aussi :

218
xk a 1
k
  a a (a  1) s k  (a  1) s k  1
s
a k a    1   2 
2 k  k
x r r x  a x  r 
r k  a 1 
D s
2
 a(a  1) s k  (a  1) s k 1  (a  1) s k   1 
In 1  k 
 k
  k 
 2 
 a x  a x 2  a x  r 
Par sommation nous avons :
2
l mi 1 a ( a  1) a (a  1) s k 1  a  1 s k  1
     k 
 0 2 
r k 1 2 r 2
r 2
x k
2 r x  r 
Ce qui peut se mettre sous la forme :

1  a   mi 1   a  1 s k     1 
2 2
l
       1       
r 2  r   k 1 a   r x k     r 2 
  
D’où le résultat.
3 – la dérivée du logarithme de la vraisemblance vérifie :
lim  l /  r  
r0

lim  l /  r  0 
r0
Par continuité de l / r , il existe au moins une valeur de r telle que
l / r  0 et l / r  0 (la première intersection avec l’axe des abscisses par
exemple) La vraisemblance fonction de r adment au moins un maximum.
Propriété : Pour tout couple (D, r) donné tel que r  0, le système ( c ') admet
au moins une solution si la variance intra-classe relative des coûts des sinistres est
supérieure à 1/r.

Démonstration :

l
lim  
r0 a
En effet, au voisinages de 1 nous avons :
l 1
 In( a  1)   (1)
a a 1

219
l
2  lim  0
a  a
Comme dans la démonstration précédente, nous avons :
(a  r ) (a) r 1 r (r  1)  1 
    0 
( a  r )  ( a ) a 2 a a
D’autre part, nous avons aussi
x a
1
s a  1  r  x  r x  r  x 1   1 
r     1   a  s  r    a 
1 
x  a  s  a s     
r  a 1
s
 r x  r ( a  1) x 1  r x   1 
In  1      
 a 1 s  a s 2a s  a
Par sommation nous avons :

1  r   mi  xk  1  xk   1 
2 2
l
     k 1   3  2 k   0  2 
a 2  a   k 1  s  r s   a 
 
La condition suffisante se met sous la forme :
2
1 mi
 xk  1
ms
  k  1
k 1  s

r

Sous cette condition, nous avons :
 mi  x k 2
 1 xk   mi 1  xk 
  k  1   3  2 k     4  2 k   0
 k 1  s  r s   k 1 r  s 
D’où le résultat.
3 – la dérivée du logarithme de la vraisemblance vérifie !
li m  l /  r   
r 0

li m  l /  r  0 
r 0
Par continuité de,  l /  a , il existe au moins une valeur de r telle que
l / a  0 et 2l / r 2  0 (la première intersection avec l’axe des abscisses
par exemple). La première intersection avec l’axe d’abscisses par exemple). La
vraisemblance fonction de (D, r) admet donc au moins un maximum.
Remarque :

220
1-La condition suffisante est vérifiée si la variance relative observée est
supérieure à la variance relative du modèle gamma (i.e.1/r) ; on dit qu’il y a « over-
dispersion ». Dans le cas contraire, il n’est pas nécessaire d’introduire une variabilité
aléatoire.
2-le paramètre a peut se mettre sous la forme :
v a r ( X )
E X 
2

a  1   1
v a r ( X ) 1

X 
2
E r
Qui pour une solution (D, r) donnée et sous l’hypothèse de variance relative
constance, peut être estimé par la méthode des moments :
2
1  xk mi

 mi
 k
k 1  s
 1  1
a 1 
2
1 mi  x k  1
  k  1 
m i k 1  s r

a) Cet estimateur est supérieur à 1 si :
2
1 mi  xk  1
 1 
mi k 1  s k  r
C’est-à-dire si la condition suffisante est vérifiée.
b) C’est estimateur tend vers l’infini quand :
2
1 mi
 xk 
mi
  k 1
k 1  s 
Tend vers 1/r par valeurs supérieures, c’est-à-dire quand l’over dispersion tend
vers 0.
Si nous appliquons ce modèle à nos deux simulations précédentes, nous
obtenons :
Simulation 1 :
Les coûts moyens estimés par segment sont égaux à :
€ A1 A2 A3 Total A
B1 2 388 2 542 4 156 3 255
B2 3 779 4 035 6 22 4 835
B3 4 559 4 841 7 170 5 458
Total B 3 698 3 909 5 666 4 531

On Premièrement que l’estimation du coût moyen global est significativement

221
supérieure au coût moyen global observé (4 531 contre 3 877) et que, ce faisant, il
se rapproche du coût moyen du modèle utilisé pour la simulation (4 637) Cette
amélioration s’explique par le fait que l’équation utilisée pour l’estimation peut se
mettre sous la forme :
1 mi
xk a 1
mi  c k(x , s ) k 
i, j
k
k

s
k

a
c
k 1
i, j
k k (xk , sk ) k 1

Forme qui s’interprète comme la moyenne pondérée des ratios « coût des
sinistres observés » sur « coût estimé » est inférieure à 1 et donc que les coûts estimés
sont supérieurs aux coûts observés. Ce phénomène est une généralisation
l’épandage de la sur-crête utilisé dans les méthodes d’écrêtement, au cas où il n’y a
pas de sur-crête. Dans le cas où a augmente fortement (i.e. la variance du second
phénomène tend vers 0) on retrouve l’égalité entre l’estimation et l’observation.
Dans le cas de phénomènes de variance infinie, imposte une égalité entre coût
moyen global observé et estimé est une contrainte trop forte le modèle Bêta de
seconde espèce permet de lever une telle contrainte.
– Déguisement, cette amélioration se retrouve au niveau des segments.
– Toutefois, lorsque l’on analyse la structure corrigée du biais sur le coût
moyen global, on n’observe pas d’amélioration (on a même une détérioration,
l’écart type relatif est de 17,2 % contre 11,4 %).
– Troisièmement, l’estimation du paramètre a est égale à 1,53 contre 1,5 pour
le modèle : la méthode permet d’estimer la longueur de la queue de distribution
(variance infinie), et ce, alors même que nous n’avons pas de sinistres graves sur
cette simulation Par ailleurs, l’estimation du paramètre r est de 10,26 contre 8 pour
le modèle.
Simulation 2 :
Les coûts moyens estimés par segment sont égaux à :
€ A1 A2 A3 Total A
B1 2 543 2 963 4 417 3 458
B2 4 014 4 264 6 590 5 121
B3 4 880 5 154 7 649 5 825
Total B 3 945 4 147 6 022 4 818

Nous constations :
– Premièrement que le coût moyen global estimé est significativement
inférieur au coût moyen global observé (4 818 €) et que, ce faisant, il se rapproche
du coût moyen du modèle utilisé pour la simulation (4 637). Cette amélioration
s’explique par le fait que l’équation utilisée pour l’estimation peut se mettre sous la
forme ;

222
1 mi
1 xk a 1
mi
1
 c ki , j
xk s k

a
 c ki , j r
xk
k 1
r
sk
 ( a  1)
k 1
 ( a  1)
sk
D’où un poids très faible sur le sinistre grave (0,3 %) du poids moyen) qui en
limite l’impact sur le résulter c’est le phénomène d’écrêtement classique, avec
toutefois un ajustement automatique fonction des observations et variable par
segment (seuil d’écrêtement plus haut pour les segments ayant un coût moyen plus
élevé) La répartition de la sucrette est obtenue par le phénomène présente dans
l’analyse de la simulation 1, avec toutefois un montant indépendant de la sur-crête
observée qui est très variable et donc non significatif. Sans le cas où a augmente
fortement (i.e la variance du second phénomène tend vers 0) les poids dépendent
de moins en moins des valeurs observées : toutes les observation sont équivalentes
Deuxièmement, cette amélioration se retrouve au niveau des segments y compris
lorsque l’on analyse la structure corrigée du biais sur le coût moyen global l’écart
type relatif est de 18,1 % contre 79,4 %.
– Troisièmement, la structure est identique à celle obtenue pour la simulation
1 alors que les structures observées sont très différentes
– Quatrièmement, l’estimation du paramètre a est égale à 1,47 conter 1,5 pour
le modèle et 1,53 estimé pour la simulation 1. cette baisse de l’estimation à est
compensée par la hausse de l’estimation du paramètre r 12,45 contre 10,26 pour la
simulation 1.
Conclusion
Cette méthode permet d’avoir une famille de lois très variées incluant (en cas
limite) nombre de lois classiquement utilisées (gaussienne, gamma, Pareto), y
compris des lis n’ayant pas de variance finie.
Par ailleurs, l’utilisation d’une même loi dans tous les segments à un facteur
d’échelle prés permet d’améliorer la précision du modèle tout en améliorant sa
robustesse.
Le modèle proposé permet de mettre en œuvre une solution d’écrêtement
auto-adaptif qui s’ajuste segment par segment et qui règle le problème de l’épandage
en augmentant le coût moyen les années où le nombre de sinistres graves est en
deçà de la norme.
Enfin, cette méthode permet d’inscrire l’approche dans une approche globale
cohérente qui comprend l’analyse a posteriori.

2.1.3. Les variables composites


Certaines informations, bien que facilement disponibles, et intuitivement

223
« porteuses de sens » dans l’optique d’une individualisation des risques, sont parfois
inutilisables telles quelles que ce soit dans la modélisation ou dans l’utilisation des
résultats : il y aurait trop de variables, le tarif obtenu serait trop complexe. On doit
alors regrouper un ensemble de variables reliées à un même « objet » il est illusoire en
assurance automobile par exemple de par la multitude de nouveaux modèles /
versions arrivant sur le marché de pondre en compte directement les caractéristiques
techniques de chaque prendre en compte directement les caractéristiques techniques
de chaque véhicule. On a alors recours à des regroupements, ce sont les fameuses
classes SRA sur le marché français. De même les professions, en assurance des
commerçants et artisanats, faute d’informations suffisamment.
Significatives, sont-elles souvent regroupées suivant leur « sinimairté vis-à-vis
du risque »
La pris en compte de ces information passe donc par la mise en place de
variables compostes : classes de véhicules, classes de professions, zones tarifaires …
Deux problèmes se posent alors pour élaborer de telles variables :
– Comment regrouper la population dans des classes homogènes vis-à-vis de
cette information ?
Le deuxième problème est résolu à l’aide de techniques dites de classification
Elles permettent de construire une partition en classes homogènes d’objets, les
communes par exemple, dont on connaît les distances deux à deux, la différence
entre les fréquences par exemple.
Le premier problème est plus délicat, mais n’en est pas moins crucial. En effet
si cette « séparation » de l’information est omise lors de l’analyse de l’objet, on
risque de mal interpréter le lien entre le phénomène analysé, la survenance des
sinistres, et les variables attachées à l’objet considéré, la taille de la commune. Ainsi,
commet savoir si la fréquence de sinistres automobile que l’on observe dans un
département est effectivement le fait du variable « département » ou le fait d’une
surreprésentation de n’importe que autre facteur dans ce département, voir d’une
combinaison de facteurs. Comment par exemple faire la part entre l’âge des
conducteurs et les départements alors que ces deux variables sont liées ?
Pour répondre à ces questions, nous recommandons de procéder en deux
étapes :
– d’abord isoler l’information apportée par les variables exogènes non liées à
l’objet considère comme par exemple l’âge du conducteur, le véhicule lorsque l’on
s’intéresse aux communes :
– isoler dans l’information non encore expliquée ou résiduelle, la part
effectivement explicable par les variables liées à l’objet considérer, et en obtenir une
mesure pour chaque représentant de l’objet afin de les regrouper.
Chaque cas est particulier. Néanmoins afin de ne pas rester trop générique,

224
nous avons choisi d’illustrer notre propos et nous présentons dans la suite une
méthodologie qui nous a permis de développer un zonage,
C’est-à-dire une classification des communes françaises, du point de vue de la
fréquence automobile95

Le zonge, un exemple de variable composite


L’objectif est ici de classer les quelques 39000 communes96 de l’hexagone en
classes homogènes vis-à-vis de la fréquence automobile (par exemple bris-de-
glace). Mais, bien que réalisant l’étude pour l’un des leaders du marché, nous
n’avions pas de clients dans toutes les communes. De plus, même pour celles où
nous étions présents, le nombre de clients était insuffisant pour donner des résultats
satisfaisants. Nous avons donc dû, pour pallier notre manque d’observations avoir
recours à des techniques de modélisation ; il nous a fallu « qualifier » le risque
communal à l’aide de variables exogènes : les variables socio-économique de
L’NSEE et les variables géographiques.
Plous concrètement, la démarche proposée se décompose en quatre étapes :
D’abord, estimer la fréquence par commune à partir de la modélisation des
nombres de sinistres individuels hors toute variable attachée à l’objet commune,
L’objectif de cette première étape est de faire la part entre ce qui est indépendant de
l’effet » commune » et ce qui en dépend.
– Puis, expliquer la différence entre la fréquence communale effectivement
observée et celle estimée à l’étape précédente à partir des variables sociaux
économiques des communes de l’INSEE.
– ensuite, introduire la dimension géographique en utilisant les structures
départementales, Cette troisième étape est implorante car l’approche précédente
ignore les spécificités locales : une personne habitant l’Ouest n’a pas le même
comportement que celle habitant le sud-est ; le climat …
– Enfin, regrouper les communes en classes homogènes du point de vue du risqué
Les classes ainsi obtenues deviennent alors l’une des variables d’analyse du
risque qui est traitée comme les autres variable.
Meuure d’ l’effet indépendant des communes
L’objectif de cette étape préliminaire est de séparer dans l’analyse les effets qui
ne dépendant pas de l’objet commue et que nous ne devons pas prendre en compte
dans notre classification de ceux qui y sont liés Elle consiste à estimer le nombre de
sinistres d’une commune à partir de l’estimation des fréquences individuelles. Nous
avons utilisé un modèle de Poisson – Gamma, avec une fonction de lien

95
Cette parité reprend les travaux réalisés par Éric Gires pour son mémoire d’actuariat (Gires E, 1996)
96
Il s’agit des communes telles que définies par L’INSEE, et non des communes postales.

225
multiplicative les variables retenues pour l’estimation correspondent aux variables
tarifaires, sans considération de zone.
Pour chacun des individus k d’une commune, c, nous avons :
nˆ k , c   k , c k , c
t

 
où  k ,c  e x p    c ki ,, cj .b i , j 
 i j 
tk,c Est la durée de présence en portefeuille de l’individu k,
bi, j sont les paramètres estimés par le modèle pour chaque modalité de chaque
variable tarifaire,
vaut 1 si l’individu k prend la modalité j de la variable i, et 0 sinon.
c ki ,, cj En sommant sur les individus nous obtenons, pour chaque commune c,
les variables suivantes :
 nc le nombre de sinistres observés par commune,
 nˆc le nombre de sinistres estimés,
 tc le temps d’observation cumulé sur la commune
Nous en déduisons, la fréquence observée sur la commune
nc
c 
tc
Ainsi que la fréquence estimée.
nˆ c
c 
tc
Qui s’exprime en fonction des variables tarifaires ;
 
 exp    c i, j
k ,c , bi , j 
ˆc 
k  i j 
tc

Introduction des critères socio-économiques par commune


L’objectif de cette seconde partie est d’estimer la fréquence de la commune en
complétant l’analyse précédente par les variables attachées à cet objet. Nous
utilisons, au niveau de la commune, un modèle de poisson.
Simple97, avec une fonction de lien multiplicative. L’effet des variables

97
Nous retenons le modèle simple à cause de la propriété des marges qui garantit une égalité entre
l’observation et l’estimation au niveau France Cette propriété permet d’appliquer ensuite plus

226
indivivideulles non liées aux communes est introduit par l’intermédiaire du
coefficient Kc définit par :
K c  I n  ˆ  c

soit


 i j
c ki ,, cj . b i , j 

Kc  In  
 tc 
 
Le problème est donc d’estimer les paramètres   exp( b )
correspondant aux différentes modalités des variables INSEE retenues98 V tels que :
 
nˆc  exp  Kc    cc  ,  tc
 , .

   
Où t c est la somme des durées d’observation des individus de la commune c,
cc , vaut 1 si la variable  prend la modalité  sur la commune c.
La solution du maximum de vraisemblance fournit le système suivant
r


 ,  .sc
cc
e x p (b , )  c 1

 
r
 
  
 ,  .sc x , y .b x
cc exp  cc ,y

c 1
 x y

 x y   
 ( ,  ) , 1    n , 1    n  ,
Où sc est le nombre de sinistres observés sur la commune c,
v est le nombre de communes,
n est le nombre de variable.
na est le nombre de modalités de la variable ****
Nous avons une formule de marges, le modèle à un sens opérationnel.
Par ailleurs ces équations peuvent se résoudre facilement de façon itérative.
A ce stade, le modèle du nombre de sinistres par commune s’écrit comme le

simplement le modèle de crédibilité.


98
Nous sommes ici dans un cadre, relativement confortable pour le statisticien, où nous avons presque
trop de variables explicatives à notre disposition : plus de sélectionner les variables pertinentes dans
l’optique d’une modélisation de la fréquences par communes

227
produit de deux facteurs, l’un dépendant des variables non liées à l’objet commun,
l’autre fonction des variables socio-économiques de L’INSEE, et de la durée
d’observation t c sur la commune :
nˆ c(1 )  e x p ( K c ) . e x p ( L c ) t c
où Lc    cc ( ,  ).b .
a 
L’estimateur de la fréquence de la commune est à la fin de cette étape :
ˆ c( 1 )  e x p ( k c ) e x p ( L c ) t c
Introduction de considérations géographiques.
Si nous analysons les résultats obtenus au terme de l’étape précédente dans les
départements, des communes de taille importante et les comparons à l’observation,
nous constatons des décalages importants.
Cet écart résulte de la non-rise en compte par l’approche des variables
géographiques. Pour résoudre cette question, il serait possible d’introduire des
variables du type climat, longitude … cette approche est complexe ; nombre de
variables, acquisition des données … Aussi proposons – nous une salutation
différente qui repose sur l’observation : la notion de commune (donnée qualitative),
vouter le caractère administratif qu’elle revêt, est intrinsèquement une donnée
géographique, qui influence nécessairement le risque de chacun de ses habitants.
Toutefois, pour des raisons de taille, les communes sont ici envisagées comme
appartenant à des entités géographiques plus vastes – les départements –, dotées de
structures particulières, qui influencent le risque. La grandeur analysée est la
différence, le résidu, entre l’estimation obtenue à l’étape précédente et l’observation.
R d , c  (  d , c  ˆd , c )
Avec : R d .  (  d .  ˆd . )
Où d indique le département.
Cette grandeur est analysée aux différents niveaux : France, département,
commune.
R

Rt Rk Rk
Rt, t Rk1 Ra01
⋮ ⋮ ⋮
Rt**** R R

228
Pour chaque commune c du département d C’est résidus s’interprètent comme la
part de fréquence observée sur la commune, non encore expliquée, ni par les variables
non rattachées aux communes, ni par les données socio-économiques communales.
Pour améliorer notre estimation, nous utilisons les estimateurs de la crédibilité
au niveau du département et considérons que l’effet département influence de façon
identique chacune des communes qui les composent.
L’approximation de crédibilité linéaire de Buhlmann-Staub de la variable

td ,c ,
E ( Rd ,c / d ), , chaque résidu étant affecté du poids est alors ;

cred
 E(R
d ,c / d )   (1  Z )  E ( R )  Z R
d d ,c d dr
.
Par application de la propriété d’égalité des marges du modèle de Poisson
simple (le modèle est non-biaisé) nous avons :
E ( R d , c )  E (  d . c )  ˆ  0
Par linéarité de l’opérateur de projection, la relation suivante est vérifiée :

cred E (  d ,c d. 
/ d )  ˆ  cred  E (  / d )   cred ˆ
d ,c   d.

En outre, c r e d  ˆ  d. ˆ d .
Finalement nous avons la relation suivante :
cred  E (  d . / d )   (1  z d ) ˆd .  z d  d .
La « fréquence crédibilisée » par département s’écrit comme une somme
pondérée de deux termes, l’une fonction des observations, l’autre du modèle, les
poids de chacun des termes étant, quant à eux, fonction du facteur de crédibilité zd
qui vaut :
a td .
zd 
s  a td .
2

Où a mesure la dispersion entre les départements (variance interclasse)


s2  E( 2 (d)) mesure la dispersion moyenne à l’intérieur des départements
(variance intra-classe)
Soit :
c r e d ( E (  d , c / d ))
fd 
ˆ d
La part de fréquence expliquée par la crédibilité et non expliquée par le modèle.
Le part de fréquence expliquée par la crédibilité et non expliquée par le modèle.
Le modèle de fréquence par commune, corrigé de « l’effet département », s’écrit
alors :

229
ˆd( 2, c)  ˆd(1), c Fd  exp( K d , c ) exp( Ld , c ) Fd
Cette approche peut-être appliquée une seconde fois en descendant d’un
niveau : France, commune, client. Nous introduisons alors le coefficient F, et avons
la décomposition

ˆ d( 3, c)  ˆ d( 2, c) F c  e x p ( K d , c ) e x p ( L d , c ) F d . F c

Où esp ( K d ,c ) est un terme issu d’une première estimation de la fréquence sur


les individus à partir des variables non liées aux communes,
Esp (Ld ,c ) est un terme obtenu par une deuxième estimation sur les communes
à partir des variables de l’INSEE ;
Fd est un terme correctif, obtenu par ré-estimation de la fréquence, de façon
à intégrer les structures géographiques départementales ;
F est un terme correctif qui intègre les structures propres aux communes
(avec Fc 1pour les communes vides, ce qui correspond à un coefficient de
crédibilité nulle).
La part de la fréquence due à la zone de localisation des risques s’écrit alors,
pour chaque commune :

M c  e x p ( L d ,c ) Fd .Fc
Ainsi nous disposons d’une variable continue, quantitative, qui mesure
l’intensité du risque dans chaque commune, ce de façon indépendante des autres
critères de survenance des sinistres.

Classification : une solution pratique.


Il ne nous reste plus alors qu’à effectuer des regroupements afin de ramener les
39 000 communes à 10 classes. Nous ne présenterons pas les méthodes utilisées et
nous limiterons aux principaux enseignements que nous avons tirés de ce travail.
Les méthodes non hiérarchiques ne fournissent que des solutions approchées
de la solution optimale, mais permettent de classer un grand nombre d’individus.
en revanche, les méthodes hiérarchiques fournissent les meilleures partitions
possibles au regard du critère retenu mais sont inadéquates dés que le nombre
d’individus dépasse quelques centaines. Or nous souhaitons obtenir la meilleure
partition possible de nos 39 000 communes en dix classes.
Un bon compromis est alors d’utiliser une méthode dite mixte, qui consiste
dans un premier temps à regrouper les communes en un nombre de classes

230
relativement élevé par une méthode non hiérarchique, puis, dans un deuxième
temps, à appliquer une méthode l’érarchique sur ces classes, et à couper l’arbre de
façon à obtenir nos dix classes.

Conclusion
Cette analyse montre comment il est possible de synthétiser 70 variables en une
inique variable composite, L’important dans la démarche est de.
– Décomposer le problème en une suite logique de processus ayant chacun une
contrepartie dans le monde réel (le modèle de Poissions simple vérifie la propriété
des marges, la crédibilité permet de corriger l’estimation en fonction des
observations par département…)
D’enchainer de manière cohérente des outils statistiques « classiques » mais
adaptés à chaque sous problème.
L’approche doit cependant être adaptée à chaque cas particulier.

2.1.4. Comparaison entre l’estimation de la prime pure et l’estimation fréquence X


coût
Si les estimations de la fréquence  et du coût moyen s , permettent
d’estimer la prime pure s en prenant en compte la réalité du phénomène Une
telle approche n’est pas toujours possible (pas d’information par sinistre par
exemple). Par ailleurs, la décomposition fréquence) coût repose sur des hypothèses
sous-jacentes (indépendance par exemple) qui peuvent ne pas être satisfaite. Dans
ce paragraphe, nous analysons comment il est possible d’estimer directement la
prime pure et comparons les résultats obtenus sur un exemple.

L’estimation directe de la prime pure


Pour l’estimation directe de la prime pure, les grandeurs observables sont les
charges de sinistres et les grandeurs utilisent les primes pures. Compte tenu de la
complexité du phénomène99 il est difficile de modéliser le processus qui permet de
passer de la grandeur utile aux grandeurs observables. Face à cette difficulté, la
solution consisté à définir des contraintes adéquates.
– La contrainte imposée aux marges revient à exiger que la somme des primes
pures estimées soit égale à la somme des charges observées pour chaque modalité de
chaque variable (voir par exemple : (Van Égéen) ; group E.K. & Nijssen J.A, 1984) ;

99
La loi est caractérisée par un atome à l’origine correspondant aux assurés n’ayant pas de sinistre, et
une répartition multimodale une modalité correspondant aux assurés ayant respectivement 1 sinistre
2 sinistres et plus.

231
(Jung J, 1968) ; (Bailey R.A, 1993) Cette contrainte se traduit par le système ci-dessous :
m m

 cki, j t k rˆk  cki, j r k


k 1 k 1
(i, j ), 1  i  nr ,1  j  ni

n Est le nombre de variables explicatives utilisées,


m Est le nombre de modalités de la variable i,
t k Est le nombre d’assurés,
cki , j Est la durée d’observation de l’assuré,
r k est le cadrage du risque, est la charge de sinistres observée pour l’assuré k,
rˆ k Est l’estimation de la prime pure de l’assuré k
– La contrainte de robustesse des estimateurs nous conduit à prendre comme
fonction de lien entre les graineurs utiles et les variables exogènes une fonction
d’ordre 1, multiplicative par exemple :
rˆ  e x p ( C T G )
i, j
Où C est le vecteur caractérisant le risque C k (c k ) 1 i n G est le
1 j ni
vecteur des paramètres
La définition de la contrainte des marges confère aux estimations ainsi obtenus
une contrepartie dans le monde réel la forme choisie pour les estimateurs de la
prime pure rend l’approche robuste et opératoire il est enfin possible de démontrer
l’existence, l’unicité et la convergence des estimatoires (Montocchio L, Pester G,
Pinquet) ; & rbert J.C, 1992 ; Boulanger F ; 1993

Remarque :
1. La solution obtenue par cette méthode est équivalente à la solution du
pseudo maximum de vraisemblances (Gouri roux Ch. & Montfort A, 1989) avec la
fonction.
exp( C T G ) x
f ( x, C , G )  exp(  exp( C T G ))
 ( x  1)
qui est une généralisation de la loi de Poisson.
2. Néanmoins, la solution n’est optimale que si la loi des charges est f, ce qui
n’est pas conforme à la réalité du phénomène modélisé (dirac en X=0)
3. En remplaçant dans le système les estimateurs de la prime pure par leur
expression et en mettant en facteur le terme correspondant à la modalité j de la
variable i, nous obtenons :

232
m

c i, j
k rk
exp(g i , j )  k 1
 i ,  i  nr ,   j ,1  j  ni
 n n 
m
 i i i, p 
 ck t exp    ck g l , p 
i, j k

k 1
 ll 1i p 1 
 
Après initialisation des paramètres à 1, ce système permet de calculer G de
marinière itérative. Notons que le numérateur est égal à la charge globale de
sinistres observée pour la modalité j de la variable i et que, lors de la première
itération, les résultats obtenus pour les paramètres associés à la première variable
sont étaux aux logarithmes des primes pures observées dans les différentes
modalités (charge de sinistres divisée par le nombre de risques-année).
m

 c ki , j r k
ex p (g i, j )  k 1
m
 j ,  1  j  ni
k 1
c i, j
k t k

Outre sa plus grande simplicité, cette approche ne nécessite pas d’hypothèse


quant à la décomposition de la prime pure en le produit de la fréquence par le coût
moyen. Il est donc intéressant de comparer les résultats.

Comparaison des approches


Pour comparer les résultats, nous reprenons l’exemple précédent 3) variables
ayant chacune 3 modalités) avec la même répartition des risques (8 000), les mêmes
fréquences par segment, la même répartition des sinistres (480) et les mêmes coûts
moyens par segment. Nous avons toutefois modifié la distribution afin d’avoir une
variance finie et ainsi de réduire l’impact des sinistres graves100

100
En effet, en absence de variance, la comparaison de méthode directe n’aurait démontré que l’in
adaptions de cette derrière à prendre en compte le longue queue de distribution.

233
Comme dans le paragraphe précédent nous avons considéré deux simulations
pour les coûts des sinistres : la première obtenue par tirage aléatoire (simulation 1) ;
la seconde est obtenue à partir de la première en remplaçant un sinistre « ordinaire »
par un sinistre (grave ».

L’approche utilisée pour l’estimation des fréquences repose sur le modèle de


Poisson à paramètre aléatoire avec fonction de Box & Cox, celle utilisée pour
l’estimation des coûts est le modèle Béta de seconde espèce avec fonction
multiplicative
Simulaties 1
Si nous comparons les estimations obtenues d’une part avec la méthode des
marges et d’autre part avec l’approche coût x fréquence, nous avons :

234
Les résultats obtenus sont proches, dans certains cas la méthode des marges est
plus proche du modèle utilisé pour la simulation, dans d’autres c’est l’inverse. Les
primes pures moyennes sont peu différences (270 avec la méthode des marges et 271
avec la méthode coût x fréquence) et proches de la prime pure observée (270). Elles
sont toutefois inférieures à la prime pure du modèle sous-jacent utilisé pour la
simulation (277). On observe toutefois que la méthode août X fréquence permet
d’augmenter la prime pure moyenne et ainsi de se rapprocher de la valeur du modèle
(biais réduit de 17 %) Enfin, lorsque l’on compare les écarts types relatifs, on constate
que l’approche sût x fréquences est légèrement meilleure (16,3 %) contre 16,9 %). En
conclusion, en absence de sinistre « grave », les deux approches sont avantage est
d’autant plus important que la variance des coûts des sinistres sera importante.
Simulation 2 :
Si nous comparons les estimations obtenues d’une part avec la méthode des
marges et d’autre part avec l’approche coût X fréquence, nous avons :

235
Les résultats obtenus différent fortement. La méthode des marges ne permet
pas de lisser suffisamment les effets du sinistre « grave » Les primes pures moyennes
sont, elles aussi, différentes (303 avec la méthode des marges et 279 avec la méthode
coût x fréquence) : avec la méthode des marges la prime pure moyenne est égale à
la primer pure observée ; avec la méthode coût x fréquence la prime pure moyenne
est proche de celle du modèle (277). On bénéficie de la propriété du modèle Béta de
seconde espèce utilisé pour l’estimation des coûts moyens. Enfin, lorsque l’on
compare les écarts types relatifs, on constate que l’approche coût x fréquences est
nettement meilleure (17,1 %) contre 42,5 % Cette amélioration n’est pas liée
uniquement à la différence de biais mais aussi à la structure. En effet, si l’on
comparte les écarts types relatifs hors biais, on a 16,9 % contre 37,2 % (la méthode
des marges modifie la fréquence de tous les segments dont l’une des modalités est
égale à celle du segment ayant un sinistre grave.
Par ailleurs, si on compare les estimateurs obtenus avec la méthode coût X
fréquence pour les simulation 1 et 2 nous avons :

Nous n’observons pas de différence importante : la méthode est robuste par


rapport aux sinistres « graves ». ce qui n’est pas le cas de la méthode des marges.

Conclusion
L’analyse directe du coût de la matière première est plus simple en terme de
calcul et nécessite un système d’information moins élaboré. Toutefois :
– Elle est moins robuste aux sinistres graves ;
– Elle rend plus difficile l’arbitrage entre précision et robustesse puisqu’elle
n’autorise pas de différenciation entre la segmentation de l’analyse de la fréquence
et celle de l’analyse du coût des sinistres, Cette unicité de la segmentation ne permet

236
pas une adaptation finie aux observations. En effet, la variance endogène de la
charge de sinistres R se décompose en un terme dépendant de la variance endogène
du nombre de sinistres N et un terme dépendant de la variance endogène du coût
des sinistres X :
Var ( R ) 1  Var ( N ) Var ( X ) 
   2 
E R E N   E N 
2
E X  
Avec une segmentation unique, le choix des variables exogènes doit donc
reposer sur le phénomène le plus variable. C’est pourquoi, à robustesse donnée et
si le terme relatif aux coûts est largement supérieur à celui relatif à la fréquence (cas
courant en assurance), la contrainte entraine une perte de précision en ce qui
concerne le phénomène de fréquence, et une réduction des écarts entre les segments
extrêmes. Pour rendre le modèle robuste, on doit donc perdre en précision.
De plus, l’hypothèse sous-jacente faite lors de l’application de l’approche
directe n’est pas adaptée aux observations.101 Cette inadéquation rend par exemple
impossible l’utilisation du modèle sous-jacent pour simuler les charges de sinistres
individuelles.
Enfin, la complexité des calculs avec cette loi rend difficile une généralisation
du modèle telle que la prise en compte de paramètres aléatoires : le modèle ne peur
pas être intégré dans une approche globale et cohérente de la tarification intégrant
a priori et a posteriori.
Le seul avantage de la méthode des marges est de ne pas reposer sur l’hypothèse
d’indépendance entre la variable aléatoire Nombre de sinistres et la variable
aléatoire Coût des sinistres Cet avantage nous semble néanmoins table comparé aux
avantages présentés ci-dessus. Et ce d’autant plus qu’il s’agit de la corrélation au
niveau des processus transformant les grandeurs utiles en les grandeurs observables
et non entre les grandeurs utiles. En effet, en pratique cl y a souvent une corrélation
entre le coût moyen et la fréquence par segment comme dans l’exemple précédent
où les coûts moyens sont plus importants dans les segments ayant une fréquence
plus élevée. Mais cette corrélation n’empêche pas d’appliquer la décomposition
coût fréquence et, dans l’exemple précédent, les résultats obtenus avec la méthode
coût X fréquence sont meilleurs que ceux obtenus avec la méthode des marges. La
mesure de la corrélation entre les processus est difficile dans la pratique, sauf à avoir
des échantillons sur grande période.

101
En effet, elle revient à supposer que la loi de passage des grandeurs utilise aux grandeurs observables
est un loi contions, c’est-à-dire que la probabilité que la Charge de Sinistre soit égale à une valeur
donnée, est nulle Cette hypothèses n’est pas vérifiée puisque la probabilité de ne pas avoir de sinistre
n’est pas nulle.

237
En résumé, l’approche fréquence / coût nous semble, dans la mesure du
possible, préférable à une approche directe car elle périmer :
– De modéliser le processus de passage des variables utiles aux variables
observables et ainsi de simuler la sinistralité d’un portefeuille au niveau individuel ;
– D’adapter les segmentation aux spécificités des phénomènes de nombre de
sinistres (segmentation pointue) et de coût de ces sinistres (segmentation grossière)
et ainsi d’avoir une plus grande précision dans l’analyse du coût de la matière
première sans pénaliser la robustesse des estimateurs ;
– De traiter de manière intégrée l’analyse a priori et l’analyse a posteriori et
ainsi d’avoir une approche globale et cohérente.

2.2 Modélisation a posteriori


– La prise en compte de la sinistralité passée dans la tarification résulte d’une
observation bien connue en assurance automobile : « plus un assuré a ***** de
sinistres, plus le risque qu’il en ait de mou veaux est important ». Cette observation
semble être contraire à l’hypothèse que nous avons retenue pour l’analyse a priori :
le processus de survenance des sinistres est un processus de Poisson dont l’une des
propriétés est l’indépendance entre le nombre de sinistres observé pour deux
périodes disjointes. Cette opposition n’est toutefois qu’a parente. En effet, cette
observation tient à ce que l’assureur ne connaît pas le risque : il l’estime apriori à
partir des variables exogènes. Cette estimation étant peu précise – les seules
variables exogènes ne suffisent pas à déterminer complètement la fréquence –, la
survenance de sinistres apporte une information complémentaire, Toute la
difficulté de l’analyse a posteriori est de faire la part entre ce qui relève du « basard »
et donc n’apporte pas d’information, et ce qui relève du « comportement » et agit
donc comme révélateur d’une différence de risque.
– En général, une telle approche se limite à la mesure de l’impact du nombre
de sinistres observés sur le nombre probable futur. Cette analyse sera abordée dans
la première parité (cf. S221). Nous commencerons par une analyse simple mettant
en avant l’impact des sinistres d’une garantie sur la sinistralité de cette même
garantie puis nous généraliserons l’approche au cas multi-garanties. Dans la
seconde partie (cf.221), Nous commencerons par une analyse simple mettant en
avant l’impact des sinistres d’une garantie sur la sinistralité de cette même garantie
plous nous généraliserons l’approche au cas multi-garanties. Dans la seconde partie
(cf. S222), nous aborderons l’analyse a posteriori pour les coûts des sinistres et
proposerons une équation qui permet de mesurer l’impact du coût des sinistres
observés sur le coût probable des sinistres futurs.

238
2.2.1 Analyse a posteriori de la fréquence.
Il existe deux approches classiques de l’analyse a posteriori : la crédibilité
(Kunsch H.R, 1992 ; Jong de P. & Zehnwirth B, 1983, Bultmann H, 1970) et les
modèles de Poissions à paramètre aléatoire (modèle de Delaporte). Dans cette
partie, nous ne nous intéressions qu’à la seconder102 pour deux raisons.
– L’analyse a posteriori vient en complément de l’analyse a priori pour apporter
une information absente dans les variables exogènes, son poids dans l’analyse du
risque dépend donc de la qualité de la segmentation la crédibilité soir, pour ne pas
fier double emploi avec la segmentation ;
Être appliquée segment par segment. Cette solution n’est pas opératoire étant
donné le nombre de segments utilisés en assurance automobile.103
– L’analyse a posteriori est pour partie comprise dans les modèles utilisés pour
l’analyse a priori.

Analyse mono-garantie.
L’hypothèses de base du modèle de Poisson à paramètre aléatoire est la
suivante : la survenance des sinistres d’un assuré suit un processus de Poisson dont
la fréquence est la réalisation d’une variable aléatoire A de moyenne identique
pour tous les assurés d’un même segment (appelée fréquence a priori) et de variance
relative 1/ a. L’analyse a priori permet d’estimer les paramètres de la variable
aléatoire L’analyse a posteriori cherche à ré-estimer la valeur de la fréquence
individuelle, connaissant la loi de A et le nombre de sinistres survenus au cours
d’une période donnée. L’estimation ainsi calculée est appelée fréquence a
posteriori. Dans le cas du modèle de Poisson à paramètre rendu aléatoire (et suivant
une loi gamma104), nous avons :
a  nt
 '( t )   ( t )
a  nˆ t

102
Notions que pour des flottes automobiles, par exemple, la crédibilité peut être envisagée. Mais
encore faut il que la taille de la floue soit suffisante si on vert éviter les effets d’attraction vers la
moyenne du modèle de crédibilité.
103
Cette difficulté peut être levée grâce à l’utilisation de la crédibilité hiérarchique.
Toutefois, cette solution nécessite une approche radicalement différente afin de limiter le nombre de
segments. Une solution consiste à définir dans un premier temps les segments à partir d’une analyse
discriminante de la sinistralité (Degiovanni P, Hassan H. & Julien J.Y, 1986) puis à appliquer une
crédibilité à deux niveaux. Nous n’avons pas retenu une telle solution car l’analyse discriminante
suppose la définition de « vous « et de « murais » risques, ce que la
104
Nous nous limitons volontairement à la loi gamma car elle permet une intégration simple des
analyses a priori et a posterions, intégration qui est, comme nous le verrons dans l’exemple,
fondamentale pour une bonne analyse des risques.

239
Où  ' ( t ) est la fréquence a posteriori à l’instant t ,
 ( t ) est la fréquence a priori à l’instant ***
a Est l’inverse de la variance relative des fréquences individuelles
Dans chacun des segments (variance exogène intra-classe),
nt est le nombre de sinistres observés au cours de la période (0nt),
nˆt est le nombre prévu de sinistres a priori au cours de la période
t
0,t ou exposition aux risques ( nˆt  0  (u ) du )
Démonstration :

La variable aléatoire t , suit une loi gamma de densité.


aa  a 
f (x) x a 1 e x p   x
 (a )  t 
En appliquant la formule de Bayes, nous obtenons la loi conditionnelle de
 t N t  nt :
P  t  x ( N t  nt ) f ( x )
f ut ,  a , u0 ,t  ( x ) 
 x0
P  t  x ( N t  nt ) f ( x ) dx
Conditionnellement à t  x, Nt suit une loi de Poisson de paramètre.
t

x
 0
udu
 x
nˆ t
t t
Nous avons donc :
ut
1  nˆt   nˆt 
Pt  x ( N t  N t )   x  exp   x 
nt !  t   t 
Soit pour la densité conditionnelle :
 a  nˆ t 
f ut ,  u ,u  0, t  (x)  Kx a  u t 1 exp   x
  t' 
Où k est un coefficient de normalisation.
Si nous posons :
a  nt
 '( t )   ( t )
a  nˆ t
Nous obtenons :

240
 a' 
f u t ,  u , u   0, t  (x )  K x a'  1 ex p   ' x 
 t 
Qui est la densité d’une loi gamma de moyenne  '(t) et de variance relative
1/ (a  nt ) Propriété : La variable aléatoire t Nt  nt est une loi gamma de

variance relative 1/ (a  nt )
Afin de mettre en évidence les propriétés de l’analysé a posteriori, nous avons
élaboré un exemple simple à but pédagogique. Nous avons considéré une
population de 10 000 risques répartie selon deux variables exogènes ayant chacune
deux modalités :
Risque A1 A2 Total A
B1 3 000 1 000 4 000
B2 2 000 4 000 6 000
Total B 5 000 5 000 10 000

Les fréquence individuelles ont été tirées de manière aléatoire selon des lois
gamma de variance relative 1/6 (a=6) et de moyennes :
Moyennes (0/00) A1 A2 Total A
B1 40 120 60
B2 90 255 200
Total B 60 228 144

Les fréquences (théoriques) ainsi obtenues correspondent à des fréquences par


segment égales à :
Fréquences (0/00) A1 A2 Total A
B1 0, 6 119,7 60,4
B2 90, 4 259,2 202,9
Total B 60, 5 231,3 145,9

Pour chaque assuré, nous avons simulé deux années de sinistres. A partir de
l’observation de ces deux années, nous obtenons une estimation de a égale à 4,4
(contre 6) et des estimations des fréquences a priori pour chaque segment :
Fréq.a priori estimée A1 A2 Total A
B1 40,2 115,4 59,0
B2 89,6 257,5 201,5
Total B 60,0 229,1 144,5

Nous avons ensuite estimé les fréquences a posteriori à partir de la sinistralité


survenue durant les deux années d’observation. En étudiant les fréquences en fonction
de la sinistralité pour chaque segment, nous obtenons pour le segment A1. B1.

241
Nombre Nombre Fréquence Fréquence Fréquence
de Sinistres D’assuré a priori a Posteriori Individuelle
0 2 755 40,2 39,5 39,9
1 232 40,2 48,5 48,9
2 13 40,2 57,4 55,9
Total 3 000 40,2 40,3 40,6

Et pour le segment A2-B2 :


Nombre Nombre Fréquence Fréquence Fréquence
de Sinistres D’assuré a priori a Posteriori Individuelle
0 2 458 257, 5 230,5 237,6
1 1 141 257, 5 282,9 278,1
2 315 257, 5 335,3 326,5
3 71 257, 5 387,7 346,2
4 et plus 15 257, 5 453,5 520,4
Total 4 000 257, 5 257,3 259,2

Sur un segment donné, la fréquence moyenne estimée a priori est


indépendante du nombre de sinistres (elle est fonction des seules variables
exogènes). Les fréquences indicielles (c’est-)-dire la moyenne des fréquences réelles,
mais non observable en pratique, de chaque assuré) sont des fonctions croissantes
du nombre de sinistres constatés : l’observation de la sinistralité contient des
informations non prises en compte par les variables exogènes105. Enfin, les
fréquences estimées a posteriori sont, elles aussi, fonctions du nombre de sistres :
l’analyse a posteriori permet de mieux reproduire les comportements individuels.
L’utilisation de ce modèle pose des questions pratiques, importantes auxquelles
nous allons maintenant apporter des éléments de réponse
a) Doit-on intégrer les analyses a priori et a posteriori dans une même
approche, lorsqu’elles sont utilisées simultanément dans l’estimation du risque ?
La formule de la fréquence a posteriori met en évidence les liens existant entre
l’analyse a priori et l’analyse a posteriori, notamment la règle de proportionnalité
entre (t) et . Mais de plus, la relation entre le coefficient de proportionnaliré
((a  nt )/ (a  nˆt )) et les estimations obtenues lors de l’analyse a priori doit
prendre en compte deux éléments.
a.1) Prise en compte du nombre de sinistres probable a priori dans l’estimation
a posteriori.
Pour les assurés sans sinistre, la baisse de fréquence due à l’absence de sinistre
croit (en pourcentage, i e.  '( t ) /  ( t ) décroît) lorsque le nombre prévu de

105
Cette relation ne remet pas en cause l’indépendance entre les nombre de sinistres survenais est deux
périodes disposantes pour un individu donné.

242
sinistres croît (nˆt ) c’est-à-dire quand la fréquence a priori coût Pour les assurés
avec sinistres, l’augmentation de fréquence décroit (en pourcentage) lorsque le
nombre prévu de sinistres croît, c’est-à-dire quand la fréquence a priori croît, ces
différences étant importantes en pratique En effet, dans notre exemple, les écarts
entre les fréquences a posteriori et a priori sont égaux a :
Nombre de sinistres Écarts (fréquence à priori / a posterions)
A1-B1 (40,2 %) A2-B2 (257,5 %)
0 -1,7 % -10,5 %
1 + 20,6 % + 9,9 %
2 + 42,7 % + 30,2 %

Les écarts sont alors indépendants de la fréquence a priori. Cette non-prise en


compte de la segmentation a prion dans le calcul de a se traduit par une sous-estimation
de la fréquence des assurés ayant une fréquence a priori faible et pas de sinistres et par
une surestimation de celle des assurées ayant une fréquence a priori forte et des sinistres
L’accumulation des effets de ce phénomène au cours d’une période de plusieurs années
amplifie les écarts Par exemple, si nous pensons deux assurés appartenant
respectivement à A1-B1 (fréquence moyenne 40,2 %) et A2-B2 (fréquence moyenne
257,5 %) mais ayant une même fréquence individuelle (145,0 %) Après une longue
période d’observation et en absence de segmentation nous obtenons les fréquences de
leur segment, c’est-à-dire respectivement 42,5 % et 257,5 %.
En revancher, en présence d’une segmentation a priori, nous obtenons bien les
fréquences individuelles, c’est-à-dire 145,0 %106.On pénalise donc trop l’assuré ayant
une fréquence a priori forte et pas assez celui ayant une fréquence a priori faible.
a. 2) Prise en compte de la segmentation a priori dans l’estimation du
paramètre a la sensibilité aux variations du nombre de sinistres croît lorsque a
décroit, c’est-à-dire lorsque la qualité de la segmentation décroît (segments moins
homogènes ou variance exogène intra classe plus grande) Par sans segmenter les
risques a=1,4), nous obtenons entre les fréquences a priori et a posteriori les
variations suivantes :

106
Lorsque le nombre d’années d’observation tend vers l’infini, le nombre de sistres observés pour un
assuré tend vers le nombre de sinistres probables, c’est-à-dire vers le produit de la fréquence
individuelle par la durée d’observation (145 % pour les deux cas). En absence de segmentation, nous
avons pour le premier t' (t)  42,5 (a 145,0t) / (a 145,0t)  42,5 et pour le second
segmentation, nous avons pour le premier cas la relation suivante
 (t)  257,5 (a 145,0t) / (a 145,0t)  257,5
t
'
et pour le second

 (t )  257,5  (a 145,0  t ) / (a  257,5  t ) 


t
'
t 
145,0.

243
Écarts
Nombre A1-B1 A2-B2
De A=1,7 A=4,4 A=1,7 A=4,4
Sinistres Non segmenté Segmenté Non segmenté Segmenté
0 -4,5 % -1,7 % -23,3 % -10,5 %
1 + 51,6 % + 20,6 % + 21,9 % + 9,9 %
2 + 107,8 % + 42,7 % + 67,0 % + 30,2 %

La fréquence a posteriori des assurés sans sinistres est sous-estimée, celle des
assurés ayant des sinistres est surestimée.
b) Doit-on utiliser simultanément les analyses a priori et a posteriori dans
l’estimation du risque ?
L’analyse a posteriori permet de corriger l’analyse a priori. L’absence de
segmentation peut donc être compensée par l » analyse a posteriori. Comparons
ainsi les fréquences qu’on obtiendrait en utilisant, d’une part, l’analyse a priori
seulement, et d’autre part, l’analyse a posteriori seulement.
Fréquence fréquence a
Nombre de Nombre A priori Posteriori Fréquence
Sinistres D’assurés Seulement Seulement
0 7 687 128,3 123,4 121,3
1 1 843 189,9 196,1 207,5
2 377 229,4 268,8 293,0
3 78 243,4 341,5 328,3
4 et plus 15 257,4 414,1 520,4
Total 10 000 144,5 144,5 145,9

Si nous analysons les résultats en fonction de la sinistralité, nous constatons


que c’est l’estimation a posteriori qui donne le meilleur résultat, l’amplitude entre
les clients ayant 0 sinistre et ceux ayant 2 sinistres est de 218 % avec la segmentation
a posteriori contre 179 % avec celle a pesterions Toutefois, les deux amplitudes sont
inférieures à la réalité (242 %) dont on se rapproche avec la méthode mixte.
Fréquence fréquence a
Segment Nombre A priori Posteriori Individuelle
D’assurés Seulement Seulement
A1-B1 3 000 40,2 129,8 40,6
A1-A2 2 000 90,4 136,0 89,6
A2-B1 1 000 119,7 139,9 115,4
A2-B2 4 000 257,5 160,6 259,2
Total 10 000 144,5 144,5 145,9

Si nous analysons les résultats en fonction de la sinistralité, nous constations


que c’est l’estimation a posteriori qui donne le meilleur résultat. L’amplitude entre
les clients ayant 0 sinistre et ceux ayant 2 sinistres est de 218 % avec la segmentation

244
a posteriori contre 179 % avec celle a posteriori. Toutefois, les deux amplitudes sont
inférieures à la réalité (242 %) dont on se rapproche avec la méthode mixte.
Fréquence fréquence a
Segment Nombre A priori Posteriori Individuelle
D’assurés Seulement Seulement
A1-B1 3 000 40,2 129,8 40,6
A1-A2 2 000 90,4 136,0 89,6
A2-B1 1 000 119,7 139,9 115,4
A2-B2 4 000 257,5 160,6 259,2
Total 10 000 144,5 144,5 145,9

Si maintenant nous analysons les résultats par segment, nous faisons le constat
inverse. Avec l’analyse a priori, nous avons une amplitude de 641 % (égale à
l’amplitude réelle), alors qu’avec l’analyse a posteriori nous avons une amplitude de
seulement 124 %

Conclusion
Les analyses a priori et a posteriori sont donc complémentaires : on ne peut
choisir l’une au détriment de l’autre Ces deux étapes doivent toutefois être intégrées
dans une approche globale et cohérente : la détermination des paramètres de
l’estimation a posteriori doit être obtenue avec la même segmentation que celle
utilisée dans l’analyse a priori, d’une part, et, d’autre part, l’application du système
de réduction/ majoration doit être différente selon le segment a priori de l’assuré
– Le poids de l’analyse a posteriori dans le calcul du coût de la matière première
est d’autant plus faible que l’analyse a priori est bonne et donc que le risque est
segmenté ou « simple »
– L’amélioration révélée par une absence de sinistre est d’autant plus
importante que le risque a priori estimé est important. L’aggravation révélée par les
survenances de sinistres est d’autant plus importante que le risque a priori estimé
est faible.
Ces propriétés sont actuellement peu ou pas vérifiées par les systèmes légaux
de bonus /maous. En pratique, il en résulte une sous-estimation de la prime pure
pour les clients ayant un risque a priori faible et pas de sinistres et prime pure pour
les clients ayant un risque a priori faible et pas de sinistres et une surestimation pour
creux ayant un risque a priori important et des sinistres.
Quatre qu’elle propose un système de bonus/malus optimal107 mettant en
évidence les biais du système légal, cette approche permet de traiter les problèmes
de changement de risque (véhicule, zone de circulation …) d’évolution des

107
Et à temps continu (Norbert R, 1992).

245
fréquences dans le temps (Besson J.I.&Partrat Ch., 1992).
– baisse de la fréquence RC corporelle-puisque le calcul du nombre de sinistres
probable au cours de la période (0, t) repose sur les fréquences a priori aux différents
instants : Les analyses a priori et a posteriori sont aussi intégrées dans le temps.
– Mais les limites du modèle sont de deux ordres.
– Il sous-estime de manière réduite mais persistante la queue de distribution,
c’est-à-dire le nombre d’assurés représentant un sur-risque (la fréquence a
posteriori estimée pour les assurés du segment A2-B2 ayant 4 sinistres ou plus est
inférieure à la fréquence individuelle moyenne : 453,5 contre 520,4).
– Il est limité à une seule garantie ; cela entraîne, soit une perte d’information,
si on analyse chaque garantie individuellement en ignorant les corrélations entre
les sinistres de différentes garanties, soit une perte de précision si on applique un
système unique pour toutes les garanties.
Pour pallier ces limites, nous proposons deux axes de recherche :
– Le développement d’un système de bonus/ malus multi-granites ;
– Le développement d’système de bonus/malus portant sur les coûts des
sinistres ;

Analyse multi-garanties
L’analyse garantie par garantie conduit à une perte d’information dans la
mesure où les fréquences individuelles pour les différentes garanties peuvent être,
pour un même assuré, corrélées. Cette perte d’information est d’autant plus grave
que les phénomènes étudiés ont des fréquences faibles (la pertinence de
l’observation sur une période donnée est d’autant plus faible que la fréquence est
faible). Toutefois, la variance endogène est importante pour chacune des garnîtes,
il est difficile de mesurer ces corrélations il existe d’ores et déjà des modèles multi-
garanties apportant un début de réponse à cette question (Partirait Ch, 1992, Larsen
C.R, 1991). Toutefois, la limite de ces modèles vient du fait qu’ils supposent que le
coefficient de corrélation entre les garanties est égal à 1. Si une telle hypothèse
permet d’apporter des améliorations pour certaines garanties (RC matérielle et RC
corporelle), ces méthodes ne permettent pas d’estimer un coefficient.
Nous proposons ici une démarche (Boulanger F, 1994) qui généralise la
relation mono-garantir au cas de plusieurs garanties :
us
p
k  nt 
p

q 1, q  p
p
q c( q nt  q nt )
p
 '(t )  p  (t ) p
k  nˆt

p
 '(t ) est la fréquence a posteriori à l’instant t pour la garantie principale P.

246
p
 (t ) est l’estimation de la fréquence a priori pour la garantie p,
p
k est une constante proportionnelle à l’inverse de la variance relative des
fréquences individuelles de la garantie p dans chacun des segments (noté p a et dont
le coefficient de proportionnalité dépend des corrélations entre garanties.108
n g est le nombre de garanties,
i
n t est le nombre de sinistres observés au cours de la période (0, t)
Pour la garantie i (principale ou annexe),
n̂ est le nombre prévu de sinistres a priori au cours de la période (0, t) pour
la garantie i,
p
q c mesure le poids des sinistres de la garantie (annexe) q pour l’estimation
de la fréquence a posteriori de la garantie (principale) p, il est proportionnel au
coefficient de corrélation109 entre la fréquence individuelle de la garantie qu’et celle
de la garantie p.
Cette relation permet de mettre en évidence les principales propretés de
l’analyse multi-garanties.
– S’il y a absence de corrélation entre les garanties, la solution est la même que
dans le cas mono-garantie ; la sinistralité de la garantie annexe n’apporte pas
d’information sur la garantie principale
p
q c  0
– Si les garanties sont corrélées positivement, la survenance d’un sinistre
couvert par la garantie annexe se traduit par une augmentation de l’estimateur a

108
Par généralisation du résultat obtenu pour deux garanties, nous avons :
Où **** est la variance relative de la fréquence individuelle de la garantie q dans les classe (variance
exogène intr-classe),
**** est l’inverse de la variance relative de la garantie q, c’est le paramètre de la loi gamma relative au
modèle de Poisson à paramètre aléatoire de la garantie q,
**** est le coefficient de corrélation entre les fréquences individuelle des garnîtes q et p pour un même
assuré
Si les fréquences individuelles ne sont par corrélées, le coefficient k est égal à (on retrouve le cas de
l’analyse mono-garantie).
109
(1) Par généralisation du résultat obtenu pour deux garanties, nous avons :
p
a
q
a
qc 
p
ng
(1  q , p  2 )
1   q nˆ t q
q  1, q  p a
Le terme
q, p
 p
a /q a est égal au coefficient du MEDAF qui rend compte de la possibilité de
diversification entre les garanties q et p

247
posteriori de la fréquence de la garantie principale. De plus, le poids de la garantie
annexe est positif si le nombre de sinistres constaté est supérieur au nombre prévu
(augmentation de la fréquence, l’assuré est « plus mauvais » que l’assuré moyen
pour la garantie annexe), il est négatif dans le cas contraire (diminution de la
fréquence, l’assuré est « meilleur « que l’assuré moyen pour la garantie annexe).
– Si les garanties sont corrélées négativement, la survenance d’un sinistre sur
la garantie annexe se traduit par une diminution de l’estimateur a posteriori de la
fréquence de la garantie principale De plus le poids de la garantie annexe est négatif
si le nombre de sinistres constaté est supérieur au nombre prévu ; il est positif dans
le cas contraire.
– Ces propriétés sont conformes à l’expérience, le modèle à une contrepartie
dans le monde réel.
Par ailleurs, les propriétés décrites lors de l’analyse du modèle monogarantie
restent vraies et se généralisent au cas multi-garanties ; il est important d’appliquer
et d’estimer les paramètres du modèle après segmentation afin d’éviter de sous-
estimer le risque des assurés considérés.
Comme « bons » ou de surestimer celui des assurés considérés comme
« mauvais ».
– Cette propriété est vérifié dans le cadre suivant les processus de survenance
des sinistres sont des processus de Poisson de paramètres aléatoires.
p
N  Poisson( p  ), p
  p   p U ,  p ,  p  ng
où p
 sont les fréquences individuelles des garanties ;
p
 sont les fréquence a priori des garanties ;
p
p
 sont des variables aléatoires gamma de paramètres (1, a) non
indépendantes et dont les lois multivariées sont inconnues
Et tel que, conditionnellement à la donnée des fréquences
 
. p   P  , p  1  n g , les processus de Poisson sont indépendants ;110
Propriété : Sous ces hypothèses, la relation a posteriori ci-dessus est
l’estimateur à posteriori linéaire qui minimise l’erreur quadratique.

Démonstration :

Nous cherchons un estimateur


p
 t
'
de :
p
 t ( q n t )1  q  u g

110
Cette propreté généralise le principe d’indépendance, pour un individu donné, entre deux périodes
disjointes du processus de Poisson au cas multi garnîtes

248
De la forme :
T
p
 t'  p b0 (t )   p bq (t ) q nt  p b(t ) nt


p
 p p
b ( t ) est le vecteur b0 (t ), b1 (t ),..., bas (t ) ;
p


n t est le vecteur 1, 1 n 1 , ..., a s n t  .
Et qui minimise la fonction :

  
 p b(t )  E  p t  pt  
2


Où  est le vecteur défini par :
 T
 
T
 p
b (t )   2 p C t p b (t )  p b (t )  p b (t )
Par application du principe de l’espérance de l’espérance conditionnelle, nous
avons :

p C t  p  t  1,1 nˆ t E  p U 1U  , ..., n s nˆ t E  p U a s U  
Et où la matrice t est définie par :
 t E  N t T N t


Et qui se met sous la forme :
 1 1nˆ t  ut
nˆ s 
 1 
 nˆ t
1
nˆ t  1 nˆ t2 E  1U 2   1
nˆ t u s nˆ t E  1U a sU  
t  
     
 u snˆ us
nˆ t 1 nˆ t E  u s U 1U   us
nˆ t  nˆ t E  U U  
ut 2 us 2
 t

En effet, pour tout couple ( p, q) nous avons


E  p N t q N t   E  E  N t q N t p  t , q  t
p

Si p  q d’après l’indépendance conditionnelle des processus de Poisson, nous


avons :
E  N t N t   nˆt nˆt E U , U 
Si non, nous avons :

E  p Nt2   p nˆt  p nt2 E  p U 2 


(résultat classique des processus des Poisson).
Par dérivation de la fonction  , nous obtenons :

249
 2  p
b (t )   2 p
C t  2 p b (t )
 b (t )
p

 2  p
b (t )   2 ,
 p b (t ) 2
La fonction  admet donc un unique minimum défini par
Nous avons donc comme estimateur :
 1
p b (t )   t
p
C t

Dans le cas bivarié, nous avons :


 
 
 1 
p
C t  pt  

1
nˆ 1 E  1 U p
U  
 
 2
nˆ 1 E  1 U p
U  
 
 1 1
nˆ1 2
nˆ1
 
 t  1 nˆ1 1
nˆ1  1 nt2 E  1U 2  1
nˆ1 nˆ1 E  U  
2 1 2

 
 2 nˆ1 2
nˆ1  1 nt E  2 U 1U  2
nˆ1  nt E  U  
2 2 2 2 

Soit, après inversion de la matrice et pour ***** :
 12 nˆt (1V 1,2V ) 
 1
 
1b(t)  1 1 2 2 1 t 2 1 2 1,2 2  1V 2 nˆt (1V 2V 1,2V 2 ) 
1 nˆt V  nˆt V  nˆt nˆt ( V V  V )  1,2 
 V 
Où V  v a r ( U )
V) V  c o v ( U , U )
Nous obtenons ainsi :
1
 't (1  1 n t 1V )(1  1 nˆ t 1V )  1 n t 2 nˆ t 1, 2V 2  ( 2 n t  2 nˆ t ) 1, 2 V

1
t (1  1 nˆ t 1V )(1  1 nˆ t 1V )  1 n t 2 nˆ t 1, 2V 2
Soit encore :

250
1 2
k 1
n  c ( nt 2 nˆt ) 1
1
t '
k n 1 1
V k 1,2 t 1
2
 1 1 t  2 2 1 1 (2 nt 2 nˆt ) 
1
t k  nt 1  nt V k nt
ˆ ˆ ˆ 1
k 1 nˆt
2
nˆ t
1
Où k  1  nˆ t V 2 2 2
a
 1a
1  nˆ t 2V (1  1, 2  2 ) 1 V
2 2

1  2 t (1  1, 2  2 )
a
1a
1 1,2 2
V 2a
c  1, 2 
2 1  nˆ t V (1  1,2  2 )
2 2 1
V nˆ 2
1  t (1  1,2  2
2a
D’où le résultat par généralisation à plus de deux garanties.
La difficulté liée à la mise en œuvre de ce modèle tient à l’estimation du
coefficient de corrélation entre les fréquences individuelles des garanties. Le calcul
direct à partir de l’observation des sinistres n’est pas possible du fait de la variance
endogène du processus de survenance. Pour résoudre ce problème, nous proposons
de calculer la covariance à partir de l’estimation par le maximum de vraisemblance
du paramètre à du modèle de Poisson à paramètre aléatoire appliqué aux différentes
garnîtes ainsi qu’aux couples de garanties.
Pour la garantie p, nous avons la relation :
D’où un estimateur de E  p U 2

1
E  p U 2
  1 
pa
L’application du modèle aux sinistres des garanties p et q additionnés
permet d’estimer le paramètre p, qa associé, Ce paramètre est égal à :

 t  q t 
p 2
p ,q
a
E   p t pU  q t qU     p t  q t 
2 2

 
D’où un estimateur de : p ,q

Pour illustrer notre propos, nous avons introduit une garantie année à
l’exemple présenté dans la partie mono-garantie. Les fréquences individuelles de
cette seconde garantie se déduisent des fréquences individuelles de la garantie
principale par la relation suivante :
2
  (1U )1 U 2 ' Où U est une variable aléatoire uniforme sur 0,1

251
2
 ' suit une loi gamma de variance relative 0,5 et de moyenne 2  '
Fonction des variables exogènes telle que nous ayons par segment les valeurs
suivantes :
Fréq-garantie 2 A1 A2 Total A
(%)
B1 30,3 80,8 42,9
B2 60,6 171,7 133,6
Total B 42,4 153,5 98

A partir des réalisations des fréquences individuelles (grandeurs utiles), nous


avons calculée par segment les coefficients de corrélation entre les fréquences
individuelles des garanties. Nous obtenons les valeurs suivantes :
Coefficient de corrélation A1 A2
B1 0,578 0,535
B2 0,588 0,585
Dans un deuxième temps, nous avons simulé 5 années de sinistres (grandeurs
observables) pour les deux garanties. Disposant de ces données, nous avons
appliqué successivement le modèle de Poissions à paramètre aléatoire à la garantie
1, à la garantie 2 et au couple afin d’estimer le coefficient de corrélation. Nous avons
obtenu des valeurs proches des valeurs du modèle sous-jacent :
Coefficient de corrélation entre les A1 A2
nombres de sinistres : estimation
B1 0,529 0,527
B2 0,528 0,526
Bien que l’hypothèse faite (« les lois des Fréquences individuelles de chacune
des garanties et celle de la somme suivent des lois gama ») soit forte, elle permet un
calcule effectif des coefficients de corrélation111 : elle est opératoire. Notons que,
comme nous l’avions annoncé, le calcul direct du coefficient de corrélation entre
les Nombres de sinistres ne permet pas d’avoir un bon estimateur des coefficients
de corrélation du fait du (bruit » lié au processus de survenance des sinistres :
Coefficient de corrélation A1 A2
entre les nombres de sinistres :
estimation
B1 0,009 0,021
B2 0,075 0,144

111
Les processus de survenance des sinistres pour la garantie 2 et la garantie 1 + 2 ne vérifient pas les
hypothèses (les variables aléatoires Fréquences individuelles ne suivent pas des lois gamma).

252
Formule d’estimation a posteriori. Si nous calculons la fréquence a posteriori
de la garantie principale à partir de la sinistralité des garanties principale et annexe
observée sur deux années et en fonction du nombre de sinistres observés pour la
garantie annexe, nous obtenons d’une part pour l’ensemble des assurés :
Estimation de la fréq. De la garantie principale
Nombre Modèle Modèle Fréquence
de
Nombre Moèle
Sinistres A A Individuelle
posteriori : posteriori
Annexe mono multi Sous-
jacente
0 8 344 133,2133,2 132,7 129,1 130,5
1 1 402 196,5 198,0 211,9 211,4
2 215 228,5 232,8 271,8 282,6
3 et plus 39 236,1 243,5 308,2 333,7
Total 10 000 144,5 144,5 144,4 145,9
Et d’autre part pour le seul segment A2-B2.
Estimation de la fréq. De la garantie principale
Nombre de Modèle Modèle Fréquence
Nobre odèle
Sinistres A A Individuelle
posteriori : posteriori
Annexe mono multi Sous-
jacente
0 2 868 275,5 256,2 247,2 249,3
1 921 275,5 259,8 276,8 274,6
2 177 275,5 262,5 305,5 317,9
3 et plus 34 257,5 264,5 334,3 364,0
Total 4 000 257,5 257,3 257,3 259,2

Ces deux tableaux, et plus particulièrement le deuxième, montrent


l’importance de la sinistralité couvert par la garantie annexe lors de l’estimation de
la fréquence a posteriori de la garantie principale. L’observation de la garantie
annexe apporte des informations complémentaires concernant la garantie
principale. En effet, quand on analyse l’écart de fréquence entre les assurés sans

253
sinistre d’une part, et ceux ayant eu 1 sinistre d’autre part, on constate que
l’approche multi-garanties est plus proche de la réalité que l’approche mono-
garantie Cet écart vaut respectivement pour l’ensemble des assurés (tous segments
confondus) et pour le segment A2-B2 :
– 64,1 % et 1,4 % avec le modèle mono-garantie.
– Il faut comparer ces valeurs avec la « réalité » (fréquence individuelle
moyenne des assurés, non observable en pratique) : respectivement 62,0 % et
10,1 %.112
Estimation de la fréq. De la garantie principale
Nombre de Modèle Modèle Fréquence
Nombre Modèle
Sinistres A A posteriori Indivduelle
posteriori :
Annexe mono multi Sous-jacente
0 8 344 133,2 129,1 127,2 130,5
1 1 402 196,5 211,9 218,8 221,4
2 215 228,5 271,8 291,2 282,6
3 et plus 39 236,1 308,2 340,5 333,7
Total 10 000 144,5 144,4 144,4 145,9

Et pour le segment A2-B2


Quatre le fait le de pouvoir intégrer les corrélations entre garanties, cette
approche peut permettre, en découpant une garantie par tranche de coûts, d’avoir
un système de bonus qui tient compte des coûts des sinistres : par exemple en
différenciant dans l’analyse les sinistres corporels et matériels.

2.2.2. Analyse a posteriori du coût probable des sinistres.


Comme pour les fréquences, il peut exister à l’intérieur d’un même segment
des différences de « comportement » entre les assurés qui peuvent avoir des
conséquences sur le coût probable des sinistres des assurés. Par exemple, pour un
même risque a priori, les assurés n’utilisant que des routes secondaires ont des coûts
de sinistré moins élevés que ceux utilisant des nationales (la vitesse en cas de
collision est moindre) Plus encore que pour l’analyse de la fréquence, le problème,
du fait du poids de la variance endogène dans les coûts des insères, est de faire la
part entre ce qui relève du « basard » et ce qui est du ressort du « comportement ».
Lors de l’analyse du modèle Bêta de seconde espèce, nous avons décomposé la

112
L’introduction des sinistres des garanties annexe peut ^tre196,5 obtenue de manière plus simple
en regroupant les garanties en une garantie unique Cette solution revient à considérer228,5 que les
coefficients de corrélation sont tous égaux à 1. Si on applique cette méthode à l’exemple précédent,
nous obten236,1ons pour l’ensemble.

254
variance relative des coûts de sinistres en deux termes, un premier (1/r) dépendant
l de la seule variance du processus de passage des grandeurs utiles aux grandeurs
observables et un second  ( r  1) / r  / ( a  2)  dépendant de la variance
exogène intra-classe. A partir de ces deux paramètres, nous pouvons calculer le
meilleur estimateur du coût probable connaissant les coûts de n sinistres :
Estimation de la fréq. De la garantie principale
Nombre de Modèle Modèle Fréquence
Nombre Modèle
Sinistres A posteriori : A posteriori Individuelle
Annexe mono multi Sous-jacente
0 2 868 257,5 247,2 242,7 249,3
1 921 257,5 276,8 285,3 247,6
2 177 257,5 305,5 327,2 317,9
3 et plus 34 257,5 334,3 369,7 346,0
Total 4 000 257,5 257,3 257,3 259,2

Bien que les écarts soient relativement faibles, cette solution conduit à une sous-
estimation de la fréquence pour les assurés n’ayant pas eu de sinistres pour la garantie
annexe et à une surestimation de celle des assurés en ayant eu 1. Ce phénomène est
dû au poids trop important accordé à la garantie annexe du fait de l’hypothèse portant
sur le coefficient de corrélation : Les écarts sont d’autant plus importants que le
coefficient est loin de 1 (garanties corrélées négativement par exemple).
n  1 n
x 
si 1
(a  1)  r  
n  1  n k 1 s
k

 i 
si n
(a  1)  r
n  1
Où si est l’estimation a priori du coût probable des sinistres du client ****
si1 est l’estimation a posteriori du coût probable des sinistres,
n est le nombre observé de sinistres,
xk est le coût observé du sinistre k.
Démonstration
La densité de la loi du n + unième sinistre X n 1 conditionnellement à la
valeur des n premiers sinistres se met, d’après la formule de Bayes, sous la forme :

fX ( X k ,1  k  n  1)
f X n 1 X k ,1  k  u ( x ) 
k 1 , k  n 1

fX k 1 , k  n 1
( X k ,1  k  n )
D’après la propriété d’indépendance conditionnelle des coûts des sinistres,
nous avons :

255
  u 1 
f X k 1, k  n 1 ( X k ,1  k  n  1)     f X k u ( x k )  g s ( u ) du
0
 k 1 
f X k u ( x k ) est la loi du k ié m e
sinistre conditionnellement à S  u ;
g s (u ) est la loi de S.
Les coûts des sinistres sont identiquement distribués (loi gamma de moyenne u et
de variance 1/ r) Si nous remparons les différentes lois par leur expression voir modèle
gamma à paramètre aléatoire), nous obtenons comme densité pour la loi n-variée !
n
 s ( a  1) a r r     n

   u ( r  a 1) u
exp  u  s ( a  1) n  r  xk   du
  ( a ) ( r )  0
  k 1 
Soit encore
n
 s ( a  1) a r r   (1  ( r  a  1) n ) u

  1 ( r  a 1) x k
  ( a ) ( r )  
u
n
 k 1
 s ( a  1) n  r  x k 
 k 1 
Si nous revenons maintenant à la loi conditionnelle, nous obtenons :
rx
1 n
s ( a  1)( n  1)   xk
f x u 1 x k , 1  k  u k 1
1 ( r  a 1 )(u 1 )

 
 rx 
1  n

 


s ( a  1) n  
k 1
xk 

Conditionnellement à X k  x k ,1  k  n , la variable aléatoire :
r X u 1
n
s ( a  1)( n  1)  
k 1
xk

Suit une loi bêta de paramètres X K  X K ,1  K  N , . La loi est stable par


conditionnement, seuls les paramètres différents par calcul des espérances nous
obtenons le résultat.
A partir de la formule de l’estimateur du coût moyen a posteriori, nous
déduisons les propriétés suivantes de l’analyse a posteriori du coût des sinistres.
– Plus a est grand, c’est-a-à-dire moins la variance exogène intra-classe est
grande, moins les coûts observés ont d’importance. C’est pourquoi il est important

256
d’utiliser pour l’analyse a posteriori la même segmentation que pour l’analyse a
priori. comme dans le cas de l’étude de la fréquence, les deux approches doivent
être intégrées dans une même démarche.
– Plus r est petit, c’est-à-dire plus la variance endogène est grande, moins les
coûts observés ont d’importance.
– Si la moyenne des rapports entre les coûts observés et le coût probable est
inférieure à 1, l’estimation a posteriori est inférieure à l’estimation a priori (l’assuré
est é meilleur » que sont segment). Inversement, si la moyenne des rapports entre
les coûts observés et le coût probable est supérieure à 1, l’estimation a posteriori est
supérieure à l’estimation a priori (l’assuré est é plus mauvis » que son segment).
C’est pourquoi il est important de rapporter l’analyse a posteriori aux estimations
a priori, afin de ne pas pénaliser les assurés ayant un coût probable estime à priori
élever,
– Toutefois, pour les garanties où nous avons de longues queurses de
distribution (sinistres corporels en automobile par exemple), il faut comprendre la
cause de la dispersion : l’origine est-elle liée au niveau de gravité du sinistre (en
Responsabilité civil automobile les corporelles et les non corporels) ou
effectivement au comportement. Afin de faire la différence, il est possible de scinder
la garantie en sous-saturé et tester un modèle multi-garanties. C’est méthodes étant
récentes, il convient d’être prudent dans leur utilisation.

2.2.3. analyse a posteriori de la prime pure


L’estimation a posteriori du coût de la matière première ne peut pas s’obtenir
par une généralisation du modèle utilisé pour l’estimation directe du coût de la
matière première. En revanche, cette estimation peut se déduire directement des
analyses de la fréquence (modèle mono ou multigaranties) et du coût probable.
Dans ce cas, nous avons la relation suivante :
  1 ut p x k  
p
 p ns
p q
 k  nt    p nt 
p
c ( nt  nˆ t ) 
q  ( a  1)( p
n t  1)  p
r p
n t   
p
r' q 1, q  p q   p 
 k  1 s
p
r  p
k  nt p
  ( a  1)( nt  1)  r nt
p p p 
  
   

Où pr est l’estimation a priori du coût de la prime pure pour la garantie p,


pr ' est l’estimation a posteriori du coût de la prime pure.
L’intérêt de cette approche, par rapport à une analyse a posteriori reposant sur la
seule fréquence, est de pondérer les variations de la prime pure par la mise en œuvre
du système de bonus-malus, on regroupe les garanties en une garantie unique.

257
2.3. Structure et valeur absolue.
Dans les deux paragraphes précédents, nous avons présenté des méthodes qui
permettent de segmenter la prime pure en fonction, d’une part, de variables
exogènes (modélisation a priori) et, d’autre part, des variables endogènes : nombres
et coûts des sinistres par individu (modélisation a posteriori). Si ces méthodes
permettent d’obtenir une structure, le change global correspondant au modèle ne
correspond pas à la charge ultime probable. Il y a deux problèmes à résoudre pour
obtenir cette adéquation au niveau de la valeur absolue de la prime pure : quelle
sera la charge ultime de la période ? Quel est l’impact des ministres graves ?
L’objet de notre propos n’est pas ici de présenter des méthodes permettant de
calculer des charges ultimes probables mais comment il convient d’intégrer ces
approches à l’approche globale qui part de l’analyse de la structure pour arriver à la
valeur absolue.

Charge ultime et charge observée


Lorsque l’on réalise une modélisation des primes pures, les sinistres de la
période de référence ne sont pas entièrement connus.
– Il y a des sinistres qui augmenteront la charge de la période mais qui ne sont
pas encore survenus au moment de l’étude ; par exemple en Responsabilité Civile
décennale construction ou en Responsabilité Civile médicale les sinistres rattachés
à la période de référence (fait générateur) peuvent se révéler des années après.
– Il y a aussi des sinistres survenus mais non encore connus au moment de
l’étude.
– Il y a enfin des sinistres non encore réglés et pour lesquels nous n’avons
qu’une estimation du coût ultime (provision).

Charge ultime et charge ultime probable


Même si nous disposions de la charge ultime de la période de référence, nous
n’avons pas encore la charge ultime probable. En effet, la survenance de sinistres
graves peut augmenter significativement la charge ultime de la période étudiée sans
pour autant que la charge globale obtenue avec la modélisation doive augmenter.
Inversement, l’absence de sinistre grave minore la charge ultime de la période de
référence sans pour autant que la charge globale obtenue par modélisation doive
diminuer.
Le calcul de la charge ultime à partir des observations peut être soit réalisé
globalement en étudiant les tableaux de développement des règlements soit reposé
sur une décomposition fréquence/ coût. Les méthodes existantes sont nombreuses
(Chain Ladder, London Chain…) ; voir par exemple (Partrat Ch., 1995) pour un

258
panorama des méthodes). Nous recommandons les approches fréquence/ coût car
elles permettent, d’une part, de mieux prendre en compte la réalité des phénomènes
étudiés et, d’autre part, d’assurer la cohérence entre la modélisation des primes
pures et le calage global de la charge ultime probable.113
L’analyse des fréquences est simple et les méthodes existantes nombreuses. Elles
reposent sur une analyse des cadences d’ouverture des sinistres La périodicité retenue
pour l’étude, annuelle, mensuel, hebdomadaire, dépend de la taille du portefeuille, de
l’évolution de cette taille (croissance/ décroissance)114 de l’objectif (provision/
tarification), du type de risque115 … ces méthodes permettent de prendre en compte
les sinistres inconnus lors de la modélisation de la fréquence. La correction du modèle
est alors simple et consiste à augmenter les fréquences modélisées indépendamment
de la classe considérée et dans un rapport égal au rapport entre le nombre de sinistres
connus et le nombre estime définitif. Cette étude doit être réalisée pour chaque
catégorie de sinistres retenue pour la modélisation.
Une pratique classiquement utiliser pour éviter ce problème de calage des
fréquences consiste à prendre une période de référence ancienne (par exemple
période t  2, t 1) puis à corriger la moyenne de l’évolution des fréquences
observée entre les périodes t  2, t 1 et t 1, t . ces approches peuvent se
traduire par des erreurs significatives. En effet, l’évolution de la fréquence entre les
périodes t  2, t 1 et t 1, t . est la combinaison de deux phénomènes :
l’évolution des fréquences par segment à structure du portefeuille constante et
l’évolution de la structure à fréquence constante par segment116
Inversement, la décomposions structure / niveau global dans l’étude de
l’évolution des fréquences entre deux périodes permet de faire la part dans

113
Des méthodes plus sophistiquées basées sur des approches stochastique font leur apparition (voir
par exemple (Regazonnai Y. & Sander J, 1997.
114
En cas de portefeuille en croissance ou de décroissance, la périodicité droit être la plus fine possible car
plus la période est grande plus la sous-estimation (croissance) ou surestimation (décroissance) est grande.
115
Pour des événements de type climatique, la périodicité doit être fine car la date précise de
l’événement est très importance et donc plus la pas est fin mieux cette date est cernée. De plus, ces
phénomènes doivent être analysés sur longue période afin d’en évaluer la probabilité d’occurrence.
Enfin, leur modélisation soit être scindée en deux : modélisation de la probabilité d’occurrence et
modélisation de la structure d’un événement La fréquence modélisée par segment est alors obtenue
par le produit de la probabilité d’occurrence (par segment, i.e. par zone géographique) par les
fréquences pour une occurrence.
116
Ce type d’erreur survient le plus souvent lorsque l’on ne refait pas l’étude de tarification dans son
ensemble mais que l’on se limite au réajustement de la prime de référence. Dans ces cas le calage pour
la nouvelle période correspond au calage de la période précédente corrigé de l’évolution globale de la
fréquence sur cette période il s’agit en fait d’un calage implicite, d’où le risque d’erreur

259
l’évolution des fréquences entre ce qui est du domaine du risque et qui doit se
retrouver dans l’évolution du tarif et ce qui du domaine de l’évolution du
portefeuille et qui n’a pas d’impact sur le tarif.
Pour les coûts, le problème est plus complexe. Cette complexification résulte
de la combinaison de quatre effets : un échantillon plus petit pour une variance plus
grande ; des cadences de règlement plus faibles que les cadences d’ouverture ; des
effets de structure plus importants dans la mesure où la répartition par classe
dépend non seulement de la répartition des risques mais aussi du processus de
survenance des sinistres ; de l’impact des sinistres « graves » et ce tant à la hausse
qu’à la baisse pour répondre à cette complexité, nous proposons d’associer et
comparer plusieurs approches différentes.
– La première méthode que nous proposons consiste à tuilier les méthodes
« classiques » basées sur les tableaux de développement mais appliquées non aux
coûts bruts mais aux coûts modélisées. Cette méthode permet d’appliquer les
méthodes sur les charges probables et ainsi d’obtenir directement la charge ultime
probable. En pratique, il faut :
– Modéliser les coûts des sinistres vus à fin, fin n + 1, fini, + 2… pour plusieurs
exercices avec le modèle Bêta de seconde espèce ; Constituer le tableau de
développement associé ;
Estimer les coefficients de passage entre coût moyen fin n + k à coût moyen
définitif.
– La deuxième méthode que nous proposons consiste à appliquer les méthodes
« classiques » sur les donnés brutes puis à corriger la charge ultime dans le rapport
« coût moyen observée / » coût moyen modélisé » avec le modèle bêta de seconde
espèce afin d’avoir la charge ultime probable.
– La troisième méthode que nous proposons consiste à prendre l’estimation du
coût moyen global ultime probable de l’exercice vu à fin n corrigé de l’effet de structure.
– Ces trois méthodes doivent être comparées entre elles et par rapport aux
évolutions calculées par la profession.
– En conclusion, les analyses de structure et les analyse globales ne peuvent être
dissociées au risque d’aboutir à des conclusions erronées.
– Toutefois, faute d’une pratique de ces méthodes sur une logue période qui
permettrait d’identifier une « meilleure « méthode, il faut combiner ces approches
de différentes manières pour retenir, de manière empirique, une solution.

260
Partie III

Tables de mortalités et méthodes stochastiques

261
262
Chapitre 1
Tables de mortalité

1. Introduction
La construction d’une table de mortalité dans le cadre paramétrique standard
a déjà été évoquée précédemment dans ce cours117 ; l’objectif du présent support est
de détailler les outils d’analyse des tables de mortalité, d’une part, et d’aborder la
question de l’évolution de la mortalité au cours du temps et des modèles propres à
en rendre compte.

1.1. Le contexte réglementaire


Les tables de mortalité utilisées par les assureurs pour leurs tarifs et leurs
provisions sont encadrées par la réglementation. En pratique, des tables de la
population générale sont utilisables par défaut, et la réglementation prévoit les
conditions dans lesquelles l’organisme peut utiliser ses propres tables. Ce contexte
est défini par les articles A335-1 du Code des Assurances, repris ci-après pour
mémoire :
Article. *A.335-1 (A. 19 mars 1993 ; A. 28 mars 1995, art.5)
Les tarifs pratiqués par les entreprises d’assurance sur la vie et de capitalisation
comprennent la rémunération de l’entreprise et sont établis d’après les éléments
suivants :
 Un taux d’intérêt technique fixé dans les conditions prévues à l’article A.132-1.
 Une des tables suivantes :
 tables établies sur la base de données publiées par l’Institut National de la
Statistique et des Etudes Economiques, et homologuées par Arrêté du ministre de
l’économie et des finances ;

117
Voir le support « Statistique des modèles paramétriques ».

263
 tables établies par l’entreprise d’assurance et certifiées par un actuaire
indépendant de cette entreprise, agréé à cet effet par l’une des associations d’actuaires
reconnues par la commission de contrôle des assurances.
Pour les contrats de rentes viagères, le tarif déterminé en utilisant les tables visées
au deuxième tiret du 2° ne peut être inférieur à celui qui résulterait de l’utilisation
des tables visées au premier tiret du 2°.
Pour les contrats collectifs en cas de décès résiliables annuellement, le tarif peut
appliquer les tables visées au premier tiret du 2° avec une méthode forfaitaire si celle-
ci est justifiable.
Cet article a été modifié par l’arrêté du 01/08/2006 de la manière suivante :
a) Au neuvième alinéa, les mots : « livre IV du titre Ier » sont remplacés par les
mots : « titre IV du livre Ier » ;
b) Le dixième alinéa est supprimé.
13° Après l’article A. 335-1, il est créé un article A. 335-1-1 ainsi rédigé :
Modèles de durée
« Art. A. 335-1-1. – Les décalages d’âge prévus au huitième alinéa de l’article A.
335-1 sont appliqués de telle sorte que chaque taux de mortalité annuel à un âge
donné soit égal au taux de mortalité annuel à l’âge ayant subi le décalage dans la
table appropriée. »
14° L’article A. 441-4-1 est ainsi rédigé :
« Art. A. 441-4-1. – Pour l’application de l’article A. 441-4, les tables de mortalité
sont celles appropriées mentionnées à l’article A. 335-1 applicables aux contrats de
rente viagère souscrits à compter du 1er janvier 2007.
« Les entreprises peuvent répartir sur une période de quinze ans au plus les effets
sur le niveau de la provision mathématique théorique résultant de l’utilisation des
tables mentionnées au premier alinéa.
« La provision mathématique théorique devra néanmoins être, d’ici au 1er août
2008, supérieure ou égale à celle obtenue avec la table de génération homologuée par
arrêté du 28 juillet 1993, lorsque cette provision est inférieure à celle résultant de
l’utilisation des tables mentionnées au premier alinéa. »
Article 2
Les tables prévues au quatrième alinéa de l’article A. 335-1 du code des
assurances pour les contrats de rente viagère sont à compter du 1er janvier 2007 :
– la table TGF05 ci-annexée concernant les assurés de sexe féminin ;
– la table TGH05 ci-annexée concernant les assurés de sexe masculin.
Ces tables ci-annexées sont homologuées à compter de cette même date.
Article 3
A l’annexe de l’article A. 335-1 du code des assurances sont ajoutées les tables

264
TGF05 et TGH05 ci-annexées.
Article 4
Le 3° et le 10° de l’article 1er entrent en vigueur le 1er janvier 2007.

1.2. Les différents types de tables de mortalité


Du point de vue de l’assureur, on peut distinguer les tables réglementaires, qui
jouent un rôle particulier dans la détermination du tarif et des provisions, et les
tables d’expérience ; d’un point de vue technique, on distingue les tables
transversales, ou « tables du moment » et les tables prospectives, intégrant l’aspect
dynamique de la mortalité.

1.2.1. Les tables réglementaires


Les tables réglementaires comportent deux volets :
 Les tables TH et TF 00-02 pour les assurances en cas de décès ;
Modèles de durée
 Les tables ci-dessus utilisées avec des décalages d’âges pour les assurances
en cas de vie (à l’exclusion des rentes).
Homologuée par l’arrêté du 20 décembre 2005, les tables TH et TF 00-02 ont
été établies à partir des données de l’INSEE issues d’observations réalisées entre
2000 et 2002 et sont applicables aux contrats d’assurance vie souscrits depuis le
1er juillet 1993. La table TF décrit la mortalité féminine. La table TH est construite
à partir de la population masculine.
De plus, la nécessité d’utiliser des tables de mortalité prospectives pour les
rentes viagères a été prise en compte par le législateur et des tables de générations
(TGH et TGF 05) ont été homologuées par un arrêté du 01/08/2006. Celles-ci ont
été obtenues sur base de la mortalité de la population des bénéficiaires de contrats
de rentes observée sur la période 1993-2005 et de données sur la population
générale (INSEE) de 1962 à 2000. Ces tables servent depuis le 1er janvier 2007 à la
tarification et au provisionnement des contrats de rentes viagères immédiates ou
différées. Elles imposent un tarif minimal118.

1.2.2. Les tables d’expérience


1.2.2.1. Le contexte général
Dans le cadre du suivi technique de ses produits et au regard de l’article A. 335-
1 du Code des assurances, un assureur peut souhaiter utiliser des tables de mortalité
d’expérience en lieu et place des tables officiellement en vigueur pour justifier du

118
Dans le cadre du provisionnement en norme IFRS « assurance » ce minimum n’a plus lieu d’être.

265
niveau de la prime pure dans les contrats qu’il couvre. Il apparaît en effet opportun,
dans ce cadre, de cerner au mieux tout « comportement » de la population assurée
qui serait significativement différent des tables réglementaires.

1.2.2.2. La certification des tables de mortalité


La procédure d’agrément des actuaires indépendants habilités à certifier et à
suivre les tables de mortalité (et les lois de maintien en incapacité de travail et en
invalidité) est définie par l’Institut des Actuaires, après avis de la Commission de
Contrôle des assurances et de la Commission de Contrôle des mutuelles et des
institutions de prévoyance :
• dans le cadre des arrêtés du 19 mars 1993 (entreprises d’assurances), du
13 octobre 1993 (mutuelles), du 21 décembre 1993 (institutions de prévoyance)
concernant les lois de mortalité,
• dans le cadre de l’arrêté du 28 mars 1996 (entreprises d’assurances, mutuelles
et institutions de prévoyance), concernant les lois de maintien en incapacité de
travail et en invalidité.
Cette procédure comprend la mise en place d’une Commission d’Agrément
indépendante et souveraine dans ses missions d’habilitation des Actuaires à certifier
et à suivre les tables de mortalité et les lois de maintien en incapacité de travail et
en invalidité. Elle a été approuvée par les membres de la Commission d’Agrément
le 3 décembre 2002. Elle a été
Modèles de durée
ratifiée par le Conseil d’administration de l’Institut des Actuaires le
11 décembre 2002 et transmise aux autorités de tutelle le 18 décembre 2002.
En pratique la mise en place, et l’autorisation d’utilisation, d’une table
d’expérience comporte 3 étapes :
 La construction de la table ;
 La certification initiale ;
 Le suivi annuel destiné à assurer la pérennité du droit d’utilisation de la
table.
Le rapport final de certification doit s’assurer que la table permet la
« constitution de provisions suffisantes et prudentes ». Ce document doit en
particulier :
 « valider les données utilisées et leurs sources, qu’elles soient internes ou
externes à l’entreprise,
 vérifier les hypothèses de travail et les modalités utilisées pour construire les
tables de mortalité ou les lois de maintien en incapacité de travail ou en invalidité

266
 s’assurer que les principes de prudence communément admis ont été
respectés, eu égard aux risques induits (en particulier stabilité des tables ou des lois
de maintien),
 définir précisément les conditions d’application et de validité des éléments
certifiés, les statistiques ou tableaux de bord à préparer périodiquement par
l’entreprise pour permettre le suivi des résultats d’expérience. »
Le suivi doit être annuel. En l’absence de suivi, la validité des tables (et des lois
de maintien) cesse deux ans après leur certification. La validité des tables de
mortalité est limitée à cinq ans (celle des lois de maintien en incapacité et en
invalidité à quatre ans).
Le point important que l’on peut retenir est que la certification ne concerne pas
une table dans l’absolu, mais une table utilisée pour un contrat ou un groupe de
contrats particuliers, au regard notamment du risque induit par le contrat
considéré.

2. L’analyse de la mortalité
On s’intéresse à la variable aléatoire T représentant la durée de vie d’un
individu ; on suppose les individus de la population dans un premier temps
identiques, de sorte qu’on pourra disposer d’échantillons issus de la loi de T.

2.1. Notations
Il est commode de considérer les variables Tx représentant la durée de vie
résiduelle d’un individu conditionnellement au fait qu’il soit vivant à l’âge x, , ie
Tx  d T  x / T  x  . On peut alors définir la probabilité de survie entre x
et le quotient de mortalité entre x et xt :
Modèles de durée
t Px  P (Tx  t )  P (T  x  t / T  x ),
Lorsque
t 1 q x 1 q x et p x 1 p x .
il est omis dans les notations, et on écrit plus simplement.

267
Ces quotients s’expriment simplement à l’aide de la fonction de survie de T :
S (x  t)
t Px  .
S (x)
Il est usuel de noter119 lx  S ( x); le nombre de décès entre x et xt est
noté t d x  lx  lx  t ; dans le cadre de l’analyse statistique de la mortalité d’une
cohorte on mesure le temps vécu par les individus de la cohorte entre x et x  t ,
défini par :
t
  lx  µ du
t L x ..
0

Modèles de durée

119
A une constante multiplicative de normalisation près

268
A partir de cet indicateur on peut définir la durée de vie résiduelle, qui est un
indicateur caractéristique de la table de mortalité :
  
E x   lxu d u  
i x
L x .
0

Le quotient de mortalité t q x est calculé en rapportant un nombre de décès sur


la période à l’effectif en début de période ; on calcule également le taux de mortalité,
obtenu en rapportant le nombre de décès à l’effectif moyen sur la période, soit :
d
t m x  t x
.
t L x
Les quotients de mortalité sont des probabilités (nombres sans dimension)
alors que les taux de décès sont exprimés en inverse de l’unité de temps et
décomptent des décès par personne sous risque et par unité de temps. Cette
différence conduit aux relations suivantes avec la fonction de hasard, appelée dans
ce contexte « taux instantané de mortalité » :
1 
µ x  t  lim h 1 P (t  Tx  t  h / Tx  t )  qx ,
h 0 P
t x  t t

1 qx t qx
Car h P (t  Tx  t  h / Tx  t ) 
th
; donc lorsque h est petit,
ht p x
h qx  hµx et

269
h p x  1  hµ x . Le lien entre le taux instantané de mortalité et le taux de
mortalité est direct :
µ x  lim m x , ce qui justifie ex-post la terminologie.
h 0 h

Modèles de durée
La relation entre fonction de survie conditionnelle et fonction de hasard s’écrit
avec les notations utilisées ici :
 t 
t p x  ex p    µ x  s d s  .
 0 
2.2. Le diagramme de Lexis
Lors des études de mortalité, il est rare que l’on dispose d’une information
exacte sur les âges au décès et les dates de décès ; ces données sont le plus souvent
disponibles sous forme arrondie, en âge entier et année entière. Afin de déterminer
correctement les taux bruts de mortalité dans ce contexte, on utilise un formalisme
particulier, le diagramme de Lexis120.

2.2.1. Présentation
L’analyse de la mortalité d’un groupe donné fait intervenir trois mesures de
temps : l’âge des individus, leur génération (date de naissance) et la date
d’observation ; bien entendu ces 3 informations sont liées et la connaissance de 2
d’entre elles détermine la troisième.
Chacune de ces dimensions a toutefois son importance dans la détermination
du niveau de la mortalité :
 L’âge : cette variable influence évidemment le risque de décès ;
 La date d’observation : le risque de décès peut varier en fonction de
circonstances comme une épidémie, un événement exceptionnel (la canicule de
l’été 2003 par exemple), etc.
 La génération : des phénomènes tels que l’amélioration des conditions
sanitaires, les progrès de la médecine conduisent à modifier le risque de mortalité à
un âge donné au cours du temps ; de plus, on peut imaginer que le passé d’une
génération donné puisse modifier le niveau de sa mortalité future : typiquement,
une épidémie intervenant à une date t et touchant les gens d’âge x à cette date peut
contribuer à diminuer les taux de décès aux âges supérieurs à x pour cette
génération, en entraînant la mort prématurée des individus les moins résistants.
Il est alors commode de représenter la vie d’un individu dans un système d’axes

120
Du nom du statisticien et démographe allemand Wilhelm LEXIS (1837-1914).

270
rectangulaire appelé « diagramme de Lexis », de la manière suivante :
Modèles de durée

Fig. 3 : Diagramme de Lexis

La vie d’un individu est donc représentée par une ligne parallèle à la première
bissectrice, qui coupe l’axe des abscisses l’année de la naissance et s’arrête au « point
mortuaire » au jour du décès. En traçant une bande horizontale entre x et x  1
on isole les individus décédés à l’âge x , et en traçant une bande verticale entre g
et g  1, , on isole les décès des individus de la génération g. Dans ce formalisme,
x et g sont entiers, et x mesure l’âge en années révolues.

2.2.2. Diagramme de Lexis et mesure de mortalité


Les points mortuaires qui se situent dans le carré ci-dessous sont associés aux
décès à l’âge x au cours de l’année t :

271
Fig. 4 : Identification des décès à l’âge x l’année t

Modèles de durée
Les individus concernés appartiennent aux générations t  x et t  x  1. . De
même on peut décompter le nombre de décès à l’âge x parmi la génération g

272
Fig. 5 : Identification des décès à l’âge x dans la génération g

Ces décès se sont produits au cours des années g + x et g + x + 1. On obtient


également le nombre de décès à l’âge x parmi la génération g au cours de l’année t :
Fig. 6 : Identification des décès à l’âge x l’année t dans la génération g
Enfin, on peut représenter de la même manière le nombre de décès au cours de
l’année t parmi les individus de la génération g :
Modèles de durée
Ces décès se sont produits au cours des années g  x et g  x  1 . On
obtient également le nombre de décès à l’Age x parmi la génération g au cours de
l’année t.

Fig. 6 : Identification des décès à l’âge x l’année t dans la génération g

Enfin, on peut représenter de la même mainiére le nombre de décès au cours


de l’année t parmi les individus de la génération g :
Modèles de durée

273
Fig. 7 : Identification des décès dans la génération g l’année t

2.3. Mortalité longitudinale et mortalité transversale


La mesure « naturelle » de la mortalité consiste à comptabiliser les décès
survenus au cours d’une période donnée (une année par exemple), puis à calculer
les taux de décès par âge en rapportant ce nombre de décès à l’effectif sous risque.
Cela revient à considérer une bande verticale du diagramme de Lexis.
On voit que si la mortalité évolue au fil du temps, cette approche biaise la
mesure de la mortalité, plus précisément, dans une période de baisse tendancielle
de la mortalité, elle conduit à sous estimer les durées de vie (ou à surestimer les taux
de décès). En effet, dans cette approche on considère des individus de générations
différentes pour calculer les taux de décès, la table obtenue ne représente donc la
mortalité d’aucune génération réelle.

274
Fig. 8 : Mortalité longitudinale et mortalité transversale

Modèles de durée
La mortalité réelle d’une génération s’obtient en considérant les taux le long
d’une bande comme ci-dessus.
On aura besoin par la suite de calculer le quotient de mortalité à l’âge x pour
l’année t ; comme on l’a vu en 2.2.2 ci-dessus, ce quotient fait intervenir deux
générations, t  x et t  x  1. On détermine donc les « quotients partiels de
mortalité » suivants, en notant D xt ( g ) le nombre de décès à l’âge x pour la
génération g intervenus l’année t:
D xt ( t  x )
qˆ 1xt  .
l x , t  1  D xt ( t  x )
(lx,t1 désigne le nombre de personnes d’âge x au 01/ 01/ t  1) ; ce quotient
approche donc la probabilité pour les individus de la génération t  x de décéder
à l’âge x l’année t . On estime de même la probabilité pour les individus de la
génération t  x  1 de décéder à l’âge x l’année t :
D x t ( t  x  1)
qˆ 1x t  .
l xt
Le quotient cherché résulte alors de l’agrégation de ces 2 quotients partiels :
pour survivre entre son x ié m e
et son ( x  1)iéme anniversaire, il faut survivre de

275
son ( x  1) iéme anniversaire à la fin de l’année civile, puis de la fin de l’année civile
ié m e
à son x anniversaire, soit :
1  qˆ xt  (1  qˆ 1xt )(1  qˆ xt2 ) .
Lorsque l’on veut déterminer le taux de mortalité à l’âge x pour l’année t, on
calcule classiquement, avec des notations évidentes :
D xt
mˆ x  .
 x ,t x ,t  1 
/2
1  l

2.4. Répartition des décès dans l’année


Les données disponibles sont souvent des données regroupées dans lesquelles
l’unité de temps est l’année. Il convient alors de se donner une règle de répartition
des décès dans l’année. Ce point a été abordé précédemment ; trois hypothèses sont
classiquement proposées :
 la constance des taux instantanés de décès entre 2 âges non entiers
(hypothèse exponentielle) : t q x  1  (1  q x ) t ;
 la répartition linéaire des décès au cours de l’année : t qx  1  t  qx ;
t  qx
 l’hypothèse de Balducci, qui postule que t q x 
1  (1  t ) q x
Modèles de durée
L’hypothèse de Balducci peut être écartée d’emblée car elle conduit à des taux
instantanés de mortalité décroissants entre 2 âges entiers ; en effet, on trouve dans
ce modèle que :
 qx
µx  t   In (t p x )  ,,
t px t qx
t qx px
ce qui résulte de t p x  1  t q x  1   Le choix entre
p x  t q x p x  tq x
les 2 hypothèses restantes n’est pas neutre sur l’appréciation que l’on aura du
c
niveau de la mortalité. En effet, si T x et T xl sont les durées de vie résiduelles
respectivement dans le modèle de constance des taux instantanés et dans le
modèle de répartition linéaire des décès, on a, avec des notations évidentes :
S xl ( t )  S xc ( t ), ce qui implique en particulier que e xl ( t )  e xc ( t );
l’hypothèse de constance des taux instantanés conduit donc à des durées de vie
inférieures : de ce fait, il s’agit d’une hypothèse prudente dans le cas de garanties
en cas de décès, moins prudente pour des contrats de rentes. Toutefois, l’écart

276
entre les 2 approches est faible.
Pour prouver l’inégalité S xl ( t )  S xc ( t ), on fixe t  k  r , avec
k  t  et 0  r  1 et on note que :
S xl (t )  P (Txl  k  r )  k p x (1  rq x  k )
et
S xc ( t )  P ( T xc  k  r )  k p x p xr  k .
L’inégalité à démontrer est donc équivalente à 1  r (1  p x  k )  p xr  k . et
cette dernière inégalité est la conséquence directe121 de (1  x) r  1  rx pour
tout 0  r  1 . . Dans les modèles présentés ci-après, l’hypothèse de
constance du taux instantané de mortalité entre 2 âges entiers est effectuée, de sorte
que l’on a t q x  1  (1  q x ) t .
2.5. Les indicateurs synthétiques du niveau de la mortalité
Les caractéristiques d’une table de mortalité sont usuellement résumées au
travers d’un certain nombre d’indicateurs : l’espérance de vie et l’entropie sont deux
indicateurs importants, présentés ci-après.

2.5.1. Espérance de vie résiduelle


Ex
L’espérance de vie résiduelle est par définition e e  E ( T x )  ; on a
lx

1
donc e x 
lx 0
l x  u d u ; on déduit en particulier de cette expression que :

Modèles de durée
d e x
  1  µ x e x .
d x

 d 
de
 l x2  
 dx
lx 

 lu d u
En effet ex  2
x
,, et comme
dx lx
d
µx   Inlx , on a bien l’égalité ci-dessus. La version discrète de cette formule
dx
est simplement

121
On a même l’inégalité stricte si r  0.

277
1
e x 
L x
h  0
L x  h .

Cette expression signifie que lorsque le taux de mortalité est petit, l’espérance
de vie résiduelle diminue d’environ un an chaque année ; en revanche, lorsque le
taux de mortalité est grand, on peut avoir une espérance de vie résiduelle qui
augmente.
D’un point de vue pratique, cela signifie que le graphe des ex est à peu près
aligné sur une droite de pente –1 jusque vers 75 ans, pour s’incurver ensuite, comme
on le constate sur le graphique ci-dessous :

Fig. 9 : Espérance de vie résiduelle en fonction de l’âge

A partir de 75 ans, un ajustement polynomial d’ordre 2 fonctionne en général


correctement (ce qui fournit une paramétrisation simple d’une table de mortalité
du moment). On peut noter que l’espérance de vie résiduelle peut s’interpréter
comme le prix d’une rente viagère continue actualisée à taux 0.

2.5.2. Entropie
La baisse des taux de mortalités aux âges jeunes, sans pour autant que l’âge
ultime de vie semble évoluer sensiblement, a pour conséquence un phénomène
d’« orthogonalisation » des tables de mortalité, de plus en plus de personnes
décédant à un âge élevé122 :

122
Ce phénomène s’accompagne d’une baisse de la variance de la durée de vie au cours du temps.

278
Fig. 10 : Illustration du phénomène d’orthogonalisation des tables de mortalité

L’entropie se propose de mesurer ce phénomène ; on la définit par :


 

 lx In (l x )d x
H   0
 
.
0
lxd x

d
Comme on a µ x   In ( l x ), on peut réécrire cette quantité sous la
dx
forme :
 

 lxµ x e x d x
H   0
.
l0 e 0

 L x h In ( L x h )
La version discrète de cette formule est H   h0
.

h0
Lxh

L’entropie rapporte donc le nombre moyen d’« années perdues » du fait du décès
au nombre d’années possibles « en stock » à la date 0.
On peut remarquer que H  0 si et seulement si tous les décès se produisent
au même âge et que H  1 correspond à la situation extrême opposée dans
laquelle le taux instantané de mortalité est constant : cette grandeur mesure est donc

279
bien adaptée à la mesure du phénomène d’orthogonalisation.
L’entropie est passée d’environ 50 % à la fin du 1 9 i é m e siècle à 15 %
aujourd’hui.
Modèles de durée

3. Quelques indicateurs
L’objectif de cette section est de fournir quelques ordres de grandeur utiles sur
le niveau de la mortalité. On illustre également la manière de quantifier l’impact sur
la mortalité de caractéristiques particulières de la population, en prenant l’exemple
du critère fumeur / non fumeur.

3.1. Données générales


Les espérances de vie à la naissance et à 60 ans, ainsi que le taux de décès à cet
âge, sont indiqués dans le tableau ci-dessous :
Femmes Hommes
TV73/77 TV88/90 TV99/01 TD73/77 TD88/90 TD99/01
Naissance 76,5 80,2 82,2 68,6 72,0 74,7
60 ans 20,9 23,5 25 16,1 18,3 19,9
q60 0,77 % 0,57 % 0,48 % 1,90 % 1,57 % 1,18 %

Ce tableau fait clairement apparaître des disparités entre les hommes et les
femmes :
Femmes / hommes
TV73/77 TV88/90 TV99/01
Naissance 112 % 111 % 110 %
60 ans 130 % 128 % 126 %
q60 41 % 37 % 41 %

On lit également la baisse tendancielle de la mortalité :


Femmes Hommes
TV88/90 / TV99/01 / TD88/90 / TD99/01 /
TV73/77 TV88/90 TD73/77 TD88/90
Naissance 105 % 102 % 105 % 104 %
60 ans 112 % 106 % 114 % 109 %
q60 74 % 85 % 82 % 75 %

L’écart de mortalité entre les hommes et les femmes se traduit par le fait que,
dans les pays développés123, on a 70 hommes pour 100 femmes au sein des plus de
60 ans et 44 hommes pour 100 femmes au sein des plus de 80 ans.

123
D’après une étude du US bureau of the census de 1998.

280
3.2. Impact du tabagisme
L’impact du tabagisme sur la mortalité est illustré sur la base de :
 L’étude de tables homme fumeur / homme non-fumeur canadiennes.
 Des études épidémiologiques menées par le Ministère de la Santé en France.
Modèles de durée

3.2.1. Etude de tables canadiennes


Le caractère non-fumeur des assurés a un impact favorable sur leur mortalité.
Au Canada, des études ont conduit à l’établissement de tables de mortalité pour les
hommes âgés de plus de 30 ans différentiées en fonction de cette caractéristique.
Leur étude nous permet de quantifier l’impact du tabagisme sur la mortalité.
Le graphique suivant reprend ainsi l’évolution du taux de mortalité annuel en
fonction de l’âge selon que l’homme fume ou ne fume pas.

Comme on pouvait s’y attendre, les taux de mortalité des fumeurs sont
systématiquement supérieurs à ceux des non-fumeurs. L’abattement de la mortalité
des non-fumeurs par rapport à celle des fumeurs connaît un maximum à 59 ans
(63,35 %).

281
Modèles de durée
L’abattement moyen entre 31 ans et 71 ans ressort à 53,4 %. Cette analyse
permet de mesurer l’impact du tabagisme sur la mortalité. Par rapport à l’ensemble
de la population, l’abattement des non-fumeurs ressort en moyenne à 20 % entre
31 et 70 ans.

Un maximum est atteint à 58 ans avec un taux d’abattement de près de 30 %.

3.2.2. Etude de Ministère de la Santé


L’étude « Tabagisme et mortalité : aspects épidémiologiques » fournit des
indicateurs intéressants permettant de quantifier la sous-mortalité des non
fumeurs. Ainsi les éléments clés peuvent être résumés comme suit :
 Entre 39 et 65 ans, 1 décès sur 3 chez les hommes est attribuable au tabac et
1 décès sur 16 chez les femmes.

282
 Entre 35 et 49 ans, 40 % des hommes et 29 % des femmes sont des fumeurs
réguliers. Ces pourcentages diminuent respectivement à 28 % et 14 % entre 50 et 64 ans.
En faisant l’hypothèse que ces proportions sont homogènes sur les plages
d’âges indiquées, il est possible d’estimer la sous mortalité des non-fumeurs par
rapport aux fumeurs :
Notons :
qtabac le taux de sur mortalité lié au tabagisme,
q le taux de mortalité hors tabagisme,
F la proportion de fumeurs,
NF la proportion de non fumeurs,
 la proportion de décès dus au tabagisme.
 F  q tabac

 F  ( q  q tabac )   NF  q
Modèles de durée
Donc :
q ta b a c 

q  F  (1   )
Le taux de sous mortalité des non-fumeurs par rapport au fumeur s’écrit donc :
q  F (1   )
 1   1
q  qtabac    F  (1   )
Les taux calculés à partir des éléments de l’étude du Ministère de la Santé sont
résumés dans le tableau suivant :
Hommes Femmes
35-49 ans 55,56 % 20,41 %
50-64 ans 64,10 % 32,26 %

Concernant les hommes, les taux de sous mortalité des non fumeurs par
rapport aux fumeurs (56 % et 64 %) sont comparables à ceux issus des tables
canadiennes (53 %). Ces mêmes taux sont inférieurs pour les femmes ; toutefois le
tabagisme féminin est plus récent et son impact moins bien cerné que celui des
hommes.
En supposant que les proportions de fumeurs citées plus haut sont homogènes
sur toutes les tranches d’âges, les taux de sous-mortalité des non-fumeurs par
rapport à la population dans son ensemble sont donnés par :
Hommes Femmes
35-49 ans 33,33 % 6,25 %
50-64 ans 31,71 % 6,25 %

283
Les taux masculins sont légèrement supérieurs à ce qui est observé avec les
tables canadiennes. Les taux féminins sont nettement inférieurs aux taux masculins.

4. La construction de tables de mortalité d’expérience


On se place ici dans le contexte paramétrique ; la démarche de construction
d’une table comporte systématiquement deux étapes : tout d’abord l’estimation de
taux bruts, par âge, ou par âge et génération dans le cas de tables prospectives, puis
ensuite l’ajustement de ces taux bruts à un modèle paramétrique.
En pratique on peut distinguer deux situations : tout d’abord, la situation « de
référence » dans laquelle on dispose de données en quantité suffisante pour
construire une table fiable. Mais dans certains cas il se peut que les données
disponibles ne soient pas suffisantes pour
Modèles de durée
déterminer de manière suffisamment précise la structure de la table, et on
pourra alors chercher à positionner simplement la mortalité du groupe étudié par
rapport à une mortalité de référence, qui fournira la structure générale.

4.1. Tables du moment


4.1.1. Construction complète
La démarche standard de construction d’une table de mortalité dans un cadre
paramétrique a été décrite précédemment, elle n’est donc pas reprise ici. On
retiendra simplement qu’elle s’appuie sur le choix d’une forme paramétrique pour
la fonction de hasard, avec comme modèle de référence le modèle de Makeham,
l’estimation des paramètres s’effectuant par la méthode du maximum de
vraisemblance.
Dans certaines situations particulières, on pourra toutefois se tourner vers
d’autres modèles, tels que les régressions de type Poisson ; l’exemple type
d’application de tels modèles est l’analyse de la mortalité d’un événement rare,
comme les conséquences de l’exposition à l’amiante (la justification de l’intérêt de
la loi de Poisson pour des événements « rares » provient de l’observation que la
distribution binomiale
  
B  n ,  converge en loi vers P (  ) lorsque n   ) .
 n 
Comme le nombre de décès est très faible en regard des effectifs sous risque,
on peut utiliser une loi de Poisson comme modèle pour le nombre de décès par âge
et par période.

284
La table suivante donne le nombre de décès par mésothéliome124 constaté par
classe d’âge, pendant cinq périodes, ainsi que la population à risque pendant cette
période :
1970-74 1975-79 1980-84 1985-89 1990-95
25- 10041742 1 10978690 1 10602254 1 10680272 1 10791607
29 0
30- 2 7720583 1 10038396 0 11005461 1 10651073 1 10837520
34
-39 2 8074903 3 7589268 5 9904593 5 10922900 6 10657919
35
-44 5 8510762 7 7879250 7 7457766 10 9761988 11 10853140
40
-49 9 8211522 9 8220829 14 7662805 14 7265550 17 9464014
45
-54 10 7173352 18 7821153 22 7866442 26 7354438 24 7022582
50
-59 16 4824443 20 6743790 32 7372021 41 7446988 41 7071006
55
-64 28 6069611 26 4404567 38 6213936 58 6813378 68 6988969
60
-69 33 5371770 42 5298248 41 3889820 63 5575185 84 6148376
65
-74 34 4157113 49 4371284 56 4387290 56 3277849 72 4829840
70
-79 24 2432745 37 3018047 53 3254297 73 3391145 64 2511709
75
-84 10 1229739 22 1467570 35 1878692 54 2112437 63 2362417
80
-89 7 527277 11 560756 16 691452 23 927740 31 1123450
85

Si on veut expliquer les décès en fonction de l’âge et de la période, on peut


choisir deux séries de paramètres, ( a i ) et ( c j ) décrivant chacun l’effet d’une
tranche d’âge donnée et d’une cohorte donnée. Pour satisfaire les contraintes de
positivité (les décès sont un nombre positif), on peut proposer un modèle
multiplicatif a i c j . On choisira par exemple de modéliser le nombre de décès
  
espéré  jj  E ( d jj ) avec un modèle de la forme I n  jj
  a i  c
 N j
 jj 
ou, de manière

124
Cancer de la plèvre conséquence de l’exposition à l’amiante

285
Modèles de durée
Équivalente  jj  N ij esp ( ai  ci ). Dans une cellule, on a finalement
une vraisemblance liée à la loi de Poisson :
N (ai  c j ) 
d jj
ij e sp exp (  N ij e sp ( a i  c i )) / d ij !, et la
vraisemblance globale s’obtient en multipliant les vraisemblances de chaque cellule.
L’application de ce type de modèles à la construction de tables prospectives est
présentée en 4.2.2 ci-dessous.

4.1.2. Utilisation d’une référence externe


L’utilisation d’une référence externe consiste à rechercher un
« positionnement » de la table d’expérience par rapport à une table de référence
donnée ; la table de référence peut être par exemple une table INSEE.
De nombreux modèles sont possibles, mais l’approche la plus courante consiste
à appliquer un taux d’abattement (ou de majoration) aux taux de la table de
référence, ce qui consiste à rechercher un coefficient  tel que
q xe x    q xr e f . En se souvenant que le quotient de mortalité est la version
discrète du taux de hasard µ x (avec la relation µ x   In (1  q x ) si on fait
l’hypothèse de constance de la fonction de hasard entre deux âges entiers), on
remarque que ce modèle est donc un modèle à hasard proportionnel dans lequel on
suppose connue la fonction de hasard de base. Plus précisément, si on suppose que
µ xex    µ xref d’une part et que µx   In(1  qx ) d’autre part, on obtient la
relation suivante entre les quotients de mortalité :

1  

1 q ex
x  q ref
x .
relation qui au premier ordre lorsque les taux sont petits est équivalente à
q xex    q xref . On a vu que dans ce contexte un estimateur de type « moindres
carrés ordinaires » pouvait être proposé pour    I n (  ) On obtient ainsi
l’estimateur :
1/ n
 1 n   n 
ˆ  exp     InH ref ( xi )   e    H ref ( xi ) 
 n i 1   i 1 
Avec  la constante d’Euler125 et H ref ( x )   InS ref ( x )   InLx la
ref

fonction de hasard cumulée.


On peut également considérer comme critère de choix du paramètre  ‘écart
125
Dont la valeur est approximativement 0,577215665.

286
entre le nombre de décès observés et le nombre de décès théorique associé à la table
abattue. En notant L oxb s l’effectif sous risque à l’âge x dans la population
considérée, le nombre de décès prédit par la table abattue à l’âge x est
 q ref
x Lobs .
x
. Si on contraint le nombre total de décès prédits à égaler le nombre observé,
on obtient l’estimation suivante de   :
Modèles de durée
 D obs
x
ˆ  x
.
 x
q ref
x  L ox b s
Une approche alternative consiste à raisonner âge par âge et à considérer une
statistique de type Khi-2 définie par :

q 
2
n obs
   q xref
 (ˆ )   Lobs
x
.
x
i 1   q xref
et à chercher la valeur de  qui rend minimale cette distance.

4.2. Tables prospectives


L’objectif de tables prospectives est de tenir compte des évolutions à venir de
la mortalité ; les méthodes usuelles cherchent tout d’abord à ajuster les tendances
passées, puis à les extrapoler à l’avenir. L’approche prospective consistant à intégrer
dans l’avenir l’effet de progrès médicaux futurs n’est pas examinée ici.
Les modèles utilisés se proposent d’ajuster les taux bruts calculés par des
méthodes telles que celle présentée en 2.3 ci-dessus à un modèle paramétrique,
permettant d’une part de lisser les fluctuations d’échantillonnage et d’autre part de
projeter l’évolution des taux dans le futur, par extrapolation.
On dispose taux de taux bruts indicés par l’âge x et l’année calendaire t, qui ont
typiquement l’allure suivante :

287
Fig. 14 : Taux de décès bruts par année

Le passage des quotients de mortalité bruts au taux instantané de mortalité, qui


est la variable modélisée dans certaines approches, s’effectue via une hypothèse sur
la répartition des décès dans l’année (voir 2.4 ci-dessus) ; dans le cas où l’on fait
l’hypothèse de constance du taux instantané dans chaque carré du diagramme de
Lexis, on obtient l’estimateur suivant :
Modèles de durée
µ *
xt   I n (1  qˆ xt )

4.2.1. Le modèle de Lee-Carter


Il s’agit d’une méthode d’extrapolation des tendances passées initialement
utilisée sur des données américaines, qui est devenue rapidement un standard (voir
l’article original LEE et CARTER [1992]). La modélisation retenue pour le taux
instantané de mortalité est la suivante :
In µ xt   x   x k t   x t ,
avec les variables aléatoires  xt ; l’idée du modèle est donc d’ajuster à la série
(doublement indicée par x et t ) des logarithmes des taux instantanés de décès
une structure paramétrique (déterministe) à laquelle s’ajoute un phénomène
aléatoire ; le critère d’optimisation retenu va consister à maximiser la variance
expliquée par le modèle, ce qui revient à minimiser la variance des erreurs.
Le paramètre  x s’interprète comme la valeur moyenne des In ( µ xt ) au
dIn( µxt ) dk
cours du temps. On vérifie que  x t et on en déduit que le
dt dt

288
coefficient x traduit la sensibilité de la mortalité instantanée à l’âge x par rapport
à l’évolution générale kt ,
d In ( µ x t )
au sens où   x En particulier, le modèle de Lee-Carter
dkt
suppose la constance au cours du temps de cette sensibilité. Cette contrainte du
modèle peut apparaître relativement forte :
• Pour tout âge x les quotients des variations relatives des taux de mortalité
à des dates différentes ne dépendent pas de l’âge x. Si la variation relative du taux
de mortalité à 50 ans en 2000 était 80 % de ce quelle était en 1990 ce coefficient de
80 % est retenu pour tous les âges ;
• Pour une même date t les quotients des variations relatives des taux de
mortalité à des âges différents ne dépendent pas de la date t. Si en 2000 la variation
relative du taux de mortalité à 20 ans est 50 % de la variation relative du taux à 50
ans ce coefficient de 50 % s’appliquera à toute date future ou passée.
Enfin, on peut remarquer que la forme du modèle implique l’homoscédasticité
des taux de mortalité, ce qui est manifestement faux en pratique. Cet inconvénient
sera examiné plus en détails en 4.2.2 ci-dessous.
Afin de rendre le modèle identifiable, il convient d’ajouter des contraintes sur
les paramètres ; en effet, pour toute constante c non nulle le modèle est invariant
par les transformations suivantes :

 x ,  x , k t     x , x 
, c  kt 
 c 
Modèles de durée
 x ,  x , k t    x  c x ,  x , kt  c 
Il convient donc d’imposer deux contraintes sur les paramètres. On retient en
général les contraintes suivantes :
x M tM


x  x
 x  1 et 
t  tm
k t  0 .
M

On obtient alors les paramètres par un critère de moindres carrés (non


linéaire) :

 
ˆ x , ˆx , kt  arg min   Inµ*xt   x   x kt 
2

x ,t
Il convient donc de résoudre ce programme d’optimisation, sous les
contraintes d’identifiabilité. Le nombre de paramètres à estimer est élevé, il est égal
à 2   xM  xm  1  tM  tm  1 .

289
4.2.1.1.Estimation des paramètres

Vis-à-vis de ( x ), comme :

  Inµ   y   y k y   2(t M  t m  1) x  2( Inµ*xt   x kt ),
* 2

 x
yt
y ,t
tM
on trouve en tenant compte de la contrainte 
t  tm
k t  0 que :

En d’autres termes, ˆx est la moyenne temporelle, à l’âge x, des taux


instantanés de décès (sur l’échelle logarithmique). On considère alors la matrice
Z  ( z xt ) des taux centrés par rapport à la dimension temporelle :
z xt  Inµ *xt  ˆ x .
Z est une matrice de dimension ( xM  xm  1, tM  tm  1). La forme du
modèle revient à chercher une approximation de Z en produit de 2 vecteurs de la
forme Z  ˆ kˆ ', de sorte que la décomposition soit optimale au sens du critère
des moindres carrés, ie explique la plus grande part possible de la variance totale.
La résolution de ce problème passe par la décomposition en valeurs propres de la
matrice Z , que l’on met sous la forme :
Modèles de durée
Z  
i1
 i v iu i
'

 1   2 ..  0 les valeurs propres de Z ' Z , u i le vecteur propre


Avec
normé de Z ' Z associé à i et v i le vecteur propre associé à la même valeur
126

propre pour ZZ ' Ceci est justifié par le fait que, comme Z ' Z u i   i u i on a
Z Z '( Z u i )   i Z u i ,
, et donc les deux matrices transposées ont les mêmes valeurs propres avec des
ordres de multiplicité identiques. De plus, si µ j est un vecteur propre de Z' Z alors
Zui est un vecteur propre de ZZ ' associé à la même valeur propre. Si on pose
1
vi  Z u i , , on voit que Z u i u i   i v i u i , ce qui en sommant et
i

126 u i' u i  1

290
en tenant compte de l’orthonormalité des vecteurs propres, conduit à la
décomposition de Z.
On est ainsi conduit à proposer comme approximation Z   1 v1u 1 ,
, avec comme mesure de la qualité de cette approximation la part d’inertie
1
expliquée, . On obtient finalement les estimateurs de  et k suivants :
 i
1
ˆ  v1 e t kˆ  1  v1 j u 1
 v1 j
L’objectif est d’utiliser les résultats de cet ajustement pour extrapoler les taux
de mortalité pour t  tM ; l’idée est d’analyser la série des (kˆt ) , qui capture
l’information sur l’évolution temporelle de ces taux pour lui ajuster un modèle de
type ARIMA.
A ce stade on dispose d’une première estimation des paramètres du modèle ;
toutefois, si on se trouve dans une situation dans laquelle l’effectif soumis au risque est
très important, on peut se dire que les fluctuations d’échantillonnage sur le nombre
total de décès par âge doivent être très faibles. Il apparaît alors souhaitable d’ajuster
auparavant les paramètres du modèle pour que le nombre de décès prévus par le
modèle chaque année soit égal au nombre de décès observés. Comme l’exposition au
D
risque est L xt  *
xt
avec Dxt  dxt (t  x)  Dxt (t  x 1), cette
µ xt
contrainte s’exprime par :

 
xM xM


x  xm
D xt  
x  xm
L x t e x p ˆ x  ˆ x kˆ t ,

la variable étant kˆt . On introduit la fonction

  D
xM xM
F (k )  L
x  xm
ˆ ˆ ˆ
xt exp  x   x k t 
x  xm
xt ,

de sorte que la contrainte ci-dessus s’exprime par F ( k )  0 . La forme de la


fonction F assure l’unicité de la racine si elle existe. La recherche de la racine peut
se faire par un algorithme de type Newton-Raphson, en posant :
Modèles de durée
F (ki )
ki  1  ki 
F '( k i )
k  1  ki
avec la valeur initiale k 0  kˆ t et le critère d’arrêt i  
ki

291
ˆ
en prenant par exemple   1 0 7
. On obtient ainsi un nouvel estimateur kˆt .
kˆˆ 
Mais la série  t  ainsi ajustée doit être corrigée pour respecter la contrainte
 
t M
d’identifiabilité

t  t
k t  0 , ce qui conduit à poser :
m

tM
ˆ 1 ˆ
k t
*
 kˆ t 
tM  tm  1

t  tm
kˆ t .

Il reste alors à corriger les ˆx  pour que l’égalité entre décès prédits par le
modèle et décès observés reste valide, ce qui conduit à :
ˆ x tM
ˆ
 x   x 
*
ˆ 
t M  t m  1 t  tm
kˆ t .

L’allure « typique » des paramètres obtenus est la suivante, tout d’abord pour
les paramètres fonction de l’âge :

puis la composante temporelle :


Modèles de durée

292
4.2.1.2.Extrapolation de la composante temporelle

Il reste alors à modéliser la série ( k t* ) pour extrapoler les taux futurs ; pour
cela, on utilise en général un modèle ARIMA127, mais toute autre modélisation de
série temporelle peut être utilisée. Toutefois, compte tenu de l’allure du graphe ci-
dessus, la modélisation la plus simple que l’on puisse imaginer est par exemple une
régression linéaire de ces coefficients :
k t*  a t  b   t
Avec ( t ) un bruit blanc gaussien.

4.2.1.3.Fermeture de la table
L’estimation des paramètres du modèle de Lee-Carter nécessite que l’on
dispose d’une matrice rectangulaire complète de taux de décès (µ*xt ); ; en pratique
les valeurs brutes estimées présentent une grande instabilité aux âges élevés, du fait
du faible effectif disponible. Au surplus, il peut arriver que les données ne soient
plus disponibles au delà d’un âge limite. Plusieurs méthodes existent pour
compléter la table avant d’effectuer l’ajustement, ou ex-post (on parle de « fermeture
de la table de mortalité »). On pourra notamment consulter sur la sujet DENUIT et
QUASHIE [2005].
A titre d’illustration, on présente ici la méthode de Coale et Kisker (COALE et
KISKER [1990]) ; la méthode consiste à extrapoler les taux de mortalité aux grands
âges (jusqu’à x  1 1 0 ans par exemple) en se basant sur la formule128 :
µˆ x  µˆ 6 5  e g  ( x  65 )
Modèles de durée
gx Désignant le taux moyen de croissance de µx entre 65 et x ans. On
calcule ainsi les coefficients gx jusqu’à un certain âge, puis on les extrapole afin de
pouvoir recomposer les taux µx . Coale et Kisker ont en effet remarqué
empiriquement que les courbes des gx possèdent en général un pic aux alentours
de 80 ans avant de décroître linéairement. Ils ont par conséquent proposé
l’équation :
g x  g80  s  ( x  80), x  80.
Finalement, on peut utiliser la formule suivante pour extrapoler au-delà de 80

127
En suivant la démarche de Box et Jenkins
128
On omet ici l’indice t pour alléger les notations

293
ans les taux instantanés de mortalité :
µˆ x  µˆ x 1  e g 80  s ( x  80 ) , x  80.
On utilise les valeurs de paramètres suivantes :
 µˆ 
In  80 
I n ( µˆ 7 9  3 1  g 8 0  µˆ 6 5 
s   e tg 80 
465 15
Ainsi, les taux de mortalité lissés à partir des données brutes sont directement
obtenus par la méthode de lissage de Lee-Carter pour les âges inférieurs à 80 ans. Pour
les âges supérieurs ou égaux à 80 ans, si l’échantillonnage n’est pas assez conséquent, on
recourt à la méthode de Coale et Kisker : celle-ci construit les taux de mortalité aux
grands âges à partir des taux lissés (par Lee-Carter) aux âges de 65 et 80 ans.
La question de la fermeture de la table est importante dans le cas de la
construction d’une table pour des provisionnements de rentes viagères. On pourra
toutefois noter que cette importance doit être relativisée si les rentiers d’âge très
élevé sont en proportion modeste dans le portefeuille.
En effet, considérons l’exemple simple dans lequel on évalue un capital
constitutif d’une rente viagère sur une tête avec la table TF00-02 ; on compare le
calcul réalisé avec la table complète et celui réalisé avec la même table fermée de
manière prudente en figeant le taux de décès à 95 ans. Ainsi, si pour évaluer le
capital constitutif d’une rente viagère sur une tête à 75 ans au taux de 2,5 % (et avec
la TH00-02), on considère que le taux de décès est stable à partir de 95 ans (et que
les survivants sortent brutalement à 120 ans), on ne majore la provision que de
0,7 % (et environ 2,5 % à 85 ans).
L’écart entre deux méthodes de fermeture en termes de provisionnement n’est
véritablement significatif qu’à des âges très élevés (voir par exemple DELWARDE
et DENUIT [2006]).

4.2.2. Le modèle log-Poisson


Le modèle de Lee-Carter repose sur l’hypothèse d’homoscédasticité des taux de
mortalité, ce qui constitue une hypothèse forte et peu réaliste : en effet, la variance
des taux de décès croît aux âges élevés, du fait notamment de la baisse des effectifs
de survivants. On peut illustrer ce fait de deux manières ; tout d’abord, on considère
la population française au 01/01/2005, que
Modèles de durée
l’on suppose mourir selon la table TV1999/ 2001. La variance des taux de décès
bruts que l’on observerait peut être approchée par q x (1  q x ) , et on constate
Lx
l’évolution suivante :

294
On note une très forte augmentation après 85 ans. De manière plus directe,
lorsque l’on effectue un ajustement par la méthode de Lee-Carter, on peut analyser
la variance des résidus, et confronter les observations à l’hypothèse
d’hétéroscédasticité. On obtient des graphiques à l’allure suivante129 :

De plus, le critère retenu dans la méthode de Lee-Carter pour estimer les


paramètres n’est pas de type « maximum de vraisemblance ».

129
Voir LELIEUR [2005].

295
Au surplus, il peut sembler naturel de modéliser directement le nombre de
décès plutôt que le taux instantané de mortalité. Si D xt désigne le nombre de
décès à l’âge x l’année t , et L xt l’exposition au risque, D xt est alors une variable
aléatoire dont on va modéliser l’espérance en posant :
E ( D xt )  L xt  µ xt .
Le modèle log-Poisson, proposé par BROUHNS et al. [2002], est une
adaptation du modèle de Lee-Carter qui intègre ces différents éléments. On notera
que l’égalité ci-dessus est la conséquence directe de l’hypothèse de constance de µxt
sur chaque carré du diagramme de Lexis. En effet, comme l’exposition au risque est
égale à :
1
L xt   S ( x µ, t  µ )du
0

 u 
et que S ( x  µ , t  µ )  S ( x , t ) e x p    µ ( x  v , t  v ) d v  , la
 0 
constance de µxt conduit à :
S ( x  µ, t  µ )  S ( x , t ) exp   u  µ ( x , t )  ,
1
Puis L xt  S ( x , t )  exp(  u  µ ( x , t ))du et donc :
0

S ( x, t ) s ( x, t )
Lxt  (1  exp( µ( x, t )))  q ( x, t ),
µ( x , t ) µ( x , t )
ce qui établit le résultat.
L’idée est de modéliser le nombre de décès à l’âge x l’année t par une loi de
Poisson, comme en 4.1 ci-dessus, en supposant que D xt suit une loi de Poisson
de paramètre L xt µ xt avec µxt  exp( x   x k x ). L’expression du taux de
décès instantané est identique à celle proposée dans le modèle de Lee-Carter, avec
la même interprétation des différents paramètres. En particulier, le modèle ne sera
identifiable qu’avec des contraintes sur les paramètres, et on peut retenir les mêmes
que celles utilisées par Lee et Carter. Enfin, on peut noter que passer du modèle de
Lee-Carter à ce modèle poissonnier revient à passer d’un modèle linéaire à un
modèle linéaire généralisé avec le logarithme comme fonction de lien130.

130
On pourra se reporter à RENSHAW [1991].

296
Modèles de durée
 Lxt µxt  d exp
Comme on a P( Dxt  d )   Lxt µxt  avec
d!
µxt  exp( x   x kx ), la log-vraisemblance131 du modèle s’écrit (à une
constante additive près) :
InL ( ,  , k )   D
x ,t
xt ( x   x k x )  L xt exp( x   x k t )

On dispose donc d’une expression simple de la log-vraisemblance ; les


équations de vraisemblance n’ont pas de solution analytique du fait de la présence
du terme non linéaire  xkt et doivent être résolues numériquement ; on peut
par exemple utiliser un algorithme de Newton-Raphson et utiliser le schéma
proposé en 4.2.1.1 ci-dessus avec pour fonction objectif F à annuler le vecteur des
 L L L 
scores  , ,  ; cela conduit ici aux relations de récurrence
   k 
suivantes :

 ( D xt  L xt e x p ˆ i
x  ˆ xi  kˆti ) 
ˆ xi  1  ˆ xi  t

ˆ  ˆ  kˆ ) 
  ( L xt e x p
t
i
x
i
x t
i

 ( D  L e x p ˆ  ˆ  kˆ ) 
xt xt
i
x
i
x t
i

kˆti  1  kˆ 
i x
ˆ i

  ( L e x p ˆ    k ) 
t x
ˆ ˆ i i i
xt x x t
t

 ( D  L e x p ˆ  ˆ  kˆ )  kˆ
xt xt
i
x
i
x t
i
t
i

ˆ xi  1  ˆ  i t

  ( L e x p ˆ  ˆ  kˆ )  kˆ 
x 2
i i i i 1
xt x x t t
t

Les valeurs initiales sont libres, on choisira simplement des valeurs ˆx  0
0

pour éviter des divisions par 0. Pour que les contraintes d’identifiabilité soient
vérifiées, il convient ensuit d’ajuster les paramètres ainsi estimés, en posant :

131
Il ne s’agit d’une vraisemblance que si on utilise les effectifs sous risque réels si normalise les effectifs
en partant d’un effectif initial de L0 , on obtient une pseudo-vraisemblance.

297
 ˆ 1 tM
ˆ 
k   kt 
t
*
 k
t M  t m  1 t  tm  x
 ˆ x

ˆ x
x 
*

ˆ x
x

ˆ x tM
  ˆ x 
*
x
tM  tm 1
 t  tm
kˆt

Les valeurs estimées des paramètres sont assez proches de celles obtenues par
le modèle de lee-Carter, comme on peut le constater sur les graphiques repris en
annexe132 L’extrapolation
Modèles de durée
de la composante temporelle est ensuite conduite de la même manière que dans
le modèle de Lee-Carter.

4.2.2.1.Obtention d’intervalles de confiance133


En pratique les tables ainsi construites vont en général servir à calculer des
espérances de vie résiduelle, pour obtenir des durées de vie de rentiers (actuels et
futurs) ; plus précisément elles pourront être utilisées pour calculer des capitaux
constitutifs de rentes viagères, de la forme :
i
 a xt 
i 0
v i1

j 0
exp( u x  i ,t  i )

1
Avec v  le facteur d’actualisation. Au delà de l’estimation ponctuelle
1 r
de a xt qui découle de la modélisation des µ xt , on souhaite mesurer la précision
associée, et donc obtenir des intervalles de confiance. Deux sources d’aléa se
combinent ici, d’une part les fluctuations d’échantillonnage du modèle de
régression poissonnier, et d’autre part l’incertitude liée à la prédiction des kt pour
t  tM .
L’estimation des paramètres du modèle (pour t  tM ). par la méthode du

132
Ces graphiques sont repris de BROUHNS et al (2002).
133
Seul le principe de la méthode est décrit ici, pour l’approche détaillée on pourra se reporter à
HADERER (2003)

298

maximum de vraisemblance permet de conclure que le vecteur ˆ x , ˆ x , kˆ t  est
asymptotiquement distribué selon une loi normale. On peut alors construire alors
des intervalles de confiance pour des fonctionnelles telles que a xt par la méthode
de simulation suivante :

 on génère une réalisation ˆ x , ˆ x , kˆ t  à partir de la loi normale ;
 à partir de la réalisation ci-dessus, on estime les paramètres de projection
du modèle ARIMA associé aux kt ;
 on simule une trajectoire de kt pour t  tM .
 à partir des éléments ainsi calculés, on détermine une réalisation de la
variable d’intérêt (par exemple a xt )
En renouvelant l’opération on obtient une distribution empirique de la variable
d’intérêt, puis, en particulier, un intervalle de confiance.
Lorsque la taille de l’échantillon est très importante on peut considérer que les
fluctuations d’échantillonnage deviennent négligeables, et supprimer la première
étape de l’algorithme.
Ce type d’application sera développé dans le cadre des modèles de mortalité
stochastique.

4.2.3. Les modèles log-linéaires


Dans le choix d’un modèle susceptible structurer un jeu de données
historiques, la « flexibilité du modèle et par la même sa fidélité aux données est
directement liée aux nombres de paramètres introduits. Le choix d’un modèle très
flexible se fait le plus souvent n’autorise aucune prédiction).
Les modèles de Lee-Carter ou Log-Poisson peuvent de ce fait paraître très
paramétrés. Au surplus, dans le contexte de données de portefeuilles, dont le
volume est sensiblement inférieur à ce que l’on peut obtenir comme taille de
population sous risque à l’échelle d’un pays, le nombre élevé de paramètres du
modèle peut conduire à des irrégularités conséquences de fluctuations
d’échantillonnage. Ce phénomène est mis en évidence dans LELIEUR [2005].
Dans ce contexte il peut être utile de se tourner vers des modèles alternatifs
moins paramétrés mettant en jeu des expressions analytiques portant sur les âges
ou sur les années (ou les deux).
Par ailleurs les influences de l’âge x et de l’année t sur les taux de mortalité
q x ( t ) sont exprimées via l’introduction du logit :
lg(qxt )  lgx(t )  In(qxt l (1  qxt )).

299
Le logit pour des taux de mortalités faibles est peu différent de la variable
In (  xt ) du modèle de Lee-Carter mais il peut être sensiblement différent pour
des âges élevés. Il présente l’avantage de varier dans   ,    , ce qui simplifie
la mise en œuvre de modèle de régression. La forme typique d’un logit est la
suivante (obtenue avec la TV 1999/2001) :

On est ainsi conduit à introduire les modèles log-linéaires. Le modèle de base


de cette famille impose une tendance linéaire en fonction du temps :
lg x (t )   x   x  t   xt .
On suppose les résidus iid (et donc homoscédastiques), ce qui permet d’utiliser
les résultats standards du modèle linéaire ordinaire (avec l’année calendaire t
comme variable explicative, à x fixé). Cette paramétrisation est proche de celle du
modèle de Lee-Carter dans lequel on aurait supposé kt  t et remplacé
In (  xt ) par lg x (t ). Ce modèle est en particulier utilisé pour la construction des
tables TPG1933. . On dispose d’expressions explicites pour les paramètres. En
effet, en se souvenant que dans le modèle linéaire yi  axi  b   i on a :
n
1
n
xy i i xy
cov( x , y )
 aˆ  i 1
n
 et bˆ  y  aˆ x ,
1 var( x )
n
x
i 1
i
2
x2

Avec x 
1
x i on obtient facilement les expressions des coefficients x et
n
x

300
On constate empiriquement une très forte corrélation entre les séries x  et
 x  , ce qui conduit à proposer une variante du modèle dans laquelle ces deux
coefficients sont liés par une relation affine ; cela conduit au modèle suivant :
 lg x (t )  a  x  b   x  t   xt   a  t   x  b   xt
Le nombre de paramètres à estimer diminue sensiblement pour s’établir à
2  xM  xm  1
au lieu de 2  ( xM  xm  1) dans le modèle précédent et de
2(xM  xm 1)  tM  tm 1dans le modèle de Lee-Carter. Cependant le
problème de moindres carrés devient non linéaire, ce qui complique un peu
l’estimation des paramètres134. En pratique on doit avoir recours à des méthodes
numériques alors que dans la première version du modèle on dispose d’une
expression explicite directe des paramètres.
La dérive linéaire peut apparaître irréaliste sur le long terme, et on constate par
exemple sur des données américaines un ralentissement de la tendance. On peut
alors chercher des modélisations permettant d’introduire au niveau des prévisions
de très long terme des informations exogènes traduisant un ralentissement
prévisible de la dérive. Ceci peut être réalisé avec les modèles suivants :
Ig x (t )   x   x  t   x  t    xt .
Dans ces modèles les estimations font également apparaître une très forte
corrélation entre les estimations des paramètres   ( x ), (  x ) et (  x ), ce qui
incite à proposer deux nouveaux modèles en posant
 x  a x  bet  x  c x  d et conduit à la spécification
Modèles de durée
Ig x (t )b  dt   x (t   ct  a ) xt .
La résolution numérique du critère de moindres carrés associé n’appelle pas de
commentaire particulier.

4.2.4. Le modèle logistique décalé


On considère ici le modèle proposé par BONGAART [2004] et défini par :
 (t ) e x p (  x )
 xt    (t ).
1   (t ) e x p (  x )

134
Qui doit être effectuée globalement et non plus âge par âge.

301
 x 
Comme l’inverse de la fonction logistique lg( x )  In   est
1 x 
ey
y  , on en déduit en écrivant :
1 ey
e x p (  x   (t )
  x t   ( t ) 
1  e x p (  x   (t ))
Avec  ( t )  In ( ( t )) que ce modèle peut également s’écrire :
Ig (µxt   (t ))   x  In( (t )).
Ce modèle est en fait une généralisation du modèle de Makeham (MAKEHAM
[1860])
µ x   e x p (  x )   proposée par THATCHER [1999] en posant
 exp(  x )
µx   Que l’on adapte au cas de taux de décès non
1   exp(  x )
constants au cours du temps. Cet ajustement du modèle de Makeham est motivé
originellement par la volonté de corriger la sur-estimation des taux de décès
conditionnels aux âges élevés observée en pratique.
Le fait  soit indépendant du temps est la conséquence du fait qu’on constate
empiriquement que ce paramètre dépend peu du temps.
L’estimation des paramètres peut être effectuée par une méthode de moindres

 qˆ xt  q xt 
2

carrés non linéaires en minimisant   n


x ,t
xt
q xt
avec n xt
l’exposition au risque pour l’âge et l’année considérés135. Une fois le modèle ajusté
sur les valeurs passées, l’extrapolation de la mortalité future se ramène à une
extrapolation, via des techniques de séries temporelles, des coefficients  (t ) et  (t )
. Cette paramétrisation présente l’intérêt d’être moins contrainte dans la dimension
temporelle que Lee-Carter ou log-Poisson, l’extrapolation reposant sur 2
paramètres et non un seul.
 exp(  x )
Le calcul de qx en fonction de µ x   est effectué via
1   exp(  x )
 x 1   x  1   exp(  u )  
q x  1  exp    µ ( u ) du   1  exp        du 
 x   x  1   exp(  u )  

135
En pratique ce critère est proche d’un maximum de vraisemblance discrétisé (voir le support sur
les modèles paramétrique).

302
En posant v ,   1(  )  1   exp(  u ) on remarque que
 exp(  u ) 1 dv
du  , ce qui conduit après quelques manipulations à :
1   exp(  u )  v
1/

 v , ( x ) 
 qx  1  e  
 v  ,  ( x  1 ) 
En d’autres termes, la fonction de survie de ce modèle est
1
S ( x )  e   x v ,  ( x )  Le terme de « modèle décalé » est motivé par

l’observation suivante : si on ne considère que la composante du taux de mortalité
associée au vieillissement,
 ( t ) exp(  x )
  xts 
1   ( t ) exp(  x )
alors pour une année t 0 fixée on peut écrire pour t  t 0
 (t0 ) e x p (  ( x   (t )))
µ xs t  
1   (t0 ) e x p (  ( x   (t )))
  (t ) 
Avec  ( t )  I n  
  (t0 ) 

4.2.5. Utilisation des séries chronologiques


Le modèle de Lee-Carter, après avoir ajusté sur les données historiques les
paramètres
 , et k , propose de considérer la suite des k t comme une série
chronologique pour obtenir les valeurs prospectives des taux. On est ainsi conduit
à poser :
k t*  a t  b   t
Cette approche peut être transposée dans le cadre des modèles logistiques, dans
le but de réduire le nombre de paramètres. On cherche alors à paramétrer la
fonction x  lg x (t ) pour prendre en compte l’influence de l’année t de manière
non paramétrique, puis à modéliser dans un second temps les séries chronologiques
introduites. On considère ainsi un modèle de la forme :
lg x (t )  f ( x ,  t )   xt
où la fonction f ( x ,  t ) est choisie, pour des arguments de simplicité de

303
mise en œuvre, linéaire par rapport au paramètre (vectoriel) t Dans une
deuxième phase la série t  est modélisée.
La forme retenue pour f est celle d’une spline cubique avec des nœuds aux
âges
( x i , i  1, ..., p ). La forme de la fonction f avec p nœuds est alors la
suivante :
P 3

f ( x , a , b , c , d , e1 ,...e p )  at  bt x  ct x   ei ,t   x  xi   
3

i 1
En pratique, une version simplifiée de ce modèle dans laquelle seul le
paramètre at dépend du temps fournit des résultats fiables. En observant que la
modélisation de at au travers d’une régression linéaire analogue à celle menée pour
kt , on peut construire une version entièrement paramétrique du modèle en
proposant :
P 3

f ( x, a, b, c, d , e1 ,...e p )  a  t  bx  cx   ei  x  xi   
3

i 1

4.2.6. Les modèles à référence externe


Si on ne dispose pas de données suffisantes pour structurer correctement la
table complète, on peut imaginer d’utiliser la structure d’une table de référence
existante et de simplement positionner la mortalité du groupe considéré par
rapport à cette référence.
Deux approches sont envisageables pour atteindre cet objectif, elles sont
présentées succinctement ci-après.

4.2.6.1.Régression logistique
Lorsque l’on souhaite positionner une table par rapport à une autre, il peut
apparaître naturel d’effectuer la régression des logits des taux bruts sur les logits de
la table de référence, ce qui conduit au modèle suivant, proposé initialement dans
BRASS [1971] :
In  q xt / (1  q xt )   a  In  q xtref / (1  q xtref )   b   xt ,
ou encore :
x ( t )  b   xt , .
lg x ( t )  a  lg ref
La mise en œuvre de cette approche si l’on retient un critère de type « moindres
carrés » est très simple, puisqu’il s’agit d’une régression linéaire dans le cadre d’un

304
modèle linéaire ordinaire. On dispose donc d’une expression explicite des
paramètres a et b (voir 4.2.3 ci-dessus).
Elle permet, au surplus, une extrapolation aisée des logits des taux d’expérience
dans les plages d’âge pour lesquelles les données d’expérience seraient insuffisantes.
On peut adapter le critère d’optimisation utilisé pour tenir compte du contexte
d’utilisation des tables en retenant plutôt :
 
 aˆ , bˆ  a rg m in  e 6lis0 s é ( a , b )  e 6n0o n lis s é  ,
sous la contrainte suivante :
e 6lissé
0 ( a , b )  e 6n0o n lissé  0 .
Où e 6l is0 s é ( a , b ) désigne l’espérance de vie résiduelle à 60 ans, fonction des
nonlissé
paramètres a et b, calculée à partir de la régression sur les logits et e 60
désignant l’espérance de vie résiduelle à 60 ans calculée à partir des données brutes.
On perd alors le caractère explicite de l’expression des paramètres. Le détail de
l’approche est présenté dans LELIEUR [2005].
On peut également retenir comme variante 
x (t )  bx   xt avec des coefficients dépendant de l’âge (ou de
lg x (t )  a x lg ref
l’année). C’est un modèle de ce type qui a été utilisé pour construire les tables TGH
et TGF 05 (cf. PLANCHET [2006]).
 
Enfin, on peut observer que lorsque In q xtref / (1  q xtref )   x   x  k t ,
c’est-à-dire si la structure de mortalité sous-jacente est décrite par un modèle de
type Lee-Carter, alors :
In  qxt / (1  qxt )   a   x   x  kt ,   b   xt   a   x  b   a   x  kt   xt
et donc le modèle ajusté est également de type Lee-Carter avec la même
tendance temporelle. Seul le coefficient de sensibilité x est transformé en a   x
On effectue donc par ce biais un positionnement en niveau de la mortalité
d’expérience, la tendance de la référence étant réutilisée directement.

4.2.6.2.Positionnement par rapport à une référence externe


On peut également rechercher, dans un ensemble de tables prospectives
exogènes disponibles la période des tables de référence t , t  h  la plus
« proche » de la période  t ex , t ex  h  issue des données d’expériences. Cela
conduit à utiliser comme tables d’expérience les tables exogènes décalées.
La notion de « la plus proche » suppose l’utilisation d’une distance entre deux
tables. Différentes approches sont possibles à ce niveau : Khi-2 sur les q x (t ), ,

305
distance déduite des espérances résiduelles ou de leurs intégrales (qui représente à
une unité monétaire près l’engagement d’un portefeuille de rentes où tous les âges
sont équi-représentés et à taux technique nul) l’avantage de cet indicateur est le
« gommage » des fluctuations.
Ces modèles ne seront pas développés ici.

5. Les critères de validation du modèle


Les critères de validation de modèle fournissent des aides à la décision dans le
cadre de la sélection du modèle le plus pertinent. La pertinence est ici appréciée en
regard du contexte d’utilisation des tables proposées : souvent l’évaluation des
engagements au titre de rentes viagères pour des tables prospectives.
Cela conduit notamment à porter une attention particulière à la représentation
des espérances de vie résiduelles.

5.1. La fidélité aux données


La première des exigences que doit satisfaire un modèle est d’être fidèle aux
données qui ont servi à le calibrer. Cette fidélité peut être examinée a priori de deux
manières :
✓ Au travers des taux de mortalité q x (t ), ( x , t )   x0 , x1    a0 , a1  ;
✓ Au travers de l’espérance de survie résiduelle dans la plage  x 0 , x1  , définie
par :
et ( x , x1 )  E  min  X  x , x1  x  X  x 
Le second critère est motivé par le fait que l’utilisation des tables prospectives
est principalement orientée vers les calculs des engagements des rentes viagères. Les
espérances de survie résiduelles représentent les engagements associés au calcul des
rentes avec un taux d’actualisation nul. L’audit des espérances conditionnelles est
donc incontournable.
Les modèles les moins paramétrés sont en principe et en général les plus fidèles.
Néanmoins cette logique statistique n’est pas toujours respectée le calibrage se
faisant sur
lg x ( t ) ou sur In ( µ xt ) et non sur les éléments retenus pour apprécier la
fidélité du modèle (taux de mortalité q x ( t ) et espérance résiduelle et ( x, x1 )).
On peut toutefois, et avant la mise en œuvre proprement dite, faire les remarques
suivantes :
✓ Le modèle Lee-Carter peut conduire à sous-évaluer notablement les taux de
mortalité des âges élevés (à partir de 85-90 ans). En effet, l’algorithme de référence

306
construit sur une approche maximum de vraisemblance favorise les premiers âges
(les plus « jeunes) et par ailleurs la relation xt   In(1  qxt ) repose que
l’hypothèse de constance du taux instantané de décès entre deux âges entiers,
hypothèse discutable aux âges élevés.
✓ On peut s’attendre à ce que les modèles les moins paramétrés épousent
mieux les « irrégularités résiduelles » des données brutes ce qui constitue un
handicap d’autant plus important que le volume de données est restreint.
✓ Au niveau des espérances résiduelles les irrégularités des tables brutes et des
tables ajustées sont classiquement écrasées et ne ressortent que les dérives
éventuelles et systématiques des modèles sur les qx .
On peut noter à ce stade que pour éviter d’avoir à utiliser la « formule de
passage »
µxt   In(1  qxt ) dans le modèle de Lee-Carter, il est possible de modéliser
directement l g x ( t )  plutôt que
I n (µ x t ) en écrivant :
 q xt 
In     x   x k x   xt .
 1  q xt 
5.2. La comparaison des valeurs modélisées et des observations
On considère un portefeuille observé pendant une durée d’un an ; entre les
dates de début et de fin d’observation t et  t 1 on observe des individus qui
entrent dans la période d’observation à l’âge xi (à une date t ie  t ) et qui en
sortent à l’âge x i  d i , d i étant la durée d’observation de l’individu i (avec la
contrainte t is  t ie  d i  t  1). On s’intéresse au nombre de décès espéré
(« théorique ») observé sur l’exercice pour un âge x fixé. La contribution de
l’individu i à ce nombre est conditionnée par le fait que l’intervalle
J i  x i , x i  d i    x , x  1
soit non vide. On peut écrire de manière équivalente
ji   xi  x , ( xi  d i )  ( x  1) .
En supposant sans perte de généralité que x j  x on peut mettre cet
intervalle sous la forme J i   xi , xi   i  Le nombre de décès observé
pendant la période est alors défini par :

307
D x  
i I
1 J i (T xi )

Avec Tx la loi conditionnelle de survie sachant que T  x. On en déduit que :


 E ( D x )   P (T
i I
xi  J i ).

Si le modèle de durée sous-jacent est associé à une fonction de survie S, alors


on trouve :
S ( xi )  S ( xi   i )
E ( Dx )  
i I S ( xi )
1J i   

En pratique on utilise souvent l’approximation E ( D x )  q x    1


iI
i J i  

qui s’interprète comme le produit du taux de décès à l’âge x et de l’exposition


au risque à cet âge. Cette
Modèles de durée
approximation repose sur l’approximation de la dérivée en un point par la
différence première. En effet :

S ( si   i )  S ( xi ) S '( xi ) S ( si  1)  S ( xi )
    i  qxi   i  qx   i ,
S ( xi ) S ( xi ) S ( xi )
ce qui permet de conclure. On peut également observer que comme
S '( xi )
  µ ( xi ),µ
S ( xi )
étant la fonction de hasard sous-jacente, sous l’hypothèse de constance de µ sur
l’intervalle  x , x  1 alors E ( D x )  µ ( x )    j 1J i    L’approximation
i I
effectuée ci-dessus revient donc à identifier µ ( x ) et q ( x ) , approximation
justifiable lorsque la probabilité conditionnelle de sortie est petite puisque (toujours
en supposant la constance de la fonction de hasard entre deux âges entiers)
µ( x )   In(1  qx ).

5.3. La stabilité des estimations


Le choix de la plage d’âges et de la plage d’années à partir desquelles on doit
générer les prévisions est important dans la mesure où les estimations des
paramètres dépendent sensiblement de ce choix. En effet il est possible que ces
différences, si elles existent, engendrent des prévisions différentes.
En ce qui concerne les estimations des âges le choix de la plage d’âges ne doit

308
pas avoir d’incidence notable sur les estimations. Ainsi si l’on retient par exemple
la plage [50 ans-70 ans] et la plage [60 ans-80 ans] les âges communs (de 60 à 70
ans) doivent avoir des estimations voisines. Cela n’est pas le cas dans les modèles
de Lee-Carter et log-Poisson :

Pour les modèles où les estimations se font âge par âge la nature même des
modèles assure l’égalité des estimations quand on fait varier la plage utilisée. Pour
les autres modèles qui
Modèles de durée
tiennent compte conjointement de tous les âges constituant une plage on peut
craindre que les estimations des paramètres dépendent (plus ou moins fortement)
de la plage d’étude choisie. Toutefois, on peut espérer que cette instabilité ne
perturbe pas les estimations des logits, taux de décès et espérances résiduelles
compte tenu des qualités de fidélité des modèles.
Pour le modèle de Lee-Carter (le moins paramétré en âges) la contrainte
d’identification
 x  1 a pour conséquence mécanique des différences entre les
estimations limitées cependant à des translations.

5.4. La capacité prospective


On peut noter que, d’une manière générale, la capacité d’un modèle à une
utilisation prospective est d’autant plus importante que le modèle est fortement
paramétrique. Cette remarque conduit à privilégier les approches paramétriques.

309
6. Le décès comme premier instant d’atteinte d’un seuil par un processus
Une approche alternative est parfois utilisée pour modéliser la survie ; cette
approche est utilisée en général pour des populations non humaines (insectes
notamment). Elle consiste à modéliser un « processus vital » par un processus de
diffusion, et à considérer que le décès survient lorsque le niveau du processus vital
diminue trop et franchit un certain seuil ; à un changement d’échelle près, on peut
toujours supposer que ce seuil est zéro136.

6.1. Présentation du modèle137


Le modèle le plus simple que l’on puisse imaginer est alors :
dS i (t )   µdt   dWi (t )
Où i l’indice i se rapporte à la tête considérée, et les Wi sont des mouvements
browniens indépendants. Étant donné le niveau de la « viabilité » initiale,
S0  x  0 , la probabilité de mourir entre t et t  d t est égale à la
probabilité que le brownien avec dérive ci-dessus atteigne l’origine pour la première
fois à l’instant t , soit :

x   x  µt 2 
Px (t )  exp   
2 t
2 3  2 2
t 
 
Modèles de durée
Pour une distribution initiale des viabilités de densité 0 , on obtient que le

nombre de décès à la date t est D ( t )   Px ( t ) 0 ( x ) dx , ce qui conduit à
0

l’expression suivante du taux de décès instantané :


D (t )
µ (t )  t
.
N 0  0
D (s)d s

On peut montrer que dans le cas d’une population initialement homogène


( x  1 pour tous les individus de la population), alors le taux de mortalité
instantané admet une expression analytique.

136
On peut imaginer la modélisation duale d’un processus de « morbidité » qui, lorsqu’il dépasse un
certain seuil, déclenche le décès.
137
Voir FRASER et WEITZ [2003] pour le détail de l’approche et une application numérique.

310
6.2. Estimation des paramètres
L’estimation par la méthode du maximum de vraisemblance ne pose pas de
difficulté particulière et conduit ici à :
1
 1 N
 1
µˆ  
 N
i1
Ti 


T
1/2
 1 N
 1 1 
ˆ      
T  
 N i1  Ti
Ce type d’approche permet d’exploiter les nombreux résultats existants sur les
temps d’atteinte d’un seuil par un mouvement brownien avec dérive.

311
312
Chapitre 2
Modèles stochastiques de mortalité

1. Introduction
La modélisation de la mortalité est classiquement effectuée via une
spécification du taux de hasard µ ( x , t ), , en fonction de l’âge x et de l’année
courante t : µ ( x , t ), est le taux instantané de décès à la date t pour un individu
d’âge x à cette date. La connaissance de ce taux permet en effet de calculer la
probabilité de survie entre t et T ( t  T ) d’un individu d’âge x en t :
 T 
S ( x , t , T ) ex p    µ ( x  u  t , u )d u 
 t 
Dans le cas particulier où µ ( x , t ) ne dépend que de l’âge, on retrouve
 x  T 1  S (x  T  t)
l’expression classique138 S ( x , t , T )  exp    µ ( u ) du   ,
 x  S ( x)
 x 
avec S ( x )  exp    µ ( u ) du 
 0 
la fonction de survie du modèle.

1.1. Quels types d’aléa ?


Dans le cas où le taux instantané de décès est une fonction déterministe et en
supposant celle-ci correctement spécifiée, le risque de mortalité se mutualise ; en
effet, la loi des grands nombres s’applique, et assure que sur un portefeuille de taille
importante, les fluctuations d’échantillonnage sont faibles. Au surplus le théorème
central limite permet de quantifier l’amplitude de ces fluctuations et d’obtenir des
intervalles de confiance pour le nombre de décès de la forme :

138
Voir le support « tables de mortalité » du cours de modèles de durée.

313
 D th D th 
D x   D xth  1, 9 6  x ; D xth  1, 9 6  x  .
 n n 
A ce risque mutualisable s’ajoute un risque d’erreur de spécification : si la
mortalité observée dans le futur est différente de celle prévue par le modèle, l’écart
n’est bien entendu pas mutualisable, puisque toutes les têtes concernées sont
affectées dans le même sens par l’écart de la réalisation par rapport à la prévision.
Dans l’approche standard de la mortalité la manière de se prémunir contre ce risque
consiste à retenir une modélisation prudente intégrant une marge pour risque.
On peut également observer que l’erreur d’estimation des paramètres du
modèle conduit à introduire une erreur systématique dans le modèle. En effet, dans
le cas d’un modèle paramétrique, µ ( x, t ) est en pratique approché par

µˆ ( x , t ) , avec ˆ l’estimateur retenu de  . Dans un cadre « maximum de


vraisemblance », la loi asymptotique de ˆ  étant connue, il est possible de
déterminer des intervalles de confiance pour µˆ ( x , t ) et de quantifier ainsi
l’ampleur du risque non mutualisable associé.
Modélisations avancées en assurance
Toutefois, l’idée sous-jacente de ces modélisations est qu’il existe une « vraie
valeur » de µ ( x , t ) , que l’on cherche à approcher au mieux. On construit ainsi
des « surfaces de mortalité » régulières, comme par exemple dans CURRIE et al.
[2004] :

Cependant, un examen plus fin de cette surface fait apparaître que l’évolution

314
du taux instantané de mortalité présente, aux différents âges, des variations
erratiques autour de la tendance qui se dégage139 :

On est donc conduit à rechercher une modélisation capable de rendre compte


de ses fluctuations autour de la valeur tendancielle : c’est là l’objectif des modèles
stochastiques de mortalité.
Modélisations avancées en assurance
Dans un contexte d’assurance, la prise en compte de ce risque systématique
intervient dans de nombreuses applications :
 solvabilité : capital de solvabilité, avec par exemple dans le QIS 4 : + 10 %
(mortalité) ou –25 % (longévité) sur les taux conditionnels de mortalité à chaque
âge dans l’approche par scénario.
 transfert de risque : réassurance, titrisation, etc.
 évaluation de portefeuilles ou de compagnies : IFRS « assurance »,
Embedded Value, cession, etc.

1.2. Les modèles stochastiques


Les modèles stochastiques proposent de considérer que le taux de mortalité
futur est lui même aléatoire, et donc µ ( x , t ) devient un processus stochastique.
Le taux de mortalité observé pour un âge et une année donnés est alors une
réalisation d’une variable aléatoire : on peut noter l’analogie avec les méthodes de
lissage bayésiennes140. Le phénomène de mortalité intègre alors explicitement les
deux risques décrits ci-dessus.

139
Taux présentés en « base 100 en 1946 ».
140
Voir le support de cours « lissages et ajustements ».

315
Dans la littérature, les approches stochastiques des phénomènes de mortalité
sont nombreuses.
Plusieurs modèles classiques sont de fait des modèles stochastiques ; en
premier lieu, les lissages bayésiens, et le modèle de Kimeldorf-Jones141 entrent dans
cette catégorie.
Les modèles avancées de construction de tables prospectives, comme le modèle
de Lee-Carter142 ou les modèles poissonniers, sont également des cas particuliers de
modèles stochastiques, bien qu’ils soient à l’origine élaborés pour construire des
extrapolations (temporelles) de la surface µ ( x , t )
Déterministe ; en ce qui concerne la modélisation de Lee-Carter ou les modèles
poissonniers, on peut toutefois noter que les taux de mortalité aux différents âges
sont supposés parfaitement corrélés, la composante aléatoire (kt ) ne dépendant
que du temps . Ceci est clairement contredit par le graphique précédent. Un autre
143

exemple simple de modèle stochastique consiste à déformer une table de mortalité


classique par une perturbation aléatoire, en posant144 :
q 1x t  a t q x  b t
Avec E ( at )  1 et E ( bt )  0 . Un exemple de ce type est développé à la
section 4 ci-dessous. On peut également consulter SOININEN [1995] qui propose
une approche très formelle de ce risque.
Modélisations avancées en assurance
La modélisation stochastique de la mortalité peut également s’inspirer des
approches développées pour modéliser le défaut sur un marché de taux d’intérêt ou
de dette (on pourra par exemple consulter LE PAGE [2000] pour une présentation
des principaux modèles de ce type) ; la durée avant le défaut joue alors le rôle de la
durée de vie. Ce sont ces classes de modèles qui sont aujourd’hui très étudiés. On
peut en effet remarquer que

µ ( x , T )  lim  In S ( x , t , T ) . Cette égalité, rappelle la définition du
tT T
taux d’intérêt instantané par rapport au prix d’un zéro-coupon ; elle conduit à
introduire la notion de taux instantané de décès « forward », défini par

µ( x, t,T )   In S ( x , t , T ) , de sorte que
T
µ( x, T )  lim µ( x, t , T ) ; ces analogies avec les modèles de taux d’intérêt sont
t T

141
KIMELDORF et JONES [1967].
142
Ce modèle est décrit par exemple dans BROUHNS et al. [2002]
143
Cette composante est modélisée par un processus ARIMA.
144
Voir LEE [2000].

316
détaillées en 3 ci-dessous. Ces approches sont notamment intéressantes dans la
perspective de la valorisation en « juste valeur » d’engagements comportant à la fois
le risque financier et le risque démographique.
Enfin, signalons l’existence d’approches utilisant la théorie des valeurs
extrêmes pour évaluer certains dérivés de mortalité, comme par exemple le produit
proposé par Swiss Ré ; on pourra consulter sur ce point BEELDERS et COLAROSSI
[2004].
L’utilisation potentielle d’un modèle stochastique est donc double :
 un tel modèle permet de quantifier le risque systématique non
diversifiable en intégrant explicitement l’incertitude sur les taux de mortalité
futurs ;
 l’évaluation en « juste valeur » au sens des normes IFRS de la valeur d’un
contrat d’assurance vie peut être effectuée dans le contexte général de l’absence
d’opportunité d’arbitrage, en traitant de manière symétrique les risques financier et
démographique.
Une littérature abondante est consacrée au second point : on pourra
notamment consulter BIFFIS et MILLOSOVITCH [2004], CAIRNS et al. [2004],
DAHL [2004], MOLLER [1998] et SCHRAGER [2004]. Cet aspect ne sera que
brièvement abordé dans le présent document, consacré aux modèles de mortalité
proprement dit.
Les modèles développés dans ce cadre, qui sont plus particulièrement présentés
ici, ne constituent donc qu’une approche possible pour introduire une mesure du
risque systématique, et à certains égards pas nécessairement l’approche la plus
pertinente. En particulier, les modèles de type Poisson s’avèrent bien adaptés pour
les applications en assurance145.

1.2.1. Notations et définition

On désigne par F t
m
la filtration associée à la structure µ ( x , t ) , vu
comme un processus en t pour chaque x .
Modélisations avancées en assurance
L’indice de survie défini en 1.1 n’est alors plus une probabilité, mais une
variable aléatoire. On introduit l’indicatrice de présence en t , Y x ( t )  1T  t  , de
x

sorte que la probabilité de présence en t d’un individu d’âge x à l’origine s’écrive :


P ( x , 0 , t )  E  Y x ( t ) F t m 

145
On se reportera au support de cours sur les tables de mortalité et à HADERER [2003] pour une
application.

317
 
Mais on a  E Y x ( t )   E E  Y x ( t ) F t m   E  S ( x , 0 , t )  . De la
 
même manière, si T  t ,
la probabilité pour qu’un individu d’âge x à l’origine et vivant en t soit encore
vivant en T est donnée par :
 S ( x, 0, T ) m 
P ( x, t , T )  E  Ft 
 S ( x, 0, t ) 
Car P ( x , t , T )  E Yx (T ) Yx (t )  1, Ft m 
 
On peut donc calculer les probabilités de survie à l’origine en calculant
l’espérance de l’indice de survie stochastique. Il convient maintenant de spécifier de
manière plus précise la forme que l’on souhaite donner au processus stochastique
µ ( x , t ).

1.2.2. Modélisation du décès via les processus de comptage


La formalisation d’un cadre relativement général pour les modèles
stochastiques de mortalité nécessite un arsenal mathématique relativement lourd
qui ne sera qu’esquissé ici. Le lecteur intéressé peut se reporter à BRÉMAUD [1981]
ou ROLSKI et al. [1998].
Dans la présentation des modèles de mortalité non paramétriques146 on a
introduit le processus ponctuel naturellement associé N ( t ) , égal à 0 tant que
l’événement n’a pas eu lieu, puis 1 après : N ( t )  1 T  t . Cette approche peut
être généralisée de la manière suivante : on considère un processus de comptage
N ( t ) adapté non explosif (c’est-à-dire tel que N t   ) et le décès est défini
comme étant le premier instant de saut T de N. Dans ce contexte, si il existe un
t
processus prévisible147 positif (t ) tel que   ( u ) d u   p.s. et que
0
t
M t   u d u est une martingale locale, on dit que (t ) est l’intensité de N .
0

 t 
Lorsqu’en plus E    u d u    , M est une martingale.
0 
Modélisations avancées en assurance

146
Voir le support « Statistique des modèles non paramétriques » du cours de modèles de durée.
147
Un processus est prévisible si il est adapté par rapport à la filtration engendrée par les processus
mesurables continus à gauche.

318
Deux filtrations interviennent pour définir les processus N et  : la filtration
G t    N u ; u  t  et une filtration  Ft  a priori moins « riche » que  G t 
, au sens où Ft  G t pour laquelle (t ) est adapté et prévisible. L’intensité du
processus de comptage fournit une information sur le nombre moyen de sauts,
puisque l’on peut vérifier que :
E  N t  h  N t Ft    t h   ( h )
Dans l’expression ci-dessus le conditionnement est effectué par rapport à la
filtration la « moins informative », de sorte que l’on obtient une information sur le
nombre moyen de sauts, mais qu’on ne peut déterminer si le processus va
effectivement sauter ou pas. Cette équation est à rapprocher de l’expression du taux
de décès instantané :
P r  x  T  x  h T  x   µ ( x ) h   ( h )
Pour obtenir des formules exploitables, on a besoin de spécifier un peu plus la
forme du processus ; on dit que ( N t ) est doublement stochastique 148
par rapport
à ( Ft ) si pour tous s  t , , conditionnellement à la tribu Gs  Ft , Nt  Ns suit
t
une loi de Poisson de paramètre 
s
u d u . L’intérêt pratique de cette formalisation

est qu’elle conduit à l’expression suivante


  t  
P r(T  t G s )  E  ex p     ( u ) d u  G s 
  s  
et donc si la durée de vie résiduelle d’un individu d’âge x à l’origine est notée Tx .
  t

P r (T x  t )  E  e x p     x ( u )  d u 
  s  
Cette formule rapprochée de la formule de 1.1 conduit à remarquer le lien entre
l’intensité du processus de comptage et la fonction de hasard ; dans le cas où (t ) 
est déterministe, on a en effet x (u )  µ( x  u , u ) Dans le cas général, on
obtiendra les probabilités de survie149 à partir de l’égalité
 S ( x, 0T ) m 
P ( x, t , T )  E  Ft  , qui peut être réécrite sous la forme :
 S ( x,0, t ) 

148
Ou « processus de Cox ».
149
Il s’agit ici de la probabilité qu’un individu d’âge x à l’origine et vivant en t soit encore vivant en T.

319
  T  
P( x, t, T )  E exp   µ( x  u, u)du  Ft m 
  t  
Modélisations avancées en assurance
Tout se ramène donc au choix du processus d’intensité
x (u )  µ( x  u, u ).
Avec un choix judicieux du processus d’intensité, les expressions ci-dessus
conduisent à des expressions explicites de la fonction de survie et des probabilités
de survie entre deux dates. L’idée est de sélectionner convenablement le processus
d’intensité pour être capable de calculer les fonctionnelles exponentielles ci-dessus.
Ceci est en particulier possible dans le contexte des processus à « structure affine »,
présenté ci-après.

2. Modélisation du processus d’intensité


Les modèles de mortalité stochastique utilisent de manière intensive les
processus à structure affine150, qui conduisent à des formules fermées dans un grand
nombre de cas. Lorsqu’on considère les modèles à structure affine à un facteur, on
peut montrer que deux situations sont possibles : le processus d’Ornstein-
Uhlenbeck (associé dans la littérature sur les taux d’intérêt au modèle de Vasicek)
et le processus de Feller (associé quant à lui au modèle CIR). Au surplus, ces deux
processus apparaissent de manière naturelle dans des modèles physiques simples.
Afin de simplifier les écritures, on considère que l’on fixe un âge x et on
cherche donc à modéliser le processus d’intensité à cet âge, vu comme une seule
fonction de t . Cette approche est bien entendu assez restrictive puisqu’elle n’intègre
pas explicitement la prise en charge de la surface de mortalité µ ( x , t ) .
Après une présentation générale du cadre de la modélisation du processus
d’intensité, les principales propriétés de ces objets sont rappelées ici.

2.1. Cadre général

Le processus d’intensité (t ) est supposé être fonction d’un processus,


non observable en général, (X t) , soit  t   ( X t ) , le processus X étant
supposé être solution d’une EDS de la forme :
dX t  µ ( X t ) dt   ( X t ) dBt
En toute généralité on pourra considérer un mouvement brownien B de

150
On pourra se reporter à AÏT-SAHALIA et KIMMEL [2002] pour une présentation de ces processus.

320
dimension p et un processus X de dimension p. On suppose que la dépendance
des coefficients µ et   ' en fonction de x est affine.
On peut alors montrer que l’égalité suivante est vérifiée :
  t  
E  e x p     ( X u ) d u   X t  G s   e x p ( ( t  s )   ( t  s ) X t )
  s  
les fonctions  et  étant solutions de deux équations différentielles ordinaires
de Riccati.
Modélisations avancées en assurance
On peut donc obtenir dans ce contexte une expression analytique de la
fonction de survie, ou, à tout le moins, résoudre numériquement les EDO et ainsi
en calculer les coefficients.
En pratique, on fait souvent le choix p  1 et  ( x )  x , , ce qui conduit
aux processus d’Ornstein-Uhlenbeck et de Feller, présentés de manière détaillée ci-
après. Dans ces cas particuliers, les calculs peuvent être effectués simplement.

2.2. Le processus d’Ornstein-Uhlenbeck


Le processus d’Orstein-Uhlenbeck ne peut être a priori utilisé en l’état pour
modéliser l’intensité du décès, puisqu’il autorise des valeurs négatives. Toutefois,
compte tenu de l’importance de ce processus d’une part, et du fait que la probabilité
d’observer des valeurs positives peut être rendu faible, d’autre part, il a paru utile
de le présenter ci-après.

2.2.1. Introduction heuristique151


Le mouvement brownien permet de modéliser le mouvement d’une particule
soumise à l’agitation thermique. Toutefois, en faisant l’hypothèse que la position de
la particule est un processus de Markov à accroissements indépendants, on néglige
le fait que si la particule possède une masse elle possède une inertie et donc sa
position à l’instant t  h ne dépend pas uniquement de sa position en t, mais
également de sa vitesse à cet instant.
Le processus d’Ornstein-Uhlenbeck permet de rendre compte de ce
phénomène. Plus précisément, si la masse de la particule est m et que sa vitesse est
xt , , on peut écrire que la variation de la quantité de mouvement de la particule
entre t et t  d t est de la forme :
mdxt   rxt dt  dM t

151
Cette présentation reprend celle de BOULEAU [2000].

321
Avec r un coefficient de viscosité. Des considérations physiques relatives au
terme
dM t Représentant la part de la variation conséquence des chocs
moléculaires conduisent à proposer que dM t   dBt , avec B un mouvement
brownien. On obtient ainsi l’équation de Langevin :
Le processus solution de cette équation s’appelle le processus d’Ornstein-
Uhlenbeck. Usuellement on utilise la présentation à partir de l’équation suivante,
qui servira de référence par la suite :
mdxt  rxt dt   dB(t )
Les trajectoires de ce processus ont l’allure suivante :
Modélisations avancées en assurance

2.2.2. Principes propriétés


Il résulte immédiatement de la définition que ce processus est gaussien, comme
intégrale par rapport au mouvement brownien d’une fonction déterministe. En
effet, on vérifie directement que la solution de l’équation différentielle stochastique
définissant le processus est donnée par :
t
xt  x0 e  kt   (1  e  kt )    e  k ( t  s ) dB ( s )
0
T
On en déduit en particulier que la variable Z ( t , T )   t
x s est gaussienne.

322
Comme on a, pour une variable aléatoire gaussienne
 1 
X , E ( e  X )  exp   E ( X )   2V ( X )  , , on obtient que :
 2 

  s
t

 

1
2

E  exp   x (u ) du G s   exp   m ( s , t )  v ( s , t ) 

où m ( s , t ) et v ( s , t ) désignent respectivement l’espérance et la variance
conditionnelles de Z ( s , t ) . Les fonctionnelles exponentielles permettant de
calculer p ( x , t , T ) se calculent donc explicitement dans ce cadre. Le calcul de
m ( s , t )  et v ( s , t ) s’effectue de la manière suivante :
t t
m (s, t )  E s Z (s, t )    E s ( xu ) d u    x 0 e  k u   (1  e  k u )  d u
s s

Modélisations avancées en assurance ce qui conduit à :


t t
m (s, t)  E s Z (s, t)    E s ( xu ) d u    x 0 e  k u   (1  e  k u )  d u
s s

Après calcul de l’intégrale ci-dessus on obtient finalement :


e  ks
m ( s , t )   (t  s )  ( x0   ) (1  e  k ( t  s ) )
k
Pour calculer la variance de Z ( s , t ) , on remarque que par définition de
x on a :
xt  x s  k (t  s )  k Z ( s , t )   ( Bt  Bs )
On déduit de cette expression que :
1
v ( s , t )  2 V s xt  xs   ( Bt  B s ) 
k
 x0 e kt   1  e kt     e k (t  s ) dB( s) , on
t
En utilisant le fait que xt
0
trouve donc :
 2

 1  e  du
t 2
 k (t  s )
D’où il suit que : v ( s , t )  2
k s

Finalement on obtient :
2 2 1  e  k (t  s ) 
1  e 
 k (t  s ) 2
v ( s, t )   2  (t  s )  
2k 3 k  k 

2.3. Le processus de Feller (CIR)


Le processus d’Ornstein-Uhlenbeck présente l’inconvénient comme on l’a vu
de prendre des valeurs négatives ou nulles avec une probabilité strictement positive.
En modifiant légèrement l’équation différentielle qui le définit, on introduit ainsi
un nouveau processus dont les trajectoires sont presque sûrement positives, le

323
processus de Feller. Le processus de Feller est défini par l’équation différentielle
stochastique suivante :
d x (t )  k   x ( t )  dt   x ( t ) dB (t )
Modélisations avancées en assurance
Cette équation admet une solution unique pour k   0 ; ; la solution
n’admet pas de représentation explicite, comme dans le cas du processus
d’Ornstein-Uhlenbeck. Si la condition 2 k    2 est de plus satisfaite, alors
presque sûrement x ( t )  0 pour tout
t  0 . Les trajectoires de ce processus ont l’allure suivante :

2.3.1. Le calcul de l’espérance


En écrivant l’équation sous forme intégrale :
t t
x(t )  x0  k    x(u) du    x(u)dB(u)
0 0
Puis en prenant l’espérance, comme l’intégrale stochastique d’un processus
adapté par rapport au brownien est une martingale, il reste :
x (t )      x ( u ) d u
t
E x0  k  E
0

Si on pose m ( t )  E  x ( t )  , , on a donc

324
dm
( t )  k   m ( t ) 
dt
avec la condition limite m (0 )  x 0 . . On déduit aisément de cette équation
que :
Modélisations avancées en assurance
m (t )    (  x0 ) exp(  kt )
En particulier lim m ( t )   . . En appliquant la propriété de Markov, on
t 

obtient l’expression de l’espérance conditionnelle


E s  x (t )     (  x s ) exp   l (t  s ) 

2.3.2. Le calcul de la variance


La formule d’Itô appliquée à f ( x ( t ) ) conduit à :
1
df  x(t )   f '  x(t )  dx(t )  f ''  x(t )   dx(t ) . .
2

2
En choisissant f (x)  x2 , on a donc en particulier :
3
dx ( t ) 2    2 k    2
 x ( t )  2 kx (t ) 2  dt  2 x (t ) 2 dB ( t )
Cela s’écrit :
t t t 3
x (t ) 2  x02   2 k   2   x (u ) du  2 k  x (u ) 2 du  2 2  x (u ) 2 dB (u ), ce
0 0 0

qui conduit en prenant l’espérance à :


t t
E  x ( t ) 2   x 02   2 k    2
  E  x (u ) du  2 k  E  x ( u ) 2
 du
0 0

En différenciant par rapport au temps on obtient l’équation différentielle du


premier ordre vérifiée par y ( t )  E  x ( t ) 2  :
d
E  x (t ) 2    2 k   2  m (t )  2 kE  x (t ) 2 
dt
Or, v (t )  V  x (t )   E  x (t ) 2    E ( x (t ))  , d’où
2

 2   
v(t )  (1  e  kt )  x0 e kt  (1  e kt )  .
k  2 
 2

En particulier on a lim v ( t )  . La variance conditionnelle s’obtient


t  2k

325
de même avec la propriété de Markov :
2
V s  x (t )  
k
  1e  l (t  s )
  x e  k (t  s )  2 1  e
s
 k (t  s )

2.3.3. Fonctionnelles exponentielles associées
Que ce soit dans les modèles de taux d’intérêt, ou dans les modèles de mortalité
stochastique, on est amené comme on l’a vu à évaluer des expressions telles que :
 T  
S (t , T , x (t ))  E  e x p   xu d u  G t 
  t  
On a le résultat suivant :
Proposition : La fonction S ( t , T , x ) définie par l’équation ci-dessus est égale
à
S ( t , T , x ( t ))  a (T  t ) exp   xb (T  t ) 
Avec
2 k
 2  e x p k      2

a (u )   
 ( k   )  (e x p ( u )  2  
2 e x p   u   1)
b (u ) 
( k   )  (e x p (  u )  1)  2 
  k 2  2 2

2.3.4. La loi du processus152


L’obtention de la loi de x ( t ) nécessite l’introduction des processus de Bessel ;
1/ 2
 n 
pour cela on considère tout d’abord le processus X t    B ( t ) 2  où
 i 1 
 B1 ( t ), ..., B n ( t )  est un mouvement brownien n-dimensionnel153. En
n
appliquant la formule d’Itô on obtient que dX t 
2
 2 B (t )  dB (t )   ndt
i 1
i i

n
1
Le processus dW t 
Xt
 B ( t ) dB ( t )
i 1
i i est une martingale (comme

somme de martingales) satisfaisant  W ,W t ; cette dernière propriété est

152
Voir par exemple REVUZ et YOR (1999).
153
Il s’agit donc de la norme euclidienne du vecteur brownien.

326
équivalente au fait que W t 2  t est une martingale. Le processus W est donc un
mouvement brownien, et en posant V t  X t2 on a donc démontré que :
d Vt  2 vt d W t  n d t
X est appelé processus de Bessel de dimension n, et W carré de processus de
Bessel. Plus généralement l’équation différentielles stochastique :

d Vt   d t  2 V t dW t
Avec   0 adment une unique solution appelé carré du processus de Bessel
de degré   0 noté B E S Q (  ) . Le processus CIR peut être ramené à un
 2t
coefficient de volatilité de 2 par le changement de temps  ( t )  ; on peut
4
montrer qu’on a l’égalité :
  2 t kt 
x t  e  ktV  ( e  1) 
 4 
4k
Où V est un processus B E S Q (  ) avec   . On en déduit alors en
2
utilisant des résultats généraux sur les processus de Bessel que la loi de xt est un
4k
Khi-2 décentré avec  degrés de liberté et un paramètre de non centralité
2
égal à :
x0
 
 2

4k
e kt
 1

2.4. L’estimation des paramètres


Une fois le modèle spécifié, il convient d’estimer les paramètres à partir de
données observées. L’information accessible à l’observation est constituée des taux
bruts de mortalité, et en faisant et en faisant l’hypothèse de constance du taux
instantané dans chaque carré du diagramme de lexis on a :
 xt*   In (1  qˆ xt )
Une fois les taux instantanés de mortalité ainsi estimés, deux approches sont
possibles pour déterminer les paramètres du modèle :
 L’estimation par maximum de vraisemblance ;

327
 La minimisation de la somme des carrés des écarts entre les taux issus du
modèle et les taux estimés.
Ces techniques ne seront pas développées ici ; pour une présentation générale
sur l’estimation par maximum de vraisemblance dans le cadre des modèles à
structure affine on pourra consulter Ait-SAHALIA et KIMMEL (2002).
Dans le cas d’un critère de moindres carrés, on obtient en pratique souvent
(comme d’ailleurs lorsque estime les paramètres d’un modèle de taux) une valeur
nulle pour le paramètre de   0 futurs, et de n’estimer alors que les deux
paramètres restants.

3. Utilisation pour la tarification de dérivés de mortalité


On se place maintenant dans la situation où l’on est confronté à l’existence
concomitante d’un risque financier et d’un risque démographique : l’objectif est de
fournir un cadre permettant de calculer des prise pour des contrats incorporant les
deux risques.
Une présentation de ce contexte est effectuée par ARGESANU (2004). Une
introduction à la prise en compte simultanée d’un risque financier et d’un risque
d’assurance est fournie par CHENUT et (2003) dans le conteste des garanties
planchers sur les contrats en unités de compte154

3.1. Rappel sur l’évaluation par arbitrage (APT)


Les deux résultats fondamentaux de l’évaluation par arbitrage s’énoncent
comme suit :
 la propriété d’absence d’opportunité d’arbitrage est équivalente à
l’existence d’une probabilité d’origine telle que sous Q équivalente à la probabilié
P d’origine telle que sous Q le processus de prix actualisé soit une martingale ;
 La propriété de complétude du marché est équivalente à l’unicité de la
probabilité Q définie ci-dessus.
Le fait que le marché soit complet peut s’exprimer en disant que dans un
marché complet,
Toute variable aléatoire FT f qui est FT f - mesurable est réplicable. D’un
point de vue pratique, cela implique que lorsque l’on veut calculer le prix de HT ,
On est ramené à calculer l’espérance sous la probabilité risque – naitre du flux
future actualisé. On peut noter que cette démarche suppose l’existence d’un

154
Voir également le support du cours de « modèles financiers de l’assurance » sur ce sujet.

328
marché secondaire sur lequel s’échangent les dérivés concernés. Ce point n’est pas
(encore) réalisé dans le cas du risque de mortalité.

3.2. Construction de l’espace produit155


On fait l’hypothèse que l’on dispose d’un premier espace de probabilité
 f
,F f
,P f
 d’une filtration F f
 F 
t
f
décrivant l’information
disponible sur le marché financier. La filtration est supposée complète et continue
à droite156
L’information démographique est décrite par un second espace probabilisé
 m
,F m
,Pm 
équipé d’une filtration F m
  F  continue à droite mais non nécessairement
t
m

complète.
Lorsque l’on considère de manière conjointe le risque de mortalité d’une part
et le risque financier d’autre part, on introduit l’espace produit   , F , P  avec

   f  m,
Modèles financiers de l’assurance
P  P f  P m ; la définition de la tribu F et de la filtration nécessite
quelques considérations techniques. On introduit la tribu N engendrée par les
ensembles négligeables de F f
 F m, puis la tribu
F  F f  Fm   N obtenue en augmentant la tribu produit avec les
ensembles négligeables. On procède de la même manière pour construire la
filtration équipant l’espace produit.
On peut vérifier alors que l’espace filtré ainsi construit satisfait les conditions
usuelles.

3.3. Mise en œuvre


On considère ici un titre qui paye le montant S ( x , T )  S ( x , 0 , T ) à la
date T pour l’âge x en 0, et on souhaite connaître la valeur en 0 (et plus
généralement à toute date 0  t  T ) d’un tel titre.
On désigne par P ( t , T ) le prix et d’un zéro-coupon qui paye 1 en T . Cette
structure détermine un processus de taux court r (t ), via r ( t)  lim f ( t , T ) ,
T t

155
MOLLER (1998)
156
Ces propriétés sont désignées sous le terme de « conditions usuelles ».

329

où f (t,T)   InP(t,T) est la courbe de taux « forward » à la date t
T
On introduit alors le « bon de capitalisation » dont la dynamique est définie
par d B ( t )  r ( t ) B ( t ) d t , ce qui est équivalent à
 t 
B ( t )  B ( 0 ) e x p   r ( u ) d u  . La théorie financière permet alors d’affirmer
0 
que la propriété d’absence d’opportunité d’arbitrage ( A O A ) est équivalente à
l’existence d’une probabilité Q équivalente à P telle que
 B (t ) f 
P (t , T )  E Q  Ft  , ce qui traduit le fait que sous Q le prix actualisé du
 B (T ) 
zéro-coupon est une martingale.
 B (t ) 
Si le prix  ( x , t , T )  E Q  S ( x , T ) Ft  avec Q une probabilité
 B (T ) 
équivalente à P, alors le processus de prix du produit dérive de mortalité vérifie la
condition d’AOA.

3.4. Couverture du risque de mortalité


Le risque de mortalité présente la caractéristique suivante : selon que le
portefeuille est composé de contrats en cas de vie ou de contrats en cas de décès,
l’impact d’un écart entre le taux de mortalité prévu et le taux de mortalité réalisé
n’est pas identique. L’assureur de risques en cas de décès sera pénalisé par une sous-
estimation de la mortalité, alors que la situation est inverse pour un assureur de
risque en cas de vie.
Cette remarque conduit certains auteurs à proposer une approche dite de
« couverture naturelle » du risque de mortalité, consistant à échanger des risques
portant sur des portefeuilles en cas de décès et en cas de vie. Cette approche est
présentée dans Cox et LON (2004).
4. Un modèle simple de mortalité stochastique
On dispose d’une table de mortalité fournie de manière non paramétrique via.
Les taux de décès ( q x ) Afin d’alléger les notations ont suppose que la table est une
table du moment (les taux dépendent de l’âge seulement), mais tout ce qui suit
s’écrit de la même manière avec une table prospective.
On veut intégrer dans le modèle une incertitude sur le niveau des taux de
mortalité future ; pour cela suppose que le taux de mortalité à l’âge x l’année t peut
s’écrire :

330
q t
x  a x ,t q x

Les variables aléatoires a x , t sont indépendantes lorsque t varie, et a fixé on


intègre une dépendance décroissante en fonction de l’écart entre les âges, Ce pont
sera précisé plus loin.
Il est naturel d’imposer la contrainte E  a x ,t   1, de sorte que E  qxt   qx ;

afin de spécifier plus le modèle on fait l’hypothèse ad hoc que In ( a x , t ) est une
variable normale de paramètres m x ,t ,  x2, t  ; lé relation E  a x ,t   1 devient
 2
exp  m   1, et donc la loi de a x , t ne dépend finalement que de
 2 
2
 x ,t
 , et
2
x ,t mx , t   .
2
Une première méthode pour déterminer  x2,t est de faire un ajustement sur
des données historiques, puis d’extrapoler le résultat en t .
Mais on peut aussi vouloir plutôt mesurer la sensibilité d’un engagement à une
« unité » de volatilité dans les taux de décès. L’idée est alors de considérer le
 q t
x
coefficient de variation c v x ,t  t
; on a E  q t
x
  q x et
E q x

V  q xt   q x2 V  a x , t  Mais la variance d’une distribution log


  2 

e 
2 m  
 2  2 2
V  a x , t   e  
 1  e   1 normale est de la forme puisque
 2

m x,t   x ,t
.
2
2

On a donc finalement c v x , t  e x , t  1 On peut alors fixer ce
coefficient arbitrairement, ce qui détermine le paramètre de variance.
Jusqu’à présent on a raisonné sans tenir compte de la dépendance en x à t
fixé des a x ,t ; on peut par exemple raisonner comme dans le modèle de
Kimeldorf-Jones et considérer que le vecteur
In ( a x ,t )  est un vecteur gaussien avec pour les coefficients de la matrice

:
 x y
 x  y  x  y

331
avec un nouveau paramètre  décrivant le degré de corrélation de 2 termes
consécutifs. On se ramène ainsi pour mesurer le risque systématique ainsi introduit
à savoir simuler des variables aléatoires gaussien.
Modélisations avancées en assurance

332
Chapitre 3
Les modèles de durée

Les modèles de durée constituent un outil utilisé dans de nombreux domaines


de l’assurance : durée de la vie humaine, durée de l’arrêt de travail, durée de
chômage, mais aussi durée d’attente entre 2 sinistres, durée avant la ruine, etc. Le
domaine d’application de ces modèles est donc large. L’objectif de cours est de
présenter les principaux modèles de durée ainsi que leur utilisation en assurance
vie et non-vie. Le présent document constitue une introduction aux modèles de
durée, et présente de manière succincte les modèles qui seront développés dans la
suite du cours. Les aspects statistiques des modèles de durées (estimation et tests)
ne sont pas abordés de manière détaillée dans cette première partie, ils seront
développés dans la suite du cours.

1. Introduction
1.1. Points de repères historiques157
L’analyse formalisée des données de durée remonte à l’école anglaise
d’arithmétique politique, avec notamment les travaux de John GRAUNT (1620-
1674) et William PETTY (1623-1687) à l’occasion des premières études sur la
mortalité en Angleterre au 17ème siècle. Les notions d’espérance de vie et d’espérance
de vie résiduelle sont alors définies.
La recherche de lois sous-jacentes pour ces phénomènes commence au
ème
19 siècle avec notamment la formule proposée par Benjamin GOMPERTZ en
1825 pour modéliser la probabilité de décéder à l’âge x : h ( x )  a  b
x

Ce modèle (qui est en fait une progression géométrique des taux de décès de
raison b) sera complété par William MAKEHAM en 1860 : h ( x )  c  a  b x

157
Ce rappel est largement repris de DROESBEKE et al.(1989).

333
L’étude des durées de vie restera longtemps un problème étudié par les
démographes et les actuaires, jusqu’à l’apparition de la théorie de la « fiabilité » pour
les systèmes physiques. Ainsi W. WEIBULL publie en 1951 dans un journal de
mécanique un article où il propose la forme suivante pour la fonction de hasard :
h ( t )   a t  1
L’article de WEIBULL aborde notamment l’une des particularités importantes
des données de durée, la présence de données tronquées ou censurées. Deux autres
dates importantes doivent être citées : l’article d’E. KAPLAN et P. MEIER en 1958
dans lequel ils proposent d’utiliser dans le domaine médical un estimateur non
paramétrique permettant d’intégrer les données censurées introduit en 1912 par P.
BÖHMER, l’estimateur « PL » de la fonction de survie.
En 1972 David COX publie un article posant les bases d’un cas particulier
important de modèle à « hasard proportionnel » faisant intervenir des variables
explicatives (exogènes) en spécifiant : h ( x )  e  z h0 ( x )
avec  un vecteur de paramètres (inconnu) et h0 la fonction de hasard de base
inconnue ; il s’agit onc d’un modèle semi-paramétrique. Ce modèle de référence a
donné lieu à de nombreux développements et variantes : introduction d’une
évolution temporelle, prises-en
1 Ce rappel est largement repris de DROESBEKE et al. [1989].
Modèles de durée
compte de dépendance entre les variables observées, stratification de l’effet des
covariables, etc. Enfin, pour clore ce bref panorama, on peut mentionner deux
évolutions récentes des modèles de durées :
➢ La problématique des tables prospectives et des modèles bidimensionnels
« âge x année », dont la référence fondatrice est LEE et CARTER [1992].
➢ La quantification de la part non mutualisable du risque de mortalité, via les
modèles de mortalité stochastique (cf. CAIRNS et al. [2004]).

1.2. Les particularités des données de durée


La première particularité des données de durée est d’être générées par des
variables aléatoires positives ; même si on peut imaginer de ramener toute variable
aléatoire réelle sur
0 ,    Par une transformation bien choisie (la fonction exponentielle par
exemple), il n’en demeure pas moins que cette caractéristique induit que la loi de
référence des modèles de durée ne saurait être la loi normale.
L’interprétation en termes de durée des variables aléatoires étudiées va par

334
ailleurs conduire à définir des représentations de la loi non plus au travers de la
fonction de répartition, mais au travers de la fonction de survie et de la fonction de
hasard.
Par ailleurs, on pourra noter comme troisième particularité à prendre en compte le
fait que la situation de référence soit celle de données incomplètes. Ceci peut être la
conséquence :
➢ Du fait que la variable aléatoire n’est observable que sur une sous partie de
 0 ,    ; le modèle est alors dit tronqué.
➢ Du fait que pour certains individus le résultat de l’expérience n’est observé
que partiellement : par exemple l’expérience a une durée limitée T et pour les
individus vivants en T on ne connaît pas la durée de vie, mais on sait seulement
qu’elle est supérieure à T ; le modèle est alors dit censuré.
Enfin, les données de durée utilisent en général des variables explicatives
exogènes : par exemple l’espérance de vie dépend du sexe, du niveau
socioprofessionnel, de la région d’habitation, etc.

1.3. Les modèles statistiques


Les différents modèles usuels de la statistique se retrouvent dans la description
des données de durée :
➢ Modèles paramétriques : par exemple le modèle de MAKEHAM.
➢ Modèles non paramétriques : c’est par exemple le cas de l’estimateur de
KAPLAN-MEIER.
➢ Modèles semi-paramétriques : le modèle de COX est une illustration de ce type
de modèles. On peut également ajouter à cette typologie les modèles stochastiques, qui
ont une place un peu à part (« sur couche » à l’un des modèles ci-dessus).

2. Représentation d’une distribution de survie

On considère une variable aléatoire T à valeurs dans  0,  , , et on note dans


la suite
F ( t ) P (T  t ) sa fonction de répartition (continue à droite). Lorsque la
d P (t  T  T  h )
densité de T existe, on la notera f (t )  F (t )  lim
dt h  h
.

2.1. La fonction de survie


La fonction de survie est par définition le complément à un de la fonction de
répartition :

335
S ( t )  1  F ( t )  P (T  t )
S est donc une fonction décroissante telle que S ( 0 )  1 ( s iP ( T  0 )  0
ce que nous supposerons) et lim S ( t )  0 . Si la durée moyenne de survie existe
t 

alors elle s’exprime simplement à l’aide de S :


  
E (T )   td F ( t )    td S ( t )   S ( t ) d t
0 0 0

Démonstration : On suppose que l’espérance existe. On écrit que


 u

 tdF ( t )  lim  tdF ( t );


0
u
0
en intégrant par parties on peut écrire
u u u
l’inégalité de Markov assure alors

0
td F (t )   
0
td F (t )   u S (u )   S ( t )d t ;
0

que tS ( t )  E ( T ) et donc le terme u S ( u ) est borné. On en déduit que l’intégrale



S ( t ) converge, ce qui implique que lim S (t )  0 et en passant à la limite on

0
t 

obtient le résultat attendu. On peut démontrer également ce résultat de la manière


 
suivante en observant que
0 0

 S (t ) dt   E 1T  t dt et  par Fubini


  T 
E 1 
0 T t dt 
 E 
0
 T t   0 dt   E (T ). On montre de la même
1 dt   E

manière que : V ( T )  2  tS (t ) d t
0
 E (T ) 2 . .

2.2. Survie conditionnelle

On pose tout d’abord Su (t )  P(T  u  t T  u ) la fonction de survie


conditionnelle ; on s’intéresse donc à la survie d’un élément après un instant t,
sachant qu’il a déjà fonctionné correctement jusqu’en T . En revenant à la
définition de la probabilité conditionnelle on peut écrire :
P (T  t  u ) S (u  t )
S u ( t )  P (T  u  t T  u )  
P (T  u ) S (u )
La fonction de survie conditionnelle s’exprime donc simplement à l’aide de la
fonction de survie.

336
2.3. La fonction de hasard
La fonction de hasard2158 (ou taux de panne, taux de défaillance, taux de décès,
f (t ) S '(t) d
risque instantané, etc.) est par définition : h(t )     InS (t )
S (t ) S (t ) dt
Il en résulte directement que la fonction de hasard détermine entièrement la
loi de T et qu’on a la relation suivante : S ( t )  e x p  
t
 On note



0
h (s)ds 

t
en général H ( t )  la « fonction de hasard cumulée », qui est telle que
 h (s)ds
0

S ( t )  e x p (  H ( t )). H est évidemment croissante. On utilise dans certains


tests d’adéquation le fait que H (T ) suit une loi exponentielle de paramètre 1. Cette
propriété découle de :
P(H(T )  x)  P(T  H 1(x))  S(H 1(x))  exp(H 1(x)))  exp(x)
D’après la définition de la fonction de survie conditionnelle et la formule ci-
 ut 
dessus on obtient S u ( t )  e x p    h ( s ) d s 
 u 
Cela revient à dire que la fonction de hasard de la survie conditionnelle au fait
d’être en fonctionnement à la date u est t  h ( u  t ) . On en déduit en
particulier que la fonction de hasard est croissante si et seulement si la durée de vie
résiduelle après u est stochastique ment décroissante159 comme fonction de u .
C’est souvent la fonction de hasard qui est utilisée pour spécifier un modèle de
durée. Elle a en effet une interprétation « physique » ; en utilisant la définition de la
fonction de hasard et de la fonction de survie on peut écrire :
P (t  T  t  u ) P (t  T  t  u T  t )
H ( t )  lim lim
u uS ( t ) u u
ce qui signifie que pour de « petites » valeurs de u, h ( t ) u est
approximativement la probabilité que le composant tombe en panne entre t et
t  u , , sachant qu’il est en fonctionnement en t . En d’autres termes :
P (t  T  T  dt T  t )  h (t ) dt . .

2.4. Cas des variables discrètes

Si la variable aléatoire T prend des valeurs entières, sa distribution est décrite

158
Cette expression est un anglicisme, en français on dirait « fonction de risque ».
159
Par définition X est stochastiquement plus grande que y si SX (t)  SY (t)

337
par les Pk  P(T  k) , pour k  0. . La fonction de survie s’écrit simplement
S (k )  
m  k 1
Pm . . L’interprétation de la fonction de hasard donnée en 2.3

ci-dessus conduit naturellement à poser dans le cas discret :


Pk
h ( k )  P (T  k T  k  1)  La fonction de hasard au point k
S ( k  1)
s’interprète donc comme le taux de décès à l’âge k . De l’expression ci-dessus on
S (k ) ,
tire que 1  h(k )  puis, par récurrence :
S ( k  1)
k
S (k )   1
m  1
 h (m ) 
La fonction de survie s’assimile donc aux (Lx ) d’une table de mortalité, la
fonction de hasard s’assimilant quant à elle aux (qx ) . On notera qu’à toute
représentation continue d’une durée de vie T , on peut associer une représentation
discrète en posant X  k , k  T  k  1 (autrement dit X  T ). En pratique
toutefois la problématique est en général inverse : on estime une loi discrète et on
veut ensuite calculer les taux de décès à n’importe quel âge. Il est pour cela
indispensable de formuler une hypothèse qui permette de passer d’une expression
discrète de la loi à une expression continue ; trois approches sont classiquement
utilisées :
➢ La linéarisation de la fonction de survie, qui revient à supposer une
répartition uniforme des sorties sur  k , k  1 ( hypothése DUD );
➢ L’hypothèse de constance de la fonction de hasard sur  k , k  1 , qui
conduit à une forme exponentielle ;
➢ L’« hypothèse de Balducci », qui conduit à une forme hyperbolique.
Ces 3 approches sont résumées dans le tableau ci-dessous160 :

160
Tableau extrait de LANGMEIER [2000].

338
Dans la suite on utilisera en général la forme exponentielle (force constante).
Dans certains cas particuliers, notamment paramétriques, il n’est pas nécessaire de
formuler une hypothèse, le modèle impose la forme à retenir (cf. le modèle de
Makeham par exemple).

3. Les lois paramétriques usuelles


On ne reprend ci-après que les modèles les plus courants ; d’une manière
générale, toutes les distributions utilisées pour modéliser des variables positives
(log-normale, Pareto, logistique, etc.) peuvent être utilisées dans des modèles de
survie161. Toutefois, la distribution de base des modèles paramétriques de durée est
la distribution exponentielle, et ses diverses généralisations, pour des raisons qui
seront développées infra162. Le choix du modèle détermine en particulier la forme
de la fonction de hasard ; on distinguera notamment les modèles à fonction de
hasard monotone des modèles permettant d’obtenir des fonctions de hasard « en
cloche » ou en « U » ; ces derniers modèles sont peu usités en assurance, la situation
de référence étant un taux de hasard croissant (au sens large) avec le temps.

161
Pour les propriétés des distributions usuelles, voir par exemple PARTRAT et BESSON [2004].
162
Voir le support de cours « Processus poissonniers et files d’attente »

339
3.1. Le modèle exponentiel
La spécification la plus simple consiste à poser h ( t )   , , avec   0. . On
 t
en déduit immédiatement que S (t )  e . Le modèle exponentiel est
caractérisé par le fait que les fonctions de survie conditionnelles S u (.), u  0
sont exponentielles de même paramètre,   0. Cela signifie que le comportement
de la variable aléatoire T après l’instant u de dépend pas de ce qui est survenu
jusqu’en u. Il est également caractérisé par le fait que la fonction de survie est
multiplicative, au sens où S ( u  t )  S ( u ) S ( t ). . Ces propriétés découlent
aisément de l’expression de la fonction de survie conditionnelle présentée en 2.2 ci-
1 1
dessus. On vérifie aisément par un calcul direct que E(T )  et V (T )  ..
 2
L’estimation du aramètre  est classique, à partir de l’expression
  n
L( )   n exp    Ti  qui conduit facilement à n 1
 i 1  ˆ  n

T

i1
Ti

3.2. Le modèle de Weibull


On suppose ici que la fonction de hasard est de la forme :
h(t )   t  1 ,  ,   0
 est un paramètre d’échelle et 
un paramètre de forme. Il s’agit d’une
généralisation simple du modèle exponentiel, permettant d’obtenir des fonctions
de hasard croissantes avec t si   1 (il y a alors « usure ») et décroissantes avec
t si   1 (il y a « rodage »). Lorsque   2 et  1/ 2 ce modèle porte le nom
de « modèle de RAYLEIGH » ; il est utilisé en physique pour modéliser la durée de
vie de certaines particules ou le bruit en sortie de certains récepteurs de
transmissions163.
La distribution de T est alors la distribution de Weibull W (  ,  ) , , dont la
fonction de survie s’écrit S (t )  e t , t  0. . On peut notamment remarquer
que si la variable T est distribuée selon une loi exponentielle de paramètre   0
1 /
alors T suit W ( ,  ). 164
En fonction de   0 on peut obtenir des formes très différentes de la densité165 :

163
La loi de Rayleigh est également celle de la norme d’un vecteur gaussien centré réduit.
164
Cela donne une méthode simple pour simuler des réalisations de la loi de Weibull.
165
Le graphe est construit avec  1

340
La fonction de hasard est quant à elle monotone, avec l’allure suivante :

 1  1
k 
Les moments s’obtiennent en observant que E (T )  
 k /
k
   1 avec
 


u
x 1  u
( x)  e . Pour démontrer cette égalité on écrit la densité de la loi de
0

Weibull en utilisant f ( t )  S ( t  h ( t ), , ce qui donne f (t)  t 1 exp(t )


. On en tire que :

E (T k
)     t k    1 e x p    t  d t
0

Le changement de variable u   t  permet de conclure. On a donc en


particulier :
  1
 E (T )  
1/
  et V (T )    2 /   2  2  1 
        1      1 
    
L’expression de la variance est la conséquence directe de

341
V (T )  E(T 2 )  E(T )2 . . On déduit de ces expressions une propriété
 (T )
remarquable de la loi de Weibull, qui est que le coefficient de variation ne
E (T )
dépend pas du facteur d’échelle  .
Si on pose X  In (T ) alors P( X  x)  P(T  eX )  1 exp( ex ), , ce
  x   
que l’on peut écrire : P ( X  x )  1    exp  
   
1
en posant   In 1 /   et   1/ . . On reconnaît la loi de GUMBEL (ou

double exponentielle), qui est l’une des 3 lois possibles comme loi limite du
maximum d’un échantillon iid166. La loi de Weibull apparaît naturellement dans
l’étude de la distribution limite du minimum d’un échantillon iid. En effet, si
( X1 ,..., X n ) est un échantillon d’une loi de fonction de répartition G sur

0,   dont le comportement à l’origine vérifie lim


G ( x )
 1
x    x 
1/
Alors n X (1 ) converge en loi lorsque n tend vers l’infini vers une
distribution W (  ,  ) .
n
  x 
Démonstration : On a P n  1/ 
X (1)  x   1  G  1/    et donc :
 n 

  x    x   1 
P  n1/ X (1)  x )   nIn 1   1/    n    1/     
  n   n   n 
D’où l’on tire que lim P  n 1 /  X (1 )  x   e   x , ce qui achève la
n 

démonstration.
En fait, cette propriété est à l’origine de la forme de la loi proposée par W.
WEIBULL dans son article de 1951. Il se propose en effet de résoudre des problèmes
de rigidité des matériaux. L’exemple qu’il utilise pour illustrer sa distribution est
celui d’une chaîne. Comment peut-on établir la probabilité qu’une chaîne se brise ?
Son raisonnement est que la chaîne va se briser si le plus faible des maillons se brise.
Ceci revient donc à trouver la distribution du minimum d’un grand nombre
d’objets. En théorie des valeurs extrêmes, on établit que la distribution du minimum
ne dépend pas de la fonction de probabilité de chaque objet si le nombre d’objets
est suffisamment grand (GALAMBOS [1978], GUMBEL [1958]). LOGAN [1992] a
utilisé cette distribution dans l’optique d’une course (race model). Imaginons par

166
Avec les lois de Fréchet et Weibull ; voir PLANCHET et al. [2005].

342
exemple un grand nombre de neurones en compétition pour émettre un signal. Le
signal émis sera produit par le neurone le plus rapide. On peut enfin observer que
comme S (t )  e  t , , on a In (  o , ( S (t )))  In (  )   In (t ); désigne la
fonction de Sˆ ( t ) survie empirique, les points ( In (t ), In (  In ( Sˆ (t ))))
doivent donc être approximativement alignés. Cela fournit un moyen simple de
vérifier si des données de durées peuvent être modélisées par une loi de Weibull.
On utilise parfois une paramétrisation différente de la loi de Weibull en posant

  x   , ce qui revient à faire le changement de paramètre
S (x)  exp    
  l  
x
  l   . . Cela revient également à faire le changement de variable y  et
l
donc à modifier l’unité de temps utilisée. L’estimation des paramètres du modèle se
n
fait en observant que la vraisemblance L  , l    f (t ) s’écrit:
i 1
i

 
n n   t i  
L ( , l)   
l 
t i
 1 
exp     
i 1   l  
n
   n
  n

L ( , l)    exp   l    t i  exp    1  Int i 
l   i 1   i 1 
On en déduit l’expression suivante de la log-vraisemblance :
n
InL ( , l)  Ink  n ( In   In )  l    Inti
i 1
Les équations aux dérivés partielles s’écrivent donc :
  n n

 InL( , l )    l  ti


 l l i 1

  InL  , l   n  1  Int   l   Inl t  t Int   Int
n n n

   i   i  i i  i
   i 1 i 1  i 1
On cherche donc les solutions du système suivant :

343
1 /
  1 n  
 l  
 n i1
 t i 

 n

 1  t i I n i
1 n
  i1
n
  In ti
n i1


i1

ti

La deuxième équation peut être résolue numériquement par un algorithme de


type Newton-Raphson qui converge vers ˆ pour autant qu’on lui fournisse une
valeur initiale pas trop éloignée. Ainsi en notant 
n , on utilisera la relation de récurrence :
tI n 
i i
1 n
    i  1
n

n
 I n t i


i  1
t 
i
i  1

  i 
   
i1 i
 '  i 
En pratique, cette valeur pourra être l’estimateur obtenu par la méthode des
quantiles sur l’ensemble des observations complètes en observant que :
  I n (1  p 2 ) 
In  
  I n ( Q p 2 )  I n  Q p 1  
 
I n ( Q p 2 )  I n Q p 1 
1
Avec Q p  F ( p ) la fonction quantile au point p. On rappelle que
toute fonction de répartition admet une fonction inverse généralisée définie par :
F  1 ( p )  inf  x ; F ( x )  p 
Dans le cas de la loi de Weibull, on vérifie aisément que :
F  1( p )  l   I n (1  p ) 
1 /

Une fois ˆ obtenu, lˆ s’en déduit grâce à la première équation.

3.3. Le modèle Gamma


Le modèle Gamma est une autre généralisation naturelle du modèle
exponentiel : supposons que la durée T r soit la durée d’attente de la réalisation
d’un service dans une file d’attente et que la file d’attente soit composée de r serveurs
indépendants et identiques qui traitent chacun une partie du service (ils sont donc
montés en série). On fait l’hypothèse que la durée de réalisation du traitement de
chacun des serveurs est une loi exponentielle de paramètre   0.
Alors la durée globale de service est la somme de r variables exponentielles

344
de même paramètre ; on en déduit que la durée de service est distribuée selon une

 ru r 1
loi Gamma de paramètre ( r ,  ) : S r ( t )   r
t
 1 !
e u d u

Démonstration : on utilise le fait que si L (a )  E (e  aT ) désigne la



transformée de Laplace au point a d’une loi exponentielle on a L ( a )  et
a
r
Tr est   
donc la transformée de Laplace de égale à LT r ( a )    ; on
a
reconnaît la transformée de Laplace au point a d’une loi Gamma167.
Cette loi s’appelle, lorsque r est entier, la loi d’Erlang ; on peut définir de même
un modèle de durée avec une loi Gamma dont le paramètre r n’est pas entier168. On
a l’expression suivante pour la fonction de hasard :
r  1   t
t e Le sens de variation de cette fonction est
h (t )   


r  1  
s e x d x
t

déterminé par la position de r par rapport à 1 :

r 1 r1
Les graphes ci-dessus mettent notamment en évidence le fait que la loi Gamma
n’est a priori pas adapté pour la modélisation de la mortalité humaine. La
décroissance très rapide du taux de sortie lorsque r1peut en revanche s’avérer en
phase avec le comportement du maintien en arrêt de travail. L’allure de cette
distribution est déterminée par la valeur de r ; en fonction de différentes valeurs de

167
Cela se vérifie aisément par un changement de variable dans l’intégrale.
n
168
Avec r et   1 / 2 on obtient la loi du Khi-deux à n degrés de liberté.
2

345
r on obtient le graphe ci-dessous169 :

L’espérance et la variance d’une loi Gamma sont données par :


r r
E (T )  e t V (T )  2
 
On déduit de ces expressions que le coefficient de variation d’une distribution
gamma est :
 (T ) 1
cv  
E (T ) r
On peut ainsi obtenir très simplement une estimation grossière du paramètre
de forme r en calculant l’inverse du carré du coefficient de variation.
On peut également vérifier que la fonction de hasard hr , est croissante si
r  1 et décroissante si r  1; de plus lim h r ,  ( t )   , ce qui signifie
t 

qu’asymptotiquement on retrouve le modèle exponentiel.


Démonstration : en effectuant le changement de variable u  x  t dans
l’expression de l’inverse la fonction de hasard, on met celle-ci sous la forme : 
 r 1
1  u 

u
 g (t , u )e du Avec g (t , u )   1   . Le résultat
h (t ) 0  t 
g
découle immédiatement de l’étude du signe de t , u  .
t

3.4. Le modèle de Gompertz-Makeham


Il s’agit du modèle de référence pour la construction de tables de mortalité et,
dans une moindre mesure, de tables de maintien en arrêt de travail. Il est défini par

169
Le graphe représente la densité de la loi Gamma.

346
la fonction de hasard suivante : h ( t )      
t

En démographie, la forme de cette fonction s’interprète de la manière suivante :


le paramètre  représente un taux de décès accidentel (indépendant de l’âge), le
terme en    modélise quant à lui un vieillissement exponentiel (si   1 ).
t

Incidemment on retrouve le modèle exponentiel si   0 . . Par rapport à d’autres


modèles, la fonction de Makeham a donc une ambition « explicative », ou
« physique », en intégrant explicitement deux causes de décès clairement identifiées.
De manière plus précise, si on considère que le décès peut survenir de deux causes
« concurrentes », l’accident et le vieillissement, la date de décès est de la forme
T  TA  TV , TA (resp.TV ) représentant le décès accidentel (resp. dû au
vieillissement). On suppose le décès accidentel modélisé par une loi exponentielle
de paramètre a, et le décès associé au vieillissement modélisé par la fonction de
hasard de Gompertz h (t )     t ; alors T suit une loi de Makeham. Cela
découle immédiatement du fait que la fonction de survie de T est le produit des
fonctions de survies de TA et TV , et donc les fonctions de hasard s’ajoutent. Un
calcul direct conduit aisément à l’expression de la fonction de survie :
  
S (t )  exp   t 
In ( )
  t  1  .
 
Le calcul de l’espérance de T est par contre complexe :
 
  t   t
1  In (  )
E (T )   e In ( y )
d t . * Mais S (t )  e  e  at  e ; on effectue alors le
0

changement de variable :
  du
u  t  e t  In (  ) ,  dy
In (  ) In (  ) In (  )
1 / In (  )
qui implique  I n (  )   e t puis :
 
  
   a / In ( y )
 In ( )  du
E (T  )  e In (  )   
 
u 

 e u
In ( )  u
In (  )
 a / In ( y )

1  In( )  
 
In( )   

eUn ( y )
  u  (1 a / In ( )) e  u du
In (  )


Avec le changement de variable v  u  on trouve
In( )

347
  (1  a / In (  ))
1  In (  ) 
E (T ) 
  
0 


v  1

 evdv

L’expression ci-dessus est complexe et on peut utiliser l’expression simplifiée


suivante :
 

E  (T )  e ( ,  ,  )   exp   t  In    
 1  .

t

t0 
Avec les valeurs « standards » des paramètres utilisés en mortalité humaine :
  
8,81E-06 3,83E-05 1,076207
On trouve l’allure suivante des taux de hasard en fonction de l’âge :

On peut noter graphiquement la croissance plus rapide du taux instantané de


décès avec l’âge que dans le cas d’une loi de Weibull (cf. 3.2 ci-dessus), qui est en
général mieux adapté à la mortalité humaine. On peut enfin observer que ce modèle
possède une propriété géométrique permettant, comme dans le cas d’un modèle de
Weibull, de valider graphiquement son adéquation aux données. En effet, en posant
  
s  e x p (   ) et g  exp    et en observant que
 In ( ) 
qx  In(1  qx )  In(s)   x (  1) In( g ), , on obtient que :
In ( q x  1  q x )  xIn ( )  In  (  1) 2 In ( g ) 
Sous l’hypothèse que les taux de mortalité suivent une loi de Makeham, les
points ( x, u  In(qx  1  qx )) , sont donc alignés sur une droite de pente In (  ).
. L’utilisation pratique de cette remarque sera développée ultérieurement.

348
4. Les modèles composites
L’objet de cette section est de décrire les principales caractéristiques des
modèles de base couramment utilisés dans un cadre paramétrique ou semi-
paramétrique, et faisant appel à un degré de sophistication supérieur à la simple
analyse d’un échantillon iid de loi paramétrique fixée a priori. Il s’agit de modèles
que l’on rencontre en général lorsque l’on est confronté à une population
hétérogène, composées d’individus avec des lois de survie différentes ; on a donc
choisit de désigner ces modèles sous le nom générique de « modèles composites »,
et ils diffèrent par la manière dont l’hétérogénéité est prise en compte.
Les modèles purement non paramétriques seront étudiés par ailleurs ; ils ne
sont pas évoqués ici.

4.1. Les mélanges de lois


4.1.1. Exemple introductif
On considère un système composé de deux éléments indépendants montés en
parallèle, chacun des éléments ayant une durée de vie de loi exponentielle, avec des
paramètres 1 et 2 La durée de vie de l’équipement est mesurée par T  T1  T2 ; ;
 t  t
la loi de T s’obtient facilement en observant que 1  S (t )  (1  e 2 )(1  e 2 )
. On en déduit que dans le cas général la fonction de hasard est d’abord croissante,
puis décroissante ; si 1  2 , la fonction de hasard est croissante. L’indépendance
temporelle est donc une propriété peu stable et elle se perd rapidement. On va voir
qu’elle se perd également dans le cas de l’agrégation de lois.

4.1.2. Agrégation de lois


Il arrive souvent en pratique que les durées que l’on observe résultent de
l’agrégation de sous-populations ayant chacune un comportement spécifique,
souvent inobservable. On parle alors d’hétérogénéité. On suppose ici que la
fonction de survie dépend d’un paramètre aléatoire v, ce paramètre étant distribué
selon une loi  . D’un point de vue heuristique, on se trouve en présence de sous-
populations à l’intérieur desquelles la loi de survie est homogène et décrite par la
loi de survie conditionnelle au fait que la valeur du paramètre soit v , S ( t , v ), la loi
 décrivant le poids respectif de chaque sous-population dans la population
totale.
On a donc la forme suivante pour la fonction de survie initiale de la population
totale :

349
S (t )   S ( t , v ) (dv) :
S ( t )  P (T  t )  E v  P (T  t v )    S ( t , v ) ( dv ).
La distribution d’hétérogénéité dépend a priori de t, puisque les individus des
différentes sous-populations ne sortent pas du groupe à la même vitesse. A la date
t , et en supposant la taille de la population infinie, on a ainsi : 
S (t , v )
 t (dv)   (dv)
S (t )
La fonction de hasard à la date t s’écrit alors  h ( t )   h ( t , v ) t ( d v ).
. En effet, il suffit de remarquer que :
u  1 P (T  t  u T  t )  u P (T  t  u T  t , v ) t ( d v )
1

puis de faire tendre u vers 0. Dans le cas particulier où 


S (t , v )  exp(   (v )t ), c’est-à-dire où chaque sous-population est décrite
par une loi exponentielle de paramètre h(t , v)   (v), la fonction de
survie agrégée s’écrit :

S (t )   e x p    ( v ) t  ( d v )
0

D’après l’expression ci-dessus de la fonction de hasard s’écrit donc 


h (t )    ( v ) t ( d v ) et on en déduit que :
dh(t )
 
2
   (v) t (dv)    (v) t (dv) .
dt
S (t , v )
En effet, de l’expression de  t (dv)   ( d v ) il découle :
S (t )
 d
S (t , v )  S (t )  S (t , v )  S ( t )

 t ( dv )  t dt  ( dv )
t S (t ) 2

 S '(t )
avec S ( t , v )    ( v ) S ( t , v ) et  h(t )     (v) t (dv). On
t S (t )
en déduit :
 (v)  S (t, v) S (t, v)  h(t )
 t (dv)   (dv)   (dv)  (v) t (dv)  h(t ) t (dv)
t S (t ) S (t )
d 
En écrivant
dt
h (t )    (v ) t t ( dv ) on trouve donc finalement :

350
d h (t )
    2 ( v ) t ( d v )  h ( t ) 2
dt
Ce qui est le résultat attendu. Cette égalité implique par l’inégalité de Schwarz
d h (t ) d h (t )
(ou en remarquant que   V  t (  ( v ) ) ) que  0; l’agrégation
dt dt
de fonctions de hasard constantes conduit donc à une fonction de hasard globale
décroissante. Ce phénomène s’explique par le fait que les individus ayant une valeur
élevée de (v) sortent en premier et il reste donc proportionnellement plus
d’individus à (v)  faible lorsque le temps s’écoule. Le taux de sortie est donc
logiquement décroissant. Ce phénomène porte le nom de « biais d’hétérogénéité »,
ou « mobile-stable ».
Exemple : mélange de 2 lois exponentielles La durée est ici une variable
exponentielle de paramètre 1 avec la probabilité p et 2 avec la probabilité 1  p
 2t
, soit S (t )  pe . La fonction de hasard a alors l’allure suivante :

On voit que le risque instantané peut être rapidement décroissant, alors même
que les 2 fonctions d’origine sont à risque constant.

4.2. Les modèles à hasard proportionnel


Il s’agit d’un modèle semi-paramétrique dans lequel on se donne une fonction
de survie de base,  B(t ) et on fait l’hypothèse que la fonction de survie du
phénomène observé est de la.
Forme S (t )  B(t ) , , pour un paramètre   0 inconnu. Il est immédiat
que la densité sous-jacente s’écrit f (t )   B(t ) 1 f (t ), , et la fonction de hasard
est donc de la forme :

351
f ( t ) f (t )
h ( t )     h (t )
S (t ) B (t )
La fonction de hasard est ainsi proportionnelle à la fonction de hasard de base
associée à   1 , d’où la dénomination de « modèle à hasard proportionnel ». Le
modèle exponentiel constitue un cas particulier de modèle à hasard proportionnel
dans lequel la fonction de hasard de base est constante égale à l’unité.
On peut remarquer que ces modèles satisfont la propriété suivante : si la
variable aléatoire T est associée à la fonction de survie S  ( t )  B ( t ) , alors
  

E (T )  
0
S (t )dt  
0
B(t ) dt ; ; or on reconnaît dans   (T )  
0
B ( t )  la

mesure de risque de Wang170 associée à la fonction de distorsion g ( x )  x


1
(appelée PH-transforma de paramètre ).

En spécifiant différents formes pour le coefficient de proportionnalité, on est
conduit à définir différentes classes de modèles.

4.2.1. Le modèle de Cox


Ce modèle peut intégrer des variables explicatives utilisées pour définir le
paramètre   0; pour cela on écrit   e '  avec z   z1, ..., zp  un
vecteur de p variables explicatives et   ( 1 ,...,  p ) le vecteur de paramètres ;
avec cette formulation on a :
p
In h ( t Z  z )  In h ( t )  
i 1
zi  i

et donc un modèle de régression linéaire. Ce modèle s’appelle le modèle de Cox. Il


peut être appréhendé de deux manières différentes, selon que la fonction de hasard
de base h est supposée connue (par exemple en supposant qu’il s’agit d’une d’un
modèle de Weibull) ou qu’elle est inconnue. Dans ce dernier cas, elle devient un
paramètre de nuisance de dimension infinie qui complique l’estimation des autres
paramètres.

4.2.2. Les modèles de fragilité


Dans le modèle de Cox on cherche à modéliser l’effet de variables explicatives

170
Voir par exemple PLANCHET et al. [2005] pour une présentation plus générale des mesures de
risque.

352
connues sur le niveau de la fonction de risque ; dans certaines situations, ces
variables sont inobservables, et on souhaite tout de même évaluer les conséquences
de ces variables inobservables sur la forme de la fonction de survie.

On repart de la formulation S  ( t )  S ( t  )  B ( t ) ou, de manière

équivalente,h (t )   h(t ), d’un modèle à hasard proportionnel, et on considère que


le paramètre  est une variable aléatoire ; en d’autres termes on se donne la loi de
survie conditionnelle au paramètre, et la loi globale s’obtient donc par intégration :

S ( t )   E B ( t ) 
l’espérance étant calculée par rapport à la loi de  . Cette expression est
analogue à l’expression S ( t )   S ( t , v ) ( d v ) obtenue à la section 4.1.2. Le
paramètre  s’appelle la « fragilité ». Ces modèles sont également parfois appelés
« modèles à effets aléatoires ».
Approche classique
Les modèles de fragilité ont été introduits par VAUPEL et al. [1979] pour
rendre compte de l’hétérogénéité individuelle dans un contexte de mortalité. Le
paramètre de fragilité permet en pratique d’introduire des différences de niveau de
mortalité entre les individus, en supposant que l’évolution de la mortalité avec l’âge
est identique pour tous les individus. L’hétérogénéité est alors modélisée via la
distribution du paramètre  . Dans VAUPEL et al. [1979] il est fait l’hypothèse
d’une distribution  ( r ,  ) :
 r r 1
 ( d  )  f r ,  ( )  ex p (    )
 (r )
que l’on choisit d’espérance 1, en imposant r 
et en considérant comme
paramètre de contrôle la variance    . Dans ce cas, et pour une population
2 1

observée depuis la naissance, on peut montrer que la fonction de hasard moyenne


de la population à l’âge t est de la forme : h ( t )  h ( t ) S ( t )  2
Avec S ( t ) l’effectif de survivants à l’âge t . Dans cette expression on a
S (t ,  )
h (t )   h  ( t ) ( d  )  h ( t )   t ( d  ) avec  t (d )   ( d  ).
t
S (t )
Par ailleurs, S ( t )   S ( t ,  ) ( d  ) Ce modèle a été généralisé par BARBI
[1999] qui a proposé, en supposant toujours une fragilité proportionnelle
initialement distribuée selon une loi Gamma, un modèle d’hétérogénéité appelé
« fragilité combinée », dans lequel en plus du paramètre  , on se donne une
distribution discrète  indépendante de  telle que :

353
h  , ( t )   h ( t , ) .
Cela revient à subdiviser la population initiale en sous-groupes chacun décrit,
conditionnellement au facteur de fragilité proportionnel  par une fonction de
risque qui lui est propre. Ce modèle est notamment utilisé dans BARBI et al. [2003]
pour étudier l’âge extrême de survie. Ces auteurs posent :
h (t , i )  a  e x p (bi  x )  c
ce qui revient à faire l’hypothèse que la mortalité globale observée est un mélange
de lois de Makeham (avec toujours l’hypothèse Gamma pour la distribution de
fragilité proportionnelle). La fonction de risque agrégée est alors de la forme :

2
h (x)   i ( x ) h ( x , i ) s x  ( x , i )
i

Avec  i ( x ) la proportion d’individus du groupe i survivant à l’âge x.


Approche alternative
Cette modélisation est également utile pour introduire de la dépendance entre
différentes durées de vie. On suppose pour cela que les durées observées,
T 1 , . . . , T n sont indépendantes conditionnellement à  et que les marginales
(conditionnelles) sont de la forme
S i ( t  )  B i ( t )  ; on en déduit directement l’expression de la fonction de
survie conjointe :
S ( t 1 , ..., t n )  E  B 1 ( t 1 ) ... B n ( t n ) )  
Dans ce cas le paramètre de fragilité s’interprète comme un élément
exogène qui modifie le comportement de l’ensemble des individus. En général la
fonction de survie de base est identique pour tous les individus et on a
 n 
S ( t1 , ..., t n )  E   B ( t i )  
 i 1 
Mais comme B ( t )  e x p (  H ( t )) où H est la fonction de hasard cumulée
de référence, cette expression se met sous la forme :
  n

S ( t1 , . . . , t n )  E  e x p     H ( t i )  
  i1 
On reconnaît dans le membre de droite la transformée de Laplace de la variable
n
 au point  H ( t ) . Lorsque
i 1
i  est distribué selon une loi stable de
paramètre  (c’est-à-dire que la transformée de Laplace de  est
E e s p (  x  )  e x p (  x  ) on obtient le modèle de Hougaard (cf. HOUGAARD
[2000]) avec la fonction de survie*

354

  n  
S (t1 ,..., t n )  exp       In (  InS (ti ) 1 /    ; on peut remarquer que
  i 1  
la loi conjointe étant de la forme  C ( S 1 , . . . , S n ) on définit ainsi une copule,
dite copule de Hougaard.

4.3. Les transformations croissantes de la durée


Il s’agit d’un modèle semi-paramétriques dans lequel on se donne une fonction
de survie de base, S ( t )  S ( t ) , et on fait l’hypothèse que la fonction de survie
du phénomène observé est de la forme S  ( t )  S (  t ) pour un paramètre.
  0 . La fonction de hasard s’écrit ici :
f (t ) f ( t )
h ( t )      h ( t )
S  (t ) S ( t )
et cette expression ne se simplifie pas comme dans le cas du modèle à hasard
proportionnel.
On peut toutefois remarquer que les deux approches sont équivalentes si et
seulement si la fonction de hasard est constante : en effet si le modèle est à hasard
proportionnel on doit trouver une fonction de hasard de base k telle que
h  ( t )   k ( t ) et donc les fonctions k et h doivent satisfaire l’égalité
k ( t )  h (  t ) , ce qui n’est possible que si les 2 fonctions sont constantes. On
est alors dans le cadre du modèle exponentiel.
Cette démarche peut être généralisée dès lors que l’on se donne une fonction
croissante   en considérant les fonctions de survie S  ( t )  S (  1 ( t ) ) ; cela
revient à étudier les variables, où T est la variable de base. La loi de Weibull en fournit
un exemple avec  ( t )  t 1 /  et une loi exponentielle (voir la section 3.2).

4.4. Les modèles à causes de sortie multiples


Dans certaines situations on est amené à distinguer entre différentes causes de
sortie ; par exemple en décès on s’intéresse à la cause du décès, en arrêt de travail
au motif de la sortie d’incapacité (retour au travail ou passage en invalidité), etc.
C’est typiquement ce qu’on fait lorsqu’on interprète le modèle de Makeham (voir
3.4 ci-dessus)
Si on note T1 , ..., Tn les variables de durée associées à chacune des causes étudiées,
la survie globale est simplement T  T1  ..  Tn ; sous l’hypothèse d’indépendance
des différentes composantes le modèle est simple et la fonction de hasard globale est la
somme des fonctions de hasard. Mais l’hypothèse d’indépendance peut être parfois

355
restrictive, et les modèles de fragilité fournissent un moyen simple de la relâcher. Cette
approche a été proposée initialement pas OAKES [1989].
On suppose donc que les durées associées à chaque cause, T1 , ..., Tn sont
indépendantes conditionnellement à  et que les marginales (conditionnelles)
sont de la forme S i ( t  )  B i ( t ) . On est alors ramené aux calculs proches de la

 n

section 4.2.2 ci-dessus et on trouve : S ( t 1 , . . .t n )  E 

 i1
B i (ti ) 

Exemple : avec deux causes de sortie distribuées chacune suivant une loi de
Weibull et une distribution du paramètre de mélange selon une loi stable de
paramètre  , on trouve 
S ( t )  exp   1t  1   2 t  2 ) 

 , qui est une
conséquence immédiate de E ( e x p (  x  ) ) e x p (  x  ) et de l’expression de la
fonction de survie de la loi de Weibull, S ( t )  e x p (   t  )

4.5. Les modèles à choc commun


L’idée est ici que la durée de survie dépend de deux facteurs, l’un propre à
l’individu et l’autre affectant la population dans son ensemble. Ce second facteur peut
être un facteur accidentel ou environnemental. On considère le modèle :
T i  X i  Z Avec S i la fonction de survie de X i et S z la
fonction de survie de Z . La loi conjointe du vecteur T1 ,...Tn  s’obtient en
observant que l’événement  X i  Z  t  est égal à  X i  t   Z  t  , ce qui
conduit à :
n
S ( t1 , ..., t n )  S
i 1
i ( t i )  S z (m ax( t1 , ..., t n ))

MARSHALL et OLKIN [1967] proposent par exemple une distribution


exponentielle pour Z.

5. Introduction à la prise en compte de censures et de troncatures


L’objet de cette section est simplement de donner quelques définitions, les
applications statistiques seront abordées ultérieurement.

5.1. Censure de type I : censure fixe


Soient un échantillon de durées de survie ( X 1 , ..., X n ) et C  0 fixé ; on dit
qu’il y a censure à droite pour cet échantillon si au lieu d’observer directement
(X 1 , ..., X n ) on observe ( T 1 , D n , ) , ..., ( T n , D n ) avec :

356
 1 si X i  C
Ti  X i  C et Di   On observe donc la sortie
 0 si Xi  C
uniquement si elle a lieu avant la date C. La vraisemblance du modèle associé aux
observations ( t1 , D 1 ), ..., ( T n , D n ) possède une composante continue et une
n
composante discrète ; elle s’écrit : L ( )   i 1
f  ( T i ) D i S  ( C ) 1  D i en

d’autres termes lorsqu’on a observé la sortie avant la censure, c’est le terme de


densité qui intervient dans la vraisemblance, et dans le cas contraire on retrouve le
terme discret, avec comme valeur la fonction de survie à la date de censure. La
distribution est donc continue par rapport à T i et discrète par rapport à D i

5.2. Censure de type II : « arrêt au r iéme décès »


Dans la situation précédente la date de fin d’observation était fixée à l’avance ;
si le phénomène observé est de faible fréquence, il peut être préférable de ne pas
fixer ex ante la date de fin d’observation, mais d’arrêter l’observation lors de la
survenance de la r iéme sortie. De manière plus formelle, on se donne un échantillon
de durées de survie  ( X 1 , ..., X n ) et r  0 fixé ; on dit qu’il y a censure de type
II pour cet échantillon si au lieu d’observer directement ( X 1 , . . . , X n ) on observe
( T 1 , D 1 ) , . . . , ( T n , D n ) avec :
 1 si X i  Ti
Ti  X i  X ( r ) etDi  
 0 si X i  Ti
iéme
avec X ( r ) la r statistique d’ordre de l’échantillon ( X 1 , . . . , X n ) .
La vraisemblance a une forme proche du cas de la censure de type I ; on
remarque pour l’écrire que, dans la partie discrète de la distribution, il convient de
choisir les instants des r sorties parmi n . Cela conduit à écrire :
n n
n! n!
L( )  
(n  r )! i 1
f (T
0 i ) Di
S (T
 i )1 Di
 
(n  r )! i 1
f0 (Xi )S (X( r ) )nr

5.3. Censure de type III : censure aléatoire


La censure de type III généralise la censure de type I au cas où la date de censure
est une variable aléatoire ; plus précisément, soient un échantillon de durées de
survie   ( X 1 , . . . , X n ) et un second échantillon indépendant composé de
variables aléatoires positives ( C 1 , ..., C n ) on dit qu’il y a censure de type III pour
cet échantillon si au lieu d’observer directement ( X 1 , . . . , X n ) on observe 

357
( T 1 , D 1 ) , . . . , ( T n , D n ) avec :
 1 si Xi  Ti
Ti  X i  C i et Di  
 0 si Xi  Ti
La vraisemblance se met ici sous la forme :
n n
L ( ) const  f  (Ti ) D i S  ( C i )1 D i  const  h (Ti ) D i S  (Ti )
i 1 i 1
Le terme const regroupe les informations en provenance de la loi de la censure, qui
ne dépend pas du paramètre. Dans ce cas la censure est dite « non informative » si
le mécanisme de censure est indépendant de l’événement étudié.

5.4. Troncature
On dit qu’il y a troncature gauche (resp. droite) lorsque la variable d’intérêt n’est
pas observable lorsqu’elle est inférieure à un seuil c  0 (resp. supérieure à un seuil
c  0 ) . La phénomène de troncature est très différent de la censure, puisque dans
ce cas on perd complètement l’information sur les observations en dehors de la plage :
dans le cas de la censure, on a connaissance du fait qu’il existe une information, mais
on ne connaît pas sa valeur précise, simplement le fait qu’elle excède un seuil ; dans le
cas de la troncature on ne dispose pas de cette information. La distribution observée
dans ce cas est donc la loi conditionnelle à l’événement c  T  C  .

Annexes : transformées de Laplace usuelles

358
Partie IV

Solvabilité 2

359
360
Chapitre 1
Zoom sur solvabilité 2

Solvabilité 2 (Solvency 2 en anglais) est une réforme réglementaire européenne


du secteur de l’assurance et, plus précisément, des règles européennes garantissant
la solvabilité des sociétés d’assurances. Cette réforme concerne tous les acteurs du
marché de l’assurance européen : assureurs, bancassureurs, mutuelles, institutions
de prévoyance, réassureurs, succursales d’assurances françaises de groupes
internationaux d’assurance…

1. Les objectifs de Solvabilité


1.1 Établir un cadre prudentiel européen harmonisé dans le secteur de l’assurance
En uniformisant les règles au niveau européen, l’objectif est de favoriser le
commerce communautaire en matière d’assurance.
Depuis les années 70, l’Union européenne promeut un marché unique des
biens, des services et des capitaux. La précédente directive d’harmonisation des
règles de solvabilité, Solvabilité 1, a été adoptée dans ce but afin d’éviter que des
écarts de réglementation nationale n’introduisent des distorsions de concurrence.
Solvabilité 2 a ainsi pour ambition de construire un marché unique européen
de l’assurance tout en corrigeant les insuffisances de Solvabilité 1 sur la prise en
compte des différentes natures des risques auxquels les sociétés d’assurance sont
exposées.

1.2 Améliorer la protection des assurés


Par une garantie d’une solvabilité « acceptable » des assureurs dans le temps et
une mesure plus précise de cette solvabilité.
La solvabilité est la capacité pour un assureur à respecter les engagements de
long terme qu’il prend auprès de ses clients.

361
La réforme Solvabilité 2 modifie donc les règles de solvabilité des sociétés
d’assurances pour garantir à leurs assurés l’ensemble des engagements souscrits.

1.3 Créer un cadre prudentiel plus adapté aux risques réels pesant sur les
compagnies d’assurance
Par le passage d’une mesure simplifiée de la solvabilité (Solvabilité 1) à une
mesure précise des risques réels pris par les sociétés d’assurances (Pilier 1) laquelle
est encadrée par des règles et une gouvernance.
Le niveau des capitaux propres devra être proportionné au risque des passifs et
actifs détenus par les assureurs : ainsi plus un actif sera risqué, plus les capitaux
propres réglementaires ou exigence en capital correspondants devront être élevés.

1.4 Encourager au pilotage et à la gestion des risques


En plaçant la gestion des risques au centre des orientations stratégiques.
Solvabilité 2 a ainsi pour ambition d’introduire une nouvelle culture de la
gestion du risque :
• Adopter une vision économique du bilan
• Evaluation cohérente avec les marchés
• Apprécier la solvabilité globale des compagnies
• Approche intégrée des risques assumés
• Approche basée sur des principes et non sur des règles strictes

1.5 Renforcer la cohérence de traitement entre les secteurs bancaire et assurantiel


Solvabilité 2 se situe clairement dans la lignée de Bâle 2 qui possède les mêmes
objectifs mais qui s’applique au secteur bancaire.
A noter que la crise financière de 2007 a mis en évidence les insuffisances de
Bâle 2 qui est en cours de révision par les accords de Bâle 3.

362
2. Présentation générale de la réforme Solvabilité 2

Solvabilité 2 repose sur 3 piliers ayant chacun un objectif :

2.1 Pilier 1 – Les exigences quantitatives


Qui ont pour objectif de définir les normes quantitatives de calcul des
provisions techniques et des fonds propres.
Ces niveaux règlementaires sont définis pour les fonds propres par le MCR et
le SCR :
• MCR (Minimum Capital Requirement) représente le niveau minimum de
fonds propres en dessous duquel l’intervention de l’autorité de contrôle sera
automatique.
• SCR (Solvency Capital Requirement) représente le capital cible nécessaire
pour absorber le choc provoqué par un risque majeur (par exemple : un sinistre
exceptionnel, un choc sur les actifs…).

363
Le SCR est défini plus précisément comme le montant de fonds propres
nécessaire pour éviter la ruine à un horizon de 1 an avec une probabilité de 99,5 %.
C’est donc le niveau de perte qui est atteint en moyenne une année sur 200 ans.

2.1 Pilier 2 – Les exigences qualitatives


Qui ont pour objectif de définir les normes qualitatives de suivi des risques en
interne aux sociétés et, en particulier, le système de gouvernance et de management
des risques. Il encourage les compagnies à être bien gérées en adoptant la démarche
ERM (Enterprise Risk Management) afin qu’elles soient en mesure par elles-mêmes
de calculer et de maîtriser leurs risques.
Le pilier 2 définit aussi les pouvoirs de surveillance de l’autorité de contrôle.
Au-delà de la simple validation d’une série de points à contrôler, le régulateur aura
les pouvoirs de contrôler la qualité des données et des procédures d’estimation, des
systèmes mis en place pour mesurer et maîtriser les risques au cas où ils se
matérialiseraient.
L’autorité de contrôle aura aussi le pouvoir d’imposer sous certaines conditions
une marge de solvabilité complémentaire (capital add-on) et/ou de réduire leur
exposition aux risques, dans le cas où il aura été jugé que les risques ont été mal
appréciés par la compagnie.

2.3 Pilier 3 – Les exigences d’informations


Qui ont pour objectif de définir l’ensemble des informations détaillées
auxquelles le public aura accès, d’une part, et auxquelles les autorités de contrôle
pourront avoir accès pour exercer leur pouvoir de surveillance, d’autre part.
Par rapport à Solvabilité 1, les assureurs devront communiquer beaucoup plus
largement sur leur solvabilité et leur gestion des risques vers le superviseur et le
public. Solvabilité 2 introduit aussi un changement de rythme de production de ces
documents ou reporting : une production trimestrielle de certains reporting en 6
semaines à terme et une production annuelle de certains reporting en 16 semaines.
Il est à noter que le rôle de l’actuaire dans la production de ces états va devenir
prépondérant : environ 40 % des informations sont jugées actuarielles.

364
3. Le calendrier de solvabilité 2

3.1 La Directive Solvabilité 2


(Directive 2009/138/CE) a été votée le 22 avril 2009 par le Parlement Européen
et fixe les grands principes de la réforme. Elle a été révisée par la Directive Omnibus
2 qui a été adoptée le 21 mars 2012 par la commission économique du Parlement
européen. Cette directive offre aux différents acteurs de l’assurance un an de
préparation entre l’adoption des textes prévue pour le 1er janvier 2013 et la date
d’application de Solvabilité 2 prévue le 1er janvier 2014

3.2 Les prochaines étapes


• 11 avril 2012 : Premier trilogue ou discussions entre le Parlement européen,
la Commission européenne et le Conseil sur la Directive Omnibus 2
• 2 juillet 2012 : Vote au Parlement européen du texte définitif d’Omnibus 2
• Septembre 2012 : Parution du texte définitif au « Journal officiel »
• Janvier 2013 : Date limite pour l’adoption et la transposition de tous les textes
définissant le cadre réglementaire de Solvabilité 2 dans tous les Etats membres

365
• 2013 : Début de la mise en œuvre de Solvabilité 2, mais Solvabilité 1 reste
applicable
• Janvier 2014 : Entrée en application de Solvabilité 2
En plus de ces 2 directives (Solvabilité 2 et Omnibus 2), la réforme repose sur des
mesures d’application qui permettent de définir et calibrer les nouvelles règles
prudentielles du marché de l’Assurance et de la Réassurance dans l’Union européenne.
Ce calibrage de la réforme est crucial : de lui dépend l’impact réel de la réforme
Solvabilité 2.
Avant de choisir les mesures d’application, la Commission européenne a
réalisé entre 2006 et 2010 des simulations afin de tester l’impact et l’efficacité de ces
mesures : ce sont les études quantitatives d’impact, ou QIS (Quantitative Impact
Studies) en anglais. Le 5ème et dernier QIS a été réalisé entre août et novembre 2010.
Parallèlement les eurodéputés étudient dans le cadre d’Omnibus 2 la possibilité
de transférer la compétence de la Commission européenne au superviseur européen
l’EIOPA (European Insurance and Occupational Pensions) sur certains mesures
d’application notamment le calibrage de l’exigence en capital. L’EIOPA (ex.
CEIOPS Committee of European Insurance and Occupational Pension
Supervisors) a déjà été mandaté par la Commission européenne pour élaborer des
recommandations sur les différentes problématiques de la nouvelle norme : ce sont
les papiers de consultation, ou CP (Consultation Paper) en anglais.

Conclusion
La nouvelle Directive Omnibus 2 a permis de donner un délai
supplémentaire aux différents acteurs de l’assurance. Ainsi, si les assureurs se
disent prêts à appliquer Solvabilité 2 pour ses piliers 1 et 2, il reste encore à
finaliser les chantiers relatifs au pilier 3.
Solvabilité 2 doit ainsi permettre de mieux garantir la solvabilité des assureurs
grâce à une mesure plus précise des risques et à un système de gestion des risques
plus performants.
Les textes ne sont cependant pas totalement finalisés et font l’objet de
discussions entre les acteurs économiques et politiques. La FFSA considère ainsi
que l’entrée en vigueur de Solvabilité 2 ne peut se faire qu’à certaines conditions,
sous peine de déstabiliser les entreprises d’assurances et de remettre en cause leur
rôle de financeur de l’économie.
Même si Omnibus 2 introduit des mesures de transitions spécifiques à certains
sujets clés afin d’éviter toute entrée brusque dans le nouveau cadre réglementaire,
il existe en effet un risque que les assureurs ne financent plus autant qu’avant
l’économie et les entreprises.

366
Enfin, il est à signaler que le Parlement européen a pris du retard dans
l’examen de la directive Omnibus 2, ce qui pourrait retarder la date de son entrée
en application.

4. Le pilier I de Solvabilité I
La réforme Solvabilité 2 repose 3 piliers ayant chacun un objectif différent et
complémentaire.
Après la présentation générale de la réforme dans le ZOOM SUR… du mois
d’avril, nous présentons le pilier 1 qui correspond aux exigences quantitatives de
Solvabilité 2 et plus précisément aux éléments suivants :
– L’évaluation des actifs et des passifs en « full fair value ».
– Les exigences de capital : MCR, SCR
– Les exigences de fonds propres : Définition des éléments éligibles de capital
– Les exigences de provisions techniques : Nouvelles normes quantitatives de
calcul
– Les exigences de règles d’investissement

4.1 L’évaluation des actifs et des passifs


Solvabilité 1 se base sur le principe de coût historique où les actifs et les passifs
sont comptabilisés à leur valeur d’achat ou de revient avec des possibilités de
dépréciation (normes comptables françaises French GAAP).
La réforme Solvabilité 2 modifie les principes d’évaluation du bilan avec le
passage en « full fair value ». C’est une généralisation du principe de « fair value »
(Juste Valeur) qui s’applique aussi bien aux actifs qu’aux passifs du bilan.
Cette nouvelle approche est dans les grandes lignes cohérente avec les principes
des normes comptables internationales IFRS (International Financial Reporting
Standards). Elle permet d’uniformiser les règles comptables pour faciliter les
comparaisons entre sociétés à un niveau international et favoriser le commerce
communautaire en matière d’assurance.
La juste valeur est le montant pour lequel un actif pourrait être échangé, ou un
passif éteint, entre parties bien informées, consentantes et agissant dans des
conditions de concurrence normale. Ce n’est pas le montant qu’une société
toucherait dans le cadre d’une liquidation, d’une transaction contrainte ou réalisée
dans l’urgence.
Le concept de « Juste Valeur » consiste donc à réaliser une évaluation économique
des actifs et des passifs, c’est-à-dire à leur donner une valeur de marché. Il permet de
donner via la comptabilité une image plus économique et plus réelle de la valeur de
l’entreprise en rapprochant la valeur comptable de la valeur de marché.

367
Les actifs et les passifs sont valorisés par ordre de préférence selon les
méthodes suivantes :

Méthode Valorisation des actifs et des passifs :

Mark-to- en valeur de marché (prix ou cours du marché) si le marché est


Market : actif et liquide

Mark-to- selon un modèle mathématique (projections actualisées de flux


Model : de trésorerie)

Simplifiée ou par des prix de transaction d’éléments similaires ou par des


proxy : modèles simplifiés

Quand la valeur économique n’est pas appropriée, les actifs et les passifs sont à
défaut évalués selon la valeur comptable nationale.

4.2 Les exigences du capital


C’est la partie centrale du pilier 1 et de la réforme Solvabilité 2 qui consiste
à définir les normes quantitatives pour mesurer les besoins de solvabilité des
sociétés d’assurances.
Solvabilité 1 mesure les besoins de solvabilité par des méthodes de calcul
simplifiées. L’exigence de capital ou de marge de solvabilité est ainsi calculée de
manière forfaitaire comme un pourcentage des provisions mathématiques en
assurance vie et un pourcentage de primes et de sinistres en assurance non-vie.
Dans le cadre réglementaire actuel, deux entreprises d’assurances avec le même
montant de primes et de sinistres auront donc la même exigence de marge de
solvabilité quelle que soit le produit commercialisé et leur politique
d’investissement.
Solvabilité 2 mesure les besoins de solvabilité de manière plus précise au travers
des indicateurs du MCR et surtout du SCR qui prend en compte les risques réels
pris à l’actif ou au passif par les sociétés d’assurances. Le MCR est calculé et publié
une fois par trimestre alors que le SCR est calculé et publié une fois par an (sauf
événements significatifs).
Le MCR (Minimum Capital Requirement) représente le niveau minimum
de fonds propres en dessous duquel l’intervention de l’autorité de contrôle sera
automatique. En cas de constatation de non-conformité du minimum de capital
requis, l’entreprise dispose d’un mois à compter de la constatation pour présenter
un plan de financement réaliste. Le MCR doit être recouvert dans un délai de trois

368
mois, sinon l’agrément est retiré.
Le MCR est calculé selon une fonction linéaire calibrée de tout ou partie de
certaines variables (provisions techniques, primes, etc.). Il est assez similaire au
mode de calcul du besoin minimum en marge de solvabilité dans Solvabilité 1. La
formule du MCR doit être en effet simple (pas de modèle interne autorisé), robuste
et facilement auditable.
Le MCR doit assurer un niveau de prudence suffisant, d’où l’existence de
plancher absolu par type d’activité (entre 2,2 M€ et 3,2 M€). En outre, il doit se
situer dans un corridor de 25-45 % du SCR. Le MCR correspond en effet
théoriquement à une VaR (Value-at-Risk ou valeur en risque) à 1 an d’environ
80 %-90 %, c’est-à-dire une probabilité de ruine de 10 à 20 %.
Le SCR (Solvency Capital Requirement) représente le capital cible
nécessaire pour absorber le choc provoqué par un risque majeur (par exemple :
un sinistre exceptionnel, un choc sur les actifs…). En cas de constatation de non-
conformité du capital de solvabilité requis, l’entreprise dispose de deux mois à
compter de la constatation pour soumettre un programme de rétablissement
réaliste à l’approbation de l’autorité de contrôle. Le SCR doit être recouvert dans un
délai de six mois.
Le SCR est le seul indicateur à être fondé sur l’exposition aux risques, en
incorporant tous les risques liés à l’activité de la compagnie, c’est-à-dire
principalement : le risque de souscription, le risque de marché, le risque de crédit,
le risque de liquidité et le risque opérationnel.
Le SCR correspond à la VaR avec un niveau de confiance de 99,5 % à l’horizon
d’un an, c’est-à-dire au niveau de capital requis tel que la probabilité de ruine
économique à 1 an soit inférieure à 0,5 %. Cette définition est souple car la directive
précise que le seuil et l’horizon peuvent être différents pourvu que cela conduise à
une mesure de risque « équivalente ». En pratique, cette « équivalence » parait
difficile à établir, et les sociétés d’assurances s’en tiennent en général à la mesure
préconisée dans la directive pour le calcul du SCR.

369
Pour déterminer leur SCR, les sociétés d’assurances ont 3 possibilités :
• Utiliser la formule standard du calcul du SCR (correspondant au profil
moyen d’une compagnie d’assurance défini à l’aide des QIS). C’est une méthode de
calcul du SCR simplifiée et identique pour toutes les compagnies.
• Mettre en place un modèle interne, qui sera soumis à l’approbation des
autorités de supervision. Ce modèle ne devra pas se restreindre à un simple calcul
mathématique du SCR, il devra être utilisé à des fins stratégiques et être intégré dans
la gestion des risques spécifiques à l’organisme. Il doit avoir un rôle d’aide à la
décision et non de pilotage automatique.
• Mettre en place un modèle partiel interne. C’est l’utilisation conjointe de la
formule standard pour le calcul de certains risques et d’un modèle interne pour le
calcul des autres risques. Un tel système donne ainsi la possibilité aux assureurs de
faire approuver la modélisation de certains risques tout en poursuivant le
développement d’un modèle intégral.
Le calcul du SCR tient compte également des techniques d’atténuation des
risques utilisés par la compagnie ainsi que des risques impliqués par l’utilisation de
ces techniques : réassurance, titrisation, produits dérivés.

4.3 Les exigences des fonds propres


Solvabilité 1 détermine si les sociétés d’assurance sont solvables ou non en
comparant le besoin de marge de solvabilité avec la marge de solvabilité constituée
et définie à partir d’un bilan French GAAP : fonds propres – actifs
incorporels + plus-values latentes

370
La réforme Solvabilité 2 compare le besoin en fonds propres défini par 2
niveaux (MCR et SCR) et les éléments éligibles de capital définis à partir d’un
bilan Full Fair Value : fonds propres de base (au bilan) + fonds propres
auxiliaires (hors-bilan)
Un élément de fonds propre doit présenter des caractéristiques de disponibilité
et de subordination :
• Disponibilité : Un élément de fonds propre est disponible s’il peut être appelé
sur demande pour absorber des pertes que ce soit dans le cadre d’une exploitation
continue ou en cas de liquidation.
• Subordination : Un élément de fonds propre est subordonné si, en cas de
liquidation, il est disponible pour absorber des pertes et son remboursement est
refusé à son détenteur jusqu’à ce que tous les autres engagements d’assurance et de
réassurance vis-à-vis des assurés soient honorés.
Les fonds propres de base sont constitués de l’excédent des actifs par rapport
aux passifs (les capitaux propres réglementaires) et des passifs subordonnés.
Les fonds propres auxiliaires sont constitués de la fraction non versée du
capital social, des lettres de crédit et des garanties, et des autres engagements
équivalents et contraignants.
Solvabilité 2 décompose les fonds propres en tiers (tier 1 à tier 3) en fonction
de leur capacité à absorber les pertes. Selon leurs caractéristiques, les fonds propres
de base peuvent être classés en fonds propres de rang 1, 2 ou 3. Les fonds propres
auxiliaires peuvent être classés en fonds propres de rang 2 ou 3.
La couverture du besoin en solvabilité se fait selon des règles différentes
selon qu’il s’agisse du MCR ou du SCR :
• Le MCR est couvert par des fonds propres de base qui peuvent être de rang 1
et 2 avec un minimum de 80 % de tier 1.
• Le SCR est couvert par les fonds propres de rang 1, 2 et 3 avec un minimum
de 50 % de tier 1 et un maximum de 15 % de tier 3.

371
4.4 Les exigences des provisions techniques
Solvabilité 1 préconise de respecter un principe de prudence dans le calcul des
provisions techniques afin de garantir que les sociétés d’assurances puissent faire
face aux engagements pris à l’égard de leurs assurés.
Ce principe de prudence se matérialise lors du choix des hypothèses de calcul
qui doivent être prudentes : taux d’intérêt technique et table de mortalité
prudentiels, absence d’actualisation dans le calcul des IBNR, etc.
La réforme Solvabilité 2 modifie les normes de calcul des provisions techniques
avec le passage en bilan Full Fair Value. Comme les actifs, les passifs et donc les
provisions techniques sont évalués de manière économique, c’est-à-dire de la
manière la plus juste possible (concept de « Juste Valeur ») ni trop prudentes, ni
trop peu. Solvabilité 2 a pour effet d’extérioriser la prudence implicite dans les
provisions et déplace la frontière entre les fonds propres et les provisions.
Solvabilité 2 distingue deux types de risques d’assurance :
• Les risques couvrables (hedgeable), pour lesquels une valeur de marché est
disponible. Ces risques constituent l’exception (exemple : Epargne en unités de
compte sans garantie plancher). Dans ce cas, le montant des provisions est le prix
de marché d’un instrument financier qui répliquerait les flux du contrat d’assurance
(méthode Mark-to-Market).
• Les risques non couvrables (non hedgeable), pour lesquels aucune valeur de
marché n’est disponible.
Dans le cas de risques non couvrables, Solvabilité 2 prescrit l’utilisation d’une
valeur cohérente avec le marché qui se base sur la notion de valeur de transfert ou
d’échange (current exit value) : la valeur des provisions techniques est égal au
montant actuel qu’une entreprise d’assurance devrait payer si elle transférait ses
engagements à une autre entreprise d’assurance.
Solvabilité 2 exige de décomposer la valeur des provisions techniques en
deux éléments :
• Une Meilleure Estimation (Best Estimate) : définie comme la valeur actuelle
probable des flux de trésorerie futurs calculée sur la base d’informations actualisées,
crédibles et d’hypothèses réalistes et sur la base de la courbe des taux sans risque
pertinents.
• Une Marge de Risque (Risk Margin) : définie comme le montant au-delà du
Best Estimate qu’une entreprise d’assurance ou de réassurance demanderait pour
reprendre et honorer les engagements d’assurance et de réassurance. La marge de
risque est calculée suivant la méthode dite du « coût du capital ». Cette méthode
consiste à calculer le coût de la mobilisation d’un montant de fonds propres éligibles

372
égal au SCR nécessaire pour assumer les engagements d’assurance et de réassurance
sur toute leur durée de vie.
Des méthodes simplifiées ou proxies peuvent être employées dans certains cas,
mais sous certaines conditions. Il s’agit de méthodes actuarielles ou de techniques
statistiques qui sont proportionnelles à la nature, à l’échelle et à la complexité des
risques envisagés. Les méthodes simplifiées doivent fournir des résultats cohérents
et proches de ceux qui seraient fournis par un processus d’évaluation plus
complexe.

4.5 Les exigences des règles d’investissements


Solvabilité 1 a mis en place des règles prudentielles concernant les placements
des sociétés d’assurance pour garantir leur solvabilité. Ainsi, les sociétés d’assurance
doivent posséder un montant suffisant d’actifs sûrs, liquides et rentables au regard
de leurs engagements représentés par leurs provisions techniques.
En particulier, les sociétés d’assurance doivent respecter des règles de
dispersion, c’est-à-dire des règles de diversification relatives à la composition de
leur actif. Afin de minimiser les risques de marché pesant sur l’actif des compagnies,
la réglementation impose ainsi que la valeur au bilan de toutes les catégories d’actif
ne peut excéder 65 % pour les actions, 40 % pour les actifs immobiliers et 10 % pour
les prêts.
La réforme Solvabilité 2 soumet les investissements financiers au principe
de la « personne prudente » qui laisse libre les sociétés d’assurance d’investir
leurs actifs dans les produits financiers qu’ils souhaitent.
Solvabilité 2 abandonne les règles strictes de dispersion, mais s’assure que les
sociétés d’assurance choisissent des investissements financiers qu’elles sont
capables de gérer. Surtout, la réforme permet de garantir la sécurité, la qualité, la
liquidité et la rentabilité de l’ensemble du portefeuille d’actifs au travers du calcul
du SCR. Celui-ci tient compte en effet de tous les risques quantifiables et, en
particulier, de la qualité de crédit et de la liquidité des actifs.

Conclusion
En résumé, voici les comptes des sociétés d’assurance vus sous les régimes
Solvabilité 1 et 2 :

373
La réforme Solvabilité 2 introduit une comptabilité supplémentaire, ce qui
porte à 3 le nombre de comptes à établir :
• Comptes sociaux pour l’établissement des déclarations fiscales,
• Comptes IFRS pour les états financiers,
• Comptes réglementaires dérivés pour le calcul du besoin en marge de
solvabilité.
En situation de marché financier favorable, le passage en « Full Fair Value »
a pour effet en moyenne de :
• Augmenter le total du bilan : intégration à l’actif du stock de plus-values
latentes, net d’impôts différés, diminution du montant des provisions cédées à
l’actif.
• Diminuer les provisions : effet de l’actualisation en non-vie et de
l’extériorisation des marges de prudence, mais intégration des Participations aux
Bénéfices futures au passif.
• Augmenter le poste fonds propres : part des actionnaires dans les plus-
values latentes, effet de l’extériorisation des marges de prudence présentes dans les
provisions, la valeur des profits futurs apparaît dans les fonds propres.

374
Les résultats des QIS montrent que les effets du passage en « Full Fair Value »
varient selon les entreprises et selon les branches.
Le CRO Forum (Chief Risk Officer : organisme qui regroupe les principaux
acteurs européens du marché de l’assurance) a mené une étude sur la comparaison
entre la formule standard et l’utilisation d’un modèle interne. D’après cette étude,
le modèle interne permet de diminuer de façon importante l’exigence de fonds
propres.
L’utilisation d’un modèle interne est donc crucial pour les sociétés
d’assurance, mais les contraintes associées sont importantes. En particulier, il
faut justifier son utilisation à l’autorité de contrôle, sinon c’est la formule
standard qui s’applique.

5. LE pilier II de Solvabilité 2
La réforme Solvabilité 2 repose 3 piliers ayant chacun un objectif différent et
complémentaire.
Après la présentation du pilier 1 dans le ZOOM SUR… du mois de mai, nous
présentons le pilier 2 qui correspond aux exigences qualitatives de Solvabilité 2 et
plus précisément aux éléments suivants :
– Les autorités de contrôle
– Le système de gouvernance et de management des risques
– Le renforcement du contrôle interne et de la gestion des risques : ORSA
– Le renforcement de la fonction actuarielle

5.1 Les autorités de contrôle


Le pilier 2 définit les normes qualitatives de suivi des risques en interne par
les sociétés, mais aussi les règles de contrôle.
De ce point de vue, c’est le pilier du processus de contrôle prudentiel
effectué par le superviseur.
Les superviseurs porteront une attention particulière à ce pilier, dans la mesure
où celui-ci se situe au cœur de la philosophie de Solvabilité 2 : s’assurer de la
maîtrise par les sociétés d’assurance de leurs risques et veiller à leur correcte
capitalisation.
S’agissant des contrôles, les superviseurs ne pouvant ni tout contrôler ni
contrôler de façon exhaustive, l’idée centrale est que l’entreprise d’assurance doit se
contrôler elle-même. Par contre, il revient aux superviseurs de vérifier ce contrôle
interne.
Le pilier 2 définit précisément dans les articles 27 à 39 les modalités de contrôle
des sociétés d’assurance par le superviseur. Les autorités de contrôle doivent ainsi

375
revoir régulièrement et évaluer la situation de risque de l’assureur du point de vue
quantitatif et qualitatif en relation avec son activité et sa taille (principe de
proportionnalité).
La revue des autorités de contrôle doit comprendre la situation courante et
la situation potentielle future.
Elle couvre :
• Le système de gouvernance
• La gestion des risques
• Les provisions techniques
• Le capital règlementaire et le capital disponible
• Les investissements et leur gestion
• Les modèles standards et les modèles internes
En particulier, les superviseurs devront vérifier que les modèles internes
permettant de calculer l’exigence prudentielle de capital décrivent bien la réalité de
l’entreprise et cela, au fil des années.
Avec le pilier 2, les pouvoirs de surveillance de l’autorité de contrôle seront
étendus. L’autorité de contrôle aura ainsi le pouvoir d’imposer sous certaines
conditions une marge de solvabilité complémentaire (capital add-on) et/ou de
réduire l’exposition aux risques des compagnies. Tout écart quantitatif ou qualitatif
par rapport aux standards attendus pourra donc être sanctionné par l’autorité de
contrôle.
La réforme Solvabilité 2 introduit un nouveau processus de supervision,
fondé sur un dialogue permanent avec le régulateur et oùl’entreprise a la
« charge de la preuve ».

5.2 Le système de gouvernance et de management des risques


Le pilier 2 définit les exigences qualitatives comme un système de
gouvernance et de management des risques. Les entreprises d’assurance doivent
ainsi mettre en place un système de gouvernance efficace qui garantisse une gestion
saine et prudente de l’activité.
Le système de gouvernance et de management des risques est défini dans un
sens très large dans l’article 41 de la directive.
Il comprend les exigences suivantes :
• Des personnes clés « honorables et compétentes » (« fit and proper »)
• Un processus régulier d’évaluation interne des risques et de la solvabilité
(ORSA)
• Une fonction de gestion des risques efficace et associée à la prise de décision

376
• Une fonction de contrôle interne composé notamment d’une fonction de
conformité
• Une fonction d’audit interne indépendante des fonctions opérationnelles
• Une fonction actuarielle chargée de coordonner les calculs (provisions,
SCR…)
• Une maîtrise des risques conservée sur les activités externalisées (règles pour
la sous-traitance)
Le système de gouvernance doit être proportionné à la nature, la taille et la
complexité de la compagnie (principe de proportionnalité). Il est sujet à revue par
les autorités de contrôle qui peuvent en demander l’amélioration ou le
renforcement.
La gouvernance de l’assureur doit répondre à certaines conditions pour être
suffisante : une organisation claire et adaptée aux risques et à la société, des
responsabilités clairement établies, un système efficace de transmission de
l’information et l’existence de politiques écrites approuvées par l’organe
d’administration qui en garantit la mise en œuvre ainsi que la mise à jour au moins
une fois par an.
Le système de gouvernance comprend ainsi 4 fonctions clés : la fonction de
gestion des risques, la fonction de vérification de la conformité, la fonction d’audit
interne et la fonction actuarielle. Toutes les sociétés d’assurance doivent mettre en
place un dispositif de maîtrise des risques et de contrôle comprenant ces fonctions-
clés.
Le pilier 2 définit plus précisément la fonction de gestion des risques ou risk
management dans l’article 44 de la directive. Les entreprises d’assurance doivent
adopter la démarche ERM (Enterprise Risk Management) afin qu’elles soient en
mesure par elles-mêmes de calculer et de maîtriser leurs risques.
Le processus ERM vise à assurer que le niveau de risque pris soit réfléchi et
maîtrisé.
Il comporte les éléments suivants :
• L’identification et suivi des risques
• L’évaluation des risques
• La définition de la stratégie par rapport aux risques : réassurance et autres
techniques d’atténuation du risque
Le dispositif de gestion et de contrôle des risques doit identifier, évaluer tous
les risques et pas seulement ceux qui sont pris en compte dans la formule standard.
Il doit par exemple prendre en considération le risque de crédit, le risque stratégique
et le risque de réputation.
Le système de management des risques à travers la fonction risk

377
management a notamment pour objectif de suivre et de gérer le risque
opérationnel à travers une approche qualitative et quantitative. Le risque
opérationnel est défini comme le risque de perte résultant de l’inadaptation ou la
défaillance de procédures, de personnes (fraudes, défaut de conseil…), de systèmes
internes (SI…) ou d’évènements extérieurs (incendies, évolutions
réglementaires…).
Le risque opérationnel est évalué selon deux dimensions :
• La sévérité : de mineure à sévère
• La probabilité (fréquence) : de faible à très élevée
La matrice des risques opérationnels permet de représenter les risques
opérationnels auxquels sont confrontées les compagnies :

Le dispositif de gestion et de contrôle des risques doit mettre en place des


mesures de prévention pour diminuer la fréquence de ces risques et des mesures de
protection pour en diminuer leur sévérité.
A noter que la fonction actuariat est au centre des préoccupations. Du fait
de sa participation aux processus essentiels (tarification, provisionnement,
solvabilité, etc.), elle est sujette plus que toute autre à de nombreux
dysfonctionnements (mauvais choix de modèles, calculs erronés, pertes ALM,
retrait d’agrément, etc.).
En cas d’externalisation d’une activité ou d’une fonction, la compagnie ne peut

378
se soustraire à ses obligations au titre de Solvabilité 2. L’article 49 permet à
l’entreprise d’assurance d’externaliser ses activités, mais celle-ci doit alors respecter
certaines conditions :
• Elle est responsable de la conformité du contrat d’externalisation à la directive
Solvabilité 2,
• Elle doit s’assurer que le processus d’externalisation ne conduise pas à une
dégradation de la gouvernance et à une augmentation du risque opérationnel.
L’entreprise doit mettre en place un dispositif de contrôle de
l’externalisation de toute fonction ou activité et informer les autorités de
contrôle de l’outsourcing et de toute modification. L’assureur doit ainsi
superviser et revoir le prestataire et la documentation doit être dans les standards
de Solvabilité 2.
Enfin, quand l’entreprise utilise un modèle interne complet ou partiel, la
fonction de gestion des risques a pour mission de concevoir et mettre en place le
modèle interne, mais aussi de le tester et le valider. Le modèle interne, qu’il soit
total ou partiel, doit pouvoir être ensuite approuvé par le superviseur. La fonction
de gestion des risques doit alors fournir au superviseur une documentation
complète de manière à prouver que les exigences de la Directive Solvabilité 2 sont
bien respectées.
Pour que le modèle interne soit validé par le superviseur, il est important en
particulier de pouvoir démontrer que le modèle est approprié en interne par les
instances de décision, qu’il est compris et effectivement utilisé, en somme qu’il joue
tout son rôle dans le système de gouvernance. Les méthodes de calcul utilisées par
le modèle doivent être adéquates et fondées sur des hypothèses crédibles.
L’entreprise doit pouvoir expliquer les écarts éventuels entre les hypothèses sous-
jacentes du modèle et celles de la formule standard. Le modèle doit bien entendu
couvrir tous les risques auxquels l’entreprise est exposée.

5.3 Le renforcement du contrôle interne et de la gestion des risques : ORSA


Le pilier 2 renforce le dispositif de contrôle interne en identifiant et en
définissant les fonctions clés de vérification de la conformité et d’audit interne
à travers le système de gouvernance.
La fonction de vérification de la conformité ou de contrôle interne est définie
dans l’article 46 de la directive. L’objectif du contrôle interne est d’assurer la
conformité aux lois et règlements en mettant en place des procédures
administratives et comptables et en vérifiant leur bonne application. Solvabilité 2
rend donc obligatoire la mise en place et l’harmonisation de ces activités de
contrôle.

379
La fonction d’audit interne est définie dans l’article 47 de la directive. L’objectif
de cette fonction est d’évaluer la pertinence du dispositif de contrôle interne et de
la gouvernance et de communiquer ses conclusions directement à l’organe de
direction. Elle a pour particularité d’être indépendante des activités opérationnelles
et d’être rattachée à l’organe d’administration.
Le pilier 2 renforce le dispositif de gestion des risques en imposant la mise
en place de l’ORSA (Own Risk and Solvency Assessment ou Evaluation interne
des risques et de la solvabilité) dans les sociétés d’assurance. L’ORSA est un outil
de gestion des risques spécifique à Solvabilité 2 qui est défini dans l’article 45 de la
directive.
L’ORSA se définit comme l’ensemble des processus et des procédures utilisés
en interne pour déterminer le montant de l’exigence en fonds propres nécessaires à
la solvabilité de l’entreprise à tout moment. Ce processus est distinct du processus
de calcul de besoin en marge de solvabilité et est censé le compléter. Ainsi, dans le
cadre de l’ORSA, la compagnie réalise sa propre évaluation des risques déjà suivis
dans le cadre du calcul de besoin en marge de solvabilité, ainsi qu’une évaluation
des autres risques.
Ce processus peut déboucher sur une estimation du risque et du besoin en
solvabilité différent du besoin exigé par l’utilisation du modèle standard et peut se
traduire, mais pas systématiquement, par une exigence en fonds propres
supplémentaire par le régulateur (capital add-on). Par ailleurs, l’utilisation des
méthodes ORSA ne nécessite pas systématiquement le calcul du SCR et du MCR au
préalable.
L’ORSA doit permettre de démontrer que les risques de l’entreprise sont
identifiés et quantifiés de façon adéquate et notamment :
• d’ajuster l’adéquation entre les fonds propres de l’entreprise et les exigences
de capital calculées dans le cadre du Pilier 1.
• d’identifier les mesures de risques dans le modèle interne ou dans la formule
standard qui s’écartent sensiblement de la réalité.
• d’ajuster le profil de risque de l’entreprise en fonction de sa politique
commerciale, des décisions structurantes ou encore des plans de financement à
venir.
L’ORSA s’intègre dans une optique de recherche du risque maximal que
peut supporter la compagnie (risk appetite) sous la contrainte de présenter en
permanence un actif net supérieur à son SCR. Ce dispositif a ainsi pour objet
d’identifier un ensemble de stratégies (allocation d’actifs, stratégie commerciale,
etc.) permettant d’atteindre les objectifs définis par son plan stratégique et ce avec
un certain aléa (risk tolerance et risk limite).

380
L’ORSA est donc un outil de décision stratégique qui permet d’objectiver
certaines décisions, d’assurer une cohérence dans la politique de l’entreprise et
de renforcer la vision prospective et le pilotage de l’activité. Cet outil est sous la
responsabilité de l’organe exécutif de l’entreprise, ce qui induit la nomination d’un
sponsor au sein du top management et un suivi de son opérationnalité réelle.
Le pilotage de l’activité doit tenir compte du profil de risque spécifique de
l’assureur qui correspond à son exposition aux différents risques, ce qui a
tendance à inciter l’assureur à recourir à un modèle interne. Pour les risques
difficilement quantifiables, l’entreprise doit évaluer leur significativité avec des
méthodes qualitatives. S’ils sont estimés significatifs, des évaluations à dire d’expert
peuvent être utilisées sous réserve de leur justification. L’ORSA doit aussi inclure
des stress tests prenant en compte les facteurs externes, susceptibles d’impacter le
profil de risque.

L’approche top down met en lien la stratégie de l’entreprise, son appétence au


risque et son profil de risque et les prévisions de son évolution. Le pilotage de
l’activité correspond ainsi à un arbitrage permanent entre les risques pris et les
bénéfices attendus.
Dès que le profil de risque de la compagnie évolue, le processus ORSA doit
être actualisé et le document qui résulte de ce processus doit être communiqué
aux autorités de contrôle. L’ORSA nécessite donc la formalisation et le suivi de
l’appétence et du profil de risque.

381
5.4 Le renforcement de la fonction actuarielle
Le pilier 2 renforce les pouvoirs mais aussi les responsabilités de l’actuaire
au sein des sociétés d’assurance. La fonction actuarielle devient une des quatre
fonctions clé des compagnies à travers la mise en place du système de gouvernance
et de management des risques.
Le pilier 2 définit, dans l’article 48 de la directive, plus précisément la
fonction actuarielle qui a pour mission :
• de coordonner et revoir le calcul des provisions techniques et les hypothèses
• d’évaluer les méthodes et modèles pour l’estimation des provisions
techniques
• d’exprimer une opinion sur la politique globale de souscription et la structure
de réassurance
• de contribuer à la mise en œuvre effective du système de gestion des risques,
notamment pour l’ORSA
Le changement introduit par Solvabilité 2 ne tient pas au fait que le
responsable de la fonction actuarielle sera chargé de coordonner les calculs, mais
qu’il va devoir émettre un avis sur le calcul des provisions techniques (méthodes,
données…) et sur l’exposition aux risques de l’entreprise à travers un rapport
actuariel.
La directive reste cependant floue sur le profil du responsable de la fonction
actuarielle qui n’est pas tenu d’être un membre d’une association d’actuaires, ni
même un actuaire. C’est un problème en particulier en France où la profession est
assez peu réglementée et où il est possible d’exercer le métier d’actuaire sans avoir
la validation de l’Institut des Actuaires.
Mais, plus que la compétence de l’actuaire, ce sont sa responsabilité et son
indépendance qui font aujourd’hui débat. Solvabilité 2 reste floue sur le sujet et se
contente d’affirmer que le titulaire de la fonction actuarielle doit être libre
d’influence. Cependant, l’indépendance de l’actuaire salarié est difficile à préserver
car son contrat de travail le place dans un lien de subordination vis-à-vis de son
employeur.
Par contre, la responsabilité juridique de l’actuaire salarié est nulle car le droit
du travail s’applique au salarié. L’indépendance doit par contre se concilier avec le
lien de subordination, ce qui n’est pas encore pris en compte par les pouvoirs
publics.
Tout reste encore à faire pour que le responsable de la fonction actuarielle
puisse exercer ses nouvelles responsabilités en toute indépendance.

382
Conclusion
Le Pilier 2 recouvre l’ensemble des principes et pratiques attendus des
organisations en matière de gestion des risques, au regard des estimations de risque
et de fonds propres couvertes par le Pilier 1.
Le Pilier 2 vise à corriger les imperfections du Pilier 1 en prenant en compte la
gouvernance de la compagnie, son profil de risque et une dimension prospective
via le plan stratégique. Il permet d’évaluer la qualité des calculs réalisés et en
particulier de valider le calcul de besoin en marge de solvabilité par la formule
standard ou l’utilisation d’un modèle interne via le processus ORSA.
Le pilier 2 apporte une autre dimension plus qualitative à laquelle les autorités
de contrôle sont particulièrement attentives. La gestion des risques n’est pas qu’un
chiffre à 99,5 % et doit être bien maitrisée pour valider les hypothèses actuelles ainsi
que les scénarios futurs de solvabilité.
La récente crise financière a sans aucun doute renforcé l’importance qui sera
accordée au pilier 2 : en exposant les limites de l’approche quantitative, elle a
souligné la nécessité de renforcer les exigences qualitatives. Les risques
opérationnels ont ainsi été redécouverts, en raison notamment de cas avérés
majeurs (AIG, Enron, Kerviel…), du poids de la fraude, de la judiciarisation de la
société, de la sensibilité aux systèmes d’informations, etc.
Pour les actuaires, c’est aussi l’occasion de jouer un nouveau rôle même si
le cadre de la fonction actuarielle en France n’est pas encore clairement défini.
Par le biais de la rédaction et la signature du rapport annuel, l’actuaire sera plus
visible et va devoir assumer des responsabilités élevées qui étaient rarement de
son ressort jusqu’à présent.

6. La formule standard dans Solvabilité


La réforme Solvabilité 2 doit permettre de mieux garantir la solvabilité des
assureurs grâce à une mesure plus précise des risques.
Le pilier 1 de Solvabilité 2 constitue la partie centrale de la réforme et introduit
les indicateurs du MCR et du SCR pour estimer les besoins de solvabilité.
Le SCR est le seul indicateur à prendre en compte les risques réels auxquels
sont exposées les sociétés d’assurances et peut être calculé soit à partir de la formule
standard, soit à partir d’un modèle interne (global ou partiel).
La formule standard est la méthode par défaut utilisée pour le calcul du SCR ;
il est donc indispensable de comprendre son fonctionnement. C’est d’ailleurs la
seule méthode qui est imposée par Solvabilité 2 : même si une société d’assurances

383
choisit un modèle interne pour l’évaluation de son SCR, elle devra quand même
comparer ce résultat avec celui obtenu par application de la formule standard.

6.1 Le SCR, une exigence de capital


Le SCR (Solvency Capital Requirement) représente avant tout une exigence
de capital. C’est le capital requis ou imposé aux sociétés d’assurance pour garantir
leur solvabilité. Dans Solvabilité 2, toutes les sociétés d’assurance devront donc
posséder un montant de fonds propres au moins égal à leur SCR (qui est l’équivalent
de la marge de solvabilité MS dans Solvabilité 1).
Ce montant de capital ou fonds propres, s’il est au moins égal au SCR, doit
permettre d’éviter tout risque de faillite ou de ruine aux sociétés d’assurance. En
effet, un assureur qui ferait faillite ne pourrait plus respecter les engagements de
long terme qu’il a pris auprès de ses clients. Cette réforme a donc bien pour but
d’améliorer la protection des assurés.
La notion de faillite en assurance peut s’entendre de différentes façons, dont les
principales sont les suivantes : le retrait d’agrément, le transfert de portefeuille, la
mise en run-off, ou encore la recapitalisation massive ou rappel de primes. Une
société d’assurance peut faire faillite et il en existe plusieurs exemples : Europa Vie
en 1997 en France, la quasi-faillite d’AIG en 2008 aux USA (ex 1er assureur
mondial), etc.
La faillite appelée aussi cessation de paiements est généralement définie
comme la situation où l’actif disponible ne peut permettre de faire face au passif
exigible. Cette condition de solvabilité peut être représentée par l’équation suivante :
Actif > Passif soit : Fonds Propre = Actif – Passif > 0
En assurance, la condition de solvabilité est définie de manière plus restrictive :
Solvabilité 1 : Actif > Passif + MS soit : Fonds Propre > MS
Solvabilité 2 : Actif > Passif + SCR soit : Fonds Propre > SCR
La notion de faillite est donc plus exigeante en assurance car c’est une
activité qui se caractérise par l’inversion de son cycle de production et par sa
nature profondément risquée et aléatoire. De nombreux risques peuvent ainsi
avoir un impact à la fois sur l’actif et sur le passif des sociétés d’assurance, ce qui
modifie leur équation de solvabilité.
Historiquement, les causes de défaillance des entreprises d’assurance sont les
suivantes :
– Mauvaise gestion du risque de souscription => Risque primes / réserves
– Mauvaise gestion des actifs et inadéquation au passif => Risque de marché
– Mauvaise gestion du programme de réassurance => Risque catastrophe /
Risque de contrepartie

384
– Mauvaise estimation des provisions techniques => Risque primes / réserves
– Défaillance du personnel ou des systèmes => Risque opérationnel
La réforme Solvabilité 2 prend en compte l’ensemble des risques auxquels sont
exposées les sociétés d’assurance. Elle propose de plus une mesure précise de ces
risques de manière à ce que les sociétés d’assurance aient une probabilité de faillite
très faible à un horizon fixé.
Le SCR est donc le capital cible nécessaire pour absorber les pertes
imprévues et significatives, avec en même temps une assurance raisonnable aux
assurés que l’assureur sera capable d’honorer ses engagements.
Mais comment calculer ce capital cible nécessaire ? La réforme Solvabilité 2
définit le SCR comme étant le niveau de capital nécessaire pour éviter tout
risque de faillite dans 99,5 % des cas à horizon 1 an. C’est donc le niveau de
capital requis tel que la probabilité de ruine économique à 1 an soit inférieure à
0,5 %.
Solvabilité 2 mesure les risques pris par les sociétés d’assurance par leur impact
sur leur actif et leur passif, c’est-à-dire sur leur actif net et donc leurs fonds propres.
Le niveau d’impact de ces risques est ainsi calibré afin que le SCR global calculé
assure une solvabilité de l’entreprise d’assurance à l’horizon d’un an avec un niveau
de confiance de 99,5 %.
Le calcul du SCR tient compte également des techniques d’atténuation des
risques utilisés par la compagnie ainsi que des risques impliqués par l’utilisation de
ces techniques : réassurance, titrisation, produits dérivés…

6.2 La structure et la formule du SCR


Le SCR se calcule comme étant une somme de tous les risques pris par les
sociétés d’assurance.
Solvabilité 2 définit le SCR de cette façon :
SCR = SCR de base (BSCR) + SCR opérationnel – Ajustements
avec : SCR de base (BSCR) = Capital de solvabilité requis de base
SCR opérationnel = Chargement en capital au titre du risque opérationnel
Ajustements = pour tenir compte des pertes futures qui seront compensées par
la réduction des impôts différés à payer et par la réduction de la participation aux
bénéfices futurs à distribuer aux assurés
Hors risque opérationnel, tous les risques sont pris en compte dans le calcul du
BSCR selon une approche modulaire (modules et sous-modules).
Le BSCR est constitué des 6 modules de risques suivants (représentant les
grandes familles de risques auxquelles les sociétés d’assurance sont confrontées) :

385
• Le risque de souscription Vie (SCRlife) : Il regroupe l’ensemble des risques
lié à une tarification insuffisamment prudente lors de la souscription ou le rachat
du contrat (comprenant le risque de mortalité, de longévité, de rachat, etc.).
• Le risque de souscription Non vie (SCRnl) : Il représente le risque
d’assurance spécifique résultant des contrats d’assurance. Il fait référence à
l’incertitude concernant les résultats de la souscription de l’assureur (montants et
délais de règlements des sinistres, taux de primes nécessaires pour couvrir les
passifs, etc.).
• Le risque de souscription Santé (SCRhealth) : Il couvre le risque de
souscription pour toutes les garanties santé et accidents du travail ; il se divise en
trois sous modules : santé à long terme pratiquée sur une base similaire à celle de
l’assurance vie (qui n’existe qu’en Allemagne et Autriche), santé court terme et
accidents du travail.
• Le risque de marché (SCRmkt) : Il résulte du niveau ou de la volatilité des
cours de marché des instruments financiers qui ont un impact sur la valeur des
actifs et des passifs de l’entreprise concernée. L’exposition au risque de marché est
mesurée par l’impact des mouvements dans le niveau des variables financières tel
que le cours des actions, les taux d’intérêt, les cours de l’immobilier et les taux de
change.
• Le risque de défaut ou de contrepartie (SCRdef) : Il représente le risque qu’un
débiteur ou une contrepartie de la société d’assurance ou de réassurance n’honore
pas ses engagements dans les conditions initialement prévues.
• Le risque d’actifs intangibles (SCRintang) : Il concerne les actifs incorporels
qui sont exposés à deux types de risques : le risque de marché et le risque interne
inhérent à la nature même de ces éléments. Les actifs incorporels représentent les
actifs immatériels de l’entreprise : goodwill, brevet, licence, marque, etc. C’est le
dernier module de risque qui a été introduit par le QIS 5.
Ces 6 modules de risques sont eux-mêmes constitués de sous-modules de
risques.
Le SCR global a donc une structure complexe qui a cette forme modulaire :

386
Le BSCR se calcule de la façon suivante afin d’agréger l’ensemble de ces
risques :

avec : SCRi = SCR du module de risque i (sauf le SCR du risque intangible)


Corr (i, j) = Coefficient de la matrice de corrélation entre les modules de risque
i et j
L’agrégation des SCR des modules s’effectue à l’aide d’une matrice de
corrélation :

387
Un coefficient de corrélation entre modules de risque peut être :
– nul si les risques sont indépendants (ex : vie et non-vie)
– positif si les risques sont corrélés positivement (ex : actions et immobilier)
– négatif si les risques sont corrélés négativement (ex : mortalité et longévité)

6.3 Application de la formule standard pour le calcul du BSCR


La formule standard se base sur une structure de calcul reposant sur des
principes et des hypothèses fixés par la Directive. Il convient néanmoins de rappeler
que cette structure nécessite un ou des modèles de valorisation. Ainsi, dans le
contexte de l’assurance vie, le calcul du SCR par la formule standard nécessite un
modèle ALM (Assets and Liabilities Management – Gestion Actif-Passif).
Les SCR de chaque module de risque sont calculés :
• soit de manière factorielle : formule fermée permettant un calcul direct du
SCR.
• soit en utilisant un scénario pré-défini : scénarios ou stress tests qui
consistent en des chocs instantanés et indépendants s’appliquant à la fois sur les
actifs et les passifs de l’entreprise d’assurance, c’est-à-dire sur ses fonds propres
économiques.
Dans ce dernier cas, le SCR est calculé comme la variation des fonds propres
économiques ou de l’actif net réévalué (= Actif – Passif) engendrée par ces
scénarios. Solvabilité 2 mesure ainsi les risques par leur impact sur le bilan de la
société d’assurance en full fair value, c’est-à-dire par leur impact sur leurs actifs et
leurs passifs économiques.
Par exemple, pour mesurer le risque de taux (à la hausse), plusieurs étapes sont
nécessaires :
• Etablir un bilan full fair value à la date 0
• Appliquer un choc de hausse à la courbe des taux
• Simuler le bilan full fair value à la date 1 avec la courbe des taux choquée (en
prenant en compte les impacts sur les obligations, les provisions techniques
actualisées, etc.)

388
• Calculer la diminution de fonds propres engendrée par le scénario, qui donne
le montant du SCR telle que :
SCR = Max (ΔNAV ; 0) où : NAV = Net Asset Value (Actif Net Réévalué) =
Fonds propres économiques

ΔNAV = NAV (0) – NAV (1) => 2 cas peuvent se produire :


• Si ΔNAV ≥ 0, SCR = ΔNAV => Le scenario entraîne une baisse de la NAV
(fonds propres économiques)
• Si ΔNAV < 0, SCR = 0 => Le scenario entraîne une hausse de la NAV (fonds
propres économiques)
=> Si le scénario mis en place entraîne un gain au niveau de la NAV, alors le
SCR ou le capital requis correspondant est nul (il ne doit jamais être négatif).
Les chocs fixés pour calculer les SCR par modules ont été calibrés par le
législateur afin que le SCR global calculé par la formule standard assure une
solvabilité de l’entreprise d’assurance à l’horizon d’un an avec un niveau de
confiance de 99,5 %.
Par exemple, pour le risque de souscription Vie noté SCRlife, voici les chocs fixés
pour chacun de ses 7 sous-modules de risque :
• Le risque de mortalité : Il correspond au risque que les assurés meurent plus
vite que ne le prévoyaient les hypothèses du Best Estimate. Il s’applique à tous les
engagements pour lesquels les prestations à payer en cas de décès excèdent les
provisions techniques, et pour lesquels une hausse de la mortalité conduira donc à
une augmentation des provisions techniques.
Scénario choqué pour le calcul du SCR : hausse (permanente) de 15 % des taux
de mortalité à tout âge

389
• Le risque de longévité : Il s’agit plus ou moins de l’inverse du risque de
mortalité. Il s’applique aux contrats pour lesquels une baisse de la mortalité
engendrerait une hausse des provisions techniques (ex : contrat retraite).
Scénario choqué pour le calcul du SCR : baisse (permanente) de 20 % des taux
de mortalité à tout âge
• Le risque de morbidité ou d’invalidité : Il désigne le risque de pertes ou
d’évolution adverses dans la valeur des provisions techniques dues à des
changements dans le niveau, la tendance ou la volatilité des taux d’invalidité.
Scénario choqué pour le calcul du SCR : hausse de 35 % des taux d’invalidité à
tout âge pour la première année, puis de 25 % de ce même taux pour les années
suivantes + baisse simultanée et permanente de 20 % du taux de guérison (passage
de malade à sain)
• Le risque de rachat vie : C’est le risque de perte ou d’augmentation des passifs
dû à un écart entre le taux réel d’exercice des options contractuelles de l’assuré et
celui estimé dans le Best Estimate. Le terme d’options doit être vu au sens large : le
sous-module couvre les options de rachat, de résiliation, de réduction mais aussi
d’extension des garanties. Pour certains contrats, l’exercice d’options peut être
bénéficiaire à l’organisme, pour d’autres il conduira à des pertes. Ce sous-module
comprend donc deux scénarios : un pour lequel les options seront plus exercées que
prévu et un pour lequel elles le seront moins.
Scénario choqué pour le calcul du SCR : Le résultat de ce module est le maximum
de ces 3 calculs : hausse de 50 % du taux de rachat + baisse de 50 % du taux de
rachat + une composante de rachat massif catastrophique (charge immédiate de 30 %
des écarts entre les sommes à verser en cas de rachat et les provisions techniques pour
les assurés en individuel et de 70 % pour les assurés en collective).
• Le risque de frais de gestion : Il correspond au risque que les frais de gestion
subissent une inflation plus importante que prévue.
Scénario choqué pour le calcul du SCR : hausse de 10 % des frais de gestion et
surinflation des frais de 1 % par an
• Le risque de révision : Il ne s’applique qu’aux rentes dont les montants
peuvent évoluer à cause d’un changement de l’environnement légal ou de l’état de
santé de l’assuré.
Scénario choqué pour le calcul du SCR : hausse de 3 % des rentes annuelles
jusqu’à extinction des garanties
• Le risque de catastrophe : Il est limité aux contrats pour lesquels une hausse
de la mortalité engendrerait une hausse des prestations (et donc des provisions
techniques).
Scénario choqué pour le calcul du SCR : hausse de 1,5‰ des taux de mortalité
et des taux de morbidité

390
Pour calculer le SCR de ce module, il faut utiliser la formule suivante qui
agrège ces 7 sous-modules de risque à l’aide d’une matrice de corrélation à
l’instar du BSCR :

avec : Lifer = SCR du sous-module de risque r du module SCRlife


CorrLife (r, c) = Coefficient de la matrice de corrélation entre les sous-modules
de risque r et c

6.4 Le bénéfice de diversification dans la formule standard


Deux premiers niveaux de bénéfice de diversification sont pris en compte dans
les matrices de corrélation utilisées dans la formule standard pour agréger les
capitaux réglementaires, d’abord entre sous-modules j, puis entre les modules i.
En effet, en allouant des coefficients de corrélation inférieurs à 1, le capital
réglementaire agrégé sera toujours inférieur à la somme des capitaux
réglementaires, faisant apparaître un bénéfice de diversification telle que :
BSCR ≤ Somme (SCRi) + SCRintangible où SCRi ≤ Somme (SCRj)
Un troisième niveau peut également être constaté au niveau groupe avec
une diversification entre les filiales.
Dans cette perspective, il peut devenir opportun pour une société
d’assurance spécialisée de développer une nouvelle activité. Son bénéfice de
diversification s’en trouvera accru, permettant de limiter l’impact du
développement sur son besoin en capital.
La fonction gestion des risques va donc chercher l’allocation entre les
différentes activités qui permet de maximiser le bénéfice de diversification dans son
ensemble. Les budgets de risque doivent être ainsi déterminés en tenant compte de
l’effet de diversification lié au fait que pour un même volume d’affaires, plus
l’activité d’une entreprise est variée, moins les risques encourus sont importants.

391
6.4 Application de la formule standard pour le calcul du SCR du risque
opérationnel
Le risque opérationnel représente le risque de perte résultant de procédures
internes inadaptées ou défaillantes, du personnel ou des systèmes, ou
d’événements extérieurs. Il comprend également les risques juridiques, mais il
exclut les risques de réputation et les risques résultant de décisions stratégiques.
Le module Risque opérationnel tient ainsi compte des risques opérationnels
non explicitement couverts dans d’autres modules de risque.
Le SCR du Risque opérationnel noté SCRop est calculé comme suit :
SCRop = Min (30 %. BSCR ; OPnuc) + 25 %. EXPuc
avec : OPnuc = chargement en capital du risque opérationnel lié aux activités autres
que celles des unités de compte (brut de réassurance).
EXPuc = Montant des frais de gestion annuels (bruts de réassurance) relatifs à
l’activité en unités de compte
OPnuc est calculé par la formule suivante : OPnuc = Max (OPpremiums ;
OPprovisions)
avec : OPpremiums = 4 % des primes Vie hors UC + 3 % des primes Non vie
OPprovisions = 4,5‰ des provisions Vie hors UC + 3 % des provisions Non vie
Le besoin en capital pour couvrir le risque opérationnel est donc calculé de
façon forfaitaire et est capé à 30 % du BSCR (hors activités en unités de compte).

6.5 La formule standard : un exemple d’application


Reprenons les différentes étapes du calcul du SCR par la formule standard
à partir d’un exemple simplifié :
• Etape 1 : Etablir un bilan en « full fair value » à la date 0 : Bilan S2 avant chocs

392
• Etape 2 : Calcul du capital requis (SCR) par module de risques

SCRmkt = f (SCR Action, SCR Immobilier…) = 16 (exemple de calcul avec un


bénéfice de diversification)
SCRlife = 7, SCRnl = 5, SCRhealth = 2, SCRdef = 3 et SCRintang = 2
• Etape 3 : Agrégation des SCR de chaque module de risques par la matrice de
corrélation
BSCR = f (SCRmkt, SCRlife, SCRnl, SCRhealth, SCRdef) = 25
Dans cet exemple, le bénéfice de diversification de second niveau est estimé à
8 (= 16 + 7 + 5 + 2 + 3 – 25).
• Etape 4 : Calcul du SCR global
Prise en compte du risque opérationnel et des effets d’absorption : SCR = 32
• Etape 5 : Calcul du taux de couverture S2
Taux de couverture S2 = 40 / 32 = 125 %

Conclusion
La réforme Solvabilité 2 introduit l’indicateur du SCR comme une mesure de
la solvabilité des sociétés d’assurances plus précise que la marge de solvabilité
calculée sous le régime Solvabilité 1.
La formule standard est un moyen simplifié proposé par Solvabilité 2 pour
l’évaluation du SCR. Elle a bien sûr l’avantage de la simplicité, mais présente
l’inconvénient d’être appliquée de manière identique quelle que soit la société
d’assurances.
Les résultats du QIS 5 montrent que les risques de marché représentent 60 %
du SCR du marché européen principalement au travers des risques action, spread
et taux qui contribuent respectivement à hauteur de 25 %, 15 % et 10 % du SCR.
La formule standard de Solvabilité 2 pénalise donc les actions, ce qui
inquiète légitimement la FFSA. Celle-ci considère ainsi que Solvabilité 2 va remettre

393
en cause le rôle des entreprises d’assurances en tant que financeur de l’économie.
Le calcul du SCR présente donc un enjeu économique important. En effet, il
est calculé et publié une fois par an (sauf événements significatifs), puis est soumis
à l’autorité de contrôle. En cas de constatation de non-conformité du capital de
solvabilité requis, l’entreprise dispose de deux mois pour proposer un programme
de rétablissement et de six mois pour recouvrer le SCR cible.
L’utilisation d’un modèle interne (partiel ou global) permet une évaluation
différente du SCR et parfois moindre que celle de la formule standard. Mais la mise
en place d’un modèle interne est complexe et nécessite l’approbation de l’autorité
de contrôle qui est très vigilante sur le sujet.
Dans un premier temps, une grande partie des assureurs devrait
probablement s’orienter vers la formule standard pour le calcul de leur capital
réglementaire, sans s’interdire, dans un second temps, d’implémenter un
modèle interne partiel ou total.

7. Le modèle interne dans solvabilité 2


Pour calculer leur SCR (Solvency Capital Requirement), les compagnies
d’assurance ont l’obligation d’utiliser la formule standard, mais elles peuvent aussi
mettre en place un modèle interne (partiel ou global). Celui-ci est une alternative
intéressante à la formule standard en apportant une mesure plus précise des risques
spécifiques à chaque compagnie.
Rappelons en effet qu’à la différence de la formule standard, un modèle interne
est spécifique à chaque compagnie et n’est pas transposable à d’autres entités. Il est
donc plus complexe à mettre en œuvre mais est censé être plus précis que la formule
standard.
Ce zoom sur… a pour but de présenter les principes de construction d’un
modèle interne et ses conditions de validation.

7.1 Objectifs d’un modèle interne


Pour une compagnie d’assurance, l’objectif premier du développement d’un
modèle interne est de calculer son SCR, c’est-à-dire son exigence de fonds propres,
au plus juste des risques qu’elle encourt. Plus précis que la formule standard, un
modèle interne lui offre la possibilité de réduire l’immobilisation de capital
nécessaire à sa couverture de risque.
Le modèle interne permet aux assureurs, en tenant compte des risques
inhérents à leurs activités, de retracer une image fidèle et réaliste du profil de
risque et de fournir ainsi des indicateurs cohérents sur sa santé financière. Afin

394
d’avoir un modèle interne fonctionnel à tous niveaux, celui-ci devra ainsi être
capable de fournir des renseignements interprétables et exploitables comme des
reporting de la situation financière de l’entreprise de manière régulière au moyen
d’indicateurs clairs.
L’intérêt d’un modèle interne est d’aller plus loin que le paramétrage de la
formule standard pour quantifier les risques de prime, de provisionnement, de
catastrophes, de réassurance et financiers.
Le risque de souscription, dans la formule standard, vise à mesurer le risque
sur les primes (souscription de l’année en cours) et le risque de provisionnement
vu à l’ultime. Le modèle interne permet dans l’idéal de mesurer ce risque mal pris
en compte dans une formule standard alors qu’il s’agit d’un risque majeur.
Le modèle interne contribue à l’analyse :
– des différentes sources d’exposition au risque
– des différents facteurs de risque
– de la compréhension du risque pour mieux le gérer (actions les plus
appropriées, meilleures couvertures)
– Meilleure stratégie de souscription
L’objectif d’un modèle interne n’est donc pas seulement de répondre aux
exigences réglementaires mais aussi de servir au contrôle des risques et à l’aide
à la décision technique et financière. Il est alors possible de déterminer des niveaux
de besoin en capitaux appropriés et de prendre de bonnes décisions de gestion. Les
agences de notation prendront notamment en compte les résultats du modèle dans
le cadre de leur processus de notation.
Un modèle interne apporte des avantages compétitifs pour son utilisateur :
– Opportunité de réduire le montant minimum de capital (et donc
d’augmenter sa rentabilité)
– Meilleur connaissance des risques et de leurs impacts sur les résultats
– Amélioration de la rentabilité des activités et de la compétitivité des produits
– Réactivité plus importante face à des changements non anticipés

7.2 Définition d’un modèle interne


Un modèle actuariel est généralement défini comme une description
mathématique simplifiée d’une réalité complexe. Il est construit à partir de
l’expérience, des opinions d’experts et des données historiques.
Les modèles internes se définissent ainsi comme des applications
particulières de modèles mathématiques plus généraux. Il peut s’agir de simples
calculs standardisés ou de modèles économétriques très complexes, permettant de
déterminer le besoin en capital d’une compagnie en fonction d’une probabilité de

395
ruine jugée acceptable basée sur le profil de risque de l’assureur.
Les modèles internes sont par conséquent des outils de simulation destinés
à fournir des projections de l’activité et des résultats de l’entreprise.
Le modèle interne est stochastique car il utilise des techniques de
simulations et de modélisations stochastiques aussi bien à l’actif qu’au passif du
bilan. Ce type de modèle permet de prendre en compte dans ses résultats la
volatilité des phénomènes étudiés.
Dans une simulation stochastique, le modèle interne permet de tester la
robustesse financière d’une compagnie d’assurance suivant un grand nombre de
scénarios pouvant correspondre à des situations réelles. Ces scénarios prennent en
compte différents facteurs tels qu’une sinistralité exceptionnelle impactant
l’ensemble du portefeuille, une volatilité importante des marchés boursiers ou la
défaillance des réassureurs.

Pour mesurer le SCR par un modèle interne, plusieurs étapes sont nécessaires :
– Etablir un bilan économique (« full fair value ») à la date 0
– Modélisation stochastique de l’actif du bilan : pour les différentes classes
d’actifs…

396
– Modélisation stochastique du passif du bilan : pour les différents
engagements de l’assureur…
– Simuler le bilan économique (« full fair value ») à la date 1 à partir d’un grand
nombre de scénarios
– Déterminer la distribution de la variation de la NAV (Actif Net Réévalué) à
la date 1
– Calculer le SCR comme la VaR (Value At Risk) à 0,5 % de cette variation.

Même s’il représente un degré de complexité plus important que la formule


standard, un modèle interne est nécessairement incomplet : il s’agit d’une
simplification de la réalité et pas de la réalité elle-même. Pour cette raison, le
modélisateur doit faire un arbitrage entre simplicité et précision : un modèle trop
simple ne décrit pas la réalité de manière appropriée, un modèle trop sophistiqué
comporte des risques de sur-paramétrisation, manque de robustesse, etc.

7.3 Construction d’un modèle stochastique


L’implémentation pratique d’un modèle stochastique nécessite 5 étapes
incontournables :

397
– L’estimation des paramètres des modèles retenus à l’actif et au passif
– La discrétisation des processus stochastiques continus à l’actif
– La génération de nombres aléatoires (pseudo-aléatoires ou quasi-aléatoires)
– La simulation d’un grand nombre de trajectoires (méthode de Monte Carlo)
– La détermination de la fonction de distribution du processus modélisé

Ces étapes devront bénéficier d’une attention particulière sous peine


d’introduire des biais préjudiciables pour l’analyse des résultats.
L’hypothèse sous-jacente au choix de ces modèles est que le comportement
des variables modélisées dans le futur suit la même « structure » que leur
comportement passé. Ainsi ces modèles doivent être robustes et permettre
l’estimation d’un jeu de paramètres unique sur la base de données historiques
(identifiabilité du modèle).
Une fois le modèle stochastique élaboré, sa mise en place nécessite le plus
souvent l’utilisation de techniques de Monte Carlo (qui tire son nom de la roulette
de Monaco, mécanisme simple capable de tirer des nombres au hasard).
Les techniques de Monte-Carlo permettent de créer un échantillon aléatoire
d’un processus, à partir d’un tirage de nombres pseudo-aléatoires et d’estimer
ensuite les caractéristiques de la loi de probabilité de ce processus. Elles se
fondent sur la génération de réalisations de variables aléatoires. Ces réalisations
sont le plus souvent obtenues à partir de transformations de réalisations de
variables aléatoires de loi uniforme sur [0 ; 1[. On parle alors d’inversion de la
fonction de répartition.

398
Cette approche par simulation implique de déterminer des critères d’arrêt
(nombre de tirages) et des méthodes d’optimisation de la vitesse de convergence.
Concernant la corrélation entre les risques, l’EIOPA (ex. CEIOPS) propose des
matrices de corrélation qui semblent quelque peu arbitraires. L’utilisation d’un
modèle interne permettra de prendre en compte l’expertise interne et la
connaissance historique des risques de l’entreprise afin de mieux estimer les
corrélations (qui reste un point délicat).
Les corrélations liées à des facteurs macro-économiques ou externes (par
exemple taux d’intérêt et inflation) pourront être mieux modélisées dans une
approche de modèle interne (en particulier les interactions actif-passif). C’est un
apport important d’une modélisation interne par rapport à un calcul standard.
Le principe d’une matrice de corrélation rend impossible la modélisation de la
dépendance de queue. Un modèle interne permet d’introduire une modélisation
plus fine des dépendances entre risques, notamment une dépendance de queue
avec par exemple l’utilisation de fonctions copules (problème délicat du
paramétrage d’une fonction copule).
Enfin, ce type de modèle permet de mieux prendre en compte les effets de la
réassurance (en particulier non-proportionnelle) par rapport à la formule
standard. Celle-ci est limitée du fait de la volonté du législateur de conserver une
approche suffisamment simple pour pouvoir être mise en œuvre par l’ensemble des
intervenants du marché.
Les assureurs souhaitant affiner la prise en compte de la réassurance sont
invités à s’orienter vers un modèle interne, partiel ou total. Pour calculer la
charge « catastrophe » en non vie, on simule les scénarios « bruts » de réassurance,
puis on applique les programmes de réassurance. Chaque programme étant
spécifique, il n’existe pas de formule simple pour passer du « brut » au « net » : il
faut simuler l’application des traités.
Bien sûr, la construction de ce type de modèle introduit de nouveaux
risques : mauvais choix de modèles, erreur d’estimation des paramètres, oubli
de variables explicatives…

7.4 Spécificités du modèle interne vie : les « management rules »


Dans le calcul du SCR, l’ajustement permet d’intégrer les pertes futures qui
seront compensées par la réduction des impôts différés à payer et par la réduction
de la participation aux bénéfices futurs à distribuer aux assurés.
La valeur de l’ajustement dépend notamment des « management actions »
modélisées en terme de participation aux bénéfices (pour le modèle interne vie).
Cette modélisation du comportement du management a un impact très important

399
et doit se faire de la manière la plus précise possible. Chaque compagnie est
différente et il est tout à fait naturel que les « management rules » diffèrent d’un
assureur à l’autre, dans la mesure où les business models et la manière de créer de
la valeur pour l’actionnaire diffèrent.
La modélisation des décisions futures du management (« management
rules ») doit répondre à certains critères :
– Des règles simples : les règles doivent être formulées sous forme
d’algorithme en utilisant quelques variables de base (indices, actions, courbes de
taux, richesse nette de la compagnie, taux de solvabilité cible, etc.). Naturellement,
ces variables doivent être disponibles dans le modèle.
– Des règles réalistes, objectives et auditables : les règles doivent être réalistes,
c’est-à-dire refléter fidèlement le business model et la gestion financière de la
compagnie. Le rôle de l’actuaire n’est pas d’inventer, mais de modéliser la réalité en
analysant le comportement du management. Le « back testing », la présentation de
scenarii et l’analyse des réponses du management sont des moyens pour y parvenir.
Ce dernier point peut poser des difficultés, car un historique de quelques années
n’est pas représentatif de l’univers des possibles.
De même, les règles doivent être documentées (description, validation par le
management, analyse des décisions passées) et auditables. Cela signifie qu’il existe
d’une part une cohérence entre les règles et les décisions de pilotage prises dans le
passé et d’autre part une cohérence entre les règles et le processus budgétaire.
Toutefois, la comparaison entre une décision stratégique dans un
environnement complexe et un algorithme simple, fonction de quelques variables,
peut s’avérer difficile. De plus, la question du lien entre modèle en run-off et réalité
(avec souscription d’affaires nouvelles) se pose.

7.5 Modèle interne pour le SCR opérationnel


Pour pouvoir convenablement comparer le SCR standard et celui du modèle
interne, il faut inclure le risque opérationnel. Dans la formule standard, le SCR
opérationnel est estimé en appliquant un pourcentage sur le SCR de base (BSCR).
Sur les risques opérationnels, la formule standard a donc retenu une approche
très forfaitaire éloignée de la réalité des risques sous-jacents.
L’approche par modèle interne permet alors :
– d’économiser des capitaux réglementaires : cet intérêt n’est bien entendu
pas acquis car il dépend des risques réels de l’assureur et dans tous les cas ne peut
pas constituer l’unique argument pour un assureur.
– d’améliorer la connaissance des risques, et donc de permettre le lancement
de plans d’actions en vue de la réduction et de la maîtrise des risques

400
opérationnels. Cet avantage apparaît sur les risques fréquents de faible impact, par
exemple par la modification des processus ou la mise en place de contrôles adaptés.
Il s’inscrit également sur les risques extrêmes du fait de l’analyse poussée qui en est
faite lors de la construction du modèle.
– de bénéficier d’avantages concurrentiels, notamment en termes de
communication sur le marché.
Les étapes de l’estimation de ce risque par un modèle interne passent par :
• La mise en place d’une cartographie des risques : pour chaque événement
possible, il s’agit d’évaluer le risque en termes de probabilité de survenance et de
perte encourue en cas de réalisation du risque. Ce protocole se base sur un
historique de pertes mis en place par les opérationnels au cours du temps où ils
répertorient les événements survenus ainsi que les pertes occasionnées.
• L’estimation des pertes avec trois approches ou méthodes possibles :
L’approche statistique : une des approches les plus connues est la « distribution
des pertes ». Elle s’appuie sur une base de données des pertes de la compagnie
concernée mais aussi provenant d’autres compagnies.
Pour chaque type d’événement, il faut établir deux courbes de distribution de
probabilité des pertes, une pour la fréquence et l’autre pour la sévérité des
événements. En représentant le résultat sous forme graphique, on cherche ensuite
un modèle mathématique qui rend le mieux compte de la forme des deux courbes.
En combinant les 2 distributions par des techniques de Monte Carlo, on peut ainsi
en déduire la perte maximale encourue avec une VaR à 99,5 %.
L’approche par scénarios : l’approche est identique à celle utilisée pour d’autres
natures de risque, comme les risques de marché par exemple. Le but est d’obtenir
une évaluation de la probabilité d’occurrence ainsi que le coût pour chaque risque
déterminée par la cartographie des risques opérationnels.
La construction des scénarios combine l’ensemble des facteurs de risque. On
pourra notamment effectuer avec cette méthode un grand nombre de simulations
en faisant varier les facteurs de risque.
Cette approche est plus complète que l’approche statistique étant donnée
qu’elle permet de prendre la totalité des risques en compte a contrario de la
méthode précédente qui se base sur des risques qui sont déjà survenus au sein de la
compagnie. L’intérêt de cette méthode est donc de pouvoir capter des événements
singuliers dont les conséquences pourraient être graves pour l’établissement et
qu’une approche statistique aurait du mal à envisager.
L’approche Scorecards : cette méthode offre une alternative aux deux autres
méthodes. En effet, elle s’appuie sur les indicateurs de risques qui permettent
d’avoir une vision a priori du risque contrairement aux méthodes précédentes qui
reposent uniquement sur l’historique.

401
Cette approche repose sur l’établissement de grilles d’appréciation regroupant
tous les risques. Elle permettra la première évaluation du capital requis. Chaque
type de risque a un score qui lui sera affecté et permettra d’allouer le capital
nécessaire à celui-ci.
Il est essentiel de connaître et de modéliser le risque opérationnel au même
titre que les autres risques afin d’éviter toute erreur opérationnelle dont le coût peut
parfois se chiffrer en millions d’euros. Une gestion attentive et minutieuse de ce
risque permettra aussi d’améliorer les conditions de production en rationalisant par
exemple les processus effectués par les salariés et par conséquent d’optimiser les
gains.
La principale difficulté pour modéliser ce risque est qu’aucune étude n’a été
menée en assurance afin de répertorier les risques opérationnels. Avant de
mesurer ce risque, il est donc nécessaire de le définir, de le délimiter et de mettre en
place des outils de collecte auprès des opérationnels.

7.6 Obtenir la validation du modèle interne


Un modèle interne est soumis à des contraintes définies par la directive
Solvabilité 2, en particulier par l’EIOPA (ex. CEIOPS). Celui-ci en a précisé les
modalités d’application dans des Consultation Papers suivants :
– CP56 : Tests et standard en vue de l’approbation
– CP37 : Processus d’approbation des modèles internes partiels
– CP65 : Mesures d’implémentation spécifiques aux modèles partiels
De manière générale, le choix des outils, des méthodes et des modèles est
libre, mais il y a un certain nombre de principes à respecter sur lesquels
l’autorité de contrôle reste très vigilante.
La directive Solvabilité 2 fixe huit conditions qu’une organisation candidate
à l’utilisation d’un modèle interne doit respecter pour envisager une validation
de son modèle interne :
1. Test d’utilisation (« Use test ») : l’organe de gestion de la compagnie doit
comprendre et considérer les évaluations du risque et du capital à partir du modèle
interne comme moteur fondamental de la mise en place de ses processus
décisionnels stratégiques.
Pour être validé, le modèle interne doit être utilisé dans le cadre d’un grand
nombre de décisions : politique de souscription, développement produits, prévision
de résultats par type de clientèle, politique de gestion des risques, décisions
d’investissement, etc.
Les « Use test » ne signifient pas que le modèle est à suivre aveuglément.

402
Toutefois, il doit être systématiquement consulté et les divergences entre les
décisions prises et les résultats issus du modèle doivent être expliquées.
2. Test de qualité statistique des données : les évaluations doivent se baser sur
des facteurs de risques opportuns, fiables, cohérents et compréhensibles ; elles
doivent être fondées sur des hypothèses de risques réalistes, crédibles et vérifiables.
3. Test de calibration : les résultats doivent être calibrés à une VaR de 99,5 %
à un an.
4. Test d’attribution des profits et pertes : les entreprises doivent vérifier
régulièrement si la classification du risque et l’attribution des profits et pertes dans
leurs modèles reflète fidèlement les origines et les causes de ces profits/pertes au
sein des unités opérationnelles.
5. Test de validation : la pertinence des évaluations et des hypothèses sous-
jacentes doit être régulièrement confrontée aux données tirées de l’expérience. Les
entreprises doivent également jauger la sensibilité des résultats aux changements
des hypothèses clés.
6. Test de documentation : les entreprises doivent garder des traces écrites
mises à jour régulièrement de la conception, des opérations, des fondements
mathématiques et des hypothèses sous-jacentes de leur modèle.
7. Test de gouvernance : le modèle interne ne sera approuvé que si l’assureur
a une gouvernance satisfaisante et des contrôles internes bien mis en place.
8. Test sur les modèles et données externes : les tests spécifiés s’appliquent
également aux données ou aux modèles provenant d’un tiers (sous-traitance).
L’étape préalable à l’approbation par l’autorité de contrôle est la validation
du modèle sous la responsabilité de l’entreprise. Celle-ci doit organiser le
processus de validation de son modèle interne par une instance indépendante afin
de juger elle-même de ses qualités.
La sécurisation du processus se fait par consolidations successives dans une
approche par étages. Pour cela, doivent être clairement définis les modalités de
reporting des résultats du processus de validation et le format standard de
reporting.
Le processus de validation doit porter a minima sur les données, la
méthodologie, les hypothèses, le jugement d’expert, la documentation, les
systèmes d’information, la gouvernance du modèle et les « use test ». La
fréquence de validation peut varier d’une composante à l’autre du modèle.
La validation doit comprendre au moins les tests suivants :
– les résultats du modèle avec des scénarios de stress
– la robustesse du modèle vis-à-vis de modifications de ses paramètres
– le back testing (comparaison des résultats antérieurs et du déroulé réel)

403
– le profit & loss attribution.
Des tests complémentaires doivent être menés lors de chaque changement
majeur (au sens des « major changes » qui nécessitent l’approbation du
superviseur).
L’homologation du modèle se fait pour le régulateur par l’analyse du dossier
constitué par l’entreprise. Ce dossier doit comprendre l’ensemble des éléments
cités et démontrer que le modèle interne est le résultat d’une démarche structurée,
qu’il est parfaitement intégré et documenté. Cette étape de constitution du dossier
d’homologation peut être assez lourde en pratique et doit donc être planifiée avec
soin.
Une fois le dossier d’approbation envoyé, les autorités de contrôle prennent
une décision dans un délai de six mois.

Conclusion
La mise en place d’un modèle interne (partiel ou global) pour le calcul du
SCR est un apport indéniable pour une compagnie d’assurance :
– Il apporte une mesure plus précise des risques spécifiques à chaque
compagnie
– Il prend mieux en compte la réassurance et les risques opérationnels
– Il permet d’obtenir une fonction de répartition des résultats
– Il améliore la gestion des risques
– Il apporte des avantages compétitifs
– Il donne des informations intéressantes aux actionnaires, régulateurs,
assurés, etc.
Les modèles internes sont des outils de simulation destinés à fournir des
projections de l’activité et des résultats de l’entreprise, respectant certaines
propriétés telles que la cohérence des exigences de solvabilité par rapport aux
résultats obtenus par une formule standard ou encore la robustesse et le réalisme
du modèle.
Pour être reconnu comme tel, le modèle interne doit être totalement intégré
dans le processus de risk management et de décision de l’entreprise. Il s’agit
d’une exigence de Solvabilité 2, mais surtout d’une nécessité afin d’améliorer
progressivement sa qualité en le confrontant de manière régulière à la réalité. La
mise en place d’un modèle interne est donc un excellent moyen pour renforcer la
culture du risque de l’entreprise.
Cependant, la mise en place d’un modèle interne global est longue et
coûteuse. En effet, ce n’est pas un pilote automatique, c’est un projet important qui
mobilise beaucoup de ressources humaines et financières. Avant de commencer un

404
tel projet, il faut lancer une réflexion sur le périmètre optimal du modèle interne,
les avantages attendus et un budget réaliste.
Le modèle interne partiel est un compromis qui présente deux avantages.
D’abord, les acteurs voulant implémenter un modèle interne intégral peuvent se
contenter d’en réaliser qu’une partie d’ici le 1er janvier 2013 et d’en poursuivre
l’intégration après la mise en œuvre de Solvabilité 2. Le modèle interne représente
un investissement et des coûts importants, le modèle interne partiel permet
donc un étalement des charges. Ensuite, un assureur peut considérer que seuls
quelques modules de la formule standard ne sont pas adaptés à son profil de risque.
Dans ce cas, grâce au modèle interne partiel, il peut utiliser une démarche
alternative à la formule standard sur des modules particuliers.
Si l’entreprise d’assurance utilise un modèle interne partiel, le choix des
périmètres de modèle interne et de formule standard doit être défini de façon
précise (branche, risque, etc.) et justifié (matérialité du risque, singularité du
périmètre, qualité des données, etc.) afin de ne pas faire de choix justifié par la seule
minimisation du SCR.
Dans une étude réalisée par le CEA, il a été constaté que la taille de la société
d’assurance est un facteur déterminant dans le choix de l’implémentation d’un
modèle interne :

405
406
Chapitre 2
Solvabilité 2 Principe –
Principales étapes de calcul sous le pilier

1. Généralités

1) Définir l’Actif Net Réévalué


 valoriser l’actif Les placements sont comptabilisés à leur valeur de marché,
les autres actifs suivent les principes IFRS (à l’exception des goodwill et actifs
incorporels). La reconnaissance des plus ou moins values latentes donne naissance
à un impôt différé.
 valoriser les engagements d’assurance de manière best estimate Ce calcul
doit être effectué sur la base de données propres à la compagnie et actualisé sur la
base de la courbe des taux sans risque augmentée d’une prime d’illiquidité. L’écart
de valorisation entre le référentiel Solvabilité 1 et le référentiel Solvabilité 2 (best
estimate + Marge pour risque) donne naissance à un impôt différé
 le compléter d’une marge pour risque
2) Calculer les SCR, MCR
3) Comparer l’ANR et le SCR, en déduire le ratio de couverture.

407
408
Les calculs liés au risque de souscription et de provisionnement se scindent en
2 grandes catégories :
➢ Impact sur le BEL de chocs sur les lois de durée (mortalité, rachat, invalidité,
dépendance) ainsi que sur les dépenses.

409
➢ Ces calculs nécessitent de re – projeter les flux de trésorerie sur la base de
scénarios dégradés.
➢ Impact d’un choc sur le ratio S/P. Le coût de fonds propres lié à cet impact
est modélisé en appliquant un facteur aux montants de provisions et de primes :

e min um/ reserve    NonSLTHealth  VNonSLTHealth


HealthPrNonSLT
➢ Outre des données comptables, son calcul ne nécessite que la connaissance
du best estimate de sinistralité
La forme du choc sur le S/P est justifiée par le fait que, pour les lois normales
et log – normales l’écart entre le quantile d’ordre p et l’espérance s’écrit :
 
SC R p  x p     p   
 
avec :
e x p (u  In ( x 2  1)
 p (x)  p
 1 pour une loi log-normale
x 2
1
 p (x)  u p  x pour la loi normale.
Dans le cas d’une variable aléatoire X de loi X LN (a, b) ou a :
X
q99,5%  exp   N 1  99,5%  b  a   exp  N 1  99,5%  b  0,5  b2   E( X )
Par définition de ρ (σ) on a donc :
    exp  N 1  99,5%   b  0,5  b 2   1

Or dans le cas d’une loi LN (a, b), le coefficient b vérifie l’équation suivante :
b  In  ( c v 2  1   In  2
 1
où σ représente le coefficient de variation de X (cf. notation QIS 5).
Elle correspond au coût d’immobilisation des fonds propres (au – delà du taux
sans risque). Les SCR projetés ne prennent en compte que les besoins en capitaux
liés aux risques financiers évitables.
➢ La principale difficulté réside dans la projection de l’espérance des SCR
futurs.
De ce fait l’EIOPA propose un ensemble de simplifications conduisant à
exprimer la marge pour risque sur la base du SCR ou du BEL initial (méthode n
° 4) :
CoC
CoCM   Durmod  SCRlob
tf
 0
1  r1

410
➢ In fine, le calcul de la marge pour risque ne nécessite pas de développer de
modèle de projection.

Segmentation
Les contrats d’assurance doivent être segmentés en lignes d’activité qui
reflètent au mieux le risque sous – jacent.
Cette segmentation doit être établie non pas sur la base de la segmentation
du code des assurances mais en appliquant le principe de substance over form :
Les contrats qui sont gérés sur la base de techniques d’assurance vie doivent être
classé en vie (Life ou SLT – Health) et de même pour la non vie.
In fine, 4 grandes classes de segmentation sont définies : vie, non – vie, santé
vie et santé non – vie. Appliquer une bonne segmentation est primordiale dans
le sens où elle définit les chocs qui seront appliqués par la suite

411
412
413
Application de l’unbundling
Si un contrat présente des garanties qui devraient être classées dans diverses
catégories, une séparation de ces garanties doit être appliquée :
 un contrat qui inclut des garanties vie et non – vie, doit être séparé en vie
non – vie
 un contrat qui couvre des risques touchants au différentes LoB de l’assurance
non – vie, doit être réparti entre ces différentes LoB ;
 un contrat couvrant des risques d’assurance vie doit toujours être réparti
selon les 1 ers segments suivants :
• assurance vie avec participation aux bénéfices ;
• contrats en unité de comptes ;
• autres assurances vie.

2. Définition et calcul des provisions techniques


L’article 76 de la Directive Solvabilité 2 dispose
« La valeur des provisions techniques correspond au montant actuel que les
entreprises d’assurance et de réassurance devraient payer si elles transféraient sur
le champ leurs engagements d’assurance et de réassurance a une autre entreprise
d’assurance ou de réassurance. » Cependant, le calcul étant mené sur la base
d’hypothèses propres à la compagnie (notamment les frais), il ne s’agit pas d’une
Current Exit Value.

414
Le mode de calcul des provisions techniques dépend de la réalisabilité du
contrat d’assurance (art 77 – 4)
Contrats réplicables (art 77 – 4) :
« Lorsque de futurs flux de trésorerie lies aux engagements d’assurance ou de
réassurance peuvent être, de manière fiable, répliqués au moyen d’instruments
financiers pour lesquels il existe une valeur de marche fiable observable, la valeur
des provisions techniques liées a ces futurs flux de trésorerie est déterminée a l’aide
de la valeur de marche de ces instruments financiers. »
En pratique peu de produits d’assurance présentent cette caractéristique
Contrats non réplicables (art 77 – 1)
Les provisions techniques sont évaluées par la somme du best estimate
augmenté d’une marge de risque calculée suivant l’approche coût du capital.
Définition et calcul du best estimate
La Directive Solvabilité 2 (art 77) et l’EIOPA (cf. CP n ° 26 et TS. V. 2. 2 des
spécifications techniques du QIS 5) retiennent comme définition du best estimate :
« La moyenne pondérée en fonction de leur probabilité des futurs flux de
trésorerie compte tenu de la valeur temporelle de l’argent, laquelle est estimée sur
la base de la courbe des taux sans risque pertinente »
La directive européenne stipule que le best estimate doit être calculé brut de
réassurance, en contrepartie un actif de réassurance, tenant compte des probabilités
de défaut du réassureur est reconnu à l’actif (art 77 – 2 et art 81).
Dans le cas de contrats de coassurance, seule la partie propre à l’assureur doit
être valorisée.
Flux à prendre en compte
Le calcul du BEL (best estimâtes laibilities) doit prendre en compte l’intégralité
des flux de trésorerie qui seront payés afin d’honorer l’engagement d’assurance :
 prestations ;
 primes (cf. primes futures) ;
 frais (y compris financiers). Dans le cas des frais généraux, l’application du
« going concern » conduit à n’en retenir qu’une quote part (TP. 2. 28) ;
 chargements.
Cas particulier des contrats non vie
L’évaluation du best estimate des provisions pour sinistres à payer (sinistres
déjà survenus) et celles des provisions pour primes non acquises sont à effectuer
séparément (best estimate de sinistralité et best estimate de primes).
Valeur de rachat

415
Dans certaines circonstances (principalement lors de la prise en compte de
primes futures) le best estimate peut être négatif. Ce cas traduit un ratio combiné
inférieur à 100 % et les entreprises ne doivent pas chercher à le ramener à zéro.
Aucune valeur plancher de rachat implicite ou explicite ne doit être
considérée comme la valeur de marché du passif pour un contrat
Ainsi, si la somme du best estimate et de la risk margin d’un contrat est
inférieure à la valeur de rachat de ce contrat, on ne doit pas augmenter la somme
afin d’égaliser la valeur de rachat.
Formule de calcul
Dans le cadre de la simulation de N trajectoires de l’actif pour un horizon de
projection T et un nombre d’assurés A on doit calculer :
1 N T A Fluxt , n , a  Cotisationt , n , a  Fraist , n , a  Ch arg ementt , n , a
BEL  
1  R  0, t   Pr ime 
t
N n 1 t 1 a 1
n illiquidité

Le point nécessitant le plus de travail est le calcul des flux de prestations,


compte tenu des interactions actif / passif. On peut noter que si les flux ne
dépendent pas de l’actif, alors on peut éviter la simulation :
t , a  Cotisationt , a  Frais t , a  Ch arg ement t ,n, a
T A Flux
BEL   
1  Rn  0, t   Pr imeilliquidité 
t
t 1 a 1

Hypothèses à retenir
Les hypothèses de calcul des provisions best estimate reposent sur des
informations actuelles, crédibles, propres à la compagnie et cohérentes avec les
données de marché. Ces hypothèses doivent présentées un caractère réaliste.
Selon le CP n ° 40, la courbe retenue pour l’actualisation doit vérifier 4 critères
à savoir :
 pas de risque de crédit ;
 présenter des taux réalistes ;
 estimer via une méthode robuste ;
 être très liquides.
En pratique, l’EIOPA insiste sur l’utilisation de la courbe de taux swap.
Définition et calcul du best estimate
Niveau de segmentation
En assurance de personne, le calcul du bestestimate nécessite de prendre en
compte l’expérience du portefeuille lorsque qu’il s’agit d’évaluer la probabilité de
versement des flux futurs.
Le CP n ° 27 définit les règles à retenir en termes de segmentation qui doivent
permettre d’aboutir à des groupes de risques homogènes.

416
En pratique, ces exigences conduisent à construire des tables sur la base d’un
niveau de segmentation plus important afin d’affiner les hypothèses utilisées pour
chaque sous population significatives du portefeuille et ainsi de réduire le risque de
déformation de la loi avec le temps.
Niveau de segmentation
A contrario, un niveau de segmentation trop fin génère des risques
systématiques qui doivent être quantifiés :
 un risque d’estimation ;
 un risque de modèle.
Le calcul best estimate doit tenir compte des facteurs de risques systématiques
asymétriques car ils affectent directement son niveau. En effet, ces chocs viennent
perturber la sinistralité moyenne qui a été observée, affectant de manière globale le
montant désengagements de l’assureur.
Prise en compte des primes futures
Prise en compte des primes futures
Les cotisations futures sont prises en compte si elles sont prévues dans le
contrat et si elles répondent au moins à l’une des conditions suivantes :
 l’assureur peut juridiquement contraindre le souscripteur à payer les
cotisations
 les montants garantis des règlements de cotisations sont fixés à la date de
souscription. Les limites d’existence d’un contrat d’assurance (au sens du QIS 5)
apparaissent dès que
 l’assureur a une possibilité unilatérale de mettre fin au contrat ;
 l’assureur a une possibilité de s’opposer au paiement des cotisations ;
 l’assureur a une capacité « illimitée » d’ajuster le montant des cotisations
ou des prestations à un moment donné dans le futur
Prise en compte des primes futures
Les travaux menés par l’EIOPA semblent se diriger vers les principes suivants :
La limite d’un contrat correspond au 1 er instant ou l’assureur peut :
 mettre fin unilatéralement au contrat ;
 rejeter les primes versés par l’assuré ;
 modifier les primes ou garanties de façon à refléter parfaitement le risque.
Le fait de pouvoir forcer l’assuré à payer la prime ne rentre pas en ligne de
compte.
De plus si le contrat ne fournit pas de prestations pour un risque précis qui
affecte défavorablement l’assuré ou si il n’existe pas de mécanisme de participation
financière alors aucune prime futures ne doivent être prises en compte.

417
Définition de la marge pour risque
L’article 77 – 3 de la directive Solvabilité 2 dispose que :
La marge de risque est calculée de manière à garantir que la valeur des
provisions techniques est équivalente au montant que les entreprises d’assurance et
de réassurance demanderaient pour reprendre et honorer les engagements
d’assurance et de réassurance.
Elle est calculée séparément du best estimate des flux de trésorerie.
Elle est nulle dans le cas d’une valorisation menée sur la base de portefeuilles
de réplication. Plus précisément dans ce cas elle est incluse dans le calcul dubest
estimate.
Méthode de calcul de la marge pour risque
L’article 77 – 4 de la directive Solvabilité 2 dispose que :
« Les entreprises d’assurance et de réassurance calculent la marge de risque en
déterminant le cout que représente la mobilisation d’un montant de fonds propres
éligibles égal au capital de solvabilité requis nécessaire pour faire face aux
engagements d’assurance et de réassurance pendant toute la durée de ceux – ci »
En théorie, la RM est calculée globalement à partir du coût d’immobilisation
des fonds propres éligibles nécessaires pour atteindre le SCR (cf. TP. 5. 3) :
E  SCR (t ) 
CoCM  CoC  
t 0 (1  rt 1 )t 1
 CoCM désigne la marge pour risque ;
 r désigne le taux d’intérêt de maturité t (courbe fournie par l’EIOPA) ;
 SCR (t) désigne le SCR pour l’année t ;
 CoC est le taux de coût du capital, fixé à 6 %.
 Les SCR à considérer retiennent comme risque :
 les risques de souscription selon les activités transférées ;
 le risque de contrepartie concernant les contrats de réassurance et de
titrisation ;
 le risque opérationnel ;
 les risques de marché non évitable. La capacité d’absorption des pertes des
provisions techniques dans l’entreprise de référence correspond à celle de
l’entreprise d’origine.
En revanche, il n’y a pas de capacité d’absorption des impôts différés.
D’une manière générale, la définition suivante peut être proposée au sujet des
risques de marché non évitables :
Risque associé, pour un passif donné, au choix de l’allocation d’actif
conduisant au SCR marché minimal.
En pratique, l’EIOPA considère que ces risques se résument au risque de

418
duration pour les passifs long.
Cependant, il pourrait sembler logique de retenir le risque d’illiquidité (et ce
pour les mêmes raisons que le risque de taux).
Il convient alors d’être en mesure d’allouer la marge de risque par segment
d’activité, en tenant compte des effets de diversifications (le transfert est supposé
global) :
SCRlob (0)
CoCM lob   CoCM
 SCRlob (0)
lob
 CoCM désigne la marge pour risque globale ;
 CoCM lob désigne la marge pour risque globale du segment ;
 SCR lob (0) désigne le SCR du segment en 0.
Les simplifications possibles
La hiérarchie suivante devrait être utilisée comme une base de décision pour le
choix des méthodes de projection des futurs SCR :

La méthode n° 3 consiste à supposer que les SCR futurs sont proportionnels


aux best estimâtes futurs. Sous cette hypothèse les SCR futurs sont calculés avec la
formule suivante :
SCR(0)
SCR(t )   BEnet (0)
BEnet (0)
✓ SCR (t ) désigne le SCR relatif à l’année t ;

419
✓ BEnet (t ) désigne le best estimate net de réassurance.
Avec la méthode n° 4, la marge pour risque pour chaque branche peut être
évaluée par la formule suivante :
CoC
CoCM   Durmod (0)  SCR(0)
(1  r1 )
✓ CoC désigne le coût du capital, fixé à 6 % ;
✓ SCR (0) désigne le SCR en 0 ;
✓ Dur mod (0) désigne la duration modifiée (sensibilité) des engagements nets
de réassurance relatifs à la branche considérée en 0.
NB : l’hypothèse 3 implique la simplification 4 si la proportionnalité est globale.
On remarque que la méthode n ° 4 revient à appliquer comme formule :
C o C M  C o C  D u r (0 )  S C R (0 )
Or par définition on a :
CoCM  CoC   E  SCRt   e  rt
t0
Ceci conduit à l’égalité suivante :
 t  E(F )    E(F )  t
e  rt
u
e  rt

 E  SCR    E ( F )   e  rt t 0 t u 0

  E(F ) 
t e  rt e  rt
t 0 t t
t 0 t 0

  E (F )  e u
 rt

Partant de :  E  S C R   e   rt t u0

 E (F )  e
t  rt
t0 t
t0

 
 E  SCR   e
t 0
t
 rt
 k   E ( Fu )  e rt  k   E   Et ( Fu )  e r (u t )   e rt
t u t t  u t 
 E  SCR   e
t 0
t
 rt
  k  E( BELt )  ert
t

Cette relation étant vraie pour toute valeur de la courbe des taux, ceci implique
E ( SCR0 )
E  SCRt   k  E ( BELt )   E ( BELt )
E ( BEL0 )
La marge de risque peut être évaluée comme un pourcentage du best estimate
des provisions techniques net de réassurance (àt  0 ) par la formule suivante :
CoCM   lob  BENet (0)
✓ BE Net (0) désigne le best estimate des provisions techniques net de
réassurance évalué à t = 0 ;
✓ α lob désigne un pourcentage fixe pour la branche d’activité donnée.

420
Comme le pourcentage α lob dépend de la branche, la méthode peut seulement
être appliquée si l’activité de l’organisme est limitée à une seule branche d’activité
ou si l’activité qui dépend de plus d’une branche n’est pas matérielle.
Les conséquences sur le calcul du SCR
La complexité de la définition de la RM nécessite, on l’a vu, de recourir à des
simplifications pour son évaluation.
Cette complexité n’est pas sans conséquence sur le calcul du SCR dans le cadre
d’un modèle interne, qui va nécessiter des approximations spécifiques,
notamment :
– la non prise en compte de la RM dans le SCR ;
– la prise en compte au travers de simplifications ad’hoc en fonction du
contexte

421
2. SCR Une approche modulaire
SC R  BSC R  Adj  SC Rop
✓ BSCR = Basic Solvency Capital Requirement

BSC R   co o r r ,c
SC R SC Rr SC Rc
r *c
✓ Adj correspond à l’ajustement dû à l’effet d’absorption des risques parles
mécanismes de participation aux bénéfices et d’impôts différés.
• S C R o p correspond au besoin en capital au titre du risque opérationnel

Calcul du risque opérationnel


SCRop  min 30% BSCR , OPInul   25% Expul
Avec :
.Op ln ul  max(Oppremiums; Opprovisions)
.Oppremiums  0.04*( Earnlife  EarnSLTHealth  Earnlife  ul ) 
0.03*( Earnnon  life  EarnNonSLTHealth  Earnlife  ul ) 
Max(0,0.04*(Earnlife  Earnlife  ul )) 
Max(0,0.03* Earnnon  life)
Calcul du risque opérationnel
Opprovisions  0.0045*(TPlife  TPSLTHealth  TPlife  ul ) 
0.030*(TPnon  life  TPNonSLTHealth) 
Max(0,045*(TPlife  TPlife  ul )) 
Max(0,0.03* TPnon  life))
 Change in earned premiums / technical provisions from year t-l to t, for
earned premiums / technical provisions increases which have exceeded an increase
of 10 % Furthermore no offset shall be allowed between life and non-life 

BSCR
Calcul de marché et risque de souscription
Pour chaque type de risque le besoin en capital correspond au delta de NAV
(actif – passif) calculé en choquant la valeur de marché des actifs, les tables de
projections du passif, les S/P…
Chocs relatifs au risque de marché
✓ action (choc sur la tendance)

422
✓ Taux (choc à la hausse et à la baisse sur la tendance)
✓ Choc sur les spread
✓ Choc immobilier ;
✓ Choc concentration
✓ Choc sur les taux de change.
✓ Choc d’illiquidité 125 Cours EURIA
Module risque de marché
Chocs relatifs au risque de marché
Les différents module peuvent être classés en 3 types :
Application d’un choc sur la valeur de marché puis recalcul du BEL (si besoin) :
 action
 choc immobilier ;
 choc sur les taux de change
 Un recalcul de la valeur de marché de l’actif et du passif
 Taux
 Choc d’illiquidité  Une formule dépendant des paramètres de l’actif
 Choc sur les spread (en distinguant obligation, produits structurés et
dérivés)
 Choc concentration 126 Cours EURIA
Choc relatif au risque de souscription vie et santé vie.
Il s’agit d’un recalcul effectué en modifiant les lois de sinistralité
 longévité
 mortalité
 dépense
 catastrophe
 morbidité
 rachat (hausse, baisse et rachats massifs)
Choc relatif au risque de souscription non vie
 Risque de tarification et de provisionnement
 Risque catastrophe 128 Cours EURIA
Calcul du BSCR
Pour chaque sous module (marché, risque de souscription vie, risque de
souscription non vie et santé) le besoin en capital est obtenu par agrégation des
besoins de fonds propres et via application d’une matrice fournie par le CEIOPS.
Le BSCR correspond à l’agrégation des sous modules via application d’une
matrice fournie par le CEIOPS. Cours EURIA 129

423
3. Solvabilité 2 : Cas pratiques
Préambule
L’objet de cette partie est de présenter un cas pratique de travaux qui devront
être mis en place afin de répondre aux exigences du Pilier 1.
Pour ce faire on considère une mutuelle commercialisant un contrat frais de
santé et dont les caractéristiques sont présentées ci – après.
• Allocation stratégique
action 11 % // immobilier 9 % // obligataire 57 % // monétaire 23 %
• Passif
Cotisation 24 000 €, ratio combiné 99 %, cadence de liquidation 80 %, 15 %,
5 % Par la suite, les simplifications suivantes seront retenues : les primes sont en
intégralité payées le 1 er janvier, absence d’impôts différés, nullité des hauts et bas
de bilan (goodwill, actif incorporels, passifs sociaux).
Solvabilité 2 – cas pratique
Les inputs nécessaires
Afin de mener les calculs, certaines informations sont nécessaires :
✓ Caractéristiques lignes à lignes des placements et valeur de marché associée
✓ Caractéristiques des individus sinistrés et anticipation de la collecte future.
Traitement de l’actif
Le passage de la valorisation Solvabilité 1 à la valorisation Solvabilité 2 se fait
en appliquant les principes suivants :
✓ reconnaissance de l’intégralité des plus ou moins values latentes ;
✓ suppressions des provisions de dépréciations d’actifs (PDD et PRE)
✓ mouvements sur la réserve de capitalisation si besoin.
Les principales difficultés rencontrées par le marché se situent au niveau de la
transparisation des OPCVM.
In fine, ceci revient à reconnaître l’ensemble des plus ou moins values latentes.

424
Traitement du passif
Le passage de la valorisation Solvabilité 1 à la valorisation Solvabilité 2 se fait
en appliquant les principes suivants :
✓ calcul du best estimate de sinistralité : relatif aux sinistres connues ;
✓ calcul du best estimate de prime : relatif aux sinistres futurs ;
✓ calcul de la marge pour risque.
Contrairement à l’actif, il n’existe pas de document Solvabilité 1 permettant de
valider la valeur des provisions techniques Solvabilité 2.
Traitement du passif – best estimate de sinistralité
Le principale travail consiste à prendre en compte la valeur temps de l’argent :

425
Traitement du passif – best estimate de prime
Le principale travail consiste à prendre en compte la sinistralité du dispositif
puis la valeur temps de l’argent :

Calcul du SCR
En premier lieu il est nécessaire d’établir la cartographie des risques de la
compagnie.

426
Calcul du SCR – risque de marché
Le risque action et immobilier correspondent à un pourcentage de la valeur
de marché de ces actifs.
Valeur de Choc Valeur du
marché sous module
Risque action 2 500 39 % 975
Risque immobilier 3 000 25 % 750
Il est à noter que le choc action traite différemment les titres côtés dans l’EEA
ou l’OCDE des autres titres (il s’agit de plus du choc par défaut à appliquer à un
instrument financier).
Il retient un choc plus faible pour les titres stratégiques (22 %)
Afin de lutter contre le caractère pro – cyclique de ce choc, il inclut un
ajustement symétrique
Le choc de spread dépend de la duration du rating du portefeuille (ce
traitement est cohérent avec la notion de probabilité de défaut). Il traite
différemment les obligations, les produits dérivés et les produits structurés.
Le choc vaut ici : 3, 3 % de la valeur de marché du portefeuille obligataire : 495
Le choc de taux correspond au mouvement de la valeur des produits de taux
et des provisions en cas de hausse ou de baisse des taux. A titre d’exemple, son
application conduit à recalculer la valeur des best estimate en modifiant la valeur
de la courbe des taux swap.

427
Par construction, l’actif et le passif présente une sensibilité au risque de taux
qui est différente.
Le choc vaut ici 630.
Le risque d’illiquidité est considéré ici comme nul
Solvabilité 2
cas pratique Calcul du SCR – risque santé
En assurance non – vie, les risque à prendre en compte sont de trois types :
Risque de rachat
Nécessite de recalculer la valeur des best estimate en augmentant (ou en
diminuant les volumes de cotisations)
Risque catastrophe
Calculs forfaitaires pour une pandémie, un écroulement de stade et un risque
de concentration. Seul le risque de concentration est applicable (la difficulté de ce
module se trouve principalement au niveau des données).
Risque de tarification et de provisionnement Application d’un facteur de
volatilité au best estimate de sinistralité ainsi qu’aux provisions
Solvabilité 2 cas pratique
Calcul du SCR – risque de tarification et de provisionnement

Calcul du SCR – risque opérationnel


Le risque opérationnel, dont le calcul est forfaitaire, permet de prendre en

428
compte les risques liés à la gouvernance de la compagnie (risques qui par nature
sont difficilement quantifiables).
Il s’exprime en fonction des volumes de cotisation et des best estimate.
Dans le cas de « mutuelle frais de santé », le risque opérationnel correspond à
4 % des primes acquises sur les 12 derniers mois. Il vaut donc 960.
Calcul du SCR – prise en compte de la diversification

429
Calcul du SCR – Calcul de la marge pour risque et du bilan S 2.
La marge pour risque permet de prendre en compte l’ensemble des risques qui
ne sont pas couvrables sur les marchés financiers. Elle est ici calculée sur la base de
la simplification par duration et vaut : 229.
Une fois cette marge calculée le bilan Solvabilité 2 est en intégralité connu :

Analyse du risque de tarification et de provisionnement


Sous Solvabilité 1 : maximum entre un calcul basé sur les cotisations brutes
(avec un ratio de 18 % et 16 %) et un calcul basé sur la sinistralité moyenne (avec
un ratio de 26 % et 23 %).
Sous Solvabilité 2 : valeur moyenne obtenue via le montant des primes, le best
estimate de sinistralité, un ratio de prime de 10 % et un ratio de sinistralité de 4 %.
Cependant, de par la rapidité de la cadence de liquidation des contrats frais de santé,
le ratio moyen est comparable au ratio de prime.
In fine, en l’absence de réassurance ou d’une sinistralité atypique, l’application
de paramètres moyens conduit en moyenne à un risque de tarification et
provisionnement qui est compris entre 11 % et 17 % du montant de primes.
En se basant sur un risque opérationnel qui correspond en moyenne à 3 % des
primes, le besoin de fonds propres associés au passifs est à peut prêt similaire sous
Solvabilité 1 et sous Solvabilité 2.
Analyse du risque de tarification et de provisionnement
Aussi, dans le cas de mutuelle santé, une attention particulière doit être

430
apportée à la structure de l’actif.
A titre d’exemple, si l’on venait à augmenter l’allocation action pour atteindre
20 % (au détriment du monétaire), le SCR augmente de 11 % et conduit à un ratio
de couverture de 339 % contre 376 % à l’heure actuelle.
L’article 45 de la directive Solvabilité II dispose que dans le cadre de son
système de gestion des risques, chaque entreprise d’assurance procède à une
évaluation interne de ses risques et de sa solvabilité. Cette évaluation porte
notamment sur les éléments suivants :
✓ le besoin global de solvabilité, compte tenu du profil de risque spécifique,
des limites approuvées de tolérance au risque et de la stratégie commerciale de
l’entreprise ;
✓ le respect permanent des exigences de capital.
=> L’ORSA a pour objet de s’assurer de la solvabilité pluriannuelle de l’assureur
sur la base d’une vision incluant le plan stratégique de développement et retenant
des hypothèses de calculs adaptées aux spécificités de l’entreprise.
L’ORSA est l’image de la complexité de l’entreprise en termes d’activités et de
risques => Proportionnalité automatique
Proportionnalité applicable pour la détermination du besoin global de
solvabilité
✓ Proportionnalité extensible à tout le processus de l’ORSA
✓ Large spectre d’outils utilisables (du stress – test simple à la modélisation fine
des risques)
Dans la plupart des cas une estimation, plus qu’un calcul, est requise
L’ORSA s’adresse aux administrateurs de la compagnie.
Il s’agit d’une fonction clé permettant aux administrateurs de gérer
prudemment la compagnie en leur présentant une vision claire :
✓ des risques pesant sur l’entreprise ;
✓ du besoin global de solvabilité.
Contrairement au Pilier 1, il ne s’agit pas d’un processus mécanique qui peut
se standardiser : chaque compagnie doit développer son propre ORSA qui lui
permettra de répondre à ses propres besoins.
L’ORSA n’a pas pour objectif de faire intervenir des experts ou des débats
d’experts au sein du conseil d’administration mais plutôt d’enrichir les réflexions
du conseil sur la base d’une mesure des risques.
Définitions et principes
Risk capacity :
Montant maximal de risque que la compagnie est capable de supporter.
Profil de risque ou Risk Profile :

431
Niveau de risque auquel est soumise la compagnie en date de calcul. Peut être
appréhendé de façon qualitative et quantitative sur la base des métriques retenues
pour l’appétence au risque.
Appétence au risque ou Risk Appetite :
Niveau de risque agrégé qu’une entreprise accepte de prendre en vue de la
poursuite de son activité et d’atteindre ses objectifs stratégiques.
Tolérance au risque ou Risk Tolerance : Niveau maximal de risque qui peut
être pris sur un profil de risque.
Limites de risque ou Risk Limites : Traduction opérationnelle de la tolérance
au risque. 153 Cours EURIA
Définitions et principes
Le schéma global de l’appétit pour le risque est le suivant (cf. Institut des
Actuaires [2010]) :

Contexte
Présentation de la compagnie
On considère une compagnie d’assurance, commercialisant un contrat frais de
santé dont le ratio combiné est de 101 %. La commercialisation de ce contrat est
stable (66 millions de primes en 2010 et une prévision identique pour les années
2011 et 2012).
Bilan économique au 31 / 12 / 2010 :

432
Actif Passif
VM 46 240 Actif net 33 850
PT 12 390
Montonts en k 
Allocation :
Obligations Actions Monétaire

61 % 15 % 23 %

SCR de 11 millions d’euros (ratio de couverture d’environ 300 %) Le monétaire


a pour objet de récupérer les primes et de payer les sinistres.
Contexte
Passage d’une logique Pilier 1 à une logique Pilier 2
Initialement les informations suivantes sont disponibles :
– 1 plan stratégique initial.
– 1 ratio de couverture initial.
– 1 structure de portefeuille initiale
Le processus d’ORSA implique de projeter la distribution de la structure
compagnie à 1 an

Contexte
Le principe consiste à mener le processus d’appétit du risque sur la base de la
sélection de certaines trajectoires (et non sur la totalité de la distribution). Cette
méthodologie ne doit pas être menée sans une connaissance approfondie du
profil de risque de la structure :
Évolution du ratio de couverture d’un contrat santé présentant un ratio
compris entre 80 % et 100 %.

433
Augmenter le nombre de contrats conduit :
✓ à un ANR supérieur ;
✓ à diminuer la probabilité de couvrir à 1 an le SCR.
Contexte
Calibrage du scénario
Ce scénario au pire est calibré en calculant les chocs qu’il conviendrait
d’appliquer dans le cas où les fichiers du QIS 5 auraient pour objectif de calculer un
quantile à 95 % et non à 99, 5 %.
Cette étape est particulièrement sensible dans le sens où elle définit le pire
scénario, raisonnablement admissible, que l’on envisage pour l’année à venir. Elle
peut de ce fait tenir compte d’informations non statistiques liées à une anticipation
de l’évolution des conditions de marché.
Appétit du risque
Risk Capacity – Définition
Un calcul basé sur l’ANR (Actif Net Réévalué)
Il s’agit du risque maximal qui peut être pris. Il est principalement
déterminée sur la base de l’analyse du capital économique disponible. En effet il
représente l’amortisseur final pour la compagnie (cohérent avec la logique SII et la
logique économique et patrimoniale classique).
Les composantes suivantes peuvent être retenues :
✓ le montant du capital disponible (en vision économique) ;
✓ la liquidité du capital ainsi que la capacité à lever du capital ;
✓ la qualité du capital (Tier 1 / 2 / 3).

434
Sur la base de l’analyse de sa richesse, la compagnie peut déterminer quels sont
les besoins defonds propres maximum qu’elle peut supporter et donc les limites
maximales de risque qu’elle peut accepter.
Appétit du risque
Risk Capacity – Exemple
Sur la base du scénario choqué calibré préalablement on calcule le quantile à
95 % de l’ANR à 1 an

La capacité maximale de prise de risque est de 29, 5 M € d’euro Le plan


stratégique actuel consomme 10, 8 M € => capacité résiduelle 18, 7 M €
Appétit du risque
Définition de l’appétit du risque :
Cette appétence au risque introduit 3 paramètres :
✓ Les dimensions à suivre ;
✓ La probabilité associée à chaque dimension ;
✓ Un niveau.
La compagnie veut dans 95 % des cas voir un taux de couverture de 260 %.
ORSA
Appétit du risque
Traduction mathématique de l’appétit pour le risque :
Le calcul de la risk capacity conduit aux informations suivantes :
✓ Le quantile à 95 % de l’ANR à 1 an est de 29, 5 M €.
✓ Le SCR associé est de 10, 8 M € => 2, 6 x SCR = 28, 2 M €.
Aussi, le plan stratégique actuel conduit à un surplus de fonds propres de 1,
2 M € (pour atteindre un ratio de 260 %). Ceci représente 7 % de la capacité

435
maximale de prise de risque.
Ceci correspond au capital que la compagnie va allouer par risque lors de la
définition de sa tolérance aux risques.
Appétit du risque – Tolérance au risque
Définition
Afin de rendre opérationnelle l’analyse précédente, il est nécessaire de traduire
la politique d’appétence pour le risque de la compagnie au niveau de chacune des
catégories de risques (donc pour chacun des secteurs de l’entreprise concernée).

Les facteurs de risque à intégrer au calcul comprennent :


✓ tous les facteurs de risque significatifs de la formule standard ;
✓ le facteur de risque business. Ce risque provient des hypothèses prises dans
le cadre du plan de développement.
Appétit du risque – Tolérance au risque
Définition
Cette étape est particulièrement délicate dans le sens où elle nécessite de
définir l’allocation de risque global de la compagnie sous la forme de catégories
de risques. L’énoncé des préférences de risque :
✓ doit être en ligne avec le plan stratégique de la compagnie ;
✓ doit mettre en avant les préférences des managers ;
✓ doit conduire à attribuer une capacité de prise de risque à chaque preneur de
risque.
Appétit du risque – Tolérance au risque
Méthodes d’allocation
 Sur la base du profil de risque actuelde la compagnie.

436
Cette méthode revenant à prioriser les risques qui ont déjà une plus importante
exposition.
 Proportionnellement à la diversification apportée par chaque périmètre.
Cette approche priorise une optimisation de la diversification et de la prise de risque
sous jacente.
 Proportionnellement à une mesure de performance.
Par exemple, cette approche priorise la performance financière rapportée à un
niveau de risque maximal.
Appétit du risque – Tolérance au risque
Application
Dans un premier temps, les tolérances au risque sont calculées sur la base de la
consommation de fonds propres des différents risques (avec bénéfice de
diversification) :
Sur la base du plan stratégique actuel,
✓ Risque de tarification et risque opérationnel : 93 % de la consommation des
fonds propres => attribution de risque = 1 068 k €.
✓ Risque de marché : 20 % de la consommation des fonds propres =>
attribution de risque = 247 k €.
Appétit du risque – Tolérance au risque
Application
Au niveau des sous risques financiers (actions et obligations), la compagnie ne
souhaite pas retenir comme clé de répartition les consommations en capital du QSI
5 mais une clé de rentabilité :
Les actions sont deux fois plus rentables que les obligations, aussi la compagnie
souhaite attribuer 66 % du risque financier aux actions.
• Risque de marché : 20 % de la consommation des fonds propre => attribution
de risque = 247 k €.
 actions : 66 % du risque actif : => attribution de risque = 165 k €.
 obligations : 34 % du risque actif : => attribution de risque = 82 k €.
Application
Afin d’optimiser le processus de gestion des risques, il est préférable de
raisonner en fonction des risques eux – mêmes et non par classe de risque.

437
Appétit du risque – Limites de risque
En amont du calcul des tolérance, il convient de remarquer que tous les risques
présentent un aspect positif et négatif.
A titre d’exemple : attribuer du risque aux actions revient à augmenter
l’allocation action. Cette augmentation doit prendre en compte le fait quelle
conduit à des chocs plus importants (pour le calcul du quantile à 95 %et du SCR)
mais également à une rentabilité moyenne à un an plus importante.
Il est donc nécessaire de prendre en compte le couple rendement risque.
=>Dans le cas des actions, attribuer 1 % d’allocation en plus revient à augmenter le
rendement à 1 an de 21 € et à augmenter la valeur des chocs à 1 an de 124 €. Aussi
attribuer 100 € de capital au risque action revient à augmenter l’allocation
action de 0, 8 %.
On notera que cette analyse peut être compliqué dans le cas de fortes
interactions actif – passif 169 Cours EURIA
Appétit du risque – Limites de risque
Le calcul des limites des risques est établi sur la base des tolérances aux risques
calculées lors de l’étape précédente et sur l’analyse de la consommation en capital
induite par l’attribution d’une unité de risque supplémentaire.
On notera que compte tenu du rôle de la poche monétaire, dans le cas d’une
augmentation des cotisations encaissées, cette augmentation est investie en
monétaire (et les flux de prestation liés sont payées sur la base du monétaire).
✓ l’attribution de 1 168 k € de risque au passif conduit à une augmentation du
montant de cotisations de 2 430 k € sur 2011 et sur 2012 ;

438
✓ l’attribution de 165 k € de risque sur le portefeuille action conduit à une
allocation action de 1, 6 % ;
✓ l’attribution de 82 k € de risque sur le portefeuille obligataire conduit à une
allocation de 10 % (le portefeuille obligataire étant peu risqué).
Appétit du risque – Limites de risque
La compagnie émet un document qui synthétise son processus d’appétit du
risque :
✓ vente de 66 000 k € à 68 430 k € de cotisations sur 2011 ;
✓ vente de 66 000 k € à 68 430 k € de cotisations sur 2012 ;
✓ allocation obligataire comprise entre 61 % et 71 % ;
✓ allocation action comprise entre 15 % et 17 %.
Ce plan stratégique conduisant à un ANR qui sera supérieur à 29 313 k € dans
95 % des cas et un SCR associé de 11 331 k €. In fine on observe que l’allocation
stratégique conduit à un ratio de couverture qui sera de 259 % dans au moins
95 % des cas.
Appétit du risque – au – delà de la 1ère année
Une fois les limites opérationnelles établies, il est nécessaire de vérifier le bon
respect de l’appétit pour le risque sur toute la durée du plan stratégique.
Ceci revient à calibrer un scénario à 2 ans, 3 ans,… 5 ans puis à calculer l’ANR,
le SCR et chaque ratio de couverture associé.
Appétit du risque – suivi
La capacité de prise de risque a été définie sur la base de conditions de marché
vues en date de calcul amenées à évoluer (plus ou moins favorablement).
Aussi, dans le cas de variation non négligeable des conditions de marché, la
compagnie a tout intérêt à rééquilibrer son processus d’appétence au risque.
La fréquence de rééquilibrage du processus ne devra être ni trop élevée (risque
de perdre toute stratégie) ni trop faible (risque de perdre une continuité dans la
stratégie et ce à cause de brutales modifications de L’appétence)

439
Lien avec l’existant
✓ Les compagnies réalisent un rapport de solvabilité.
✓ Ce rapport de solvabilité vise à avoir une approche non seulement statique
mais prospective de la solvabilité de l’Institution. A ce titre, le rapport de solvabilité
existant peut constituer les prémices d’une double réflexion :
• réflexion sur les capacités financières à court terme de la mutuelle (Pilier 1),
• capacité prospective à appréhender sa situation financière future sur la base
des hypothèses de développement.
que la mutuelle explicitera dans le cadre du Pilier 2.
Une logique de projet
Le Pilier 2 constitue un défi pour l’ensemble des organismes assureurs. Dans le
cas des mutuelles, ce défi est d’autant plus grand qu’il nécessite de mettre en place
une structure organisationnelle relativement coûteuse en termes humain.
Contrairement au Pilier 1, le Pilier 2 fait intervenir l’ensemble des directions
de la compagnie, il s’agit donc d’un véritable projet d’entreprise, qui peux être
scindé en trois phases (que ce soit sur le plan quantitatif ou qualitatif) :
✓ audit de l’existant ;
✓ synthèse des faiblesses du dispositif actuel et choix des priorités ;
✓ mise en œuvre du projet.
Les indicateurs de risque
Mise en place d’indicateurs de risque
Les raisons
✓ Pour suivre l’évolution du lien Appétit du risque  Limites de risque.
✓ Afin de suivre les risques cruciaux.
Les implications

440
✓ Définir les risques cruciaux.
✓ Définir les processus d’évolution de ces risques.
Les contraintes
✓ Rapidité et robustesse.
Les indicateurs de risque
Mise en place d’indicateurs de risque
Solution apportée par le Cabinet dans le cas de contrat non – vie
Un modèle suivant les 4 principaux facteurs
✓ les cotisations ;
✓ le best estimate (risque de tarification passée) ;
✓ le ratio combiné (risque de tarification future et risque de frais) ;
✓ le rendement de l’actif.
Une dynamique temporelle basé sur la loi log – normale (spécifications
techniques, USP, principaux modèles de provisionnement en assurance non – vie)
Le cadre de référence
Le modèle présenté ci – après permet de gérer les contrats d’assurance non vie
à faible duration. Il se place dans un cadre ou la politique d’ORSA est établie sur la
base d’un modèle interne :
SCRt : Pt  At 1  Lt 1  0   99,5%
Cette équation pouvant se récrire :
 F  C t 1  Lt 1 
Pt  SCRt  t 1  Lt   Pt ( SCRt   t 1  Lt )  99, 5%
  (1  Rt 1  
Aussi, la connaissance de la loi de revient à connaitre le montant de et donc de
mener le processus d’ORSA.
Le cadre de référence
L’une des principales problématiques ce situe au niveau du calcul de la marge
pour risque contenue dans le montant des provisions best estimate. Afin de
solutionner ce problème on fixe l’hypothèse suivante :
R M t    Dt  S C Rt
où D désigne la duration du passif.
On notera que cette simplification revient à considérer, qu’en run off, les
variables aléatoires présentent une évolution de leur espérance qui est
proportionnelle.
Outre le fait que cette hypothèse est proposée par l’EIOPA, elle revient à
considérer qu’une diminution de x % du BEL implique une diminution de x % du
risque et donc du SCR.

441
Sur la base de cette simplification, l’équation présentée ci – avant devient :
   SCRt   
  Ft 1    Dt 1   BELt 1  C t 1  
SCRt 
1  VaR   BELt  ; 99, 5%   BEL 
1    Dt 
t 
t
 1  Rt 1 
   
 
   
Cette expression n’est toutefois pas simple à manipuler car elle fournit une
équation implicite en qui ne peut être résolue que numériquement.
La dynamique des facteurs de risque
Il s’agit maintenant de spécifier les différents facteurs intervenants dans
l’équation précédente. Quatre facteurs de risque sont retenus dans le modèle :
✓ les cotisations ;
✓ le best estimate (risque de tarification passée) ;
✓ le ratio combiné (risque de tarification future et risque de frais) ;
✓ le rendement de l’actif.
Les calculs sont menés en deux étapes :
✓ dans un premier temps on choisit une dynamique temporelle pour les
facteurs de risque,
✓ dans un second temps, on en déduit les équations d’évolution des autres
variables d’intérêt telles que les prestations et la valeur de l’actif.
La dynamique des facteurs de risque
On suppose que conditionnellement à l’information disponible en t,
l’évolution des facteurs de risque à la date t est définie par :
 2   2 
Ct 1  Ct  exp   c  c   c   t 1,c  S t 1  S t  exp   a  a   a   t 1,a 
 2   2 
  2

BELt 1  BELt  exp   p  p   p   t 1,p    t 1  C t 1
 2 
 
  2

 t 1    exp         t 1,  
 2 
où les  i sont des bruits blancs gaussiens indépendants.
Le taux de variation des provisions  p doit être impacté par l’effet
d’actualisation et le niveau des prestations réglées :  p ( t )  r  In (1   ) avec φ
constante.
Autres équations d’évolution
Via l’équation relative au processus d’évolution du best estimate, on a :

442
 2 
BELt  1   t 1  C t 1  BELt  exp  r  p   p   t 1,p   1   
 2 
 
Cette équation traduit la consommation des provisions en run – off : la
variation tendancielle du best estimate est la conséquence de l’effet de dés
actualisation minoré des prestations servies. En identifiant les deux termes de
l’équation, on trouve alors :
Ft 1    ( BELt 1   t 1  C t 1 )

Avec 
1
Autres équations d’évolution
On peut alors modéliser l’ensemble des éléments du bilan simplifié :
At  At  1  (1  Rt )  Ft  C t
Lt  BELt  RELt  BELt    D t  SCRt
Ft    ( BELt   t  C t )
et construire la distribution du taux de couverture des engagements
réglementaires :
At  Lt
 t 
SC Rt
Mais pour que le modèle soit utilisable en pratique il faut être capable de
calculer le SCR de manière analytique.
Formule explicite pour le SCR projeté
Tout se ramène donc à déterminer la loi conditionnelle en t de :

 t 1 
 ct     BELt 1  (1     t 1 )  C t 1
1  Rt  1
SC R t
avec c t  1     Dt
B E Lt
Compte tenu de la forme des lois conditionnelles des variables BEL, C et 1 + R,
on approche la loi de xhi par une loi log – normale dont les paramètres sont choisis
pour que les deux premiers moments soient exacts.
Formule explicite pour le SCR projeté
On trouve après quelques calculs :
 a2
t (  )  t   a   2
(  )   2
  2

2 t t a

avec :

443
 t
2
 I n (1   t
2
)
 ( c   )  e  P  BEL  (1  c   e )  c  e  c 
 t  In  t t t t

 1   2 
 t 
2  p (t ) 
( c t   ) 2  B E L 2t  e  (e p
 1)
 2 
 c t2   2 ( e p  1)  C t2  e 2  e    C t2  ( e p  1)  (1  c t   ) 2
c

t 
( c t   )  e  P  B E L t  (1  c t   )  C t  E  c

Formule explicite pour le SCR projeté


Le SCR se calcule alors via la formule fermée suivante :
1
SCRt 
1    Dt
 exp( t      t (  )   1 (99, 5%))  BELt 
Cette équation nécessite la mise en œuvre d’une résolution numérique. Une
méthode par dichotomie est suffisante pour résoudre numériquement cette
équation
Prise en compte de plusieurs lignes d’affaires
L’utilisation pratique du modèle proposé ici implique de pouvoir prendre en
compte plusieurs lignes d’affaires adossées à un actif général, autrement dit de
distinguer des BEL et des cotisations par ligne. Dans ce cas on a

 C 
n

t
j
  t j  B E L tj 1  C t j 1
j 1
 t 1 
1  R t 1
et on peut donc utiliser encore une approximation par une loi log – normale de la
loi conditionnelle de xhi, seul le calcul des deux premiers moments du numérateur
est modifié. Il est simple de prendre en compte la dépendance entre les branches,
pour autant que celle – ci soit mesurée par des coefficients de corrélation entre les
lois normales sous – jacentes. On prend ainsi en compte l’effet de l’évolution des
primes sur le mix – produit et peut identifier des arbitrages dans le politique de
souscription.
Application – paramétrage
Soit une compagnie d’assurance commercialisant un contrat frais de santé :
✓ ratio combiné moyen de 100 % ;
✓ commercialisation de 75 M € de cotisations et allocation 20 % d’actions et
80 % d’obligations (OAT 1 an) ;
✓ ratio de couverture initiale du SCR de 204 % ;
✓ plan stratégique : maintenir le profil de risque actuel. Après validation
statistique du caractère log – normale de ses risques les paramètres respectifs sont
estimés :

444
  ,  0 , ,  1 % ;
 p  1 0 % ,  8 0 % ;
   2 % ,   1 0 0 % ;
 µ a  3, 6 % , a  6 ,3 %
Application – paramétrage
Préalablement à la mise en œuvre à proprement parler, on valide le aractère log
– normale la loi de xhi.

Le test de Jarque – Bera utilisé en général pour des échantillons de grande taille,
conduit à une p – valeur de 35 %.
Application – définition de l’appétit pour le risque
La compagnie se fixe comme appétit pour le risque
✓ un ratio de couverture annuel du SCR supérieur à 150 % dans 95 % des cas
et ce sur les 5 prochaines année.
Les résultats du modèle ainsi paramétré sont présentés ci – après : Les
indicateurs de risque

445
Application – sorties du modèle
Exemple – sorties du modèle

446
447
448
Chapitre 3
Calcul du SCR dans une approche modèle interne

Le calcul du SCR s’appuie sur la projection du bilan à un an (cf. Guibert et al.


[2010]) :

et que le SCR doit être solution de l’équation en x :


P  E1  0 E0  x   0, 5%
où on a noté Et  At  Lt
Préambule
Dans le contexte de l’assurance vie, le calcul d’un best estimate conduit à devoir
évaluer :
Fj
     j   F j  BEL  EP AQF (  )
1  Rj 
j
j 1 j 1

ce qui en pratique s’effectue (souvent) par simulation. De ce fait, la résolution de


l’équation implicite

449
 F  PT1 
P(E 1  0 E 0  x )  0, 5%  SCR  VaR99,5%  1   PT0
 1  R1 
qui est envisageable analytiquement en assurance non-vie, s’appuie sur des
techniques numériques dans le cadre de l’assurance vie.
L’objectif de cette présentation est de discuter les techniques envisageables
pour cela. Elle s’appuie sur Bauer et al. [2010], dont on reprend les notations et
illustrations.

1. Cadre général
En premier lieu, on utilise une définition un peu différente du SCR pour éviter
le caractère implicite de l’équation en considérant la fonction de perte :
E1
L  E0 
1 i
Le SCR est alors le plus petit x tel que
P ( L  x )  0, 5%
ce qui conduit à l’expression souvent utilisée :
S C R  E 0  P ( 0 ,1)  V a R 0 , 5 % ( E 1 )
NB : dans ce cadre le SCR dépend du montant global de capital initial.
Il reste à définir le calcul des fonds propres E.
Les fonds propres peuvent être déterminés de deux manières, selon que l’on
adopte le point de vue de l’actionnaire ou celui de l’assuré.
Avec le point de vue de l’assuré, on est conduit à des expressions de la forme :
  p A Q F   ( j) 
   ( j )  F j  E1  A1  E1 
A
 QF
E0  A0  E p  Fj 
 J 1   J  2  (1) 
Du point de vue de l’assureur, on retrouve une démarche proche de celle
adoptée par la MCEV, consistant à ajouter à l’actif net réévalué (ANAV) la valeur
actuelle des profits futurs (VIF=PVFP-TVFOG) :
 
   ( j)  X j 
A
 QF
E0  ANAV0  E p
 J 2 
  ( j) 
E1  ANAV1  X1  E1p Q F  
A
Xj
 J 2  (1) 
NB : on ignore ici le coût des risques non couvrables (CRNHR) et donc la
marge pour risque.
A partir de maintenant on s’intéresse à la structure de :
  p A Q F  
  1 ( j )  X j   E   1 ( j )  X j Yu , u   0,1 
A
Q F
V1  E1p
 J 2   J 2 

450
Y est un processus markovien décrivant les risques financiers. En pratique on
peut supposer que l’état du bilan ne dépend pas de l’ensemble de la trajectoire de Y
mais d’un nombre fini de variables d’états, que l’on notera D, également markovien.
D décrit l’état des polices.
Pour simplifier les calculs on considérera uniquement les risques financiers
(considérés comme couvrables), ce qui conduit finalement à :
 
V1  E Q   1 ( j )  X j Y1 , D1  
 J 2 
On distingue les calculs des fonds propres en t=0 (estimation d’une valeur) et
en t=1 (estimation d’une distribution). A la date initiale, on doit calculer :
 
V1  E Q   ( j )  X j 
 J 2 
Compte tenu de la complexité du problème, on effectue ce calcul par
simulation et on pose
K0
1
V0 ( K 0 ) 
K0
 
k 1 j 1
(k )
( j )  X (j k )

Les fonds propres initiaux s’en déduisent via


E 0  A N A V 0  V0 ( K 0 )
En t=1, on simule des réalisations des variables d’état sur la première période,
ce qui permet de définir :
   
V1  E Q   1 ( j )  X j Y1(i ) , D1(i )   1( i )  V Q   1 ( j )  X j Y1( i ) , D1( i )  
 J 2   J 2 
On doit alors, comme en 0, estimer ces termes par simulation, ce qui conduit à
poser :
K1( i )
1
V1( i ) ( K 1( i ) )  ( i )
K1
 
k 1 j  2
(i ,k )
( j )  X J( i , k )
2
k1( i )
1
1(i ) ( K1(i ) ) 
K (i )
1
 
k 1
(i , k )
1  V1(i ) ( K1(i ) ) 
1

avec 1 
(i,k )

j2
1
(i ,k )
( j )  X J(i ,k ) et finalement :

E 1( i )  A N A V 1 ( i )  V1 ( i ) ( K 1( i ) )  X 1( i )

L’estimateur de la variance est utile car le nombre de simulations secondaires


peut dépendre a priori des variables d’état et devoir être d’autant plus grand que la
volatilité est élevée :

451
On est alors en mesure de construire un estimateur du SCR qui est un quantile
de la variable
E1
L  E0 
1 j
Il suffit donc de trouver un estimateur du quantile d’ordre a de la variable Z=-
E1 et on en déduit, par exemple avec le quantile empirique :

  E  Z (m)
SCR 0
1 i
Il reste alors à examiner les propriétés de cet estimateur et notamment à choisir
de manière optimale les valeurs de N, K0 et K1.

2. Algorithme LSM
L’algorithme LSM (Least Square Monte Carlo) est une méthode de Monte Carlo
visant à estimer des espérances conditionnelles via un ensemble de fonctions de base
(polynômes de Laguerre, polynômes d’Hermite, fonctions trigonométriques).
Cette méthode a par exemple était utilisée afin de valoriser des options
bermudiennes pour évaluer les espérances conditionnelles relatives aux temps
d’arrêt de l’option (cf. Longstaff et Schwartz [2001]).
L’idée est que dans un espace de Hilbert H (espace vectoriel normé complet
dont la norme est un produit vectoriel) de base hilbertienne {ei} alors :

452
N
f  H , f    f , ei ei  E  X Y   i ei  i ei
iI il i 1
Bauer et al. [2010] retiennent cette méthode mais en considérant que la base
hilbertienne {ei} est constituée de polynômes à 4 inconnues :
 l’actif de la compagnie ;
 la fonction de perte ;
 le résultat de première année ;
 le taux court de première année.
On notera la similitude entre cette approche et celle des portefeuilles de
réplication : constituer un portefeuille composée d’un produit linéaire d’actifs
financiers de base afin de minimiser l’écart quadratique entre la valeur de ce
portefeuille et la valeur du best estimate des engagements d’assurance.
La stratégie LSM est plus « pratique » dans le sens où elle laisse plus de libertés
pour la base hilbertienne {ei}.
V1 est une variable dans l’espace de Hilbert L 2 (  ,  (Y 1 , D 1 ), P ) et on peut
donc décomposer cette variable aléatoire sur une base de cet espace :
 M
V1  k  ek  Y1 , D1   k  ek  Y1 ,D1   V1( M )  Y1 , D1 
k 1 k 1

Il faut donc déterminer les coefficients k Pour cela on s’appuie sur la


simulation de trajectoires des variables d’état, i=1, …, N :
Yt ( i ) , D t( i ) t 1,...,T
Le long de chacune de ces trajectoires, on calcule
i 1(i ) ( j )  X (ji )
j 2

On peut alors construire un estimateur de a en posant :


2
 M N

ˆ  arg min    i    k  ek Y1( i ) , D1( i )  
(N )

i 1  k 1 
ce qui conduit finalement à l’approximation
M
V1  V1( M , N )  Y1 ,D1   ˆk( N )  ek  Y1 ,D1 
k 1
On en déduit finalement des réalisations des fonds propres
E1(i )  ANAV1(i )  X1(i )  V1( M , N )  Y1,D1 
La distribution empirique de ces réalisations permet de construire un
estimateur du SCR.

453
Choix des régresseurs
L’un des points délicats de l’algorithme est le choix de la base
L’erreur d’estimation est définie par :
2
 N M

SMSE   E1  V1( i )   ˆ k( N )  ek Y1( i ) , D1( i )  
i 1  k 1 
et peut être estimée par :
2
N
 (i ) M ( N ) (i ) 
N
SMSE        k  1 1     1( i )
(i )
 1 ˆ k e Y , D
i 1  k 1  i 1

 2Tr   ( '   ' diag  1(1) , ...,  1(N) ) 


1

Convergence
La convergence dans L2 de V 1 M ( Y1 , D 1 ) est immédiate, par construction de
cette approximation. Il faut donc justifier la convergence en loi :
V1( M , N ) (Y1 , D1 ) 
N 
V1( M ) Y1 , D1 
Cette justification n’est pas simple car on effectue un changement de mesure
en t=1 pour passer de la probabilité historique à la probabilité risque neutre. On
peut se référer à Longstaff et Schwartz [2001] sur ce point. Bauer et al. [2010]
proposent également une approche basée sur la construction d’un nouvel espace
probabilisé, qui reste à formaliser dans le cas général.

3. Autres approches
Parmi les approches alternatives on peut citer :
 la recherche d’approximation par des formules fermées de la valeur de
marché du passif (cf. Bonnin et al. [2012]) ;
 des majorants analytiques du SCR (cf. Bauer et al. [2010]) ;
 des méthodes d’optimisation des simulations secondaires (cf. Nteukam et
Planchet [2010]) ;
 l’optimisation de l’approche SdS (cf. Devineau et Loisel [2009]) ;
 les approches par réplication (cf. Revelen [2009]).
Un exemple
On reprend l’exemple présenté dans Bauer et al. [2010] d’un simple contrat
d’épargne avec taux garanti avec une maturité fixée T et impossibilité de sortie
anticipée.
L’actif est constitué d’un actif synthétique de type B&S avec un modèle de taux
mono-factoriel de Vasicek :


dAt   At dt  At  dWT  1   2 DzT 
454
Le prix de marché du risque associé au taux court est supposé constant de sorte
que sous la probabilité risque neutre (cf. Caja et Planchet [2010]) :
  r  
drt        rt  dt   r dWt
 K  
On obtient des résultats avec l’algorithme LSM ayant l’allure suivante :

Figure 2 : Empirical density function for different choices of K1 for the


estimator based on the policyholders » cash flows (left) and the sharehoders » cash
flows (right), N = 100,000, K0 = 250,000
On compare alors les résultats obtenus dans différentes configurations.
Utilisation de l’approche SdS

On fixe ici un « budget » de simulation et on compare les résultats issus des


approches SdS et LSM :

455
Avec l’algorithme LSM le temps de calcul est réduit d’un facteur 35 environ sur
cet exemple.

Le choix des régresseurs nécessite une étude spécifique :

Table 4 : Estimated SCR for different choices of the regression function, K0 =


1,500,000, N = 320, 000 LSM Approach

Conclusion
Le calcul d’un SCR dans le cadre d’un modèle interne est techniquement difficile.

456
Le recours a des méthodes d’optimisation des approches directes de type SdS
est inévitable.
La mise en œuvre des méthodes de calcul, que ce soit l’approche directe (SdS)
ou des alternatives plus efficaces (LSM), nécessite une attention particulière portée
au choix des estimateurs, des nombres de simulation et de cadre de modélisation.

457
458
Bibliographie

Arthur Charpentier Risque et assurance 2013


Eric Gires et Frédéric Boulanger, Assurance et Management de la valeur, Ed
Economica, 2003
Falloul Moulay Mehdi, Calculation of Value At Risk case of a diversified portfolio,
International Journal of Innovation and Applied Studies, Vol. 10 No. 2 Feb.
2015, pp. 551-567.
Frédéric PLANCHET, Calcul du SCR dans une approche modèle interne, Version
1. Avril 2013
Frédéric PLANCHET, Construire un générateur de scénarios économiques en
assurance Introduction Version 2.4, Janvier 2013
Frédéric PLANCHET, Modèles stochastiques de mortalité 2013
Frédéric PLANCHET, Statistique des modèles paramétriques et semi-
paramétriques
Frédéric PLANCHET, Tables de mortalité 2013
Frédéric PLANCHET, MODELES DE DUREE Support de cours 2008-2009
Estimation du maintien en arrêt de travail, Version 1.1 Décembre 2008
Frédéric PLANCHET, Modélisation des obligations : présentation et utilisation en
assurance Support de cours 2012-2013
Frédéric PLANCHET, Statistique des modèles non paramétriques, 2012-2013
Jean-Charles CROIX, Basic Economic Scenario Generator : Technical
Speci_cations, ISFA – Université Lyon 1, January 1, 2013
Julien Tomas, Introduction aux méthodes de lissage par vraisemblance locale
Applications à l’assurance dépendance, Institut de Science Financière et
d’Assurance Laboratoire de recherche de Sciences Actuarielle et Financière
Marc JUILLARD, Gestion et Mesure des risques Cours EURIA

459
460
Table des matières

Introduction ......................................................................................................... 3
Partie I
Méthodes statistiques et d’évaluation en actuariat
Chapitre 1 – La Value at Risk (VaR) ................................................................. 7
Chapitre 2 – L’évaluation des produits dérivés et structuré de crédits ......... 25
Chapitre 3 – Statistique des modèles non paramétriques............................... 47
Chapitre 4 – Statistique des modèles paramétriques
et semi-paramétriques ......................................................................................... 71
Chapitre 5 – Méthodes de lissage et d’ajustement ........................................... 117
Partie II
Risques assuranciels et modèles actuariels
Chapitre 1 – Risque et assurance ....................................................................... 137
Chapitre 2 – Les modèles actuarielles ............................................................... 181
Partie III
Tables de mortalités et méthodes stochastiques
Chapier 1 – Tables de mortalité ......................................................................... 263
Chapitre 2 – Modèles stochastiques de mortalité ............................................ 313
Chapitre 3 – Les modèles de durée .................................................................... 333
Partie IV
Solvabilité 2
Chapitre 1 – Zoom sur solvabilité 2 .................................................................. 361
Chapitre 2 – Solvabilité 2 Principe –
Principales étapes de calcul sous le pilier .......................................................... 407
Chapitre 3 – Calcul du SCR dans une approche modèle interne .................. 449
Bibliographie ........................................................................................................ 459

461
Cet ouvrage a été composé par Edilivre

175, boulevard Anatole France – 93200 Saint-Denis


Tél. : 01 41 62 14 40 – Fax : 01 41 62 14 50
Mail : client@edilivre.com

www.edilivre.com

Tous nos livres sont imprimés


dans les règles environnementales les plus strictes

Tous droits de reproduction, d’adaptation et de traduction,


intégrale ou partielle réservés pour tous pays.

ISBN papier : 978-2-332-97023-7


ISBN pdf : 978-2-332-97024-4
ISBN epub : 978-2-332-97022-0
Dépôt légal : août 2015

© Edilivre, 2015

Imprimé en France, 2015

462

Vous aimerez peut-être aussi