Vous êtes sur la page 1sur 72

EURIA – E URO -I NSTITUT D ’ACTUARIAT J EAN

D IEUDONNÉ
TÉLÉCOM BRETAGNE

M ÉMOIRE DE FIN D ’ ÉTUDES

Facteurs de risques et tarification RC


automobile en réassurance

Auteur : Encadrant Télécom Bretagne :


Thomas P ÉTEUL Philippe LENCA

September 9, 2010

EURIA – UBO 6 avenue le Gorgeu – CS 93837 – 29238 BREST Cedex 3


Télécom Bretagne – Technopôle Brest-Iroise – CS 83818 – 29238 Brest Cedex 3
Résumé

À l’heure actuelle, la tarification des traités en excédent de sinistres (excess-of-loss)


chez Secura, compagnie de réassurance, est basée sur un modèle où l’on estime d’un
part la fréquence au dessus d’un certain seuil et d’autre part la sévérité au-dessus de
ce même seuil.

Afin de pouvoir estimer de manière robuste les paramètres de ce modèle et de


tenir compte des patterns de développement, on utilise généralement un historique
d’une dizaine d’années de données observées.

Un des inconvénients de cette modélisation est qu’elle ne tient pas du tout


compte de l’évolution du portefeuille au cours de cette période de dix ans. Ainsi, si
l’on suppose que l’on s’intéresse à un dossier RC automobile, ce modèle de tarifi-
cation ne pourra en aucun cas récompenser une compagnie qui tente d’améliorer sa
souscription en se focalisant sur des meilleurs risques.

Le but de ce mémoire est d’étudier la faisabilité, au regard des données dispo-


nibles, de la mise en place d’une tarification qui prendrait compte des facteurs de
risque auxquels sont soumises les compagnies.
Dans un premier temps, nous avons cherché à s’affranchir de la contrainte de la
taille des données, puis à ajuster un modèle linéaire généralisé pour répondre à
cette problématique.

Mots clés : Réassurance, Facteurs de risque, Tarification, GLM, Excess-


of-Loss
Abstract

Today, the pricing of reinsurance excess of loss treaties at Secura, a reinsurance


company, is done on a the basis of a model where we estimate separately the fre-
quency over a threshold and the severity of claims over this threshold.

In order to robustly estimate the parameters of this model and to take account of
development patterns, we use generally ten years of historical data.

One of the liabilities of this modelling is we don’t take account of the evolution
of the portfolio during that long period. Therefore, if we are interested in a MTPL
treaty, this model of pricing will not reward a company who tried to improve its
subscribing policy by selecting best risks.

The main goal of this memoir is to study the doability of the introduction of a
pricing method that would take account of risk factors, considering the available
data.
First, we tried to get rid of the data size constraint, and then we adjusted a general-
ized linear model in order to answer to this problem.

Keywords: Reinsurance, Risks factor, Pricing, GLM, Excess-of-Loss


Remerciements
Je tiens à remercier l’ensemble de l’équipe de Secura Re pour sa gentillesse et son
accueil en son sein à Bruxelles. Ce fut un plaisir de travailler avec eux dans un très
bon cadre et dans la bonne humeur.
Plus particulièrement, un grand merci à l’équipe du département Recherche et dé-
veloppement de Secura, avec laquelle j’ai passé le plus clair de mon temps, et une
pensée plus particulière pour Ariane Trivière avec qui j’ai pu travailler pendant la
période de renouvellement, Samuel Mahy, mon encadrant tout au long du stage,
pour sa grande disponibilité, son aide et ses conseils avisés et enfin Sophie Ladou-
cette, directrice du département, pour son accueil, ses conseils et son encadrement.

1
Table des matières

Introduction 4

1 L’entreprise : Secura Re 6

2 Principes généraux de tarification en assurance non vie 9


2.1 Rappels de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Modèle collectif de risque . . . . . . . . . . . . . . . . . . 9
2.2 Antisélection et hétérogénéité . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Inégalité de Markov . . . . . . . . . . . . . . . . . . . . . 11
2.2.2 Inégalité de Bienaymé-Tchebycheff . . . . . . . . . . . . . 11
2.2.3 Loi des grands nombres . . . . . . . . . . . . . . . . . . . 11
2.3 Tarification a priori . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Facteurs de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Traité en excédent de sinistres 14


3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Conséquences sur la modélisation . . . . . . . . . . . . . . . . . . 16
3.3 Agrégation de portefeuilles . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Mise en œuvre théorique 18


4.1 Méthode retenue . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Génération d’un jeu de données . . . . . . . . . . . . . . . . . . . 19
4.2.1 Obtention des entrées . . . . . . . . . . . . . . . . . . . . . 20
4.2.2 Création du portefeuille . . . . . . . . . . . . . . . . . . . 20
4.3 Génération de la sinistralité . . . . . . . . . . . . . . . . . . . . . . 23
4.3.1 Paramètres en entrée . . . . . . . . . . . . . . . . . . . . . 23
4.3.2 Mode opératoire . . . . . . . . . . . . . . . . . . . . . . . 23
4.4 Évaluation du nombre de sinistres attendus . . . . . . . . . . . . . . 29
4.4.1 Sinistres moyens pondérés . . . . . . . . . . . . . . . . . . 29
4.4.2 Sinistres moyens instantanés . . . . . . . . . . . . . . . . . 29
4.5 Ajustement du modèle . . . . . . . . . . . . . . . . . . . . . . . . 29

5 Exemple de modélisation sur un portefeuille RC automobile 30


5.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . 30
5.1.1 Exposition du portefeuille . . . . . . . . . . . . . . . . . . 30
5.1.2 Sinistralité constatée sur ce portefeuille . . . . . . . . . . . 31

2
5.1.3 Données exploitables dans l’exemple . . . . . . . . . . . . 31
5.2 Type de modèles ajustés . . . . . . . . . . . . . . . . . . . . . . . 32
5.3 Distribution et fonctions de lien utilisées . . . . . . . . . . . . . . . 32
5.4 Distributions et liens retenus, analyse des modèles obtenus . . . . . 34
5.4.1 Modélisation face à un seul effet . . . . . . . . . . . . . . . 34
5.4.2 Modélisation face à deux effets . . . . . . . . . . . . . . . 35
5.4.3 Modélisation face à trois effets . . . . . . . . . . . . . . . . 41
5.5 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Conclusion 43

Annexes

A Outils mathématiques : du modèle linéaire aux modèles linéaires géné-


ralisés (GLM) 46
A.1 Rappels sur le modèle linéaire gaussien . . . . . . . . . . . . . . . 46
A.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.1.2 Mise en forme matricielle . . . . . . . . . . . . . . . . . . 47
A.1.3 Estimation des paramètres . . . . . . . . . . . . . . . . . . 47
A.1.4 Variante : moindres carrés pondérés . . . . . . . . . . . . . 48
A.1.5 Intervalle de confiance, intervalle de prédiction . . . . . . . 49
A.1.6 Modèle additif : principe . . . . . . . . . . . . . . . . . . . 49
A.2 Les modèles linéaires généralisés (GLM) . . . . . . . . . . . . . . 55
A.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
A.2.2 Modèle de régression . . . . . . . . . . . . . . . . . . . . . 58
A.2.3 Équations de vraisemblance . . . . . . . . . . . . . . . . . 59
A.2.4 Résolution des Équations de vraisemblance . . . . . . . . . 59
A.2.5 Évaluation de la qualité d’un modèle . . . . . . . . . . . . . 60
A.2.6 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . 61
A.2.7 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . 61
A.3 Les modèles additifs généralisés (GAM) . . . . . . . . . . . . . . . 62
A.4 Deux approches possibles pour ajuster un GAM . . . . . . . . . . . 62
A.4.1 Modèle additif sur pseudo-variables . . . . . . . . . . . . . 62
A.4.2 Maximum de vraisemblance local . . . . . . . . . . . . . . 63

B Outils et données utilisés dans SAS 64


B.1 Fonctionnement de GENMOD . . . . . . . . . . . . . . . . . . . . 64
B.2 Tableaux des catégories utilisées pour les modèles GLM . . . . . . 65
B.2.1 Données réelles . . . . . . . . . . . . . . . . . . . . . . . . 65
B.3 Données générées . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

C Glossaire 67

Bibliographie 69

3
Introduction

Bien qu’elle aie connu un véritable essor à partir du XVIIème siècle par la volonté
des affréteurs de se couvrir financièrement contre la perte en mer de bateaux et s’est
développée depuis lors, l’assurance a pris du temps à se mettre en forme. Le principe
de base de l’assurance existe pourtant depuis l’Antiquité : un individu qui cherche
à se prémunir contre un aléa va verser une somme à quelqu’un pour se voir fournir
une prestation (en argent ou en nature) dans le cas où l’aléa survient effectivement.

Un réassureur, tout comme un assureur, s’attache à prendre un risque à une


compagnie d’assurance, appelée cédante*, en échange d’une prime et à intervenir
financièrement si l’événement associé à ce risque survient. Le calcul du montant de
cette prime est basé sur le principe fondamental en assurance, à savoir : « Engage-
ment du réassureur = engagement de la cédante ». Tout le problème qui se pose est
alors d’évaluer le plus justement possible cet engagement.

Or, tous les assureurs, pour un produit sensiblement similaire, peuvent avoir
des politiques de souscription très différentes, à cause par exemple de leur ligne
tarifaire, du marché concerné, du pays ou de la région dans lesquels le produit est
proposé, de leur aversion au risque, ou de toute autre raison.

Dans le cadre de ce mémoire, nous nous concentrerons sur un type de traité* de


réassurance, appelé excédent de sinistre. Ceci a souvent pour conséquence pour le
réassureur de ne recevoir qu’une information parcellaire et incomplète de la part de
la cédante : il n’aura que peu d’informations aussi bien sûr l’exposition* du porte-
feuille que sa sinistralité, et malgré ce défaut d’informations, il devra évaluer le prix
du traité.

Le réassureur s’en sort généralement de deux façons : il dispose d’une part d’un
modèle de tarification basé sur le marché lorsqu’il manque d’informations. D’autre
part, avec l’expérience des années, il arrive à obtenir une assez bonne vision du por-
tefeuille de la cédante et de son risque associé.

Cependant ces deux approches sont assez souvent trop sévères avec des cédantes
dont lapolitique de souscription est meilleure que le marché ou évolue favorable-
ment dans le temps, i.e. qui élimine les mauvais risques : celles-ci seront évaluées
sur des risques qu’elles ne couvrent plus et de cette façon auront à payer un surcoût
pour cette couverture.
Le but du présent mémoire est d’évaluer la possibilité d’obtenir un tarif d’expo-

4
sition, c’est-à-dire basé sur les caractéristiques des risques présents dans le porte-
feuille de la cédante.

Pour mener à bien cette étude, nous rappelerons tout d’abord les principes de
tarification en assurance, puis nous présenterons les contrats spécifiques que sont
les traités en excédent de sinistres sur lesquels est basée cette étude. Ensuite nous
étudierons un protocole de résolution du problème avant de présenter un exemple
d’application sur des données collectées au Royaume-Uni.

Le lecteur trouvera en outre en annexe les outils théoriques et pratiques néces-


saires à la compréhension du raisonnement suivi tout le long de ce mémoire.

5
Chapitre 1

L’entreprise : Secura Re

Secura est un réassureur belge ayant débuté ses activités en 1946, présent en Europe
Occidentale, principalement dans le Benelux et l’Europe du Sud. En 2008, son en-
caissement de primes ajusté était de 217,5 millions d’euro.

Capital
Ses deux actionnaires sont d’une part le groupe KBC Assurances – qui est présent en
Belgique et fournit des services financiers à ses clients, aussi bien en banque qu’en
assurances – avec 95,04% du capital et Dexia Insurance Belgium, avec 4,96% du
capital.

KBC Assurances
Dexia

F IGURE 1.1 – Répartition du capital entre les actionnaires

Marchés
Secura est présente géographiquement en Europe ; elle couvre des traités souscrits
dans les pays suivants : Belgique, Luxembourg, Pays-Bas, Italie, Portugal, Espagne,
France, Royaume- Uni, Irelande, Allemagne, Autriche, Suisse et Grèce. Ainsi, en
2008, près de 30% de l’encaissement ajusté de primes était généré dans les pays du
Benelux, tandis que l’Europe du Sud représentait 56,8% du total, l’Europe du Nord
7,6% et l’Europe Centrale 5,3%.

6
F IGURE 1.2 – Les différents pays où Secura intervient en réassurance

Les couvertures proposées sont variées et Secura intervient sur différents types
de marché :

• Assurances vie et accident (14,2% en 2008) ;

• Traités Short Tail* en proportionnel et non proportionnel – couvrant par


exemple l’incendie, le vol, la grêle (38,9% en 2008) ;

• Traités Long Tail* en proportionnel et non proportionnel – couvrant par exemple


la responsabilité civile générale et automobile, ou les compensations pour ac-
cidents du travail (43,6% en 2008) ;

• autres : aviation, crédit, transports – 3,3% en 2008.

Services
Secura propose à ses clients différents services liés à son activité :

• développement de programmes de réassurance ;

• tarification de la réassurance ;

• cours sur la réassurance ;

7
Europe du Nord

Benelux

Autres
Europe Centrale
Europe du Sud

F IGURE 1.3 – Répartition du chiffre d’affaires par zones géographiques

• support actuariel ;

• gestion de sinistres ;

• contact avec les universités – cours, présentation de la réassurance.

La note Standard & Poor’s du groupe KBC a été révisée à A en mars 2009. Par
conséquent, la note S&P de Secura est également fixée à A depuis lors.

8
Chapitre 2

Principes généraux de tarification en


assurance non vie

Il nous a paru intéressant de rappeler les modèles sous-jacents à toute la théorie de la


tarification en assurance, car c’est dans ce cadre que la réassurance intervient : cette
dernière a vocation à contrer les limites qui sont posées par ce cadre, en proposant
des solutions pour les risques « anormaux », i.e. qui sortent du cadre des hypothèses
de ces modèles.

De plus, la plupart des notions que nous rencontrerons dans ce chapitre seront
à la base de notre travail, notamment en ce qui concerne la segmentation de porte-
feuilles et les facteurs de risque, décrits dans ce chapitre. Précisons également que
le modèle collectif de risque est aussi utilisé par l’entreprise Secura pour estimer le
coût d’un traité de réassurance en excès de sinistres (nous invitons le lecteur à lire à
cet effet le chapitre suivant).

2.1 Rappels de base


Lorsqu’un assureur constitue un portefeuille, il est confronté à plusieurs problèmes
vis-à-vis de ses assurés :

• estimer la prime que chaque assuré va verser pour se couvrir ;

• estimer le montant total des sinistres que l’assureur va payer.

2.1.1 Modèle collectif de risque


L’assureur va donc en premier lieu chercher à estimer le montant total des sinistres
S sur une période donnée – généralement un an – pour un portefeuille associé à
une police d’assurance donnée. Il s’agit là du montant effectivement à la charge de
l’assureur, après application de franchises et autres clauses limitatives.
Pour donner un prix à la couverture, l’assureur va donc chercher à substituer à la
variable aléatoire S une constante ν « la plus proche possible » de S. La distance
entre cette constante et S doit pénaliser les cas où ν est plus grand que S et ν est plus

9
petit que S. L’écart quadratique moyen d2 pénalise toute sur- ou sous-évaluation de
S:
d2 (S, ν) = E (S − ν)2 .
 

On cherche à minimiser cette distance :

d2 (S, ν) = E (S − ν)2
 

= E (S − E [S] + E [S] − ν)2


 

= E (S − E [S])2 + 2 E [(S − E [S])](E [S] − ν) + (E [S] − ν))2


 
| {z }
=0
= (E [S] − ν))2 + E (S − E [S])2
 
| {z }
ne dépend pas de ν

En dérivant cette expression, on obtient :

arg min d2 (S, ν) = E [S] .


ν

Cette valeur est ce qu’on appelle la prime pure*, qui va servir à couvrir les sinistres
du portefeuille a priori.
Dans le modèle collectif de risque, on considère que le nombre N de sinistres qui
surviennent est indépendant du coût X d’un sinistre. Cette hypothèse n’est donc
pas valable dans le cadre d’une catastrophe naturelle par exemple, où les sinistres
ne sont plus indépendants sur une même zone. Les sinistres sont considérés, pour
un risque donné, comme étant indépendants et identiquement distribués.
À partir de ces hypothèses, on peut écrire :
N
X
S= Xi
i=1

. On en déduit la prime pure :


" N #
X
E [S] = E Xi = E [N ] E [Xi ] ,
i=1

soit, dit en français, l’espérance de la sinistralité annuelle peut s’obtenir en faisant


le produit entre l’espérance du nombre de sinistres N et l’espérance du coût du
sinistre, X, en supposant que tous les Xi sont indépendants et de même loi, et qu’ils
sont aussi indépendant du nombre de sinistres N .
Cette modélisation a plusieurs avantages : en effet, il est difficile de trouver une loi
simple pour représenter la sinistralité S mais il est assez facile de modéliser des
fréquences N et des coûts X.

2.2 Antisélection et hétérogénéité


L’assureur, ayant une estimation de l’argent E [S] qu’il aura à débourser pour cou-
vrir ses assurés dans la période considérée, peut alors calculer la prime qu’il deman-
dera à chacun d’entre eux.

10
Pour cela, il utilise la loi des grands nombres, qui est justifiée par certains outils
mathématiques comme le théorème centrale limite1 , mais qu’on peut démontrer à
l’aide des inégalités de Markov et de de Bienaymé-Tchebycheff.

2.2.1 Inégalité de Markov


Propriété 1. Soit X une variable aléatoire quelconque, une fonction g : R → R+
et une constante a > 0. Nous avons alors :
E [g(X)]
Pr [g(X) > a] < .
a

2.2.2 Inégalité de Bienaymé-Tchebycheff


L’inégalité de Bienaymé-Tchebycheff contrôle l’écart entre une variable aléatoire
et sa moyenne. C’est une conséquence directe de l’inégalité de Markov.
Propriété 2. Soit X une variable aléatoire de moyenne µ et de variance σ 2 , on a :
σ2
Pr [|X − µ| > ] < .
2
Cette inégalité a pour conséquence que :
1 1
Pr [|S − E [S] | ≤ tσ] > 1 − 2
⇔ Pr [|S − E [S] | > tσ] < 2
t t
Cela signifie qu’une variable aléatoire S dont la variance est finie ne peut pas trop
s’éloigner de sa moyenne.

2.2.3 Loi des grands nombres


La loi des grands nombres est une justification pertinente du mode de calcul de la
prime pure associée à S.
Supposons que l’assureur émet un grand nombre n de polices identiques et dési-
gnons par Si , i = 1, . . . , n les montants de sinistre totaux en relation avec la iième
police au cours d’une période.
Propriété 3. Soient µ et σ 2 la moyenne et la variance commune des Si . Notons S̄ (n)
la charge moyenne de sinistre par police, i.e. :
n
(n) 1X
S̄ = Si .
n i=1

On suppose que les variables aléatoires Si sont indépendantes et identiquement


distribuées (i.i.d.) et de variance finie. Alors la loi des grands nombres assure que :
proba
S̄ (n) −→ µ
n→∞

1
Toute somme de n variables aléatoires indépendantes et identiquement distribuées converge vers
une variable aléatoire gaussienne quand n tend vers l’infini.

11
La loi des grands nombres permet donc d’affirmer, sous trois hypothèses (porte-
feuille de grande taille, indépendance de montants de sinistre Si , distribution iden-
tique des Si , d’où des hypothèses d’homogénéité sur les risques présents dans le
portefeuille), que la charge moyenne de sinistre par police converge vers la prime
pure. Une idée simple est alors de demander, si le portefeuille comprend N assurés,
une prime de P = E [S] /N à chacun. Ainsi, l’assureur récupère E [S] et il est à
l’équilibre a priori.

Si les risques ne sont pas assez nombreux, semblables et indépendants, la loi des
grands nombres ne s’applique plus et il n’y a plus compensation entre sinistres et
primes.

Cependant, plusieurs phénomènes vont se manifester : dans cette configuration,


les bons risques vont supporter une prime plus élevée que le risque qu’ils repré-
sentent en réalité, tandis que les mauvais risques s’assureront à un tarif bien meilleur
que le coût qu’ils portent.
Le portefeuille est hétérogène, ce qui permet de couvrir les déficits des mauvais
risques avec les bénéfices des bons risques. Mais les bons risques peuvent par la
suite estimer qu’ils paient trop cher la couverture qu’ils ont et décider de résilier au
profit d’une autre compagnie au tarif plus attractif (phénomène d’antisélection). A
contrario, les mauvais risques vont souscrire massivement cette police d’assurance
qui leur est favorable. Au fil des périodes, E [S] va augmenter, faisant monter la
valeur de la prime P payée par chacun, faisant fuir les bons risques, etc.
Le problème sous-jacent ici est bien celui d’une asymétrie d’information entre l’as-
sureur et l’assuré : si l’assuré se sait risqué mais pas l’assureur, il a intérêt à souscrire
à ce type de police. Ce faisant, il dégrade la statistique sinistre de l’assureur, ce qui
enclenche le cycle décrit plus haut.

L’assureur n’a pas les moyens de connaître très précisément le risque associé
à chacun de ses assurés, soit que ce soit techniquement impossible, soit que ce
soit légalement interdit. Mais il peut définir des profils de risque et associer une
tarification à chaque profil.

2.3 Tarification a priori


En pratique, même si tous les assurés ne sont pas identiques, on peut constater des
similitudes de profils entre eux.
L’assureur pourrait, ayant pratiqué un tarif « arbitraire », constater à la fin de l’année
le nombre de sinistres déclarés par l’assuré et comparer ce nombre à ce qu’il avait
prévu en début d’année. C’est une forme de tarification a posteriori, dans laquelle
le tarif est ajusté en fonction de la sinistralité constatée chez l’assurée.
Au contraire, dans la tarification dite a priori, l’idée est de séparer les contrats (et les
assurés) en catégories, de telle sorte que dans chaque catégorie, les contrats puissent
être considérés comme équivalents, i.e. porteurs d’un même risque. Ces catégories
servent alors de base à l’élaboration d’un tarif qui sera plus adapté au portefeuille.
Pour cela, l’actuaire dispose d’informations diverses, qu’on peut regrouper en trois

12
catégories :

• les informations sur le contrat ;

• les informations sur l’assuré ;

• les informations sur le sous-jacent, i.e. le bien assuré.

Par exemple, dans le cas de l’assurance automobile, les informations sur l’assuré
peuvent être son âge, son sexe, sa situation maritale, les informations sur le contrat
peuvent être la sélection d’une assurance multi-risques ou risque spécifique, les in-
formations sur le sous-jacent – le véhicule – peuvent être la puissance, la couleur,
l’usage, etc. Autant de détails qui vont permettre de trouver des points de corréla-
tion entre ces variables et la survenance de sinistres.

L’actuaire a alors besoin de créer des modèles pour étudier l’influence de ces
variables explicatives sur la fréquence des sinistres, d’une part, et sur le coût moyen,
d’autre part.

2.4 Facteurs de risque


Un facteur de risque est une variable exogène liée soit à l’assuré, soit au bien assuré,
soit à l’environnement. Chacune de ces variables permet de décrire une partie du
risque porté par chaque police d’assurance.
Typiquement, les assureurs en RC automobile constatent que les jeunes hommes
sont des risques plus lourds que les femmes de plus de cinquante ans, et en déduisent
que l’âge et le sexe sont des facteurs qui vont influer sur le niveau de risque présenté
par chaque assuré.
Ainsi dans le problème qui nous intéresse, les facteurs de risques seront nos
variables explicatives.

13
Chapitre 3

Traité en excédent de sinistres

Nous allons décrire dans ce chapitre le produit sur lequel nous avons travaillé. En
effet, tous les produits de réassurance ne s’abordent pas de la même façon et n’ont
pas les mêmes implications, que ce soit en terme d’engagements, de données néces-
saires et de tarifs. Nous ferons donc un bref rappel des différents types de produits
de réassurance avant de nous concentrer sur le type de produit utilisé pour la réas-
surance de responsabilité civile automobile.

Il existe différents types de contrats – appelés traités – en réassurance, qu’on


peut classer selon qu’ils sont proportionnels (tous les éléments du risque (prime
et sinistre) sont partagés proportionnellement entre l’assureur et le réassureur) ou
de façon non proportionnelle – l’intervention du réassureur n’a alors lieu qu’à par-
tir d’un seuil préalablement défini en contrepartie d’une prime calculée de façon à
compenser le risque qu’il accepte.

On peut imaginer tout type de montage impliquant ces deux types de traités.
Dans le cadre de ce mémoire, nous ne nous intéresserons qu’à des traités en excé-
dent de sinistres.
Les traités en excédent de sinistres, ou XL (Excess of Loss) sont des traités
non proportionnels. Ils impliquent en effet l’intervention du réassureur uniquement
lorsqu’un sinistre a dépassé un montant fixé au début du contrat.

3.1 Définition
Le traité définit des tranches de réassurance, c’est-à-dire un minimum (appelé prio-
rité*, noté P dans la suite) et un maximum (appelé limite*, qui peut être illimité,
et noté L dans la suite). La différence entre la limite et la priorité est appelée la
capacité* du contrat (notée C).
En pratique, la notation suivante est utilisée pour définir une tranche : C xs P . Elle
correspond à une tranche ayant une priorité de P et une limite de L = P + C.
Le réassureur intervient dès lors qu’un sinistre voit son montant toucher la plus
basse tranche définie dans le traité. Le réassureur verse alors à l’assuré la somme
dépassant la priorité, jusqu’à ce que la limite soit atteinte. Les sommes en dessous
de la priorité et au dessus de la limite sont à la charge de l’assureur. On parle de la

14
Amount (millions)

5,0
4,0
3,0
2,0
1,0

1 2 3 Claim

F IGURE 3.1 – Répartition entre les différentes couches de couverture. Ce qui est en
jaune reste en rétention chez l’assureur.

rétention* de l’assureur.

Exemple 1 (Illustration). Soit une cédante qui a un traité XL comme suit :

• une tranche entre 1 et 2 millions d’euro : 1M xs 1M ;

• une tranche entre 2 et 4 millions d’euro : 2M xs 2M.

Tous les sinistres de moins d’un million d’euro restent entièrement à la charge de
l’assureur.

• Supposons qu’il y ait un sinistre de 1,5 million d’euro : le premier million


reste en rétention chez l’assureur, et les 500 000 euro au dessus de la priorité
sont payés par le réassureur.

• Supposons maintenant qu’il y ait un sinistre de 3,5 millions d’euro : le pre-


mier million reste en rétention chez l’assureur, le deuxième million est entiè-
rement pris en charge par le réassureur au titre de la première tranche, et les
1 500 000 euro au dessus de la priorité de la seconde tranche sont payés par
le réassureur. Au final, le réassureur verse 2,5 millions d’euro à l’assuré, et
l’assureur 1 million.

• Supposons enfin qu’il y ait un sinistre de 5 millions d’euro : le réassureur


paye alors 3 millions : les 2 tranches sont entièrement consommées. L’assu-
reur paye pour sa part 2 millions : le premier million sous la priorité de la
première tranche et le dernier million au dessus de la limite de la seconde
tranche.

Le graphique (3.1) permet de se représenter ces trois sinistres et la façon dont


leurs montants se répartissent entre l’assureur et le réassureur, par tranches de
couverture.

15
Ce type de traité a donc l’avantage, s’il est bien calibré, de limiter l’engagement
maximal de la cédante dans un contrat donné. Ainsi, dans l’exemple ci-dessus, si
aucun sinistre connu à ce jour n’a dépassé 4 millions, la cédante voit a priori son
engagement limité pour chaque police à 1 million au pire, sauf événement excep-
tionnel de grande ampleur.

Concernant le réassureur, il cherche à estimer d’une part, le nombre de sinistres


qui toucheront les différentes tranches du programme et d’autre part, l’excédent de
sinistre attendu pour chaque tranche. Suivant le modèle collectif de risque présenté
plus haut, nous modélisons les fréquences et les montants en faisant l’hypothèse
qu’ils sont indépendants entre eux.

La modélisation qui suit ne portera donc que sur les fréquences.

3.2 Conséquences sur la modélisation


Nous avons vu que le réassureur, dans ces traités, n’intervient qu’à partir d’un cer-
tain montant, la priorité. Les assureurs ne signalent donc au réassureur que les si-
nistres touchant – ou pouvant toucher au cours de leur développement – le pro-
gramme de réassurance. En effet, les petits sinistres (au regard de la priorité) n’in-
téresseront pas le réassureur.
L’assureur ne signale donc que les sinistres au delà d’un certain seuil, appelé prio-
rité des statistiques, qui est inférieur à la priorité – typiquement, elle vaut 50% de la
priorité, mais ce n’est pas forcément le cas.
Ceci a des conséquences pour le réassureur, car la cédante ne va rapporter qu’une
partie des sinistres et donc introduire un biais dans l’interprétation de sa sinistralité :

a) le portefeuille de sinistres est restreint comparé à la sinistralité globale de la cé-


dante : quid des sinistres sous-évalués ? quid aussi des sinistres juste en dessous
de la priorité des statistiques ?

b) on a des informations incomplètes sur les risques réels présents dans le porte-
feuille ;

c) il est difficile d’ajuster des modèles sur des sous-ensembles de ce portefeuille


des sinistres : en effet, on dispose alors de très peu de données, et les fractionner
en sous-ensemble donne alors des résultats non significatifs (par exemple, si on
observe un sous-ensemble avec 0 ou 1 sinistre).

De plus, nous cherchons ici à évaluer l’impact de facteurs de risques. On aurait


pu agréger, à partir des données, les sous-ensembles non significatifs de sorte à ob-
tenir des ensembles significatifs sur lesquels on peut ajuster un modèle. Cependant,
ceci revient à ne pas évaluer l’influence de chaque facteur de risque en particulier.

Pour toutes ces raisons, nous avons cherché à nous affranchir de la limitation de
la taille du portefeuille, de façon à disposer de sous-ensembles de taille acceptable

16
sur lesquels on puisse appliquer un modèle.

Deux possibilités s’offraient à nous. D’une part l’utilisation données de plu-


sieurs compagnies ensemble et d’autre part la création de toute pièce d’un jeu de
données via simulation.

3.3 Agrégation de portefeuilles


La bonne approche est de ne pas considérer une seule cédante, mais un groupe de
cédantes, de façon à augmenter d’une part l’exposition et d’autre part la sinistralité.

Cela suppose au préalable de disposer des mêmes données pour toutes les cé-
dantes dans le groupe, dans un format compatible. Ainsi, si deux cédantes donne
une variable âge sous forme de tranches, il faut qu’on ait les mêmes découpages.
Autrement, il faudra regrouper de sorte à obtenir des sous-ensembles compatibles,
ce qu’on cherchait justement à éviter.

Ensuite, il peut arriver que même en agrégeant toutes les cédantes dont nous
avons les sinistres, la quantité de données demeure insuffisante.

Enfin, si le groupe de cédantes retenu présente des distorsions dans sa sinis-


tralité par rapport au marché (par exemple, une sur-représentation des femmes en
portefeuille, ou beaucoup de contrats portant sur des flottes de véhicules), on n’ob-
tiendra pas non plus une représentation convenable de l’influence de chaque facteur
de risques. Cela revient en effet à accorder plus d’importance à un facteur que ce
qui est observé en réalité.

Cette méthode paraît donc un peu fragile et surtout trop dépendante de données
auxquelles on n’a pas forcément accès pour atteindre le but attendu.

3.4 Simulation
Cette approche n’est pas aussi idéale que l’agrégation de portefeuilles, mais elle
permet de « contourner »le problème de la fiabilité et la quantité des données. Elle
se base sur la simulation d’un jeu de données, calibré à partir des données de la
cédante. Ainsi, il s’agit de reconstituer un portefeuille qui va présenter les caracté-
ristiques de la cédante ou du marché, mais qui ne sera plus limité par la taille du
portefeuille disponible.

Ainsi, à partir de statistiques tirées soit du portefeuille de la cédante, soit du


marché, on peut générer une exposition et une sinistralité de taille quelconque. En
particulier, on peut générer un jeu de données plus important, sur lequel il sera alors
plus facile d’ajuster un modèle linéaire.

17
Chapitre 4

Mise en œuvre théorique

Dans cette section nous décrirons notre cheminement pour répondre à la probléma-
tique.

4.1 Méthode retenue


Pour réaliser la simulation de nos données, nous avons procédé par étapes, qui se-
ront plus longuement décrites par la suite :

• tout d’abord, la création de l’exposition d’un portefeuille catégorisé à partir


de statistiques ;

• ensuite, à partir de cette exposition, générer un profil de sinistralité par caté-


gorie pour le portefeuille ;

• enfin, ajuster un modèle sur la sinistralité attendue.

Vocabulaire et notations
Avant d’aller plus loin, précisons le vocabulaire et les notations qui seront utilisées
par la suite.
Il importe en premier lieu de distinguer facteur de risque et catégorie. On appelle
catégorie une réalisation des facteurs de risque. Ceux-ci sont en effet des variables
aléatoires que l’on considérera comme étant discrètes.

Exemple 2 (Catégories). On suppose qu’on dispose de deux facteurs de risque : le


sexe du conducteur (homme ou femme) et le type de contrat qu’il a choisi (RC seule
ou assurance tous risques). Nous obtenons alors quatre catégories :

18
Catégorie Sexe du conducteur Type de contrat
1 Homme RC seule
2 Homme Tous risques
3 Femme RC seule
4 Femme Tous risques

À partir de cette définition des catégories, on peut parler des variables globales,
c’est-à-dire qui porteront sur l’union toutes les catégories. Par exemple, l’exposition
globale sera la somme des expositions de chaque catégorie.
On utilisera comme mesure d’exposition au risque le nombre de polices qui pré-
sentent les caractéristiques de cette catégories, on la notera ek . Cette mesure d’ex-
position sera également définie par année de souscription, notée i.

Comme nous travaillons sur une branche à développement long, il importe de


suivre les années de développement. L’indice j désignera donc qu’on fait référence
à l’année de développement j.
Enfin, chaque catégorie sera désignée par un indice k.
Exemple 3 (Exemples de notation). Ainsi :

P
• ei = k ei,k désignera l’exposition globale pour l’année de souscription i.
• Ni,j désignera le nombre de sinistres survenus lors de la i-ème année de sous-
cription en j-ème année de développement.

4.2 Génération d’un jeu de données


Pour réaliser une exposition par catégorie, nous avons besoin de plusieurs para-
mètres en entrée :
• l’exposition globale pour chaque année de souscription ei ;
• un ordre d’idée de la répartition de chaque facteur de risque dans le porte-
feuille.
Ce dernier point signifie qu’on a besoin d’une estimation de la répartition du porte-
feuille à simuler a priori.
Exemple 4 (Répartition). Si on reprend notre exemple présenté plus haut, on pour-
rait avoir :

Facteur de risque Réalisation Répartition


Homme 0.49
Sexe du conducteur
Femme 0.51
RC seule 0.05
Type de contrat
Tous risques 0.95

19
Il s’agit bien de la répartition du portefeuille dans l’exposition, et n’a rien à
voir avec la sinistralité.

4.2.1 Obtention des entrées


Exposition Nous donnons l’exposition que nous désirons, pour chaque année
d’exposition. Typiquement, elle sera différente de celle du portefeuille observé, vu
qu’on cherche à obtenir une plus grande sinistralité. Le tableau saisi se présente
sous la forme suivante :

UY Exposure Exemple
2000 e2000 10 000
2001 e2001 11 000
2002 e2002 9 000
2003 e2003 11 000
2004 e2004 13 000
2005 e2005 14 000

On peut donc suivre la tendance du portefeuille dont on dispose si on a l’informa-


tion sur suffisamment d’années, ou créer une tendance (augmentation ou diminution
mécanique de l’exposition, stabilité de l’exposition).

Répartition Pour ce qui est de la répartition, il convient de faire une étude préa-
lable du portefeuille ou du marché. Cela donnera une idée des proportions de chaque
réalisation dans les variables aléatoires.

On pourrait ainsi calculer des proportions pour chaque année de souscription et


les appliquer directement au portefeuille. Nous avons choisi de prendre une propor-
tion moyenne et de faire un tirage aléatoire autour de cette moyenne.

4.2.2 Création du portefeuille


Concrètement, nous avons procédé de la façon suivante :

(i) pour chaque année de souscription i, nous avons effectué un tirage aléatoire
pour la répartition de chaque variable aléatoire. Ceci est obtenu par un tirage
d’une variable Poisson-distribuée1 d’espérance la proportion voulue.

Exemple 5. Si nous reprenons le même exemple que précédemment :

1
le choix d’une loi de Poisson pour modéliser des proportions peut être discutable, car il existe
d’autres lois ayant l’intervalle [0, 1] pour support.

20
Facteur de risque Réalisation Répartition Nom
Homme P(49)/100 P ropH,i
Sexe du conducteur
Femme P(51)/100 P ropF,i
RC seule P(5)/100 P ropRC,i
Type de contrat
Tout risque P(95)/100 P ropT R,i

(ii) Nous voulons que la somme des tirages soit unitaire pour chaque variable
aléatoire. Nous normalisons donc les résultats obtenus pour chaque variable
aléatoire.
Exemple 6. Si dans l’exemple précédent, un tirage de P(95)/100 est supé-
rieur à 1 (cet événement a une probabilité non nulle), alors on aura une vision
faussée de notre univers. Mettons que P(95)/100 donne P ropT R,i = 1, 01 et
P(5)/100 donne P ropRC,i = 0, 04. Alors, après normalisation, on aura :
1, 01 0, 04
P ropT R,i = = 0, 962 et P ropRC,i = = 0, 038.
1, 05 1, 05

On obtient ainsi pour chaque facteur de risque un vecteur pour chaque année
de souscription. L’obtention d’une catégorie k est le produit d’une réalisation
de chaque facteur de risque.
(iii) Pour chaque année i, on fait le produit tensoriel des vecteurs colonnes des
facteurs de risque.
Définition 1 (Produit tensoriel). Le produit tensoriel est un produit de ma-
trices particulier, qui se définit comme suivant :
Si A ∈ Mm,n est une matrice n × m et B ∈ Mq,r une matrice q × r, on définit
le produit tensoriel de A par B, noté A ⊗ B, par :
 
A1,1 B · · · A1,n B
 .. .. .. 
C =A⊗B =  . . . 

Am,1 B · · · Am,n B
C est une matrice mq × nr.

Le produit tensoriel est une opération linéaire. Notons également que dans le
cas général, A ⊗ B 6= B ⊗ A.
Ici, nous faisons le produit tensoriel de vecteurs colonnes.
Exemple 7.
! ! ! !
P ropH,i 0, 47 P ropRC,i 0, 038
= , =
P ropF,i 0, 53 P ropT R,i 0, 962
sont nos deux vecteurs obtenus après normalisation. Nous effectuons le pro-
duit tensoriel et obtenons un seul vecteur colonne, de dimension 2 ∗ 2 = 4 × 1
que nous représentons ci-dessous :

21
Catégorie Répartition
1 P ropH,i ∗ P ropRC,i = 0, 01786
2 P ropH,i ∗ P ropT R,i = 0, 45214
3 P ropF,i ∗ P ropRC,i = 0, 02014
4 P ropF,i ∗ P ropT R,i = 0, 50986

(iv) Il ne nous reste plus qu’à répartir l’exposition de l’année i pour obtenir la
population de chaque catégorie k :

ei,k = ei · P ropk,i

Au final, on obtient une matrice de dimension k × i :


 
e1,1 · · · e1,j · · · e1,i
 . .. .. .. 
 .. . . . 
 
 .. 
 l,1 · · · el,j
 e . 

 . . .
 .. . . .. 

 
ek,1 · · · ek,j · · · ek,i

Exemple 8. Si nous reprenons notre exemple, donnons tout d’abord notre


tableau de répartition par année et par catégorie :

Année de souscription
Cat. 2000 2001 2002 2003 2004 2005
1 0,01786 0,026064 0,02401 0,02806 0,0235 0,2256
2 0,45214 0,453936 0,46599 0,43194 0,4465 0,45744
3 0,02014 0,002836 0,02499 0,03294 0,0265 0,02444
4 0,50986 0.491764 0.48501 0,50706 0,5035 0,49556

Et nous obtenons alors le tableau d’exposition par catégorie et par année de


souscription :

Année de souscription
Cat. 2000 2001 2002 2003 2004 2005
1 179 287 216 309 306 316
2 4 521 4 993 4 194 4 751 5 804 6 404
3 201 311 225 362 345 342
4 5 099 5 409 4 365 5 578 6 545 6 938
Total 10 000 11 000 9 000 11 000 13 000 14 000

22
Les expositions ont ici été arrondies pour avoir des entiers, mais ce n’est pas
nécessaire (notre exposition n’a en effet aucune raison d’être entière). La ligne
totale est bien le vecteur d’exposition globale que nous avions présenté plus
haut.

Cette succession d’étape est suffisante pour générer un jeu de données. Cepen-
dant, on peut désirer obtenir une stabilisation du portefeuille. Nous avons donc in-
troduit un "bootstraping" de la matrice E = (el , j), l = 1, · · · , k, j = 1, · · · , i de
sorte d’obtenir des E1? , E2? , · · · , EN ?
, où N est le nombre d’itérations du bootstrap.
La matrice E finale est alors :
 P 
N PN PN
(e 1,1 ) n · · · (e 1,j ) n · · · (e 1,i ) n
 n=1. ..
n=1
..
n=1
.. 
 .
. . . . 
N  
1 X
? 1  PN
 PN .. 
E= En =  (e
n=1 l,1 n ) · · · (e
n=1 l,j n ) . 
n n=1 n 
 .
.. . .. .
..


 
PN PN PN
n=1 (ek,1 )n · · · n=1 (ek,j )n · · · n=1 (ek,i )n

Cette opération permet de réduire les effets de chance ou malchance qui pourraient
intervenir lors du tirage aléatoire. Nous avons donc obtenu une exposition par caté-
gorie pour toutes les années de souscription pour notre portefeuille. À partir de là,
nous pouvons donc générer la sinistralité2 .

4.3 Génération de la sinistralité


4.3.1 Paramètres en entrée
Nous avons plusieurs paramètres différents en entrée, dont l’utilité sera expliquée
par la suite :
(i) les expositions globales ei ;
(ii) l’exposition en année de quotation eQY ;
(iii) les expositions par catégorie ei,k ;
(iv) une suite de lj , coefficients de développement ;
(v) une suite de pj ∈ [0, 1] pour une loi binômiale ;
(vi) une estimation de la fréquence de sinistre fk dans chaque catégorie.

4.3.2 Mode opératoire


Le principe est de générer des triangles IBNR* propres à chaque catégorie, puis de
les développer pour obtenir une sinistralité en ultime. Il y a plusieurs façons de les
développer ; nous ne présenterons que celle mise en œuvre.
2
La génération de l’exposition peut ne pas être nécessaire et on peut utiliser les données de la
cédante directement.

23
Génération de triangles par catégorie Prenons une catégorie k. Nous avons
pour cette catégorie une exposition par année de souscription ei,k .
On considère que la fréquence de sinistre ne dépend que de la catégorie k. On ob-
tient un fk à partir d’une analyse des données ou du marché.

On considère qu’il existe un pattern de développement des sinistres commun à


toutes les catégories lj .
En effet, s’il est possible de développer individuellement le triangle de chaque ca-
tégorie, cela entraînerait de sérieux doutes sur la consistance de tels développement
si les triangles sont peu fournis. Les résultats risquent par conséquent d’être très
instable.

Cependant, certains sinistres présents dans les triangles IBNR seront de « faux
IBNR » – c’est-à-dire que ces sinistres ont été sur-évalués par l’assureur au moment
de leur déclaration mais a posteriori on constate qu’ils n’auraient jamais dû appa-
raître dans ce triangle – et il faut les supprimer de la modélisation. Nous faisons
donc une modélisation à l’aide d’une succession de lois binômiales, de paramètres
de succès respectifs pj .

Nous générons alors trois triangles distincts. Dans le premier, le nombre de si-
nistres sont générés suivant une loi de Poisson. Dans le second, on modélise les lois
binômiales négatives à partir du troisième, somme des deux triangles précédents.
Le premier triangle a la forme suivante :

0 1 ··· 9 10
1997 ak,1997,0 ak,1997,1 ··· ak,1997,9 ak,1997,10
1998 ak,1998,0 ak,1998,1 ··· ak,1998,9
.. .. ..
. . . ···
2006 ak,2006,0 ak,2006,1
2007 ak,2007,0
Chaque élément ak,i,j suit une loi de Poisson P(ei,k · fk · lj ). L’antidiagonale du
tableau représente la LKS (Last Known Situation ou dernière situation connue). En
effet, chaque nombre situé sur l’antidiagonale est le nombre de sinistres rattachés à
l’année de survenance tel qu’on le connaît l’année 2007.
Le deuxième triangle a la forme suivante :

0 1 ··· 9 10
1997 0 bk,1997,1 ··· bk,1997,9 bk,1997,10
1998 0 bk,1998,1 ··· bk,1998,9
.. .. ..
. . . ···
2006 0 bk,2006,1
2007 0

24
où chaque bk,i,j suit une loi binômiale Bin(ck,i,j−1 , pj ). On considère que les
sinistres sont retirés à la fin de l’année écoulée, soit au début de l’année suivante,
ce qui explique le vecteur nul en année de développement 0. Les ck,i,j , éléments
cumulés du triangle final, sont obtenus en soustrayant les bk,i,j aux ak,i,j . On obtient
alors le triangle final par catégorie :

0 1 ··· 9 10
1997 ck,1997,0 ck,1997,1 ··· ck,1997,9 ck,1997,10
1998 ck,1998,0 ck,1998,1 ··· ck,1998,9
.. .. ..
. . . ···
2006 ck,2006,0 ck,2006,1
2007 ck,2007,0

Ici on a :
(
ak,i,0 si j = 0
ck,i,j =
ck,i,j−1 + max (0, ak,i,j − bk,i,j ) si j 6= 0.

Espérance et variance des ck,i,j On travaille pour une catégorie k et une année
de survenance i fixées, de sorte que : ck,i,j = cj , ak,i,j = aj et bk,i,j = bj . Pour
simplifier, on a : aj ∼ P(ei,k · fk · lj ) ∼ P($j ), bj ∼ Bin(ck,i,j−1 , pj ).

On a alors :

X
Pr [Y = y] = Pr [Y = y|X = n] Pr [X = n]
n=0
∞  n

−λ λ n!
X
= e py (1 − p)y
n=0
n! y!(n − y)!

X (λ(1 − p))n−y
= e−λ (λp)y
n=0
y!(n − y)!

e−λ (λp)y X (λ(1 − p))n−y
=
y! n=0
(n − y)!
e−λ (λp)y λ(1−p)
=e
y!
(λp)y −λp
= e
y!
Pr [Y = y] ∼ P(λp)

On en déduit directement la variance de Y qui suit une loi de Poisson : λp.


En appliquant ce résultat avec les variables X = aj , Y = ck,i,j et Y |X = bj , on en
déduit que le nombre de sinistres suit une loi de Poisson.

25
Obtention du triangle global Le triangle global est obtenu en sommant les tri-
angles de chaque catégorie :

0 1 ··· 9 10
PNk PNk PNk PNk
1997 k=1 ck,1997,0 k=1 ck,1997,1 ··· k=1 ck,1997,9 k=1 ck,1997,10
PNk PNk PNk
1998 k=1 ck,1998,0 k=1 ck,1998,1 ··· k=1 ck,1998,9
.. .. ..
. . . ···
PNk PNk
2006 k=1 ck,2006,0 k=1 ck,2006,1
PNk
2007 k=1 ck,2007,0

L’antidiagonale du tableau représente la LKS globale, dernière situation connue,


qu’on se propose d’extrapoler.

Estimateur de vraisemblance par catégories

Propriété 4. L’estimateur du maximum de vraisemblance pour la régression de


Poisson pour des données groupées est le même que pour des données individuelles.
Si on pose Lind (β) la vraisemblance obtenue sur des données individuelles et Lcat (β)
celle obtenue après avoir regroupé les données par catégorie. On montre que :

Lind (β) ∝ Lcat (β).

v q sont les q suites possibles pour les xi et si on définit d¯j =


P effet, si v 1 , · · · , P
En
i|xi =v j di et n̄j = i|xi =v j ni :

n
Y λni i
Lind (β) = exp (−λi )
i=1
ni !
q
Y Y λni i
= exp (−λi )
j=1 i|xi =v j
ni !
 
q
Y X n̄
λi  exp (β t v j ) j

∝ exp −
j=1 i|xi =v j
 
q
Y X n̄
exp − exp (β t v j ) di  exp (β t v j ) j

=
j=1 i|xi =v j
q n̄
 exp (β t v j )d¯j j

exp − exp (β v j )d¯j
Y
t

j=1
n̄j !
donc Lind (β) ∝ Lcat (β)

Cela signifie que si les vraisemblances sont proportionnelles, alors elles ont le
même estimateur du maximum de vraisemblance.

26
Cette propriété justifie donc la construction par catégories que nous venons de
faire et le fait de travailler avec des catégories plutôt qu’avec des individus. Il est
plus simple de travailler avec les catégories directement – moins de données à traiter
et à manipuler, pas de problème d’aggrégation.

Méthode de Chain Ladder Pour extrapoler ce triangle global, nous utilisons la


méthode de Chain Ladder.
Celle-ci repose sur le calcul de facteurs de développement qui sont appliqués depuis
la LKS et de proche en proche jusqu’à obtenir la situation ultime.

Il existe plusieurs façons d’obtenir des facteurs de développement, mais nous


utilisons ici la version la plus "simple". Ainsi, pour passer de l’année de dévelop-
pement j à l’année suivante j + 1, nous aurons un facteur ψj→j+1 , obtenu comme
suit : P2007−j
i=1997 ci,j+1
ψj→j+1 = P2007−(j+1) .
i=1997 ci,j
On peut alors faire le développement du triangle global :

0 1 ··· 9 10
1997 c1997,0 c1997,1 ··· c1997,9 c1997,10
1998 c1998,0 c1998,1 ··· c1998,9 c1998,9 · ψ9→10
.. .. .. ..
. . . . ···
2006 c2006,0 c2006,1 c2006,1 · ψ1→2
2007 c2007,0 c2007,0 · ψ0→1

On continue successivement l’opération jusqu’à obtenir le triangle inférieur


complet.

0 1 ··· 9 10
1997 c1997,0 c1997,1 ··· c1997,9 c1997,10
1998 c1998,0 c1998,1 ··· c1998,9 c?1998,10
.. .. .. .. ..
. . . ··· . .
2006 c2006,0 c2006,1 ··· c?2006,9 c?2006,10
2007 c2007,0 c?2007,1 ··· c?2007,9 c?2007,10

On a ici :

ci,j
 si i + j 6 imax
ci,j = j−1
 
?
Q
ci,j =
 ψl→l+1 · ci,imax−i+1 si i + j > imax
l=imax−i+1

27
Sinistres ultimes par catégorie Nous avons obtenu à présent le nombre global
de sinistres ultimes pour chaque année de développement. Cependant, nous n’avons
pas d’indication sur comment ces sinistres ultimes se répartissent entre les diffé-
rentes catégories.
Nous avons donc fait dans un premier temps l’hypothèse qu’on retrouve la même
proportion de sinistres en ultime qu’en LKS. Cela signifie que toutes les catégories
présentent le même pattern de développement entre la LKS et l’ultime.

Ainsi, nous avons calculé un vecteur k × i qui contient le ratio ρk,i = ck,i,j /ci,j
pour chaque catégorie k et pour chaque année de souscription i sur l’antidiagonale
(on a j = imax−i+1). Nous avons alors obtenu les sinistres ultimes par catégorie :
Ucat = % · DU
avec :
• Ucat la matrice Nk × imax contenant les ultimes par catégorie k et par année
i;
• % = (ρk,i ), k = 1, · · · , Nk , i = 1, · · · , imax les ratios par catégorie k et
année i ;
• DU est la matrice diagonale imax × imax dont les coefficients diagonaux
sont les ultimes globaux, i.e. :
 
c1997,10 0 ··· 0
 
?
 0 c 1998,10 · · · 0 
DU = 
 
.. .. ... .. 

 . . . 

?
0 0 · · · c2007,10

Ucat contient donc Nk lignes de la forme :


(Ucat )k = (c?k,1997,10 , c?k,1998,10 , · · · , c?k,2007,10 )
? ? ?
(Ucat )k = (Uk,1997 , Uk,1997 , · · · , Uk,1997 )
où c?k,i,10 = ρk,i · c?i,10 .

Stabilisation des résultats Ici encore, comme dans lors de la génération des ca-
tégories, nous avons introduit un « bootstrap » pour stabiliser les résultats. Si on fait
NB tirages, on extrapole NB triangles globaux et on obtient NB vecteurs ultimes
par catégorie. Les nombres ultimes retenus sont alors les moyennes de ces tirages,
i.e. :
NB NB NB
!
1 X 1 X 1 X
(Ūcat )k = (U ? )n , (U ? )n , · · · , (U ? )n .
NB n=1 k,1997 NB n=1 k,1997 NB n=1 k,1997

On peut également inférer des écarts-types et des intervalles de confiance sur les
nombres obtenus grâce à cette méthode si on choisit NB suffisamment grand. C’est
en effet un bon estimateur de l’espérance et de la variance de (Ūcat )k .

28
4.4 Évaluation du nombre de sinistres attendus
Maintenant qu’on a obtenu une sinistralité extrapolée, on veut évaluer la sinistralité
de l’année à venir, notée QY .

4.4.1 Sinistres moyens pondérés


La méthode ici consiste en un lissage du nombre de sinistres sur toute la période.
Concrètement, on calcule un λk :
P2007 ?
Uk,i
λk = Pi=1997
2007
i=1997 ek,i

C’est sur ce λk que nous ajustons alors un modèle GLM.

4.4.2 Sinistres moyens instantanés


L’idée est ici de vouloir ajuster un modèle « par année ». Pour cela, nous calculons
un λ̈k,i par année de souscription i et par catégorie k. Ainsi :
?
Uk,i
λ̈k,i =
ek,i

4.5 Ajustement du modèle


L’ajustement d’un modèle linéaire généralisé (GLM) permet de mesurer quel est le
poids de chaque réalisation de chaque facteur de risque pour expliquer la sinistralité
observée.

Il est possible de faire cela dans SAS, avec la procédure GENMOD.

29
Chapitre 5

Exemple de modélisation sur un


portefeuille RC automobile

5.1 Présentation des données


Nous avons utilisé un jeu de données d’une compagnie d’assurance au Royaume-
Uni. En effet, dans ce pays, les compagnies d’assurance transmettent aux réassu-
reurs des données assez complètes concernant les sinistres survenus dans leurs por-
tefeuille.

Il s’agit d’un portefeuille de responsabilité civile automobile, appelée MTPL


(Motor Third Parties Liabilities). Dans ce pays et contrairement à ce qui se fait en
France par exemple, la police d’assurance n’est pas attachée au véhicule, mais à la
personne.

Nous disposions à cet effet de deux documents : d’une part, l’exposition de la


compagnie et d’autre part sa sinistralité « lourde », i.e. au dessus de la priorité des
statistiques, avec leurs développements entre 1997 et 2007.

5.1.1 Exposition du portefeuille


L’assureur envoie pour chaque année une feuille Excel contenant plusieurs tableaux
croisés, avec à chaque fois le nombre d’assurés d’une part, et la prime reçue d’autre
part :

• le premier tableau donne le type de police en fonction du type de véhicule,


pour les flottes de véhicule d’une part et pour les voitures individuelles d’autre
part ;

• le deuxième tableau donne le « No Claim Bonus » de l’assuré en fonction du


type de police ;

• le troisième tableau donne le type de police en fonction du sexe et de l’âge de


l’assuré.

30
En effet, l’assuré peut souscrire trois types de couverture pour son automobile : «
Comprehensive » (assurance tous risques, comprenant aussi bien la responsabilité
civile que les dommages matériels), « Third Part Only » (assurance responsabilité
civile uniquement) et « Third Part Fire & Theft » (assurance responsabilité civile,
incendie et vol).
L’âge des assurés est donné par classes, avec des classes d’une année pour les plus
jeunes (entre 17 et 25 ans), et des classes d’âge plus ou moins larges entre 26 et 90
ans (on a ainsi 26 à 30 ans, 31 à 50 ans, 51 et plus). Il existe une classe supplémen-
taire, « any driver » pour laquelle l’assuré ne donne pas son âge (c’est le cas pour
une couverture pour une flotte de véhicules, par exemple).
Il y a différents types de véhicules assurés : « Motor Cars » (voitures individuelles),
« Light Commercial Vehicles » (fourgonnettes de commerce), « Heavy Commercial
Vehicles » (poids lourds), « Buses, coaches etc. » (bus, autocars), « Taxis, private &
public hire » (taxis, véhicules de location), « Self-drive hire vehicles », « Tankers,
hazardous » (camions-citerne, transport de matières dangereuses), « Motor cycles »
(moto), « Motor Trade Road Risks », « All others » (le reste).
Enfin, le « No Claim Bonus » est un bonus accordé aux assurés présents dans le
portefeuille en fonction de la durée depuis laquelle ils n’ont pas eu de sinistre.

Nous ne disposons malheureusement pas d’une liste détaillée avec chaque as-
suré, ses caractéristiques et son exposition annuelle. De plus, nous n’avons pas la
corrélation entre les éléments des différents tableaux. Nous avons donc conscience
de travailler avec des données incomplètes.

5.1.2 Sinistralité constatée sur ce portefeuille


À l’inverse, les données de sinistralité se présente sous la forme d’une liste, com-
prenant l’année de souscription, la référence du sinistre, le nom de l’assuré, la date
du sinistre, le sexe et l’âge du conducteur, l’âge de l’assuré, la couverture dont il
dispose, la catégorie de son véhicule, s’il s’agit d’une police portant sur une flotte
ou non, le nombre de sinistrés, et les développements du sinistre, en trois parties
(payé, en réserve, au total).
Comme dit plus haut, seuls les sinistres dépassant la priorité des statistiques nous
est rapportée.

5.1.3 Données exploitables dans l’exemple


Nous constatons que les données ne sont pas sous le même format, et que nous ne
pouvons donc pas utiliser toute l’information disponible dans les déclarations de
sinistre.
Par exemple, le « No Claim bonus » est totalement inexploitable. En effet, il est
totalement impossible de faire la relation entre l’assuré sinistré et le bonus dont il
bénéficie.

Si la sinistralité fait une distinction entre assuré et conducteur, celle-ci n’existe

31
pas dans l’exposition. En comparant les données, on constate que dans plus de 90%
des cas, l’assuré et le conducteur ont même âge, et on peut faire l’hypothèse assez
réaliste que le conducteur est l’assuré.
Le nombre de sinistrés dans un même sinistre a été éliminé car les accidents faisant
intervenir plusieurs assurés peuvent devenir des événements et ne peuvent pas être
traités comme de simples sinistres individuels à ce titre.

Au final, nous disposons de cinq éléments exploitables, disponibles à la fois


dans le tableau des expositions et dans le tableau des sinistres de la cédante :

• le sexe du conducteur ;

• l’âge du conducteur (associé à celui de l’assuré) ;

• la couverture choisie ;

• le type de véhicule ;

• flotte ou véhicule individuel.

Cependant, certaines données sont incomplètes : pour certains sinistres, nous ne


disposons pas de l’information sur le conducteur (âge et sexe) : il est presqu’impos-
sible de savoir si l’assuré est dans la classe « any driver » ou si l’information n’a
pas été communiquée.
Une fois les données traitées et rassemblées, nous pouvons commencer à ajuster
un modèle GLM dessus.

5.2 Type de modèles ajustés


On ajuste un modèle sur le nombre de sinistres par catégorie λk en fonction de la
tranche d’âge, du sexe du conducteur, de la couverture assurantielle qu’il a choisie,
du fait que ce soit une flotte de véhicule ou non, de la catégorie du véhicule et d’un
λ̈k,i .
On le ramène ensuite à l’exposition pour obtenir :

λˆk = ei,k · λk,adj = ei,k · g −1 (xtk β)


b

5.3 Distribution et fonctions de lien utilisées


Nous avons sélectionné une liste de distributions et de fonctions liens à utiliser pour
modéliser la sinistralité attendue.

32
Distribution Lien
log
Poisson
identité
log
Normale
identité
log
identité
Gamma
inverse
carré inverse
carré inverse
identité
Inverse gaussienne
log
inverse

Toutes ces distributions ne sont pas équivalentes et vont donner des résultats
plus ou moins sévères. On observe ainsi certaines distributions qui prédiront une
sinistralité plus sévère que le résultat « avant GLM ». Inversement, d’autres seront
plus clémentes.
De plus, le développement des triangles va n’attribuer aucun sinistre à certaines
catégories, soit que leur exposition est très faible, soit qu’elles présentent, à l’obser-
vation, une sinistralité très faible voire nulle.

Dans ces cas-là, plutôt que de chercher à ajuster un zéro, nous regroupons les
catégories avec une sinistralité nulle avec la catégorie la plus proche en terme de ca-
ractéristiques, c’est-à-dire celle dont tous les paramètres sont identiques sauf un. Il
y a donc a priori plusieurs possibilités pour regrouper plusieurs catégories, mais on
garde à l’esprit le fait qu’on veut maximiser le nombre de réalisations pour conduire
ces regroupements.
Schématiquement : supposons qu’on ait :

Obs. A B C exposure lambda


i 1 2 3 x 0
j 1 2 4 y z

On peut alors décider de fusionner les observations i et j, en respectant leur exposi-


tion pour conserver la même sinistralité.

Obs. A B C exposure lambda


yz
i& j 1 2 3& 4 x+y x+y

En faisant cela, nous ne réduisons pas nécessairement le nombre de paramètres,


mais nous obtenons des données qui seront plus adaptées à la modélisation. De fait,

33
certaines distributions (Gamma et inverse gaussienne) ne peuvent pas s’ajuster sur
des observations ayant une variable à expliquer nulle et les éliminent purement et
simplement lors de l’ajustement du modèle.

5.4 Distributions et liens retenus, analyse des modèles


obtenus
Dans un premier temps, nous avons regardé quelles étaient les distributions effecti-
vement utilisables parmi toutes celles dont nous disposions.
En effet, plusieurs modèles ne sont pas définis, soit que la fonction inverse « g −1
» n’est pas définie, soit qu’une estimation du paramètre moyen est invalide, entraî-
nant de fait l’arrêt de la procédure. Le tableau ci-dessous récapitule les distributions
hors-jeu. Par conséquent, nous n’avons pas cherché à exploiter de résultats à partir
de ces distributions.

Distribution Lien
Poisson identité
identité
Gamma inverse
carré inverse
carré inverse
Inverse gaussienne identité
inverse

Nous avons fait la modélisation à partir de données réelles, issues de l’extra-


polation directe d’un triangle global pour une cédante donnée et une modélisation
à partir de données simulées pour cette cédante. Les résultats que nous présentons
concernent donc ces deux jeux de données.
Les données de cette cédante sont un peu problématiques, dans la mesure où on ne
dispose pas de la répartition précise des individus en fonction des différents effets.

5.4.1 Modélisation face à un seul effet


On observe la même chose tant pour le jeu réel que pour le jeu simulé : comme
toutes nos variables explicatives sont discrètes, la réponse du modèle par rapport à
un seul effet est en escalier avec p paliers possibles correspondant aux p paramètres,
i.e. aux p réalisations de l’effet.
Quelque soit la distribution et le lien choisis, l’ajustement est trop grossier et ce type
de modèles ne rend pas bien compte de la réalité. Notamment, cela ne prend pas en
compte les interactions qui peuvent intervenir entre différents effets.
Il faut donc plus de paramètres pour mieux représenter les données.

34
5.4.2 Modélisation face à deux effets
5.4.2.1 Modèle Normale – Identité
Ce modèle est en réalité mauvais, car il donne des estimations négatives ! En effet,
certains paramètres ont des valeurs négatives, et la somme de plusieurs paramètres
peut conduire à une estimation de lambda négative pour certaines catégories. Or
nous ne cherchons à obtenir strictement que des lambdas positifs : cela n’a pas de
sens de parler d’un nombre de sinistres négatif.
Par conséquent, nous décidons de ne plus utiliser ce modèle.

5.4.2.2 Modèle Poisson – Log


On obtient différents résultats suivant les effets retenus. Cependant, ceux-ci donnent
des informations quant à la significativité de certains paramètres dans le modèle.
Ainsi, pour l’âge, on observe que la tranche d’âge 26/30 ans ne semble pas signifi-
cative.

L’étude des résidus permet de détecter quels sont les catégories qui sont le moins
bien ajustées et essayer de comprendre quelle(s) information(s) manque(nt) pour un
meilleur ajustement.

Les numéros correspondent aux catégories concernées. La correspondance entre


un numéro et la catégorie représentée est donnée dans l’annexe [?].
La droite bleue correspond à un ajustement parfait : c’est la courbe qu’on aurait ob-
tenue si le modèle rendait parfaitement compte des données. La droite noire corres-
pond à la pente moyenne du modèle et permet de voir rapidement le comportement
global du modèle : si la droite noire est au-dessus de la droite bleue, alors le modèle
sous-estime la sinistralité ; si elle est en-dessous, c’est le contraire, et l’estimation
de la sinistralité sera plus sévère que la sinistralité observée.
Comme on peut le voir sur les figures 5.1,5.2 et 5.3, l’ajustement dépend forte-
ment des effets retenus : ce ne sont pas les mêmes catégories qui sont le moins bien
ajustées à chaque fois.

Données réelles Le modèle Age/Sexe montre que la classe homme est mal ajus-
tée. On constate graphiquement qu’en effet, ce sont les catégories qui concernent
les hommes qui sont le moins bien expliquées.
On fait le même constat avec le modèle Sexe/Cover.
Pour le modèle Age/Cover, on constate que les polices Comp. sont mal ajustées.
Les tranches d’âge ont l’air satisfaisantes ; cependant on constate, en analysant les
paramètres, que la tranche 26/30 ans n’est pas significative (une p-value à 5% de
0.88) – on fait le même constat avec le modèle Age/Sexe (p-value de 0.56).

Ces résultats amènent donc à s’interroger sur la pertinence du découpage a priori


des tranches d’âge.

35
Nous pouvons comparer la déviance de chaque modèle avec la loi de Chi-carré
associée :
Effets Degrés de liberté Déviance χ2
Age | Sexe 4 4,02 3,82
Age | Cover 3 2,05 4,38
Sexe | Cover 2 4,35 3,50

Avec ce critère, on constate que les modèles Age/Sexe et Sexe/Cover ne sont pas
bien ajustés (on considère qu’on modèle est bien ajusté si la déviance est inférieure
au quantile d’ordre 1 − α de la loi de χ2 à k degrés de libertés). Seul le modèle
Age/Cover semble satisfaisant et plutôt bien ajusté.

Données simulées
Effets Degrés de liberté Déviance χ2
Age | Sexe 4 25,03 2,58
Age | Cover 3 12,56 1,17
Sexe | Cover 2 1,90 24,27

Le modèle sur données simulées ne donne donc pas les mêmes résultats que
le modèle sur données réelles. Alors qu’avec les données réelles, le « meilleur »
modèle – au sens de la déviance – était le modèle Age/Cover, ici nous constatons
que le meilleur modèle serait Sexe/Cover.

Résidus Les résidus de déviance de ce modèle sont quasi homoscédastiques. Ce-


pendant, on observe des outliers pour les modèles Age|Cover et Sexe|Cover qui
montrent bien que certaines catégories sont mal ajustées. Le modèle Age|Sexe semble
être plus homoscédastique.
Cette représentation permet de repérer les catégories qui voient leur sinistralité va-
rier fortement et nous amène à nous interroger sur les raisons de ces variations.

Modèle Normale – Log


Nous constatons dans les deux cas – données réelles ou simulées – que suivant le
critère de la déviance, ces modèles ne donnent pas de résultats satisfaisants en terme
d’ajustement.

Données réelles
Effets Degrés de liberté Déviance χ2
Age | Sexe 4 2322 43,12
Age | Cover 3 2595 80,86
Sexe | Cover 2 3622 1343

36
F IGURE 5.1 – Comparaison graphique entre sinistralité avant et après GLM – Mo-
dèle Poisson Log – Effets Âge et Sexe

Données simulées

37
F IGURE 5.2 – Comparaison graphique entre sinistralité avant et après GLM – Mo-
dèle Poisson Log – Effets Âge et Couverture

Effets Degrés de liberté Déviance χ2


Age | Sexe 4 3707 506
Age | Cover 3 4209 962
Sexe | Cover 2 3379 168

38
F IGURE 5.3 – Comparaison graphique entre sinistralité avant et après GLM – Mo-
dèle Poisson Log – Effets Âge et Couverture

Résidus

39
Modèle Gamma – Log
Nous constatons dans les deux cas – données réelles ou simulées – que suivant le
critère de la déviance, ces modèles ne donnent pas de résultats satisfaisants en terme
d’ajustement.

Données réelles
Effets Degrés de liberté Déviance χ2
Age | Sexe 4 5218 642
Age | Cover 3 5762 920
Sexe | Cover 2 5035 459

Données simulées
Effets Degrés de liberté Déviance χ2
Age | Sexe 4 4972 121
Age | Cover 3 5518 62
Sexe | Cover 2 7276 2424
Ce modèle est un peu à l’opposé du précédent et présente un durcissement de
la sinistralité dans presque toutes les catégories. Ici encore, comme à chaque fois
qu’on utilise un lien log, les intervalles de confiance ne sont pas très représentatifs.

Modèle Inverse Gaussienne – Log


Nous constatons dans les deux cas – données réelles ou simulées – que suivant le
critère de la déviance, ces modèles ne donnent pas de résultats satisfaisants en terme
d’ajustement.

Données réelles
Effets Degrés de liberté Déviance χ2
Age | Sexe 4 5172 1099
Age | Cover 3 6301 2102
Sexe | Cover 2 4223 149

Données simulées
Effets Degrés de liberté Déviance χ2
Age | Sexe 4 5223 71
Age | Cover 3 5423 69
Sexe | Cover 2 7065 1919

40
5.4.3 Modélisation face à trois effets
Données réelles Données simulées
Modèle DF Déviance χ2 Déviance χ2
Poisson Log 1 0.33 3.7 0.76 24.27
Normale Log 1 6345 4022 6012 2294
Gamma Log 1 6528 1309 7381 2409
IGauss Log 1 6676 1504 8681 3457

Nous constatons, suivant le critère de la déviance, que nos données sont bien
plus adaptées à une étude suivant une loi de Poisson. Ce résultat n’est a priori guère
surprenant dans le cas des données simulées, car nous savions a priori que nos don-
nées suivraient une loi de Poisson, mais il « confirme » que nous pouvons considérer
que les données réelles suivent une loi de Poisson elles aussi.

5.5 Résultats
On obtient donc un résultat probant pour le cas d’une modélisation de Poisson, qui
est conforme à la structure de données.
Dans les autres cas, le modèle n’est pas convaincant et diverge facilement.
Cependant, deux défauts majeurs se sont présentés :

• la qualité et la quantité des données étaient insuffisantes pour générer un mo-


dèle représentant au mieux la réalité observée ;

• la lourdeur du processus mis en œuvre par rapport aux résultats obtenus.

41
F IGURE 5.4 – Comparaison graphique entre sinistralité avant et après GLM – Mo-
dèle Poisson Log – Effets Âge, Couverture et Sexe

42
Conclusion

L’objet de ce mémoire était de déterminer s’il était possible d’utiliser une méthode
GLM pour réaliser un tarif sur un traité de réassurance. C’est donc un sujet explo-
ratoire, pour lequel la littérature est quasi inexistante.

Nous avons pu voir que le problème de la tarification a priori est essentiellement


celui de la qualité et de la quantité des données disponibles sur les contrats.

Nous avons donc choisi de jouer sur le tableau de la quantité de données en


décrivant une méthode de simulation d’un jeu de données à partir des données exis-
tantes. Cela a demandé d’étudier les données, les mettre en forme, les nettoyer au
besoin et en tirer les informations nécessaires à la génération du jeu de données.
Nous aurions aimé pouvoir jouer sur l’autre versant du problème, la qualité des don-
nées, mais nous ne disposions pas d’éléments permettant de s’engager dans cette
voie : c’est la limite des données initiales – restreintes à une seule compagnie et
pour lesquelles des corrélations manquaient – qui nous a bloqué.

Par la suite, nous avons étudié les variables explicatives en vue de la construc-
tion d’un modèle GLM.
La méthode proposée dans ce mémoire, basée sur l’ajustement d’un modèle linéaire
généralisé permet de contourner les limites imposées par le modèle linéaire clas-
sique et d’utiliser des distributions plus adaptées aux données (comme la distribu-
tion de Poisson) pour approcher plus justement la sinistralité d’une petite compa-
gnie et par conséquent lui proposer un tarif plus adapté à son portefeuille.

Elle donne de bons résultats a priori, mais est assez lourde à mettre en œuvre
de façon quasi automatique : il y a une grosse partie de paramétrisation à faire en
amont de l’ajustement de GLM qui dépend des données de la compagnie.

Il faudrait cependant en vérifier la validité en ajustant plusieurs modèles plus


complets, c’est-à-dire avec plus de facteurs de risques. On obtient en effet dans
cette étude des résultats intéressants mais qui pourraient gagner à utiliser plus d’in-
formation.
Le deuxième point nécessaire est d’éprouver les limites de cet outil en le confron-
tant aux données d’autres compagnies. Cela permettrait de vérifier sa robustesse,
mais aussi sa portabilité : le traitement et la mise en forme des données prend en
effet une part non négligeable de temps.

43
Ensuite, la validité du modèle utilisé se verra confirmée ou infirmée avec le
temps. Il ne faut cependant pas perdre de vue le fait que cela reste un modèle
et qu’il ne tient pas compte des risques « groupés », c’est-à-dire des événements
qui introduisent une sur-sinistralité ou des changements dans les règles légales qui
peuvent influencer la sinistralité. Dans ce dernier cas, il y a assez sûrement de
bonnes chances que le passé ne reflète plus exactement le futur.

Cependant, ce processus de réduction reste basé sur la répartition de l’actuaire


et lui rend toute sa place de décideur en lui permettant de poser et de tester ses
hypothèses : il est en effet libre de choisir de regrouper les catégories. Il convient
pourtant de nuancer ce propos en se rappelant qu’on cherche à « isoler » le poids
de chaque effet dans le modèle GLM, donc si les catégories sont bien choisies au
départ, cela ne devrait avoir aucune incidence sur le résultat final. En pratique, on a
pu constater que ce n’était pas le cas, notamment à cause de l’effet décrit au para-
graphe précédent.

Bien qu’encore assez expérimentales parmi les actuaires, d’autres méthodes


nécessitant peu de paramétrisation peuvent être employées pour résoudre ce pro-
blème : les arbres de décision avec lesquels on peut répartir facilement les popula-
tions d’individus en des groupes homogènes ou les réseaux de neurones, qui sont
basés sur l’apprentissage statistique. Ces deux méthodes permettent d’établir des
scores et donc peuvent être utilisées pour calculer la sinistralité attendue.

Il peut être intéressant d’étudier la faisabilité d’un tarif de réassurance à l’aide


d’une de ces deux méthodes, quand bien même ce sera une fois de plus la quantité
et la qualité des données qui seront primordiales pour les utiliser.

44
Annexes

45
Annexe A

Outils mathématiques : du modèle


linéaire aux modèles linéaires
généralisés (GLM)

Dans cette section, nous présenterons les outils à la disposition de l’actuaire pour
analyser les données (portefeuilles et sinistres) et en extraire un modèle. Comme les
méthodes actuelles se basent sur les résultats obtenus sur base du modèle linéaire
gaussien, nous le présenterons en premier lieu, puis nous étendrons ses résultats
dans le cadre des modèles linéaires généralisés.

A.1 Rappels sur le modèle linéaire gaussien


A.1.1 Définition
Dans ce type de modèle, on essaie d’expliquer les variations de variables continues
Y1 , · · · , Yn , appelées variables à expliquer ou encore réponses, à l’aide de variables
explicatives résumées dans les vecteurs x1 , · · · , xn en exprimant chaque Yi en fonc-
tion de xi :
p
X
Y i = β0 + βj xi,j + i avec i ∼ N (0, σ 2 ), i = 1, · · · , n (A.1)
j=1

Soit, écrit autrement :


p
!
X
Yi ∼ N β0 + βj xi,j , σ 2 , i = 1, · · · , n
j=1

Ce modèle suppose donc que les hypothèses suivantes sont vérifiées :

• les variables aléatoires sont gaussiennes ;

• le score Y est linéaire ;

• l’homoscédasticité est vérifiée.

46
Les observations sont donc supposées suivre une fonction affine des variables ex-
plicatives avec une variance constante, fixée à σ 2 .
Même si ce modèle impose de sérieuses limitations, il reste important car bon
nombre des techniques sont applicables pour d’autres modèles qui en sont déri-
vés, comme les modèles linéaires généralisés.

A.1.2 Mise en forme matricielle


Le modèle linéaire est tout à fait adapté à une forme matricielle, et l’équation (A.1)
peut se réécrire à l’aide de matrices :

Y =X ·β+ (A.2)

où Y est un vecteur n × 1 reprenant les variables à expliquer, β est un vecteur de


paramètres de taille (p + 1) × 1,
   
1 xt1 1 x1,1 x1,2 · · · x1,p
   
 1 xt   1 x2,1 x2,2 · · · x2,p 
2 
X= . . = .
  
 .. ..   .. .. .. ... .. 
   . . . 
t
1 xn 1 xn,1 xn,2 · · · xn,p

est une matrice de taille n × (p + 1) reprenant les variables explicatives et  ∼


N (0, σ 2 · 1) est un vecteur de taille n × 1 reprenant les erreurs.
X est supposée de rang p + 1, i.e. X t X est inversible.
Tout le problème ici est d’estimer β, i.e. d’ajuster la droite.

A.1.3 Estimation des paramètres


L’estimation des paramètres peut être obtenue par la méthode du maximum de vrai-
semblance.

A.1.3.1 Estimation de β
Supposons qu’on dispose de réalisations y1 , · · · , yn des variables Y1 , · · · , Yn , la
fonction de vraisemblance associée est alors :
n  
1 Y 1 t 2
L(β, σ|y) = n exp − 2 (yi − xi β)
(2π) 2 σ n i=1 2σ
 
1 1 t
= n exp − 2 (y − Xβ) (y − Xβ) .
(2π) 2 σ n 2σ

Pour maximiser L(β, σ|y), il faut trouver le maximum global de la fonction


quelque soit σ, i.e. il faut résoudre :
∂L(β, σ|y)
= 0.
∂β

47
Pour simplifier le calcul, et comme la fonction logarithme est concave strictement
croissante, on utilise plutôt la log-vraisemblance :

L(β, σ|y) = ln (L(β, σ|y))


n 1 n
= − ln(σ 2 ) − 2 (y − Xβ)t (y − Xβ) − ln(2π).
2 2σ 2
On a alors :
∂L(β, σ|y)
= 0 ⇔ −2X t Y + 2X t Xβ = 0
∂β
⇔ X tY = X tX βb
b = (X t X)−1 X t Y .
⇔ β

À partir de là, on peut définir une prédiction Ŷ de Y , où :


b = X(X t X)−1 X t Y .
Yb = X β

On peut donc estimer l’erreur d’ajustement du modèle :

 = Y − Yb .
b

A.1.3.2 Estimation de σ
Posons H = (X t X)−1 X t .

Propriété 5. Le vecteur aléatoire Yb est un estimateur sans biais de la moyenne de


Y et de matrice de variance-covariance σ 2 H. Le vecteur b des résidus estimés est
2
centré et de matrice de variance-covariance σ (I − H). De plus, ces deux vecteurs
sont non-corrélés.
On a :
" n
#
b tX tX β
X h i
E ˆi = E Y tY − β b
i=1
= E Y t (I − H)Y
 

= T r(σ 2 (I − H)) = σ 2 (n − p − 1)

On en déduit un estimateur sans biais de la variance σ̂ 2 tel que :


n
2 1 X
σ̂ = ˆ2
n − p − 1 i=1 i

A.1.4 Variante : moindres carrés pondérés


Dans ce modèle, les observations Y1 , · · · , Yn admettent la représentation :
p
X
Yi = β0 + βj xi,j + i où i ∼ N (0, σ 2 /ωi ) (A.3)
j=1

48
où ωi est un poids
P associé à l’observation i, avec comme condition posée sur la
somme des ωi : ni=1 ωi = 1.
Le modèle s’écrit alors sous forme matricielle comme dans le cas précédent, à l’ex-
ception d’ :  ∼ N (0, σ 2 W ) où
 
1/ω1 0 ··· 0
 
 0 1/ω2 · · · 0 
W = . .
 
 .. .
.. . .. .
.. 
 
0 0 · · · 1/ωn

On montre à l’aide du maximum de vraisemblance comme auparavant que :


b = (X t W X)−1 X t W Y .
β (A.4)

De même on peut définir Yb = X(X t W X)−1 X t W Y et l’erreur d’ajustement


 = Y − Yb .
du modèle b

A.1.5 Intervalle de confiance, intervalle de prédiction


Pour estimer la qualité d’un modèle, un des éléments de mesure est l’utilisation des
intervalles de confiance, qui donnent l’ensemble des valeurs possibles de chaque
paramètre à un certain niveau α.
Mathématiquement, cela donne :
h i
Pr β̂j − σ̂tn−p−1,α/2 ≤ βj ≤ β̂j + σ̂tn−p−1,α/2 = 1 − α.

Avec tn−p−1,1−α/2 est le quantile d’ordre 1−α/2 associé à la loi de Student à n−p−1
degrés de libertés (n observations et p + 1 paramètres).
En effet, chaque composante β̂j de β b suit une loi normale de moyenne βj et de
2 t −1 2
variance σ (X X)jj . Si σ est connu, alors on définit l’intervalle de confiance au
niveau α pour βj par l’ensemble des ξ ∈ R tels que :
q
|β̂j − ξ| ≤ σ (X t X)−1 jj zα/2

où zα/2 est le quantile d’ordre 1 − α/2 associé à la loi N (0, 1).


Si σ 2 est inconnu, on utilise l’estimateur σ̂ et on a l’intervalle de confiance donné
par l’ensemble des ξ ∈ R tels que :
q
|β̂j − ξ| ≤ σ̂ (X t X)−1jj tn−p−1,1−α/2 .

A.1.6 Modèle additif : principe


Dans certains cas, on peut être amené à considérer certaines variables dont l’inter-
vention dans le modèle ne sera pas forcément linéaire. Par exemple, l’âge de l’assuré
ou du véhicule en assurance automobile sont a priori non linéaires : deux personnes
qui ont 20 et 50 ans n’auront pas le même comportement sur la route, mais est-ce

49
la même différence entre deux personnes de 49 et 51 ans par exemple ? Si on note
x1 , · · · , xp les variables explicatives, on peut donc introduire pour ces variables des
fonctions fi telles que :
p
X
y= fi (xi ) +  (A.5)
i=1

On voit bien que si toutes les fonctions fi sont affines, alors on retrouve le modèle
linéaire.

A.1.6.1 Ajustement du modèle additif


Il existe plusieurs méthodes pour ajuster un modèle additif. Présentons d’abord les
méthodes pour le cas d’un seul régresseur puis nous l’étendrons à plusieurs.

Cas d’un unique régresseur Dans ce modèle on suppose qu’on ajuste un en-
semble d’observations (xi , yi ), où xi et yi sont des variables continues. L’équation
(A.5) devient : yi = f (xi ) + i et on cherche directement la forme de f .
Il existe plusieurs techniques pour estimer f , comme par exemple la méthode de
Loess.

Méthode de Loess Cette méthode consiste à approximer localement f par une


droite. On sélectionne les v plus proches voisins de x afin d’estimer f (x) sur ce
voisinage V(x). Plus formellement, on dispose de n observations (xi , yi ) :

(i) on détermine l’ensemble V(x) ;

(ii) on calcule la distance ∆(x) séparant x de son voisin dans V(x) le plus éloigné,
i.e.
∆(x) = max |x − xi | ;
xi ∈V(x)

 
|x−xi |
(iii) on assigne à chaque élément de V(x) un poids ωi (x) = K ∆(x)
. La fonc-
tion K doit vérifier :

(a) K > 0 ;
(b) K(u) = 0 pour u > 1 ;
(c) K est non croissante sur [0, 1].

Par exemple, K telle que :


(
(1 − u3 )3 si u ∈ [0, 1[
K(u) =
0 sinon

donne plus de poids aux points les plus proches de x.

50
(iv) fˆ(x) est obtenue par la régression des yi sur les xi , xi ∈ V(x), à l’aide des
ajustements des moindres carrés pondérés.

Cette approche fournit donc une réponse de la forme :


n
fˆ(xi ) =
X
hi,j yj (A.6)
j=1

où les hi,j dépendent des xi .

Ici, on cherche à ajuster ŷi = β̂0 (xi ) + β̂1 (xi )xi . On détermine β̂0 (xi ) et β̂1 (xi ) en
minimisant : X
ωk (xi ) (yk − β0 (xi ) − β1 (xi )xk )2
k∈V

ce qui donne :
n
X
ŷi = hk (xi )yk
k=1

où hk (xi ) ne dépend pas des yj mais uniquement des régresseurs.


Si on s’intéresse à la réponse pour une valeur x non observée, le modèle pour
estimer f (x) est donc :

yi = β0 (x) + β1 (x)xi + i , xi ∈ V(x)

et on a finalement fˆ(x) = β̂0 (x) + β̂1 (x)x.

Extension à plusieurs régresseurs La méthode de Loess peut être immédiate-


ment étendue à plusieurs régresseurs. Cependant, le modèle obtenu ne sera pas ad-
ditif mais sera de la forme :

yi = f (xi,1 , · · · , xi,p ) + i

Il suffit d’approcher localement la fonction f des variables explicatives par un hy-


perplan et ensuite de procéder comme dans le cas d’un unique régresseur...

Méthode du maximum de vraisemblance pénalisée et splines cubiques Une


façon d’estimer f est de minimiser la fonction objectif, définie par :
n
X Z
2
O(f ) = (yi − f (xi )) + λ (f 00 (u))2 du. (A.7)
i=1 u∈R

On remarque pour la loi normale que :


n
Y 1 (yi − f (xi ))2
L(y, f (xi )) = √ exp −
i=1 2πσ 2 2σ 2

51
et en passant à la log vraisemblance :
n
n 2 n 1 X
L(y, f (xi )) = − log σ − log 2π + 2 (yi − f (xi ))2
2 2 2σ i=1

soit : n
X
2 2 2 2
σ L(y, f (xi )) + nσ log σ + nσ log 2π = (yi − f (xi ))2
i=1

On suppose que σ 2 → 0 et donc :


n
X
σ 2 L(y, f (xi )) 2= (yi − f (xi ))2
σ →0
i=1

Cette fonction objectif peut se voir comme une log-vraisemblance normale péna-
lisée : on ajoute à la log-vraisemblance (première partie de (A.7)) un terme sanc-
tionnant l’irrégularité de l’estimateur (en mesurant la concavité de f ) avant de la
maximiser.
λ
On appelle 1+λ le paramètre de lissage.
Si λ → ∞, pour que O(f ) reste finie il faut que f 00 = 0 : on retrouve une droite de
régression comme solution : le paramètre de lissage est proche de 1.
Si λ → 0, le paramètre de lissage est proche de 0 : la pénalisation disparaît et on
obtient une interpolation parfaite (si les xi sont distincts).

Définition 2. Soient une série de points ((x0 , y0 ), · · · , (xn , yn )). Un spline cubique
sk (x) est une suite de polynômes d’interpolation de degré 3 vérifiant :

sk (x) = sk,0 + sk,1 (x − xk ) + sk,2 (x − xk )2 + sk,3 (x − xk )3 , x ∈ [xk , xk+1 ]


sk (xk ) = yk , ∀k
sk (xk+1 ) = sk+1 (xk+1 ), ∀k
s0k (xk+1 ) = s0k+1 (xk+1 ), ∀k
s00k (xk+1 ) = s00k+1 (xk+1 ), ∀k.

Supposons x1 < · · · < xn . La solution f c de la minimisation de (A.7) est un


λ
spline cubique dont les nœuds sont x1 , · · · , xn . La minimisation de (A.7) peut se
ramener à la minimisation de :

(y − f )t (y − f ) + λf t Kf (A.8)

où y = (y1 , · · · , yn )t , f = (f (x1 ), · · · , f (xn ))t et K = D t C −1 D avec D une

52
matrice tridiagonale de dimension (n − 2) × n définie par :
   
1 1 1 1
− + 0 0 ··· 0
 ∆1 ∆1 ∆2
 ∆2  
1
 0
 ∆2
− ∆12 + ∆13 1
∆3
0 ··· 0 

   
 0 1 1 1 1
 0 ∆3
− ∆3
+ ∆4 ∆4
··· 0 

. . . . .. ... ..
 
D =  ..
 .. .. .. . .


 
 0 1
0 0 0 0 ··· 

  ∆n−1  

 0 1 1
 0 0 0 0 ··· − ∆n−2 + ∆n−1 

1
0 0 0 0 0 ··· ∆n−2

où ∆i = xi+1 − xi et C est une matrice de taille (n − 2) × (n − 2) donnée par :


 
2(∆1 + ∆2 ) ∆2 0 ··· 0 0
 
 ∆2 2(∆2 + ∆3 ) ∆3 0 ··· 0 
1 .. .. .. . . .. ..

C=  . .
 
. . . . .
6 

 0 0 0 · · · 2(∆n−3 + ∆n−2 ) ∆n−2 

0 0 0 ··· ∆n−2 2(∆n−2 + ∆n−1 )

La solution f
c peut alors être obtenue en annulant le gradient de l’expression (A.8) :
λ

−2(y − f ) + 2λKf = 0
c = (I + λK)−1 y.
soit : f λ

Extension à plusieurs régresseurs On utilise pour cela la méthode du backfitting.


On dispose à présent d’observations (xi , yi ), où xti = (xi,1 , · · · , xi,p ) et le modèle
considéré est :
p
X
yi = c + fj (xi,j ) + i , avec i ∼ N (0, σ 2 ).
i=1

Pour estimer les fj , on procède par itérations : le principe consiste, étant donnée
une première estimation fbk des fk de réestimer fj en ajustant les résidus obtenus à
(j)
partir des fk , k 6= j, aux valeurs du j ième régresseur xi,j , i.e. les ri tels que :
(j)
X
ri = yi − ĉ − fbk (xi,k ).
k6=j

Soit dit autrement, l’idée sous-jacente à cet algorithme est :


" #
X
∀j, E Y − c − fk (Xk )|Xj = E [rj |Xj ] = fj (Xj )
k6=j

53
(j)
de sorte que les résidus ri reflètent la part du comportement de la variable dépen-
dante attribuable au j ième régresseur xi,j .

Soit f tj = (fj (xj,1 ), fj (xj,2 ), · · · , fj (xj,n )) le vecteur des évaluations de fj pour


les valeurs observées du j ième régresseur. Par souci d’identifiabilité de la constante
c, on pose son estimateur tel que : ĉ = ȳ. L’algorithme se déroule alors de la façon
suivante :

b (0) ← 0, j ∈ [|1, p|].


Initialisation : ĉ ← ȳ, f j

(r)
Cycle : pour r = 1, 2, · · · et j = 1, · · · , p, mettre à jour f j grâce à :
d

!
b (r+1) b (r+1) b (r)
X X
f j ← H λj y − (ȳ, · · · , ȳ)t − f k − f k
k<j k>j

avec H λj la matrice de lissage appliquée au résidu partiel obtenu en soustrayant


de l’observation y son anticipation calculée à l’aide de tous les régresseurs, à l’ex-
ception du j ième.

Arrêt : Itérer le cycle ci-dessus tant que la somme des carrés des résidus
p
!t p
!
X (r+1) X (r+1)
y − (ȳ, · · · , ȳ)t − f
b
j y − (ȳ, · · · , ȳ)t − f
b
j
j=1 j=1

décroît.

54
A.2 Les modèles linéaires généralisés (GLM)
Pendant longtemps, les actuaires se sont limités à utiliser le modèle linéaire gaus-
sien pout quantifier l’impact de variables explicatives sur les phénomènes d’intérêt
(fréquence, coût, probabilité de survenance d’événements assurés, etc.).
Cependant, la complexité des problèmes statistiques auxquels sont confrontés les
actuaires s’est accrue. En particulier, la réalité n’est pas toujours normalement dis-
tribuée. Il est alors crucial d’adopter des modèles qui prennent mieux en compte la
réalité de l’assurance que ne le fait le modèle gaussien.

L’approche linéaire gaussienne présente plusieurs limites :

• la densité de probabilité doit être (approximativement) gaussienne ;

• le score doit être linéaire ;

• on doit vérifier également l’hypothèse d’homoscédasticité.

Même s’il est possible de s’affranchir de certaines de ces contraintes en transfor-


mant au préalable la variable réponse à l’aide de fonctions bien choisies, travailler
avec l’approche linéaire présente plusieurs désavantages, comme par exemple :

• l’actuaire travaille sur une échelle artificielle ;

• il est difficile de revenir aux données initiales après transformation.

Les modèles linéaires généralisés (ou Generalized Linear Models (GLM)) sont
idéalement adaptés à l’analyse de données qui ne suivent pas une loi gaussienne. Ce
type de données est fréquemment rencontré en assurance.
Ce type de modèle est utilisé depuis la fin du XXème siècle par les actuaires.
En effet, on cherche à modéliser des coûts (à valeurs dans R+ ), des nombres de
sinistres (à valeurs dans N) ou des indicatrices (à valeurs dans {0, 1}), pour lesquels
d’autres lois que la loi normale sont adaptées (exemple : une loi de Poisson pour les
nombres de sinistre, ou une loi binomiale pour une indicatrice).
La modélisation va différer des modèles linéaires gaussiens par deux aspects
importants :

• cela permet en effet de s’affranchir de l’hypothèse de normalité, qui est une


contrainte forte qu’imposait le modèle linéaire, voire même de spécifier une
distribution explicitement non normale ;

• on conserve cependant le lien linéaire entre la réponse moyenne et les va-


riables explicatives.

55
A.2.1 Définition
Les techniques GLM s’appliquent à toute distribution faisant partie de la famille
exponentielle (Linear Exponential Family (LEF)), i.e. toute fonction de densité de
probabilité de la forme :
 
yθ − b(θ)
f (y|θ, φ) = exp + c(y, a(φ)) , y ∈ S (A.9)
a(φ)
où :
• S ⊂ R ou N ;
• θ est le paramètre naturel ;
• φ est le paramètre de dispersion ;
• généralement a(φ) = φ/ω, où le poids ω vaut 1 si ce sont des données indi-
viduelles et ω = k si y est la moyenne de k observations individuelles.
Certaines lois de probabilité qui se mettent sous la forme (A.9) n’ont pas de para-
mètre de dispersion (i.e. φ = 1 ; c’est notamment le cas pour la loi de Poisson) : la
prime pure ne dépend alors que de θ.
Exemple 9 (Loi de Poisson). Si on considère la loi de Poisson de paramètre λ,
P(λ), on a :
λy
f (y|λ) = exp (−λ) = exp (y ln λ − λ − ln y!)
y!
d’où on tire : θ = ln λ, a(φ) = 1, b(θ) = exp θ) = λ, c(y, φ) = c(y) =
− ln y! .

Propriété 6. Le vecteur ∂θ
ln fθ (X) est centré, i.e. :
 

E ln fθ (X) = 0.
∂θ

En effet, dans le cas continu :


Z
fθ (x)dx = 1
x∈R

donc pour chaque i = 1, . . . , p, on a :


Z

0 = fθ (x)dx
∂θ
Z i x∈R

= fθ (x)dx
x∈R ∂θi
Z  

= ln fθ (x) fθ (x)dx
x∈R ∂θi
 

= E ln fθ (X) .
∂θi

56
Propriété 7. Pour une variable aléatoire Y dont la densité de probabilité est de la
forme (A.9), on a :

E [Y ] = b0 (θ) et V [Y ] = b00 (θ) · a(φ).

En effet :
 
∂ ∂ yθ − b(θ)
ln f (y|θ, φ) = + c(y, a(φ))
∂θ ∂θ a(φ)
y − b0 (θ)
= .
a(φ)

D’où :
E [Y ] − b0 (θ)
 

E ln f (y|θ, φ) = =0
∂θ a(φ)
et donc :
E [Y ] = b0 (θ), car a(φ) 6= 0

car ce vecteur ∂θ
ln f (y|θ, φ) est centré.

On a par la suite :
" 2 # " 2 #
Y − b0 (θ)
 
∂ ∂
V ln f (y|θ, φ) = E ln f (y|θ, φ) =E
∂θ ∂θ a(φ)
V [Y ]
= .
a(φ)2

Or :
  Z  2
∂ ∂
V ln f (y|θ, φ) = ln f (y|θ, φ) f (y|θ, φ)dy
∂θ y∈S ∂θ
Z
∂ ∂
= ln f (y|θ, φ) f (y|θ, φ)dy
y∈S ∂θ ∂θ
∂2
Z  
= − 2 ln f (y|θ, φ) f (y|θ, φ)dy
−y∈S ∂θ
2
 

= E − 2 ln f (y|θ, φ)
∂θ
00
b (θ)
= .
a(φ)

D’où on tire : V [Y ] = b00 (θ) · a(φ).

Exemple 10 (Loi de Poisson). Pour la loi de Poisson, E [X] = b0 (θ) = exp θ = λ


et V [X] = b00 (θ)a(φ) = b00 (θ) = exp θ = λ.

Les GLM sont constitués de trois éléments :

57
(i) des variables à expliquer Y1 , · · · , Yn ;

(ii) un vecteur β = (β0 , · · · , βn )t de dimension (p+1) et des variables explicatives


X = (x1 , · · · , xn )t , où chaque xi est un vecteur de dimension (p + 1) : la
matrice X est supposée de rang (p + 1), i.e. X t X est inversible ;

(iii) une fonction de lien g telle que :

g(µi ) = xti β où µi = E [Yi ]


soit E [Yi ] = g −1 (xti β)

qui lie le prédicteur ηi = xti β à la moyenne µi de Yi .

Exemple 11 (Fonctions de lien). Il existe plusieurs fonctions de lien. Voici quelques


exemples usuels :

• lien identité : y = µ +  et g : µ → µ ;

• lien logarithme : y = exp µ +  et g : µ → ln µ ;


1 µ
• lien logit : y = 1+exp −µ
+  et g : µ → ln 1−µ .

Exemple 12 (Loi de Poisson). Pour la loi de Poisson, E [X] = b0 (θ) = g −1 (xti β) =


exp xt β = λ : le lien canonique est donc la fonction logarithme.

De fait, on peut représenter le modèle de la façon suivante :

Y = µ + 
|{z}
|{z}
composante systématique composante aléatoire
−1 t
Y = g (x β) + 

A.2.2 Modèle de régression


La linéarité au sens des GLM signifie que les coefficients βj sont linéaires et non pas
les variables explicatives. Supposons que l’on dispose de variables indépendantes
mais non nécessairement identiquement distribuées Y1 , · · · , Yn dont la densité est
de la forme (A.9). La loi jointe de Y1 , · · · , Yn est alors :
n
Y
f (y|θ, φ) = f (yi |θi , φ)
i=1
Pn n
!
i=1 (yi θi − b(θi )) X
= exp + c(yi , φ)
a(φ) i=1

58
A.2.3 Équations de vraisemblance
En pratique, les coefficients de régression β0 , · · · , βn et le paramètre de dispersion
φ sont inconnus et doivent être estimés à partir des données. On utilise l’estimateur
du maximum de vraisemblance pour déterminer β. Ayant fixé a priori une loi pour
modéliser le système, il s’agit de maximiser la log-vraisemblance :
n
X
L (θ(β)|y, φ) = ln f (yi |θi , φ)
i=1
n n
X yi θi − b(θi ) X
= + c(yi , φ).
i=1
a(φ) i=1

On a toujours : b0 (θi ) = µi = g −1 (xti β) d’où : θi = b0−1 ◦ g −1 (xti β)


De fait, φ n’intervient pas dans la résolution de cette équation. En effet, pour trouver
le maximum de vraisemblance, on cherche l’annulation de la dérivée.
n n
∂L (θ(β)|y, φ) X yi θi − b0 (θi ) X
= =0⇔ yi θi − b0 (θi ) = 0
∂β i=1
a(φ) i=1

car a 6= 0.

A.2.4 Résolution des Équations de vraisemblance


Les estimateurs du maximum de vraisemblance βˆj des paramètres βj sont solutions
du système :

Uj (β) = L (θ(β)|y) = 0. (A.10)
∂βj
Généralement, il n’y a pas de solutions explicites pour ce système d’équations,
et elles doivent être résolues numériquement.
Cependant, on remarque, si on note βb l’estimateur du maximum de vraisemblance
de β et qu’on prend un β ? proche de β,
b qu’un développement de Taylor au premier
ordre nous donne :
b = 0 ≈ U (β ? ) + H(β ? )(β
U (β) b − β?)
∂2
   

où U = L (θ(β)|y) et H = L (θ(β)|y)
∂βj j ∂βj ∂βk j,k

i.e.
b ≈ β ? − H −1 (β ? )U (β ? )
β
d’où on en tire une relation de récurrence pour estimer β.
b Cette méthode est appelée
la méthode de Raphson-Newton et consiste à approximer l’estimateur β̂ de β par
itérations à partir du gradient et du hessien de la log-vraisemblance (premier et
second moments), à l’aide de la formule :
b (r+1) = β
β b (r) − H −1 (β
b (r) ) · U (β
b (r) )

59
A.2.5 Évaluation de la qualité d’un modèle
L’ajustement d’un modèle revient à substituer dans la pratique les valeurs obser-
vées yi par les moyennes évaluées µi , avec évidemment µi 6= yi en général. Les
écarts entre les µi et les yi peuvent avoir deux origines : soit ils sont dus au hasard,
soit le modèle a une mauvaise spécification et n’ajuste pas convenablement les don-
nées. Plusieurs statistiques permettent alors d’évaluer la qualité d’ajustement d’un
modèle.

A.2.5.1 Déviance
On note L(.|y) la vraisemblance par rapport aux observations y. Le modèle de
référence est le modèle saturé, pour lequel on a ∀i, yi = µi , c’est-à-dire que le
modèle reproduit parfaitement les données. On note la vraisemblance de ce modèle
L(y|y).
Si on note L(b
µ|y) la vraisemblance d’un modèle ajusté, on dit que le modèle décrit
bien les données lorsque L(b
µ|y) ≈ L(y|y) et, au contraire, il le décrit mal lorsque
L(bµ|y) ≪ L(y|y). On définit alors le rapport de vraisemblance Λ par
L(y|y)
Λ=
L(b
µ|y)
et la déviance réduite D par :

D = 2 ln Λ = 2(ln L(y|y) − L(b


µ|y))

Une valeur élevée de D laisse penser que le modèle est de faible qualité.
La déviance non-réduite D? est donnée par D? = φD, où φ est le paramètre de
dispersion de la distribution utilisée.

On évalue souvent la qualité de l’ajustement du modèle avec la déviance, en


raison de son lien étroit avec la vraisemblance. Même si intuitivement, une petite
valeur de la déviance signifie que le modèle est bien ajusté, on utilise un critère
quantitatif pour mesurer la qualité : en effet, si le modèle décrit bien les données,
alors la déviance suit approximativement une loi Khi-deux à n − p − 1 degrés de
liberté, i.e. D ∼ χ2n−p−1 . En pratique, on juge un modèle de mauvaise qualité si la
déviance observée Dobs est grande, i.e. si :

Dobs > χ2n−p−1,1−α

où χ2n−p−1,1−α est le quantile d’ordre 1 − α de la loi Khi-deux à n − p − 1 degrés


de liberté.

A.2.5.2 Statistique de Pearson


Une autre statistique disponible est la statistique de Pearson, définie par :
n
X (yi − µi )2
SP2 = ωi .
i=1
V [Yi ]

60
A.2.6 Intervalle de confiance
Comme β b = xti β
b est approximativement de loi normale, η b l’est aussi. La variance
de η
b est alors donnée par :
η ] = xti Σx
V [b b i

et on peut alors donner une approximation de l’intervalle de confiance au niveau


1 − α grâce à la méthode de Wald :
  q 
tb
ICi,1−α = exp xi β ± zα/2 xti Σx b i

où zα/2 est le quantile d’ordre 1 − α de la loi normale N (0, 1).

A.2.7 Analyse des résidus


L’évaluation de la déviance ou de la statistique de Pearson donne une indication
globale de l’ajustement d’un modèle. Cependant en étudiant les résidus, il est pos-
sible de repérer d’où proviennent les écarts entre le modèle et les observations, et
ainsi améliorer le modèle si c’est nécessaire.
Les résidus sont basés sur une distance entre l’observation yi et la valeur prédite
µi . Deux types de résidus sont généralement utilisés dans le cadre des GLM : les
résidus de Pearson et les résidus de déviance.

A.2.7.1 Résidus de Pearson


Ils sont définis par : √
ωi (yi − µi )
riP = p .
V [µi ]
On note que :
n
X 2
riP = SP2
i=1

c’est-à-dire que le résiduriP peut se voir comme la racine carrée de la contribution


de la iième observation dans la statistique de Pearson.

A.2.7.2 Résidus de déviance


La déviance D donnait une mesure de la qualité de l’ajustement par le modèle.
On suppose ici que chaque observation yi participe à la déviance globale avec une
quantité di , i.e. que :
Xn
D= di .
i=1

On définit alors les résidus de déviance par :


p
riD = sgn(yi − µi ) di

61
de sorte que
n n  p 2 Xn p 
X 2 X 2
riD = sgn(yi − µi ) di = di = D.
i=1 i=1 i=1

A.3 Les modèles additifs généralisés (GAM)


Les modèles additifs généralisés (Generalized Additive Model (GAM))sont une ex-
tension des modèles GLM. Tout comme les modèles additifs ont permis de prendre
en compte des effets non linéaires de certaines variables explicatives lorsque les va-
riables à expliquer étaient gaussienne, les GAM permettent de faire de même pour
les modèles de régression de Poisson, Binomial et Gamma.
Dans cette approche, nous remplaçons la forme linéaire :

Yi = β0 + X1 · β1 + X2 · β2 + · · · + Xp · βp

par une forme additive :

Yi = α + f1 (X1 ) + f2 (X2 ) + · · · + fp (Xp ).

Souvent, les fonctions fj sont des éléments d’un espace de fonctions de dimension
finie et peuvent la plupart du temps être identifiées, comme dans le cas gaussien,
comme des splines de lissage approchant les données.

A.4 Deux approches possibles pour ajuster un GAM


Il existe plusieurs méthodes pour parvenir à ajuster un tel modèle.

A.4.1 Modèle additif sur pseudo-variables


Cette méthode est calquée sur l’estimation des paramètres β d’un GLM à l’aide de
l’ajustement d’un modèle linéaire à des pseudo-observations (les résidus) à l’aide
d’une méthode des moindres carrés pondérés.
Ici les pseudo-observations sont définies par :
(k)
(k) (k) yi − µ̂i
zi = η̂i + (k)
D̂i

fˆj (xi,j ) et D̂i =


(k) (k) (k) Pp (k) (k) ∂ −1 (k)
où µ̂i = g −1 (η̂i ) avec η̂i = ĉ + j=1 ∂η
g (η̂i ).
(k) (k)
Á chaque pseudo-observation zi est associée un poids πi défini par :
v h  i
u φV g −1 η̂ (k)
!2 u
(k)
(k) D̂i (k) t i
πi = (k)
avec σ̂ i =
σ̂i ωi

La technique utilisée pour estimer les fonctions fj est la même que celle utilisée
pour les modèles additifs, i.e. l’algorithme de backfitting adapté à la situation.

62
(0)
Initialisation : ĉ ← g(ȳ), f
b ← 0, j ∈ [|1, p|].
j

(k)
Cycle : pour k = 1, 2, · · · , on construit les pseudo-observations zi et on leur
(k)
associe les poids πi .
(k)
On ajuste alors les zi à c + pj=1 fj (xi,j ) à l’aide d’un modèle additif, i.e. :
P

(0) (k)
(i) on initialise ĉ ← z̄ (k) et f̂ j ← f̂ j

(ii) on réévalue
!
(k+1) X (k+1) X (k)
f̂ j ← H λj z k − (z̄ (k) , · · · , z̄ (k) )t − f̂ s − f̂ s
s<j s>j

(iii) réitérer (ii) tant que la somme des carrés des résidus décroît.

Arrêt : les variations dans les fk deviennent négligeables.

A.4.2 Maximum de vraisemblance local


Ceci est l’extension aux GAM de la méthode de Loess. On a alors recours à des
ajustements locaux dans des GLM par maximum de vraisemblance.
Plus précisément, exactement comme avec la méthode de Loess, on détermine un
voisinage V(x) et des poids ωi (x). Il s’agit alors de résoudre les équations de vrai-
semblance  
X t Ω(x) y − µ(β̂(x)) = 0

où la matrice Ω(x) est diagonale et reprend les poids ωi (x).

63
Annexe B

Outils et données utilisés dans SAS

B.1 Fonctionnement de GENMOD


Modèle ajusté SAS cherche à établir le score η = Xβ, où β est un vecteur
inconnu à ajuster (c’est le vecteur des paramètres) et X est une matrice contenant
les observations xi :
   
1 x1 1 x1,1 · · · x1,p
   
 1 x2   1 x2,1 · · · x2,p 
X= . . = .
   
 .. ..   .. .
.. . .. .
.. 

   
1 xn 1 xn,1 · · · xn,p

S’il y a surparamétrisation de X, i.e. que la matrice X n’est pas libre, alors on


retire les colonnes liées en les mettant à 0, l’information qu’elles contiennent étant
déjà présente dans une autre colonne.
Pour coder les variables discrètes, SAS utilise plusieurs méthodes. Ainsi, la plupart
du temps, un facteur de risque avec quatre réalisations possibles sera codé sur trois
colonnes.
Exemple 13 (Codage). On dispose d’une variable aléatoire discrète A prenant les
valeurs 1, 3, 5, 7. Un codage possible est :

A A1 A3 A5
1 1 0 0
3 0 1 0
5 0 0 1
7 -1 -1 -1
Dans cet exemple, 7 est la valeur Intercept. Cela signifie qu’il faut ajuster trois
paramètres β1 , β3 et β5 pour représenter cette variable aléatoire.
En tout il faut donc au moins 1 + li=1 (ni − 1) paramètres pour représenter
P
le modèle, où ni est le nombre de réalisations du facteur i. Le paramètre en plus
correspond à l’intercept.

64
Enfin, pour chaque observation, SAS peut calculer une valeur prédite µ̂i =
g −1 (xti · β̂).

B.2 Tableaux des catégories utilisées pour les modèles


GLM
??

B.2.1 Données réelles

Obs AgeLevel DriverGender Cover expoQY lamb


1 17−20 Female Comp 0.942 0.05989
2 17−20 Male Comp 3.747 0.24340
3 21−25 Female Comp 4.039 0.01254
4 21−25 Male Comp 15.721 0.13772
5 26−30 Female Comp 10.828 0.01015
6 26−30 Male Comp 27.757 0.04052
7 31+ Female Comp 99.344 0.01507
8 31+ Male Comp 271.636 0.03393
9 17−20 Both TPO+TF 11.317 0.01459
10 21−25 Female TPO+TF 3.556 0.00139
11 21−25 Male TPO+TF 18.301 0.00137
12 26−30 Female TPO+TF 4.194 0.00131
13 26−30 Male TPO+TF 17.841 0.00293
14 31+ Both TPO+TF 166.481 0.00090
15 any Male anyCov 33.295 0.00677

B.3 Données générées

Obs AgeLevel DriverGender Cover expoQY lamb


1 17−20 Female Comp 27.038 0.00962
2 17−20 Male Comp 17.585 0.08875
3 21−25 Female Comp 4.795 0.01651
4 21−25 Male Comp 4.286 0.15831
5 26−30 Both Comp 9.148 0.07169
6 31+ Female Comp 52.867 0.02332

65
Obs AgeLevel DriverGender Cover expoQY lamb
7 31+ Male Comp 35.486 0.22371
8 17−20 Female TPO+TF 80.719 0.00126
9 17−20 Male TPO+TF 51.634 0.01029
10 21−25 Both TPO+TF 27.253 0.00871
11 26−30 Both TPO+TF 27.706 0.00857
12 31+ Female TPO+TF 175.744 0.00077
13 31+ Male TPO+TF 119.959 0.00566
14 any Both anyCov 65.781 0.00223

66
Annexe C

Glossaire

Notation Description Page


List
Capacité Aussi appelée portée, c’est le montant couvert 14
dans une tranche d’un programme de réassu-
rance.
Cédante Une cédante est une compagnie d’assurance qui 4
transmet une partie du risque qu’elle a souscrit à
un réassureur.

Exposition On appelle expostion du portefeuille sa composi- 4


tion en terme de risque.

Limite Montant haut de la tranche de réassurance à par- 14


tir duquel le réassureur n’intervient plus sur un
programme.
Long Tail Toute branche de réassurance dont les délais 7
de réglement sont longs, i.e. supérieur à un an.
L’exemple typique est la responsabilité civile au-
tomobile.

Prime pure montant qui représente le coût du risque couvert, 10


tel que calculé par les méthodes actuarielles sur
la base de statistiques relatives à ce risque.
Priorité Montant bas de la tranche de réassurance à partir 14
de laquelle un réassureur intervient dans un pro-
gramme.

67
Notation Description Page
List
Rétention Tout coût d’un sinistre restant à la charge d’un as- 15
sureur après application d’un programme de ré-
assurance.

Short Tail Toute branche de réassurance dont les délais de 7


réglement sont courts, généralement inférieurs à
un an. On trouve par exemple les incendies, les
dommages matériels dans cette catégorie.

Traité Un traité est un contrat d e réassurance, liant une 4


cédante et un réassureur. C’est lui qui détermi-
nera tous les conditions du transfert de risque et
c’est à lui qu’on se réfèrera en cas de litige.
Triangle IBNR Un triangle IBNR (Incurred But Not Reported) 23
est un tableau qui recense le nombre de sinistres
survenus chaque année, en prenant en compte le
fait que tout sinistre peut ne pas être déclaré lors
de sa survenance, mais parfois plusieurs années
après.

68
Bibliographie

[BENETEAU, 2006] BENETEAU, G. (2006). MODELE DE PROVISIONNE-


MENT SUR DONNEES DETAILLEES EN ASSURANCE NON-VIE.

[Brezger et Lang, 2006] B REZGER, A. et L ANG, S. (2006). Generalized structured


additive regression based on Bayesian P-splines. Computational statistics & data
analysis, 50(4):967–991.

[Carayon, 1996] C ARAYON, M. (1996). Comparaison du logiciel Glim4 et de la


procédure GENMOD du logiciel SAS pour les modèles linéaires généralisés.

[Charpentier, 2008] C HARPENTIER, A. (2008). Le provisionnement en assurance


non-vie.

[Denuit et Charpentier, 2005] D ENUIT, M. et C HARPENTIER, A. (2005). Mathé-


matiques de l’assurance non-vie – Tome 2 : tarification et provisionnement. Eco-
nomica.

[Firth et al., 1991] F IRTH, D., H INKLEY, D., R EID, N. et S NELL, E. (1991). Sta-
tistical Theory and Modelling : in Honour of Sir David Cox, FRS.

[Haberman et Renshaw, 1996] H ABERMAN, S. et R ENSHAW, A. (1996). Genera-


lized linear models and actuarial science. The Statistician, 45(4):407–436.

[Mack, 1994] M ACK, T. (1994). Which stochastic model is underlying the chain
ladder method ?* 1. Insurance : mathematics and economics, 15(2-3):133–138.

[Renshaw et Verrall, 1998] R ENSHAW, A. et V ERRALL, R. (1998). A stochastic


model underlying the chain-ladder technique. British Actuarial Journal, 4(4):
903–923.

[Schmitter, 2004] S CHMITTER, H. (2004). The sample size needed for the calcu-
lation of a GLM tariff. ASTIN bulletin, 34(1):249–262.

[Stokes et al., 2000] S TOKES, M., DAVIS, C. et KOCH, G. (2000). Categorical


data analysis using the SAS system. SAS publishing.

69

Vous aimerez peut-être aussi