Vous êtes sur la page 1sur 112

Mémoire présenté le :

pour l’obtention du Diplôme Universitaire d’actuariat de l’ISFA


et l’admission à l’Institut des Actuaires

Par : Pierre Baudron

Titre Tarification d’un produit d’assurance pour véhicules à moteur

Confidentialité :  NON  OUI (Durée :  1 an  2 ans)

Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus


Membre présents du jury de l’Institut Entreprise :
signature
des Actuaires
Nom : Generali Suisse
Signature :Generali Suisse
Membres présents du jury de l’ISFA Directeur de mémoire en entreprise :
Nom : Ingeborg Knepper
Signature :I. Knepper
Invité :
Nom :
Signature :
Autorisation de publication et de mise
en ligne sur un site de diffusion de
documents actuariels (après expiration
de l’éventuel délai de confidentialité)
Signature du responsable entreprise

Signature du candidat

Page 1 De 1
Résumé

Ce mémoire a pour objet la description du processus de tarification d’un produit


d’assurance pour véhicules à moteur. Après une présentation du marché de l’assurance
pour les véhicules à moteur en Suisse, nous décrirons les données tarifaires que nous avons
utilisées. Puis nous nous consacrerons à l’établissement du tarif technique. La première
étape est la construction d’un modèle qui permet de déterminer la prime pure par profil de
risque assuré. Nous expliquerons pourquoi notre choix s’est porté sur des modèles linéaires
généralisés fréquence-coût comme première option. Nous présenterons ensuite le processus
de sélection des variables explicatives du modèle, qui se base sur la méthode d’élimination
bidirectionnelle. A partir des modèles descriptifs de la fréquence et de la sévérité obtenus,
nous montrerons comment estimer le montant de sinistres attendus par profil d’assuré. Puis
nous testerons des méthodes alternatives de modélisation des risques assurés, basées sur les
arbres de régression. Après quoi, nous déterminerons le tarif technique à partir de la prime
pure et des autres composantes de la prime technique. Enfin, nous examinerons l’apport
des dernières évolutions technologiques sur les modèles tarifaires en assurance pour les
véhicules à moteur.

3
Abstract

The object of this paper is the description of the pricing process of an insurance
product for motor vehicles. After a brief description of the motor insurance market in
Switzerland, we will describe the data we used during the pricing process. Afterwards,
we will present the technical tariff establishment. The first step is the determination of the
pure premium per risk profile. We will explain why we choose to use a frequency-severity
generalized linear model as a first option. The explanatory variables selection, which is
based on bidirectional elimination, will then be detailed. From the frequency-severity model
obtained, we will show how to estimate the expected claims amount per insured profile.
Then, we will test a few alternative modelling technics based on regression trees. Afterwards,
we will determine the technical tariff, combining the pure premium and the other components
of the technical premium. Finally, we will examine the impact of the latest technological
evolutions on motor insurance pricing models.

4
Table des Matières

Table des Matières 5

1 Introduction 9

2 Contexte de développement du tarif 11


2.1 Histoire de l’assurance pour véhicules à moteur . . . . . . . . . . . . . . . . . 11
2.2 Panorama de l’assurance véhicules à moteur en Suisse . . . . . . . . . . . . . 12
2.3 Description du produit d’assurance . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 Les véhicules assurés . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2 Garanties disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3 Périmètre d’assurance . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Utilisation du tarif technique . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1 Définition du tarif technique . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 Objectifs du tarif technique . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Choix de l’horizon temporel . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6 Description des potentielles variables explicatives . . . . . . . . . . . . . . . . 18
2.6.1 Les différents types de variables tarifaires . . . . . . . . . . . . . . . . 18
2.6.2 Les données liées à la police d’assurance . . . . . . . . . . . . . . . . 19
2.6.3 Les données issues de sources externes . . . . . . . . . . . . . . . . . 19
2.6.4 Les variables offset . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6.5 Liste des potentielles variables tarifaires du modèle . . . . . . . . . . . 21
2.7 Desciption des données liées à la sinistralité . . . . . . . . . . . . . . . . . . . 22
2.8 Processus de tarification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3 Traitements préalables des données 25


3.1 Traitement des valeurs abberantes . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Regroupement de modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3 Intégration des sinistres survenus et reportés à la base tarifaire . . . . . . . . . 25
3.3.1 Estimation des IBNR . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.2 Intégration des IBNR dans le modèle tarifaire . . . . . . . . . . . . . . 28

5
3.4 Traitement des sinistres graves . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.5 Découpage du jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Modélisation du coût annuel des sinistres avec les modèles linéaires généralisés 33
4.1 Cadre théorique des modèles linéaires généralisés . . . . . . . . . . . . . . . . 33
4.1.1 Ecriture du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Intégration d’une variable offset . . . . . . . . . . . . . . . . . . . . . 34
4.1.3 Hypothèses du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.1.4 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Indicateurs utilisés dans le cadre de la sélection des variables explicatives . . . 37
4.2.1 Objectif du processus de sélection . . . . . . . . . . . . . . . . . . . . 37
4.2.2 Transformation des variables . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.3 Test du khi-deux d’indépendance . . . . . . . . . . . . . . . . . . . . 37
4.2.4 Le critère d’Akaike (AIC) . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.5 La déviance du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Méthodes de sélection et d’élimination des variables explicatives candidates . . 41
4.4 Etude des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.5 Processus global de sélection des variables explicatives du modèle par sélection
ascendante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.6 Modélisation indépendante du nombre et de la sévérité des sinistres avec les GLM 43
4.6.1 Modélisation du nombre de sinistres . . . . . . . . . . . . . . . . . . . 44
4.6.2 Modélisation du coût moyen d’un sinistre avec une distribution de Gamma 47
4.6.3 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.7 Qualité prédictive du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.8 Modélisation directe du coût moyen annuel des sinistres . . . . . . . . . . . . 49
4.9 Synthèse des distributions envisagées pour les GLM . . . . . . . . . . . . . . . 50
4.10 Limites des GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5 Modèles alternatifs de modélisation des sinistres 53


5.1 Les arbres de classification et de régression CART . . . . . . . . . . . . . . . . 53
5.1.1 Description de l’arbre de décision . . . . . . . . . . . . . . . . . . . . 53
5.1.2 Problème de sur-ajustement des modèles . . . . . . . . . . . . . . . . 54
5.1.3 Recherche d’un arbre optimal . . . . . . . . . . . . . . . . . . . . . . 56
5.2 Amélioration des performances . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.2 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.3 Gradient boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3 Avantages des arbres de régression . . . . . . . . . . . . . . . . . . . . . . . . 60

6 Résultats de modélisation de la prime de risque 63


6.1 Résultats de modélisation avec les GLM . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 Initialisation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1.3 Sélection des variables explicatives . . . . . . . . . . . . . . . . . . . 66

6
6.1.4 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2 Résultats de modélisation avec les arbres de régression . . . . . . . . . . . . . 74
6.2.1 Résultats avec les forêts d’arbres décisionnels . . . . . . . . . . . . . . 74
6.2.2 Résultats avec les gradient boosting . . . . . . . . . . . . . . . . . . . 76
6.3 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

7 Développement du tarif technique du portefeuille des motocycles 81


7.1 Coût projeté des sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.1.1 Composantes du coût projeté des sinistres . . . . . . . . . . . . . . . . 81
7.1.2 Intégration du coût des IBNR . . . . . . . . . . . . . . . . . . . . . . 82
7.1.3 Estimation des changements de la fréquence des sinistres et de l’inflation
des coûts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.2 Le coût économique des sinistres . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.3 Le tarif technique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.4 Résumé du calcul de la prime technique à partir de la prime de risque . . . . . 85
7.5 Impact du nouveau tarif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.5.1 Analyse prédictive du ratio combiné . . . . . . . . . . . . . . . . . . . 86
7.5.2 Analyse ad-hoc du tarif . . . . . . . . . . . . . . . . . . . . . . . . . . 89

8 Apports des nouvelles technologies sur les modèles tarifaires 93


8.1 Télématique et assurance pour véhicules à moteur . . . . . . . . . . . . . . . . 93
8.2 Dispositifs d’aide à la conduite et assurance véhicules à moteur . . . . . . . . . 94

9 Conclusion 99

Bibliographie 101

Table des figures 103

A Théorème de la variance totale 105

B Espérance et variance d’une variable appartenant à la famille exponentielle 107

C Estimation des coefficients de régression 109

7
Chapitre 1

Introduction

La prime technique d’une police d’assurance est un estimateur des coûts annuels liés à la police
et d’un chargement lié à la rentabilité attendue. Elle dépend du produit proposé et du profil
de risque assuré. Les coûts sont composés des sinistres, des frais de gestion de la compagnie
d’assurance et du coût du capital mis en réserve pour garantir la solvabilité de la compagnie. La
rentabilité attendue impact la prime technique via un taux de chargement qui permet à l’assureur
de générer du profit. Sur la base du tarif technique, il n’y a à priori pas d’inter-financement entre
les différents risques: le même ratio combiné est espéré pour chaque police.

L’utilisation première du tarif technique s’inscrit dans le cadre de la vente des produits
d’assurance. C’est un indicateur utilisé par la souscription auquel de multiples taux d’ajustement
sont appliqués. Parmi ces derniers, il convient de distinguer les rabais purement commerciaux,
qui ne sont pas justifiés par une analyse statistique du risque sous-jacent, des rabais techniques
justifiés, par exemple, par l’historique sinistre de l’assuré. Le bonus-malus en assurance des
véhicules à moteur en est un exemple. Son équivalent pour l’assurance de flottes de véhicules à
moteur est l’ajustement de la tarification à priori du risque avec un modèle de crédibilité.

Le tarif technique permet par ailleurs de calculer des indicateurs utiles au pilotage du
portefeuille. En particulier, le ratio entre la prime commerciale effectivement payée par le client
et la prime technique, qui permet d’analyser le risque d’anti-sélection. Supposons par exemple
que pour un segment d’assurés, la prime commerciale soit significativement inférieure à la prime
technique. Si l’on augmente la prime commerciale, on diminue les probables pertes futures sur
ce segment, à priori pas rentable. A l’inverse, si l’on diminue modérément la prime commerciale
pour un segment d’assurés sur-tarifés, on augmente le potentiel de croissance de la compagnie
sur ce dernier qui, à priori, restera rentable. D’autres indicateurs prédictifs spécifiques peuvent
être calculés, comme par exemple la rentabilité attendue des affaires conclues par mois et par
canal de vente. Ces indicateurs permettent d’améliorer la gestion du portefeuille d’assurances.

En général, il n’y pas de structure tarifaire telle que la prime commerciale soit systématique-
ment égale à la prime technique. Ceci est parfois dû aux contraintes du marché. Un exemple récent

9
est l’interdiction de la discrimination fondée sur le sexe en assurance dans l’Union Européenne,
alors que les hommes devraient payer plus que les femmes sur le segment des 18-25 ans pour leurs
assurances responsabilité civile des véhicules à moteur. Mais cet écart entre la prime commerciale
et la prime technique est aussi parfois lié à des choix stratégiques, qui peuvent se révéler plus ou
moins bénéfiques pour l’assureur. Il est donc primordial que les actuaires mettent en place un
tarif technique qui reflète à priori de manière adéquate le risque assuré afin d’optimiser la qualité
du processus de souscription, l’analyse financière et le pilotage de la compagnie d’assurance.
Nous prenons ici comme exemple le processus de tarification sur le segment des motocycles pour
la garantie responsabilité civile mis en place chez Generali Suisse. Dans le chapitre suivant, nous
nous proposons de décrire la part de marché que ce produit représente, ses caractéristiques et les
données utilisées.

10
Chapitre 2

Contexte de développement du
tarif

2.1 Histoire de l’assurance pour véhicules à moteur


L’essor de l’utilisation des automobiles a commencé au sortir de la première guerre mondiale
dans les zones urbaines. Les voitures étaient alors déjà rapides et peu sécurisées. La Ford T,
modèle le plus vendu de la décénie 1920, pouvait aller jusqu’à 70 kilomètres par heure. Le
modèle le plus rapide, la Duesenberg Model J, pouvait atteindre la vitesse de 191 kilomètres par
heure. A cette époque, aucune forme d’assurance automobile obligatoire n’existait. Les victimes
d’accidents ne recevaient que rarement une compensation, et les conducteurs devaient faire face à
des coûts élevés de réparation.

Cleveland et d’autres régions de l’Ohio ont été à la pointe du développement automobile à la


fin du 19ème et au début du 20ème siècle. Gilbert J. Loomis serait la première personne à avoir
acheté une police d’assurance responsabilité civile automobile en 1897, selon l’Ohio Historical
Society. Cette police protégeait Loomis en cas de dommages, blessures ou décès occasionnés par
sa voiture. Un premier régime d’assurance automobile obligatoire a été introduit au Royaume-
Uni avec le Road Traffic Act de 1930. Cette loi obligeait les propriétaires de véhicules et les
conducteurs à être assurés pour leur responsabilité civile.

11
2.2 Panorama de l’assurance véhicules à moteur en Suisse

CH = Suisse. Source: 03/2017 SwissRe Sigma report

Figure 2.1 Volume des primes directes émises par région en 2016

En 2016, la Suisse fait partie des plus importants marchés d’assurance en volume de prime
directes. En Europe, avec un volume de primes de 61,3 milliards USD (CHF 58.6 milliards) en
2015, la Suisse se classe en septième position:

Source: 03/2017 SwissRe Sigma report

Figure 2.2 Les 8 premiers marchés d’Europe en volumes de primes en 2016

Les dépenses d’assurance moyennes par tête dans les marchés avancés sont de 3505 USD
(3352 CHF) en 2016, dont 1954 USD (1869 CHF) en assurance vie contre 1550 USD (1482 CHF)
en assurance non vie. En Suisse, ces dépenses atteignent près de 7000 USD (6694 CHF) par tête,
dont environ 3200 USD (3060 CHF) en assurance vie et 3800 USD (3634 CHF) en assurance
non-vie. La pénétration du marché de l’assurance dans l’économie Suisse est supérieure au

12
coefficient moyen des pays avancés. Elle est quantifiée dans le graphe suivant avec le ratio:
Primes d’assurance directes
Coefficient de pénétration =
PIB du pays

Source: SwissRe Institute

Figure 2.3 Densité et pénétration de l’assurance dans les marchés avancés en 2016

En Suisse, l’assurance des véhicules à moteur était en 2015 le deuxième produit d’assurance
non vie en volume de prime derrière l’assurance maladie. Le montant de primes brutes sur le
périmètre des véhicules à moteur représentait CHF 5,9 milliards, soit 34% des primes brutes
d’assurance non vie, contre CHF 9,9 milliards pour l’assurance maladie.

13
Assurances Primes brute en milliers de CHF
Maladie 9’867’968
Assurances sur les véhicules terrestres 9’112’898
dont casco véhicules terrestres 5’925’338
dont responsabilité civile véhicules terrestres 3’ 187’560
Incendie, dommages matériels 2’737’778
Accident 4’017’375
Responsabilité 2’918’571
civile 2’007’264
Protection juridique 549’012
Bateau, aviation, transport 392’736
Pertes pécuniaires 346’845
Crédit, caution 303’137
Assistance tourisme 208’550
Total 26’536’796

Table 2.1 Répartition des primes en assurance dommage en Suisse


Source: Rapport 2015 sur le marché de l’assurance, FINMA.

Le nombre de véhicules civils immatriculés au 30 septembre 2016 avec une adresse du


détenteur ou de la détentrice en Suisse s’élevait à 6,40 millions de véhicules. Le nombre de
motocycles était de 0,72 million, soit 11,3% du parc. Les primes d’assurance moto sont en
moyenne moins élevées en responsabilité civile, car le risque de dommages aux autres véhicules
est minime. Cependant, le risque de blessures corporelles est plus élevé car les motocyclistes
y sont plus exposés sur la route. Les primes d’assurance des motocycles étant en moyenne
d’environ 400 CHF, on peut estimer que le total des primes annuelles en assurances motocycles
sur le marché Suisse est d’environ 300 millions CHF.

2.3 Description du produit d’assurance


2.3.1 Les véhicules assurés
Les données relatives aux véhicules assurés par le produit d’assurance pour véhicules à moteur
ont été scindées selon la nature du véhicule. Un tarif à été développé pour chaque sous-groupe de
véhicule. Les motocycles sont l’un de ces sous-groupes, que nous prenons comme exemple dans
le cadre de ce mémoire. Les motocycles qui entrent dans le périmètre du modèle tarifaire décrit
dans ce mémoire sont les véhicules suivants:
• les Scooters
• les «road machines», qui sont les motos de route classiques
• les motocross, qui sont des véhicules à 2 roues tout terrain
• les chopper, motos typiquement américaines qui se caractérisent par une fourche très
longue, un pot d’échappement très sonore et une peinture personnalisée

14
• les Side-car, motocyclettes pourvues d’une troisième roue latérale (à droite ou à gauche),
permettant d’ajouter un « panier » généralement destiné à héberger un ou plusieurs passa-
gers

• les trikes, engin hybride à trois roues, plus ou moins mi motocyclette/mi automobile

• les cabin bikes, cycles à moteur couverts

• et enfin les quads, qui sont des motocycles non couverts, tout-terrain, monoplace ou biplace,
à trois ou quatre roues

2.3.2 Garanties disponibles


L’assurance de la responsabilité civile
L’assurance responsabilité civile (RC) couvre les dommages occasionnés avec le véhicule à
d’autres usagers de la route. En Suisse, chaque propriétaire d’un véhicule à moteur est obligé par
la loi de souscrire à une police d’assurance responsabilité civile.

L’assurance casco
L’assurance casco couvre les dommages de carrosserie du motocycle. Contrairement à l’assurance
responsabilité civile, la conclusion d’une assurance casco est facultative et offre une protection
financière supplémentaire. Dans l’assurance casco, on distingue la casco partielle et la casco
intégrale. Avec l’assurance casco partielle sont assurés les dommages causés par l’incendie, le
vol, le bris de glaces, les dommages causés par les martres (petits quadrupèdes carnassiers au
pelage fin, appartenant à la famille des mustélidés) et par les actes de vandalisme ainsi que les
événements naturels comme les glissements de terrain, les avalanches, la pression de la neige, les
tempêtes, la grêle, les hautes eaux, les éboulements de rochers et les inondations. L’assurance
casco intégrale couvre en plus les dommages de collision comme par exemple le choc, la collision,
la chute ou l’enlisement du véhicule.

L’assurance faute grave


Si l’assuré souscrit à la garantie faute grave, l’assureur fournit ses prestations en cas de dommages
occasionnés par une infraction grave contre les règles de la circulation et renonce à exercer son
droit de recours ou de réduction des prestations, sauf si le conducteur:

• a causé l’événement sous l’influence de l’alcool, de drogues et/ou de médicaments

• au moment de l’accident, est titulaire du permis d’élève conducteur ou d’un permis de


conduire à l’essai. Les permis de conduire étrangers sont considérés comme des permis de
conduire à l’essai, aussi longtemps qu’ils n’ont pas été transformés en permis de conduire
suisses définitifs

• a causé l’événement en dépassant la vitesse maximale autorisée de manière particulièrement


importante telle que définie dans les CGA

15
L’assurance protection accidents

Elle offre une couverture d’assurance en cas d’accidents pour le conducteur et son passager.
La protection accident fournit des prestations en cas d’invalidité et de décès et prend en
charge les frais de traitement. L’indemnité journalière d’hospitalisation en cas de séjour
hospitalier et l’indemnité journalière en cas d’incapacité de travail apportent un soutien financier
supplémentaire.

Pour chacune des quatre garanties disponibles, un modèle tarifaire distinct est développé, car
la nature du risque sous-jacent est significativement différente. Les variables explicatives sont
donc notoirement différentes.

2.3.3 Périmètre d’assurance


L’assurance couvre le véhicule indiqué dans la police ou ses avenants éventuels dans la limite
géographique spécifiée dans le contrat. Si, au cours de la durée du contrat, un fait important
déclaré dans la proposition ou d’une autre manière subit une modification provoquant une
aggravation essentielle du risque, le preneur d’assurance est tenu d’en aviser immédiatement la
compagnie par écrit. L’assurance couvre alors cette aggravation, à moins que la compagnie ne
résilie le contrat dans les 14 jours dès réception de l’avis. Si le preneur d’assurance omet de
faire cette communication, la compagnie cesse d’être liée par le contrat. En cas de diminution du
risque, la compagnie réduira le montant de la prime, dès réception de la communication écrite du
preneur d’assurance. Ces conditions permettent à l’assureur de maintenir un niveau de prime en
adéquation avec le risque assuré.

2.4 Utilisation du tarif technique


2.4.1 Définition du tarif technique
On définit la prime technique comme le meilleur estimateur de l’ensemble des coûts liés à une
police d’assurance. En d’autres termes, la prime technique est le meilleur estimateur de la prime
que chaque assuré devrait payer pour couvrir l’ensemble des coûts liés à cette police, tout en
dégageant le profit escompté par l’assureur. Avec ce tarif, aucun interfinancement entre les
polices n’est attendu, et le même taux de rentabilité est attendu pour chaque police.

Le tarif technique est défini à partir d’un modèle statistique qui quantifie le risque sous-
jacent assuré, ajusté des frais liés au fonctionnement de la compagnie d’assurance et d’un
chargement lié au profit attendu. La prime pure est l’estimateur du coût des sinistres hors frais
annexes. Elle est estimée en utilisant les potentielles variables explicatives décrites dans la section
2.6 Description des potentielles variables explicatives, afin d’estimer le montant qui devrait être
demandé en fonction du profil de l’assuré.

16
2.4.2 Objectifs du tarif technique
Chaque fois qu’un concurrent utilise un facteur supplémentaire pertinent afin d’évaluer la prime
de risque, l’actuaire doit affiner son tarif afin qu’il reste compétitif pour les clients dont le
nouveau facteur diminue la prime pure, et pour que le ratio combiné espéré reste au niveau
attendu pour les clients dont le nouveau facteur augmente la prime pure. La forte concurrence
entre assureurs explique pourquoi de nombreux facteurs tarifaires sont utilisés par les compagnies
d’assurance.

Deux méthodes de tarification sont couramment utilisées par les assureurs. La première, qui
sera l’objet de ce mémoire, est la tarification a priori: l’assureur essaie de prévoir, dès l’entrée
d’un nouvel assuré, sa sinistralité future. La seconde méthode est la tarification a posteriori: le
tarif initial de l’assuré est adapté en fonction de sa sinistralité individuelle. La tarification à
priori vise à segmenter le portefeuille en classes de risques homogènes afin d’éviter le risque
d’anti-sélection. La segmentation ne doit pas être trop fine afin d’éviter un sur-ajustement du
tarif.

Il est utile de ne pas prendre en considération les contraintes légales dans le tarif technique,
afin de mieux représenter le risque sous-jacent du portefeuille. Les indicateurs calculés avec le
tarif technique tels que le ratio combiné prédictif sont ainsi plus précis. Ces contraintes sont
prises en compte dans le tarif commercial.

2.5 Choix de l’horizon temporel


Le choix de mettre en place un outil statistique pour la tarification d’un produit d’assurance et le
choix de l’outil de modélisation utilisé dépendent de la profondeur d’historique disponible. Si
les données disponibles ne sont pas suffisantes, alors le tarif se fonde principalement sur l’avis
de spécialistes. Dans notre configuration, l’historique des données pour le produit d’assurance
motocycles est suffisant pour que l’on puisse utiliser un outil statistique pour l’ensemble des
véhicules à moteur, et en particulier les motocycles.

L’horizon temporel choisi doit permettre d’assurer à la fois la cohérence de l’analyse (la
nature du risque ne doit pas changer de façon significative sur la période étudiée) et la robustesse
des indicateurs statistiques calculés. Sa sélection se base sur:

• l’avis de spécialistes concernant l’évolution de la nature du risque étudié

• la fréquence des sinistres: plus elle sera élevée, plus l’horizon temporel choisi sera court

• la volatilité de leur sévérité: plus elle sera élevée, plus l’horizon temporel choisi sera long

Par exemple, la période d’observation pour évaluer le montant annuel moyen des dommages
causés par des inondations ou des tremblements de terre doit être suffisamment longue afin de
compenser la très faible fréquence des sinistres et la forte volatilité des coûts de ces derniers.
A l’inverse, pour les produits d’assurances de véhicules à moteur standards dont la fréquence

17
des sinistres associée est élevée et les coûts moyen par sinistre relativement stables, une période
d’observation plus courte sera suffisante. Ce choix permet par ailleurs de se prémunir contre le
risque de ne pas prendre suffisamment en compte l’évolution de la nature du risque sur la branche
véhicules à moteur, qui est notamment modifiée par l’intégration de solutions télématiques et
l’évolution des comportements liés à des changements de lois concernant la sécurité routière.
Dans notre cas, on se limitera à un horizon temporel de 4 ans.

2.6 Description des potentielles variables explicatives


La première étape du processus de tarification est la préparation des données. La qualité des
données est primordiale afin de garantir la puissance prédictive des modèles tarifaires, qui dépend
de la solidité des indicateurs statistiques calculés et de leur interprétation. La consistance des
données entre celles obtenues lors de la phase d’extraction initiale et la base de données finale
utilisée pour entraîner le modèle doit être validée, en vérifiant par exemple que le montant total
des sinistres reste constant.

2.6.1 Les différents types de variables tarifaires


On peut classer les variables tarifaires en fonction de leur nature.

Les variables catégorielles ou les variables discrètes


Ce sont des variables qui peuvent prendre un nombre de valeurs dénombrable, souvent
fini. Chaque valeur d’une variable catégorielle s’appelle un niveau ou une catégorie. Par
exemple, la variable âge du conducteur arrondi à l’année est une variable discrète. La variable
canton d’habitation de l’assuré est une variable catégorielle. Une variable catégorielle dont le
nombre de valeurs possibles est de deux est dite binaire ou dichotomique, comme par exemple la
variable permis à l’essai: oui / non. Une variable catégorielle qui a plus de deux valeurs est dite
multinomiale ou polychotomique, par exemple la marque du véhicule.

Les variables continues


Toute variable qui n’est pas une variable catégorielle est une variable continue. L’âge du conduc-
teur principal non arrondi, ou la masse du véhicule sont des exemples de variables continues. En
assurance, ces variables continues se situent dans un certain intervalle. Par exemple, il est certain
que l’âge du conducteur principal est compris entre 18 et 130 ans.

Transformation des variables


En pratique, il est souvent souhaitable de changer les variables continues en variables
catégorielles. La discrétisation est un moyen de transformer une variable continue en une variable
catégorielle. Par exemple, la variable continue âge du conducteur principal peut être transformée
en une variable discrète en tronquant à l’unité l’âge, ou en variable dichotomique avec le

18
regroupement jeune: âge inférieur ou égal à 25 ans, ou non jeune: âge supérieur à 25 ans.

Inversement, il peut être utile de transformer une variable catégorielle en une variable
continue. Par exemple, les adresses de domicile peuvent être transformées en un vecteur
bidimensionnel à valeur réelle [longitude, latitude]. Cela permet d’utiliser une variable de
géolocalisation dans le modèle tarifaire, qui prend implicitement en compte des indicateurs
socio-économiques.

Les variables peuvent alors être regroupées selon qu’elles sont:

• quantitatives: toutes les variables telles que la puissance du véhicule ou l’âge du contrat
sont des variables quantitatives, car elles prennent des valeurs numériques. Cependant, les
variables numériques dont les valeurs n’ont pas de signification numérique intrinsèque ne
sont pas quantitatives. C’est le cas par exemple du code postal du lieu de domicile

• qualitatives: les variables comme le sexe, la marque du véhicule, le modèle du véhicule


sont des exemples de variables qualitatives

2.6.2 Les données liées à la police d’assurance


Ces données contiennent de potentielles variables explicatives du risque et l’exposition de l’assuré.
L’exposition est une variable offset (définition dans la section 2.6) dans le cadre de la modélisation
de la fréquence des sinistres. Dans le cadre de la tarification d’un produit d’assurance pour
véhicules à moteur, on a:

• les données au niveau contrat, comme la date d’effet de la police, le mode et la fréquence
de paiement de la prime, la présence d’un conducteur principal etc.

• les données concernant l’assuré, comme par exemple son âge, le code postal de son
domicile, le nombre d’enfants qu’il a et leur âge

• les données liées à la nature du bien assuré, dans notre cas le motocycle avec, par exemple,
l’âge du véhicule, la marque, le modèle, le nombre de sièges, la puissance et le poids du
véhicule, le type de boîte de vitesse etc.

• les données au niveau garantie, avec notamment les indicateurs concernant les garanties
souscrites et les montants de franchise associés, le degré de bonus-malus etc.

2.6.3 Les données issues de sources externes


L’utilisation de données externes peut apporter une information complémentaire, et permet
de vérifier les informations déjà présentes dans le système interne. Dans l’univers technique
et compétitif qu’est l’assurance, la détection de nouvelles variables explicatives d’un risque
permettent de se différencier des modèles tarifaires proposés par les concurrents, sans augmenter
le risque d’anti-sélection. Parmi les variables externes fréquemment utilisées on peut citer:

19
• la densité de population liée au code postal du conducteur principal, et la densité de
population pour les codes postaux adjacents. A priori, plus la densité de population est
élevée, plus le trafic sera dense. Le risque sous-jacent à l’assurance du véhicule sera donc
plus élevé

• les données socio-économiques liées au code postal

• un «credit scoring» de l’assuré, calculé à partir de données économiques et sociales le


concernant

2.6.4 Les variables offset


Une variable offset est une variable utilisée dans les modèles de régression. Cette variable est
utilisée lorsque les données sont enregistrées sur une période observée. Par exemple, lorsque
l’on mesure le nombre de sinistres par nombre d’années d’exposition, soit la fréquence des
sinistres. Afin de corriger le poids associé à chaque observation, on modélise le nombre moyen de
sinistres par an en intégrant automatiquement l’exposition comme première variable explicative
sélectionnée, c’est-à-dire comme variable offset du modèle.

20
2.6.5 Liste des potentielles variables tarifaires du modèle
La liste non exhaustive des variables utilisées dans le cadre du développement du modèle tarifaire
est la suivante:

Figure 2.4 Variables du modèle

21
2.7 Desciption des données liées à la sinistralité
En assurance dommage, les règlements relatifs aux sinistres sont effectués plus ou moins
rapidement après leur survenance, selon la branche et la nature du sinistre considéré. Par exemple
en RC, à la suite d’un accident de la route, les indemnisations sont parfois fixées par une décision
de justice qui n’aboutit qu’après de nombreuses années. Les payements peuvent par ailleurs
être effectués sous forme de rente. Les montants payés l’année de survenance du sinistre ne
représentent alors qu’une fraction du montant total des sinistres. Les prestations à payer par une
compagnie d’assurance pour une année de survenance sont donc étalées sur plusieurs années de
développement.

Les coûts directement liés aux sinistres sont donc constituée des payements déjà effectués
relatifs aux sinistres survenus et reportés, et des Provisions pour Sinistres A Payer (PSAP). Les
PSAP peuvent être scindées selon 3 composantes:

• les provisions dossier-dossier qui correspondent à la provision estimée pour chaque sinistre
déclaré non clos. L’assureur estime le montant probable du décaissement correspondant.
Cette estimation est le plus souvent effectuée par des gestionnaires de sinistres

• les sinistres survenus mais non encore déclarés dits IBNyR pour Incurred But Not yet
Reported

• les provisions constituées pour protéger l’entreprise d’assurance en cas de sous-évaluation


du montant ultime des sinistres, dits IBNeR pour Incurred But Not enough Reported

Les données concernant les sinistres survenus et reportés sont jointes aux données liées à la
police d’assurance. La jointure se fait par date de survenance du sinistre plutôt que par date
d’enregistrement. Cela permet aux modèles tarifaires de refléter au mieux le risque d’accident en
fonction du profil de risque.

2.8 Processus de tarification


L’objet de ce mémoire est la détermination du tarif technique à priori, construit à partir de l’analyse
statistique des bases de données concernant les assurés et des informations relatives aux coûts an-
nexes. Les variables que l’on doit estimer sont donc la prime pure et la prime technique à priori.
Schématiquement, ces deux variables s’intègrent dans le processus tarifaire suivant:

22
Figure 2.5 Processus de tarification

Durant le processus de construction de la base de données, il est important de vérifier la

23
cohérence des données. Pour ce, des analyses univariées pour chaque facteur de la table sont
menées. Cela permet aux actuaires de connaître la répartition des profils, son évolution au
cours des années, d’examiner les valeurs manquante ou aberrantes, et d’envisager des premiers
groupements de valeurs de variables caractérisées par une faible exposition et une homogénéité
par rapport au risque sous-jacent. Cette analyse préalable importante à la mise en place du modèle
tarifaire est décrite dans le chapitre suivant.

24
Chapitre 3

Traitements préalables des


données

3.1 Traitement des valeurs abberantes

3.2 Regroupement de modalités

3.3 Intégration des sinistres survenus et reportés à la base


tarifaire
3.3.1 Estimation des IBNR
Deux approches peuvent être envisagées afin de définir le périmètre des sinistres survenus et
reportés:

• considérer les sinistres reportés à la date d’évaluation la plus proche possible de la date
d’extraction des données

• considérer les sinistres reportés à la même date pour chaque année inclue dans le processus
de modélisation de la prime technique. Typiquement, la date du 31 décembre de chaque
année est choisie

La première méthode est préférée pour sa plus grande précision, en particulier sur les
branches à développement long comme la responsabilité civile, car elle permet de préserver le
développement précis des sinistres sur une plus longue période. Les provisions dossier-dossier
sont directement ajoutés aux payements afin de modéliser avec plus de précision la sévérité.

La granularité des données relatives aux sinistres reportés doit être au moins aussi fine que
celle des modèles tarifaires développés. Dans notre cas, on a choisi de développer un tarif
pour chaque garantie. La garantie impactée par le sinistre doit donc être renseignée. Si un
évènement impacte plusieurs garanties, un numéro de sinistre distinct sera créé pour chaque

25
garantie impactée. Par ailleurs, les données concernant les sinistres doivent contenir au minimum
le numéro de la police, le véhicule impactés et la date de survenance du sinistre afin qu’elles
puissent être jointes aux données au niveau police.

Triangles de règlement
Il est important pour la compagnie de conserver un historique des flux de payements des sinistres,
présentés dans un triangle de règlement des sinistres ou triangle de liquidation. On applique sur
ce triangle l’une des nombreuses méthodes de provisionnement qui ont été développées pour
estimer le montant ultime des payements par année de survenance. L’influence des IBNR sur la
charge ultime est importante en responsabilité civile, car le processus de déclaration du sinistre
est en général plus complexe donc plus lent, et les montants initiaux de provisions sont soumis à
d’importantes fluctuations.

Afin d’estimer les IBNR, les montants ou le nombre de sinistres sont compilés dans un
triangle de liquidation, qui se présente de la façon suivante:

• les lignes i correspondent aux années de survenance des sinistre

• les colonnes j représentent les années de développement, c’est-à-dire le délai en années


entre la survenance des sinistres et leur règlement

• Xi, j représente l’information relative aux règlements effectués pour l’année de survenance
i, lors de la jème année. Ces règlements sont bruts (cumulés) ou nets des règlements des
années précédentes selon la convention retenue

• J est le nombre d’années maximal pendant laquelle les provisions pour sinistres à payer
fluctuent de manière significative. Ce nombre est défini par un spécialiste de la branche
étudiée

• on note f j les facteurs de développement du triangle, définis pour j ∈ [1, J − 1], et fˆj leurs
estimateurs

26
Figure 3.1 Triangle de liquidation

Méthode de Chain-Ladder
La méthode d’estimation du développement des sinistres de Chain-Ladder est certainement la plus
couramment utilisée en assurance non-vie. Elle est par ailleurs à la base des autres techniques
classiques de provisionnement. L’hypothèse forte sur laquelle se fonde cette méthode est la
suivante:

Hypothèse 1: Pour j allant de 1 à J-1, les facteurs de développement fi, j sont indépendants de
l’année de survenance i.

En utilisant des montants de sinistres cumulés représentés par la variable X, les coefficients
de passage d’une année à l’autre ( j à j + 1), égaux pour toute année de survenance, sont donnés
par l’estimateur suivant: ∀ j ∈ [1, J − 1],
∑ J− j
Xi, j+1
fˆj = ∑i=1
J− j
i=1 Xi, j

Grâce à ces facteurs, nous pouvons estimer:

• Les charges ultimes par exercice de survenance X̂i, J = Xi, J−i × fˆj ;
∏ J−1
j=J−i

• Les provisions par exercice de survenance R̂i = X̂i, J − Xi, J−i

• Les provisions totales R̂ =


∑J
i=1 R̂i .

Avec la méthode de Chain-Ladder, la charge ultime estimée dépend de la dernière position connue.
Si elle est nulle, la charge ultime est nulle. L’alternative la plus courante à ce modèle est la
méthode de Bornhuetter-Fergusson qui introduit une donnée exogène pour palier à ce problème.
Ce modèle est souvent utilisé pour les triangles dits instables. Dans notre cas, on considère que la
masse des données sinistres du portefeuille d’assurance motocycles est suffisante pour s’en tenir
à l’utilisation de la méthode de Chain-Ladder.

27
3.3.2 Intégration des IBNR dans le modèle tarifaire
Les IBNR peuvent être intégrés aux modèles tarifaires antérieurement à la mise en place des
modèles, qui sont alors directement ajustés sur les montants et les nombres de sinistres ultimes
espérés. Les IBNR peuvent également être intégrés postérieurement à la modélisation des
risques assurés. C’est cette seconde méthode que nous avons choisi d’utiliser. La variable
année d’observation doit donc impérativement être utilisée comme variable offset des modèles
développés, afin de ne pas créer un biais lié aux IBNR: la fréquence et la sévérité des sinistres
sont à priori plus faibles pour les années récentes.

3.4 Traitement des sinistres graves


E[S |X] = E[S |X, S < s] + E[S |X, S ⩾ s]
Reste à déterminer le seuil à partir duquel un sinistre est à considérer comme grave. Un outil
graphique utile pour déterminer l’allure de la queue d’une distribution ainsi que pour le choix du
seuil à utiliser est la fonction moyenne des excès, définie au point s par:

e(s) = E(S − s|S > s), 0 < s ⩽ smax

28
La représentation graphique obtenue de la fonction moyenne des excès en responsabilité
civile est la suivante:

Figure 3.2 Fonction moyenne des excès des sinistres en responsabilité civile

Les deux sinistres les plus élevés ont été enlevés pour améliorer la lisibilité du graphe.
L’interprétation du graphe de la fonction moyenne des excès est la suivante:

• si la fonction moyenne des excès est croissante au niveau de la queue de distribution, alors
la distribution est à queue lourde. Si par ailleurs la tendance est affine, la distribution
converge vers une loi de Pareto généralisée

• à l’inverse, si la fonction moyenne des excès est décroissante au niveau de la queue de


distribution, alors la distribution est à queue fine

• enfin, si la distribution de Y appartient à la famille exponentielle, alors les points devraient


tendre vers une droite constante

Dans notre cas, on observe plutôt une tendance affine légèrement croissante à partir de 50’000
CHF, signe d’une distribution qui converge vers une loi de Pareto généralisée au-delà de ce
seuil. On préfère écrêter ces sinistres dans le cadre de la sélection des variables explicatives
et de l’estimation des coefficients de régressions. Les sinistres graves peuvent être modélisés
séparément avec une loi de Pareto. Leur coût peut également être estimé avec une simple moyenne
empirique. L’ajout d’une constante à la prime pure estimée permet de prendre en compte le coût
de ces sinistres graves:
∑∞
s =50k si
constante de prime pure pour les sinistres graves = ∑ i
exposition

29
3.5 Découpage du jeu de données
La grande difficulté dans la modélisation et la construction de modèles prédictifs est de réussir à
distinguer le signal, qui devrait pouvoir être expliqué par une variable explicative, et le bruit issu
du caractère aléatoire du phénomène observé. La réponse statistique est la notion de significativité
des variables explicatives candidates. Afin de valider la sélection des variables explicatives, on
divise l’échantillon des données de taille n en trois sous échantillons:

• Le premier échantillon est utilisé comme échantillon d’apprentissage, constitué en général


d’environ 70% des données, à partir desquelles le modèle est entraîné

• Le second est l’échantillon de validation ( 20%), qui permet de tester la qualité prédictive
de la variable explicative ajoutée

• L’échantillon de test ( 10%) est utilisé à la fin pour tester l’adéquation du modèle optimal.
Il n’a donc pas été utilisé pour l’apprentissage, et le modèle a été construit totalement
indépendamment de cet échantillon. L’idée sous-jacente est de simuler la réception de
nouvelles données afin tester le modèle. Cet échantillon permet d’évaluer objectivement
l’erreur réelle

Figure 3.3 Validation croisée simple

Le problème lié à la méthode de validation croisée simple est que le découpage de la base de
données dans sa globalité en sous échantillons d’apprentissage et de validation induit une perte
d’un certain volume de données pour calculer les estimateurs des coefficients de régression.
Par ailleurs, la probabilité qu’un autre découpage de l’échantillon initial amène à construire un
modèle de régression significativement différent est non négligeable.

Le processus de validation croisée peut être amélioré en divisant l’échantillon original en k


sous-échantillons. On sélectionne ensuite un des k échantillons comme ensemble de validation et
les (k − 1) autres échantillons constituent l’ensemble d’apprentissage. On calcule comme dans la
première méthode des indicateurs relatifs à la qualité prédictive sur les données de validation.

30
Puis on sélectionne un autre échantillon de validation parmi les (k − 1) échantillons qui n’ont
pas encore été sélectionnés pour la validation du modèle. L’opération se répète ainsi k fois
pour qu’à la fin, chaque sous-échantillon ait été utilisé exactement une fois comme ensemble de
validation. La moyenne des k déviances est enfin calculée pour mesurer la qualité prédictive du
modèle. Les k prédictions des différents modèles peuvent ensuite être moyennées pour produire
une seule estimation de la variable à expliquer. Le modèle final est constitué de la moyenne des
k estimateurs de β. Une partie des données peut également être mise de côté pour être utilisée
comme échantillon test.

Figure 3.4 Validation croisée multiple

En pratique, nous avons utilisé la première méthode de validation croisée sur deux sous-
échantillons afin de respecter les contraintes de temps imposées pour développer l’outil de
tarification. Afin de s’assurer que le nombre de sinistres dans la base de données d’entraînement
soit le même que dans la base de données de validation, on impose une contrainte: le nombre de
sinistres par unité d’exposition doit être le même dans chacune des deux bases.

31
Chapitre 4

Modélisation du coût annuel des


sinistres avec les modèles
linéaires généralisés

4.1 Cadre théorique des modèles linéaires généralisés


4.1.1 Ecriture du modèle
Les modèles de régressions linéaires généralisés (GLM) sont fréquemment utilisés dans le cadre
de la modélisation des risques en assurance non-vie. On introduit les notations suivantes:

• Y la variable réponse du modèle, également appelée variable expliquée, variable dépendante,


ou endogène

• n le nombre d’observations de Y par rapport auxquelles le modèle est ajusté

• Xk , k ∈ [1, p] les p variables explicatives sélectionnées ou variables exogènes

• xk, i k ∈ [1, p], i ∈ [1, n], la valeur prise par la kème variable explicative pour la ième
observation

• β le vecteur des paramètres de régression du modèle, de dimension p

• ϵ le vecteur d’erreurs entre les valeurs observées de Y et les valeurs prédites, de dimension
n

Les modèles de régression linéaires généralisés sont formés de trois composantes. La


première est la composante aléatoire Y, dont la ième observation suit une loi appartenant à la
famille exponentielle. Cela signifie que sa densité s’écrit sous la forme:

yi × θi − b(θi )
( )
f (yi ; θi , ϕ, ωi) = exp + c(yi , ϕ)
ai (ϕ)

33
avec:

• θi le paramètre canonique de la famille exponentielle, qui doit être estimé

• ϕ un paramètre de dispersion de la loi de Y. Ce paramètre est connu, ou son estimateur


peut être calculé. ϕ est lié à la variance de la distribution de Y. Il est égal à 1 pour les lois à
un seul paramètre, comme la loi de Poisson. Il sera supérieur à 1 s’il y a sur-dispersion des
données yi observées

• les fonctions ai , b et c sont connues et dépendent du type de loi exponentielle choisi


pour modéliser Y. La fonction ai est indicée, car elle dépend du poids attaché à la ième
observation. Elle s’écrit: ai (ϕ) = wϕi avec wi un coefficient de pondération connu associé
à la réalisation yi . Dans notre cas, on attachera un poids égal à chaque réalisation de yi ,
modulo l’exposition utilisée comme variable offset. Le paramètre canonique θi est lié à
l’espérance et à la variance de Yi via les équations suivantes, dont le calcul est développé
dans la prochaine section:
E(Yi ) = b′ (θi )
Var(Yi ) = ai (ϕ)b′′ (θi )

La seconde composante des GLM est le prédicteur linéaire η, qui s’écrit comme une combi-
naison linéaire des p variables explicatives:
p

ηi = βxi = β0 + βk × xk, i
k=1

La troisième composante est la fonction lien g, qui décrit la relation fonctionnelle entre la
combinaison linéaire des variables X1 , ..., X p et l’espérance de la variable de réponse Y. La
relation linéaire entre les p variables explicatives et l’espérance conditionnelle de la variable à
expliquer est la suivante:
p

g[E(Y|x1, i , ..., x p i )] = βk × xk i
k=1

En introduisant, pour la ième observation, la notation µi = E(Yi |x1, i , ..., x p i ) le modèle peut
également s’écrire:
∑p
g(µi ) = βk × xk, i
k=1

4.1.2 Intégration d’une variable offset


Dans le cas où une variable offset intervient, comme par exemple dans le cadre de la modélisation
de la fréquence des sinistres avec la variable exposition, le modèle devient:
p
(∑ )
E(Yi |xi , expi ) = expi × exp βk × xk, i
k=1

34
avec expi l’exposition associée à la modalité i. Le modèle peut alors s’écrire:
( p
∑ )
E(Yi |xi , expi ) = exp ln expi + βk × xk, i
k=1

On peut assimiler la variable offset à une variable explicative additionnelle qui prends les valeurs
ln expi , et pour laquelle le coefficient de régression est connu égal à 1.
On définit la valeur prédite ou ajustée Ŷ = X β̂ et le résidu comme la différence entre la valeur
observée et la valeur prédite: e = Y − Ŷ.

Une fois la forme du modèle définie, l’objectif est d’estimer un prédicteur linéaire efficace
en cherchant par maximum de vraissemblance un estimateur β̂ de β. Cette recherche se fonde
sur les valeurs observées yi , i ∈ [1, n] de Y en fonction des valeurs prises par les p variables
explicatives Xi, j , i ∈ [1, n], j ∈ [1, p]. La résolution de ce problème est décrite en annexe.

4.1.3 Hypothèses du modèle


Les hypothèses de Gauss-Markov garantissent des propriétés particulièrement intéressantes des
estimateurs des coefficients de régression. Ces hypothèses s’appliquent aux erreurs ϵ, mais
puisque nous n’obervons que les résidus, les formules ci-après sont écrites avec les résidus e.
Hypothèse 1: La non multi-colinéarité des variables explicatives Xk , k ∈ [1, p].

L’hypothèse de non colinéarité suppose qu’aucune des variables explicatives du modèle ne


peut s’écrire comme une combinaison linéaire des autres variables. La multi-colinéarité implique
des écarts types des estimateurs élevés, car la variation d’un coefficient de régression d’une
variable est plus susceptible d’avoir un impact significatif sur les coefficients de régressions des va-
riables corrélées. Par ailleurs, les coefficients de régression estimés peuvent être fortement biaisés.

Afin de détecter les multi-colinéarités et identifier les variables incriminées, on peut effectuer
une régression linéaire sur chaque variable explicative envisagée en fonction des autres variables.
On calcule alors le coefficient de tolérance de la variable Xi , défini par T Xi = 1 − R2i avec R2i
le coefficient de détermination de la régression de la ième variable explicative par les autres
variables explicatives. En-dessous d’un certain seuil, on considérera qu’il y a un problème
de multi-colinéarité. Par ailleurs, un déterminant de la matrice XX t nul révèle une colinéarité
parfaite entre des variables explicatives. Le nombre de valeurs propres nulles de la matrice est
égal au nombre de relations de colinéarité parfaite. Lorsque la valeur du déterminant tend vers 0,
le risque de multi-colinéarité est important.

Afin de résoudre le problème de multi-colinéarité, on peut notamment:


• augmenter la taille de l’échantillon. Cela n’est efficace que si les observations ajoutées
diffèrent significativement de celles figurant déjà dans le modèle
• modifier la procédure de sélection des variables explicatives afin de choisir un modèle en
contenant moins

35
• effectuer une analyse en composante principales (ACP) sur les variables explicatives et
utiliser les premières composantes principales comme seules variables testées

Hypothèse 2: L’indépendance des erreurs: ∀i , j, cov(ei , e j ) = 0.

Cette hypothèse n’est pas vérifiée lorsque la variable à expliquer est un processus temporel, pour
lequel les erreurs sont souvent auto-corrélées, et les régressions linéaires ne sont pas appropriées.
Dans notre cas, la période d’observation n’influe pas de manière périodique sur la fréquence ou
la sévérité des sinistres. L’indépendance des erreurs est donc vérifiée.

Hypothèse 3: L’exogénéité des variables explicatives.

Autrement dit, les variables explicatives ne doivent pas être corrélées au terme d’erreur, soit
∀i, E(ei |Xi = xi ) = 0

4.1.4 Analyse des résidus


Pour une variable explicative quantitative Xk , les résidus sont en général moins importants en
valeur absolue pour des valeurs xk, i éloignées de Xk . En effet, ces observations ont en général
plus d’influence sur les coefficients de régression, car elles sont en général liées à des valeurs
de Y éloignées de Y. Les résidus correspondant aux extrémités des valeurs prises par Xk sont
beaucoup plus sensibles à la pente de la droite (ou du polynôme) de régression que les éléments
correspondant à des valeurs médiane de Xk . D’où la nécessité de standardiser les résidus. On
pose:

∑n
i=1 êi
s =
2
n− p
H = X(X T X)−1 X T
hi,i le ième terme de la matrice Hi, i

Les résidus standardisés sont donnés par:

êi
ri = √
s 1 − hi,i

On souhaite par ailleurs analyser les résidus ei = yi − ŷi sans prendre en compte l’influence de la
ième observation. On studentise les résidus, en posant:

êi
ti = √
s(−i) 1 − hi,i

Ces résidus standardisés studentisés devraient vérifier l’hypothèse d’homoscédasticité s’il n’y
pas d’erreur de modèle. Ils permettent par ailleurs de détecter les potentielles valeurs aberrantes
utilisées par le modèle de régression, là où les résidus sont élevés.

36
4.2 Indicateurs utilisés dans le cadre de la sélection des
variables explicatives
4.2.1 Objectif du processus de sélection
Parmi les variables explicatives testées, on souhaite sélectionner uniquement celles qui ont un
impact significatif sur la variable à expliquer. Notre sélection des variables explicatives de notre
modèle se base sur trois indicateurs:

• la p-value associée à chaque variable explicative candidate, calculée sur le jeu de données
d’entraînement

• le critère AIC, calculé sur le jeu de données d’entraînement

• la déviance, calculée sur les données de validation

Ces critères seront explicités plus loin dans cette section.

4.2.2 Transformation des variables


Pour une variable explicative catégorielle, un coefficient de régression est calculé pour chacune
de ses modalités. La variable est recodée en sous-variables binaires. Pour une variable telle
que le sexe de l’assuré qui n’a que deux modalités, aucun recodage n’est nécessaire. Pour les
variables catégorielles ayant plus de deux valeurs possibles, comme par exemple la marque du vé-
hicule, L−1 variables fictives sont créés, avec L le nombre de valeurs prises par la variable étudiée.

Pour les variables explicatives quantitatives, le coefficient calculé rend compte de la pente
de la distribution de la variable endogène. Une régression linéaire n’est pas adaptée lorsque la
relation entre Y et la variable testée n’est pas linéaire. Certaines variables explicatives sont donc
sélectionnées sous forme de polynôme. Prenons l’exemple de la variation de la fréquence des
sinistres en responsabilité civile en fonction de l’expérience du conducteur, mesurée en nombres
d’années depuis l’obtention du permis de conduire.
On remarque que l’effet de l’expérience de conduite sur la diminution de la fréquence des
sinistres est très élevé les premières années, mais que l’effet marginal de l’expérience diminue
d’année en année. La vitesse d’amélioration de la conduite diminue au fil des années: la fonction
est décroissante convexe. Dans cette configuration, une régression polynômiale semble être
mieux adaptée qu’une régression linéaire. Une fois les variables explicatives transformées dans
la configuration qui semble la plus appropriée, des tests statistiques sont lancés afin de choisir
les variables explicatives les plus adaptées. Plusieurs configurations pour une même variable
explicative peuvent être testées, afin de construire le meilleur modèle parmi ceux testés.

4.2.3 Test du khi-deux d’indépendance


Ce test permet de contrôler l’indépendance de deux variables X et Y. Dans notre cas, il s’agit de
tester l’absence de lien entre les variables explicatives candidates X et la variable expliquée Y qui
peut représenter la fréquence, la sévérité ou le coût moyen annuel des sinistres.

37
Figure 4.1 Régression polynômiale de la fréquence des sinistres RC par l’expérience du conducteur

On teste l’hypothèse:
H0 = les deux variables X et Y sont indépendantes, contre:
H1 = les deux variables sont dépendantes.

Un premier tri au sein des variables explicatives candidates peut être opéré au moyen du test du
khi-deux d’interdépendance, afin de diminuer le temps de recherche des variables effectivement
explicatives des variations de Y. Dans le cadre de ce test, X et Y sont censées prendre un nombre
fini de valeurs. Si une variable est continue, les valeurs possibles sont découpées en intervalles.
On note:

• I le nombre de valeurs que peut prendre X

• J le nombre de valeurs que peut prendre Y

• n le nombre de données de notre échantillon

• Oi, j l’effectif observé de données pour lesquelles X prend la valeur i et Y la valeur j

• O., j =
∑I
i=1 Oi, j le nombre d’observation de X pour lesquelles Y prend la valeur j

• Oi, . =
∑J
j=1 Oi, j le nombre d’observation de Y pour lesquelles X prend la valeur i

Sous l’hypothèse d’indépendance des variables X et Y, on s’attend à une valeur espérée T i, j de


Oi, j définie par:
Oi, . × O., j
T i, j =
n

38
On calcule la distance entre les valeurs observées Oi, j et les valeurs attendues théoriquement, s’il
y avait indépendance sur l’ensemble de l’échantillon, au moyen de la formule:
∑ (Oi, j − T i, j )2
D=
i, j
T i, j

Intuitivement, on peut penser que plus D est élevée, plus la dépendence des variables X et Y
est probable car il y a à priori certaines combinaisons i, j pour lesquelles Oi, j est très élevé
par rapport à T i, j . Or si H0 est vraie, c’est à dire si X et Y sont indépendantes, alors D suit
asymptotiquement une loi du χ2 à (I − 1) × (J − 1) degrés de liberté. Pour conclure quant à
l’indépendance entre X et Y, on utilise le coefficient α défini par:

α = P(rejeter H0 hypothèse d’indépendance bien que H0 soit vraie)

soit avec nos notations:


α = P(χ2I−1, J−1 > h quand Ho vraie)
En général, le seuil α = 5% est utilisé. On cherche la valeur de h correspondant à la valeur
α = 5% de la fonction de répartition d’une loi du χ2 à (I − 1) × (J − 1) degrés de liberté. Si
D > h, alors la probabilité de rejeter H0 bien que H0 soit vraie est de moins de 5%. L’hypothèse
H0 d’indépendance des variables X et Y est donc rejetée. Le risque d’erreur lié à la conclusion du
test est résumé dans la table suivante:

39
Issue du test Ho vraie H1 vraie

Accepter Ho Décision juste, de proba 1 − α erreur de type 2

Rejeter Ho erreur de type 1, de proba α Décision juste

Table 4.1 Issue du test du khi-deux d’indépendance

Le risque d’erreur de type 1 correspond au cas où T suit bel et bien une loi du χ2 à (I−1)×(J−1)
degrés de liberté (H0 étant vérifiée), mais où la distance D calculée avec les valeurs de l’échantillon
appartient à la queue de distribution de cette loi. Pour chacune des variables explicatives, on

Figure 4.2 Zone de rejet d’une loi du Khi-deux à 6 degrés de liberté

évalue la statistique du khi-deux et on donne la p-value (le seuil α) du test associé. Si la p-value
associée est élevée, alors on peut retirer en amont la variable de l’étude, car il n’y a à priori pas
de relation de dépendance avec Y. En éliminant cette variable, on risque cependant d’omettre
des variables explicatives importantes modulo un facteur d’interaction avec une autre variable
du modèle. En général, on préfère commencer à éliminer des variables candidates après deux
itérations de l’algorithme permettant la sélection des variables explicatives pour diminuer ce
risque.

40
4.2.4 Le critère d’Akaike (AIC)
Afin de pénaliser un modèle jugé trop complexe, on introduit le critère d’Akaike, en anglais
Akaike In f ormation Criteria (AIC). Ce critère intègre dans son calcul un multiple du nombre
de paramètres utilisés. Soit p le nombre de paramètres, ordonnée à l’origine incluse, utilisés dans
le modèle testé. La formule de l’AIC s’écrit:

AIC = 2 × (p + 1) − 2lmodèle testé

Le modèle à sélectionner selon ce critère est celui qui a la valeur AIC minimale. Ce critère
favorise les modèles donc la log-vraisemblance est élevée relativement au nombre de variables
explicatives utilisées. Cela permet d’éviter la sélection d’un modèle surajusté, car l’augmentation
du nombre de paramètres dans le modèle améliore presque toujours la qualité de l’ajustement.

4.2.5 La déviance du modèle


Avec la déviance, le modèle testé est comparé avec le modèle dit saturé, c’est-à-dire le modèle
possédant autant de paramètres que d’observations et estimant donc exactement les données
observées yi . Cette comparaison est basée sur la différence log-vraisemblances des deux modèles:

D = −2 × (lµ̂, ϕ (y) − ly, ϕ (y))

soit, en développant:
n
∑ yi (θ̄i − θ̂i ) − bi (θ̄i ) + bi (θ̂i )
D=2
i=1
ai (ϕ)
avec:

lµ̂, ϕ (y) = log-vraisemblance du modèle calculée avec l’estimateur β̂ : µ̂i = g−1 (xi β̂)

ly, ϕ (y) = log-vraisemblance du modèle saturé, pour lequel on a ∀i, µ̂i = yi .

Si la déviance ne diminue pas ou très peu en ajoutant une nouvelle variable explicative, alors elle
sera exclue même si la p-value associée est inférieure au seuil critique. Cela permet de diminuer
le risque de sur-ajustement. L’objectif, lors de l’ajustement d’un GLM, sera de minimiser la
déviance sur l’échantillon de validation.

4.3 Méthodes de sélection et d’élimination des variables


explicatives candidates
Les principales approches utilisées pour sélectionner ou éliminer les variables candidates sont les
suivantes:

• La sélection ascendante, qui teste l’amélioration du modèle dans le cas on l’on inclurait une
variable explicative supplémentaire. A chaque étape, l’ensemble des variables explicatives

41
candidates est testé. La variable explicative la plus significative statistiquement est ajoutée
au modèle. Le processus de sélection des variables explicatives se termine lorsqu’aucune
variable additionnelle ne peut significativement améliorer le modèle de régression construit
selon les critères définis précédemment

• L’élimination rétrospective, qui consiste à commencer par un modèle saturé. A chaque


étape, la suppression de chaque variable inclue dans le modèle est testée. La variable
dont la suppression entraîne la détérioration la moins significative du modèle est écartée.
Le processus est répété jusqu’à ce qu’aucune variable non significative ne puisse être
supprimée. Autrement dit, le processus s’arrête lorsque les variables encore présentes dans
le modèle sont toutes jugées comme étant explicatives

• L’élimination bidirectionnelle, qui est une combinaison des deux méthodes précédentes.
On part d’un modèle simple ne contenant que les variables offset. On teste à chaque étape
la variable dont l’ajout améliore le plus significativement la qualité prédictive du modèle, et
l’on supprime certaines variables identifiées comme indépendantes de la variable Y. Cela
permet de diminuer la longueur des tests effectués à chaque étape, car potentiellement,
plusieurs variables candidates sont éliminées. C’est cette méthode, la moins chronophage,
qui a été utilisée.

4.4 Etude des interactions


Lorsque toutes les potentielles variables explicatives ont été incluses dans le modèle, il faut
examiner la potentielle amélioration du modèle liée à l’ajout de facteurs d’interactions entre
les variables sélectionnées. L’interaction représente un effet non-additif de deux ou plusieurs
variables explicatives. Dans cette configuration, l’effet d’une variable exogène sur la variable
endogène dépend de la valeur prise par une autre variable exogène. Les mêmes indicateurs
statistiques que ceux utilisés pour étudier l’inclusion de facteurs individuels peuvent être utilisés
pour déterminer la significativité d’un facteur d’interaction.

En théorie, les facteurs d’interactions devraient être étudiés à chaque étape du processus de
sélection des variables explicatives, car l’ajout d’un de ces facteurs pourrait modifier le jeu de
variables retenues. Cependant, le processus serait très lourd à mettre en place. On se restreint
donc à l’étude des termes d’interaction parmi les variables retenues uniquement, et ce, seulement
à la fin du processus de sélection des variables simples.

4.5 Processus global de sélection des variables


explicatives du modèle par sélection ascendante
L’algorithme de sélection des variables explicatives par élimination bidirectionnelle est le suivant:

1. Initialisation du modèle

42
• on sépare l’échantillon en trois sous-échantillons: un échantillon d’entraînement, un
échantillon de validation et un échantillon test, afin de mettre en place une validation
croisée
• on fait un choix sur la distribution de Y, en fonction de la nature de la variable à
expliquer et de l’observation de la répartition des valeurs prises par celle-ci
• on spécifie les variables offset du modèle
• on définit le modèle de référence comme étant le modèle linéaire généralisé qui
prend en compte les variables offset pour seules variables explicatives. Le modèle de
référence est ajusté sur l’échantillon d’entraînement

2. Processus de recherche des variables explicatives individuelles

• on effectue une régression avec chacune des variables explicatives candidates. Pour
les variables explicatives quantitatives, des régressions polynômiales sont testées si
l’observation de la répartition des valeurs de Y par rapport à la variable candidate
suggère qu’une relation linéaire d’ordre 1 n’est pas suffisante
• si aucune variable additionnelle n’est jugée comme significative d’après les indica-
teurs décrits précédemment, le processus de recherche d’une variable explicative
supplémentaire est stoppé. Le dernier modèle de référence est le modèle final
• sinon, on retient le modèle pour lequel la variable explicative fait le plus diminuer la
déviance sur les données de validation. Le nouveau modèle de référence, par rapport
auquel la significativité de l’ajout d’une nouvelle variable explicative est testée, est
alors modifié. On ajoute au modèle de référence la dernière variable explicative
sélectionnée. Puis on réitère l’étape 2

3. Etude des interactions

On répète le processus de l’étape 2 en testant les interactions entre les différentes


variables explicatives sélectionnées. Si l’ajout d’un ou plusieurs termes d’interaction
augmente significativement le pouvoir prédictif du modèle, le modèle de référence est
actualisé avec l’ajout de ces nouveaux facteurs.

4. Test du modèle

Le pouvoir prédictif du modèle construit est testé sur l’échantillon de validation.


L’indépendance de cet échantillon des données utilisées dans le cadre de la sélection du
modèle permet de calculer des indicateurs non biaisés.

4.6 Modélisation indépendante du nombre et de la sévérité


des sinistres avec les GLM
Afin de modéliser le coût annuel moyen des sinistres d’une police d’assurance, deux approches
peuvent être envisagées. La première approche consiste à mettre en place des modèles distincts

43
pour modéliser le nombre de sinistres d’une part et la sévérité des sinistres d’autre part. Le coût
annuel des sinistre S est décomposé sous la forme suivante:
N

S = Si
i=1

L’hypothèse sous-jacente au choix de cette méthode est l’indépendance du nombre N et de


la sévérité S des sinistres. Généralement, un GLM intégrant une distribution de Poisson est
approprié pour modéliser le nombre de sinistres, et un GLM intégrant une distribution Gamma
est utilisé afin de modéliser le coût moyen d’un sinistre. Les modèles fréquence-coût permettent
de comprendre de façon précise l’impact des variables explicatives du modèle: sur la fréquence
et/ou la sévérité des sinistres.

4.6.1 Modélisation du nombre de sinistres


Distribution de Poisson
Le choix d’une distribution de Poisson est valable si les valeurs prises par Y sont discrètes,
positives ou nulles. Selon cette loi, en notant λ le paramètre de cette loi, la probabilité d’observer
une valeur k vaut :
λn
P(N = n) = e−λ
k!
On considère une variable aléatoire N représentant le nombre de sinistres, supposée suivre une
loi de Poisson P(λ). On a la relation:

E(N|X = x) = λ(x)

On a vu dans le chapitre précédent que le modèle linéaire généralisé s’écrit sous la forme:

g(E(N|X = x) = xT β

soit dans notre cas, avec une distribution de Poisson:

g(λ(x)) = xT β

Pour g : id, le modèle est linéaire en β, et peut conduire, pour certaines valeurs de x, à des valeurs
négatives de µ(x). Ce serait absurde dans le cadre de la modélisation d’un nombre de sinistre,
qui ne peut être que positif ou nul. On cherche donc une fonction lien telle que g−1 soit positive,
parmi lesquelles on privilégie la fonction exponentielle. Le modèle s’écrit alors:

λ(x) = e x

Par extension, en intégrant E une mesure d’exposition au risque, définie dans notre cas en nombre
d’années véhicules pendant lequel le risque est assuré, le modèle devient:

ex β
T

λ(x) =
E(x)

44
Figure 4.3 Fonctions de masse de la loi de Poisson

L’exposition est une variable offset de ce modèle. On l’utilise avec une granularité définie par
catégorie tarifaire du portefeuille. Autrement dit, pour chaque ensemble de valeurs prises par les
variables explicatives du modèle, une exposition Ei est calculée. Le modèle pour la ième catégorie
tarifaire s’écrit donc sous la forme:
Ni ∼ P(λi )
avec:
e xi β
T

λi =
Ei
L’estimation de β de fait en appliquant l’algorithme de Newton-Raphson aux équations de
vraisemblance (en annexe).

Validation du modèle de Poisson et sur-dispersion


Une régression Poissonienne suppose que pour chaque catégorie tarifaire i, on a E(Ni ) = V(Ni ).
Cette hypothèse n’est parfois pas vérifiée dans le cadre de la modélisation de la fréquence des
sinistres, car on observe une hétérogénéité résiduelle impliquant une sur-dispersion, qui se traduit
par E(Ni ) < V(Ni ). Ceci est notamment dû à l’abondance de valeurs nulles et à la présence de
quelques valeurs extrêmes.

45
Détection de la sur-dispersion
Si notre modèle est correct, la déviance résiduelle estimée par maximum de vraisemblance (qui
peut être vue comme l’équivalent des carrés résiduels dans un modèle estimé par les moindres
carrés résiduels) suit une distribution du χ2 à n − p − 1 degrés de liberté. L’implication de ce
résultat est que la déviance résiduelle doit être égale au nombre de degrés de liberté résiduels s’il
n’y a pas de sur-dispersion. La sur-dispersion peut être mesurée avec le paramètre ϕ, donné par:

déviance résiduelle
ϕ=
degrés de liberté résiduels

Les conclusions suivantes peuvent être tirées de ce calcul:

• ϕ < 1 indique qu’il y a sous-dispersion

• ϕ = 1 indique que la dispersion est conforme à ce qui est attendu avec une loi de Poisson

• ϕ > 1 indique qu’il y a sur-dispersion

L’inconvénient de ce calcul est qu’il est établi postérieurement à l’établissement du modèle, une
fois la déviance résiduelle et le nombre de paramètres du modèle testé choisi. En choisissant
un modèle de Poisson, on suppose implicitement que ϕ = 1. Un test lié à ϕ peut être établi une
fois le modèle construit, afin de tester le choix d’un GLM avec une distribution de Poisson pour
modéliser la variable endogène.

Test d’adéquation de la loi de Poisson


Les résidus de Pearson d’une loi de Poisson suivent une loi du χ2 à n − p degrés de liberté. On
calcule ces résidus:
n
1 ∑ (yi − exp xi β̂)2
χ2 = ×
n − p i=1 exp xi β̂
On applique ensuite un test d’adéquation de la distribution de Poisson à la répartition de N. Les
hypothèses associées au test sont:
H0 = N suit une loi de Poisson
H1 = N ne suit pas une loi de Poisson.

Si la p-value associée au test est supérieure au seuil défini, H0 est acceptée. On accepte alors
le choix d’un GLM avec une distribution de Poisson dans le cadre de la modélisation de N.

Cas d’une sur-dispersion


Dans la pratique, les GLM basés sur la distribution de Poisson sont très pratiques pour décrire
la moyenne µi mais vont sous-estimer la variance dans les données dès qu’il y a de la sur-
dispersion. Les intervalles de confiance seront donc trop fins, et du bruit aléatoire pourra alors
être considéré comme une variabilité anormale des erreurs. Des variables candidates pourront
alors être sélectionnées, du fait du choix inapproprié d’une loi de Poisson. Il faut bien noter que

46
la sur-dispersion ne biaise pas l’estimation des paramètres β mais sous-estime les écarts types
associées. Le biais inverse se produira en présence de sous-dispersion. Une des solutions à ce
problème est l’utilisation de modèles de régression Poisson-mélange. Cette erreur de modèle peut
être corrigée avec les distributions quasi-Poisson.

GLM avec une correction quasi-Poisson


Le principe d’un GLM avec une correction quasi-Poisson est très simple: un paramètre de
sur-dispersion ϕ est ajouté dans l’équation qui spécifie la variance du modèle:
E(Yi ) = µi
Var(Yi ) = ϕ × µi
Le prédicteur linéaire, ainsi que la fonction de lien, dans ce cas précis ln, restent les mêmes. La
seule différence est que le paramètre de dispersion ϕ va être estimé afin de corriger le modèle. Les
estimations des paramètres seront eux aussi inchangés, mais leurs écarts-types seront multipliés

par ϕ. Ainsi, certains paramètres qui étaient marginalement significatifs peuvent ne plus le
rester. Si ϕ est trop grand, l’hypothèse initiale concernant la distribution est sans doute non
appropriée. Dans ce cas, on choisit plutôt d’ajuster une distribution binomiale négative à nos
données.

4.6.2 Modélisation du coût moyen d’un sinistre avec une distribution de


Gamma
Distribution de Gamma
La loi Gamma est une distribution fréquemment utilisée dans le cadre de la modélisation de
la sévérité des sinistres. Son utilisation suppose que le coût moyen d’un sinistre noté S a une
distribution continue positive. Par ailleurs, la distribution est supposée asymétrique vers la droite,
puisque les sinistres larges sont en général peu fréquents, relativement aux sinistres de faible coût.
Si S suit une loi Gamma(k, θ), alors sa densité de probabilité s’écrit sous la forme:
s
sk−1 e− θ
f (s; k , θ) =
Γ(k)θk
avec:
• Γ la fonction Gamma d’Euler
• k un paramètre de forme, c’est-à-dire un paramètre qui affecte la forme de la distribution
plutôt que de simplement la translater (comme le fait un paramètre d’emplacement) ou de
l’étirer ou la réduire (comme le fait un paramètre d’échelle)
• θ un paramètre d’échelle. Il régit l’aplatissement de la distribution. Plus le paramètre
d’échelle est grand, plus la distribution est étendue
La moyenne de la distribution est donnée par kθ, et sa variance par kθ2 . Quelques exemples
graphiques de cette loicsont donnés dans la figure 3.11.

47
Figure 4.4 Densité de la loi Gamma

La distribution de Gamma est à queue de distribution large. Cependant, en responsabilité


civile, la distribution empirique de la sévérité des sinistres admet souvent une queue de distribution
très large. Il est donc difficile de trouver une paramétrisation qui soit appropriée à la fois pour
modéliser les sinistres de montant faible et moyen, et les sinistres les plus larges. Par ailleurs,
entraîner un modèle sur des données de sinistralité non tronquées à droite pourrait donner trop
d’importance à certaines modalités des facteurs de risque. On préfère donc tronquer les sinistres
à partir d’un certain seuil.

4.6.3 Validation du modèle


Afin de valider le choix d’un GLM avec une distribution de Gamma, on peut mettre en place un
test d’adéquation du Chi-deux. Par ailleurs, le graphe des résidus nous renseigne sur la qualité du
modèle.

4.7 Qualité prédictive du modèle


Pour mesurer la qualité prédictive de notre modèle, on utilise l’erreur quadratique moyenne, où
MS E pour Mean S quare Error. Il est préférable de calculer cet indicateur sur l’échantillon
test, qui n’a pas été utilisé pour l’entraînement ou la validation du modèle lors du processus
de sélection des variables explicatives. Avec p le nombre de variables explicatives du modèle
sélectionné, on a:
S CR
MS E =
n− p−1
avec
∑ n
S CR = (yi − ŷi )2
i=1

48
On calcule l’erreur quadratique moyenne sur l’échantillon de validation pour évaluer la qualité du
modèle. On peut également calculer la MS E sur l’échantillon test, qui est totalement décorrélé
de la construction de notre modèle. Si l’erreur quadratique sur cet échantillon est sensiblement
plus élevée que l’erreur quadratique moyenne par rapport à l’échantillon de validation, on peut
supposer que le modèle n’est pas suffisamment fiable.

4.8 Modélisation directe du coût moyen annuel des


sinistres
La seconde approche consiste à modéliser directement le coût moyen des sinistres par unité
d’exposition, à l’aide de la distribution de Tweedie. Si la fréquence des sinistres suit une
distribution de Poisson et si la sévérité suit une distribution de gamma, alors le coût moyen annuel
des sinistres suit une distribution de Tweedie. Avec S n qui suit une loi Gamma(nα, β), la fonction
de répartition de la distribution de Tweddie s’écrit sous la forme:


P(S ⩽ y) = e−λ + P(N = n)P(S n ⩽ y)
n=1

Puisque la somme de lois de Gamma indépendantes et identiquement distribuées est une loi
de Gamma, S n = y1 + . . . + yn suit une loi Gamma de paramètres [nα, β]. La densité de la
distribution de Tweedie est alors donnée par:

∑ λn βnα nα−1 −yβ
fS (y) = e−λ y e
n=1
n! γ(nα)

Avec les notations:


µ2−P
λ=
ϕ(2 − P)
2− p
α=
p−1
on trouve que:
E(S ) = µ et Var(S ) = ϕµ p , avec 1<p<2
Lorsque 1 < p < 2, la distribution de Tweedie comporte une masse de probabilité en 0. C’est
dans cette configuration que la distribution de Tweedie correspond à la composition d’une loi de
Poisson et d’une loi Gamma. Lorsque p −→ 1, la distribution de Tweedie tend vers une loi de
Poisson, et lorsque p −→ 2, elle tend vers une loi Gamma.

49
Figure 4.5 Distributions de Tweedie

Si cette description donne l’impression que la fréquence et la sévérité sont indépendantes,


un GLM avec une distribution de Tweedie suppose implicitement que les prédicteurs de perte
augmentent ou diminuent simultanément à la fois la fréquence des sinistres et la taille des sinistres.
Cela est dû à l’hypothèse d’une constante de paramètre d’échelle sur l’ensemble du jeu de données.

Le choix d’une distribution de Tweedie permet donc de prendre en compte l’impact global
d’une variable explicative sur le coût des sinistres, sans différenciation de la fréquence et de la
sévérité. Par ailleurs, en faisant ce choix, on divise par deux le nombre de GLM à mettre en
place. Cependant, les modèles fréquence-coût permettent de comprendre avec plus de précision
pourquoi certains facteurs influencent la sinistralité. Par ailleurs, le paramètre p du modèle de
Tweedie doit être estimé. Ce paramètre est lié à la variabilité de la sinistralité. Il y a plusieurs
méthodes pour estimer ce paramètre, mais il est courant de fixer ce paramètre à 1,5 (voir l’article
The Tweedie Index Parameter and Its Estimator. An Introduction with Applications to Actuarial
Ratemaking de TEMPLE S. S.), en considérant que ce paramètre n’a que peu d’influence sur les
résultats du processus de modélisation.

4.9 Synthèse des distributions envisagées pour les GLM


Avec le choix classique de la fonction lien g : y → ln(y), le modèle linéaire initial s’écrit sous la
forme multiplicative suivante:
⎛ p ⎞
⎜⎜⎜∑ ⎟⎟⎟
E(Y|X)] = exp ⎜⎝⎜ βk × xk ⎟⎟⎠⎟

k=1

Les distributions usuellement choisies en fonction de la nature de la variable à expliquer sont les
suivantes:

50
Paramétrisation du modèle Nombre de Fréquence des Modélisation
Sévérité
Variable modélisée sinistres sinistres directe de la prime pure

Fonction lien g ln ln ln ln

Distribution Poisson P(λ) Poisson P(λ) Gamma(k, θ) Tweedie

Paramètre d’échelle / dispersion 1 1 θ ϕ

Moyenne λ λ kθ a × µp

Variance λ λ kθ2 a × µp

Variable offset - Exposition - Exposition

En pratique, d’après la comparaison des erreurs quadratiques moyennes sur l’échantillon


de validation, le modèle le plus adapté pour la modélisation de la prime pure pour la garantie
responsabilité civile est le modèle fréquence-coût, avec une loi de Poisson et une loi Gamma. Par
soucis de cohérence, ce modèle a été adopté pour toutes les garanties. Il convient de vérifier à
chaque fois qu’il n’y pas de surdispersion avec le modèle de Poisson, et que la loi de Gamma est
appropriée pour modéliser la queue de distribution de la sévérité.

4.10 Limites des GLM


L’utilisation des GLM impose de faire une hypothèse sur la forme de la loi conditionnelle de la
variable endogène en fonction des variables explicatives, ce qui implique un risque de modèle.
Pour relâcher l’hypothèse concernant la distribution de la variable, on peut utiliser les modèles
additifs généralisés (GAM pour Generalized Additive Model). Les modèles additifs généralisés
sont une extension des GLM. Seul le prédicteur différencie. Il est additif linéaire avec les GLM,
il est seulement additif avec les GAM, et s’écrit comme une somme de fonctions qui ne sont pas
forcément paramétriques. En gardant les notations introduites précédemment, on a:
p

g(E(Y)) = β0 + fk (xk )
k=1

avec les fonctions fk qui peuvent être sous forme paramétrique pour certains indices, et
non-paramétrique pour d’autres. Cette flexibilité concernant la relation entre la variable réponse
et les variables explicatives permet potentiellement d’améliorer la qualité d’ajustement des
modèles aux données. Cependant, le modèle construit sera plus difficilement interprétable.

Par ailleurs, avec les modèles linéaires généralisés, la régression par rapport à une variable
quantitative ne permet qu’une variation monotone de la variable endogène. Ce problème peut
être corrigé manuellement en «coupant» la variable quantitative en plusieurs sous-variables, mais
ce processus reste fastidieux et peut impliquer un sur-ajustement du modèle.

51
Enfin, la modélisation des interactions entre les variables, bien que possible, relève souvent
de l’avis d’expert, au même titre que leur sélection en amont. Une variable éliminée lors du
processus de sélection des variables explicatives aurait pû se révéler intéressante si couplée à
une autre variable. Mais on ne peut pas tester à chaque étape de modélisation l’ensemble des
interactions possibles. La mise en place du modèle serait trop fastidieuse. C’est pourquoi nous
proposons de comparer les résultats des GLM à ceux obtenus en utilisant d’autres techniques de
modélisation. Leur cadre théorique est brièvement introduit dans le chapitre suivant.

52
Chapitre 5

Modèles alternatifs de
modélisation des sinistres

5.1 Les arbres de classification et de régression CART


5.1.1 Description de l’arbre de décision
L’apprentissage par arbres de décision, en anglais Classification And Regression Tree (CART)
est une technique prédictive non-paramétrique, qui produit une classification (pour les variables
exogènes catégorielles) ou une régression (pour les variables exogènes quantitatives). Ce sont
les arbres de régression que l’on utilisera pour modéliser les variables quantitatives que sont la
fréquence et la sévérité. Les arbres de régression consistent en une succession de nœuds menant
à une extrémité du graphe (une feuille, par analogie avec un arbre):

Figure 5.1 Exemple de la représentation graphique d’un arbre de régression

53
Le fonctionnement de l’arbre est le suivant:

• une des variables d’entrée est sélectionnée comme variable explicative à chaque nœud
intérieur, c’est à dire à un nœud qui n’est pas terminal de l’arbre, selon une méthode qui
dépend de l’algorithme choisi et qui sera discutée plus loin

• chaque arête vers un nœud-fils correspond à un ensemble de valeurs d’une variable d’entrée,
de manière à ce que l’ensemble des arêtes vers les nœuds-fils couvrent toutes les valeurs
possibles de la variable d’entrée

• chaque feuille (ou nœud terminal de l’arbre) donne la valeur prédite de la variable modélisée.
La valeur prédite est celle des profils dont les variables d’entrée prennent les valeurs prises
par le chemin qui va de la racine de l’arbre jusqu’à la feuille

L’arbre est construit par séparation de l’ensemble des données en sous-ensembles, scindés
en fonction de la valeur d’une des variables explicatives. Ce processus de séparation est
répété successivement sur chaque sous-ensemble obtenu. Il s’agit donc d’un partitionnement
récursif. Le processus récursif est achevé à un nœud lorsque tout nouveau partitionnement en
sous-ensembles n’améliorerait plus suffisamment la qualité prédictive du modèle. Ce processus
est dit à induction descendante. C’est un algorithme lourd et souvent macrophage, puisque l’on
recherche à chaque nœud de l’arbre le partitionnement optimal sur l’ensemble de l’arbre de
décision. C’est la méthodologie la plus commune pour entraîner son arbre.

Afin de définir le partitionnement optimal, on cherche à maximiser la variance interclasses,


afin de construire des sous-ensembles dont les valeurs estimées de la variable-cible sont les plus
dispersées possibles. On note:

• n p le nœud « père » que l’on cherche à scinder

• nG et nD les deux nouveaux nœuds testés issus de la scission de n p

• y l’espérance de Y sachant que l’on se trouve sur le nœud n p

La réduction d’hétérogénéité apportée par les deux nouveaux nœuds est donnée par:
n
∑ (∑ ∑ )2
δ̂ = (yi − y(n p ))2 − (yi − y(nG )) + (yi − y(nD ))
i=1 i∈nG i∈nD

On répète cette opération jusqu’à ce que chaque profil mène à une feuille (une extrémité de
l’arbre).

5.1.2 Problème de sur-ajustement des modèles


Un arbre trop grand conduit à des problèmes de sur-apprentissage. Dans la pratique, une
validation croisée révèle que les différents échantillons vont souvent produire des arbres très
différents. Pour éviter ce problème, on peut faire appel à un test statistique pour évaluer si
un niveau de segmentation additionnel introduit un apport d’informations significatif pour la

54
prédiction de la variable-cible. Dans le cas d’une variable à expliquer quantitative, on peut
utiliser un test d’analyse de la variance (dit Anova).

L’hypothèse nulle H0 du test correspond au cas où la distribution de la variable à expliquer


au niveau du nœud père et les distributions au niveau des nœuds fils suivent une loi normale
de même moyenne. L’hypothèse alternative est qu’il existe au moins une distribution dont la
moyenne s’écarte significativement des autres moyennes.

Ce test utilise la variable F, définie par:

S S E p −S S E F
d f p −d fF
F= S EE F
d fF

avec:

• S S E p la variance intra-classe du nœud à diviser pondérée par l’effectif du nœud:

• S S E F la somme des variances des deux nœuds fils

• d f représente le degré de liberté égal au nombre de feuilles

Par ailleurs, notons:

• k le nombre de feuilles au niveau du nœud père

• n le nombre d’observations du nœud père que l’on souhaite potentiellement subdiviser

On a alors d f p = n − k et d fF = n − k − 2.

Sous H0 , F suit une loi de Fisher F(d f p − d fF , d fF ). Si la p-value associée à la valeur


de F calculée est inférieure à un seuil critique, alors on rejette l’hypothèse nulle. On en conclut
que la création d’un nouveau nœud n’implique pas de sur-ajustement de l’arbre selon le critère
choisi.

L’application du test de Fisher pour conditionner la création d’un nouveau nœud conduit à
des arbres plus parcimonieux et donc plus robustes. Cependant, cela peut aussi conduire à des
arbres non optimaux. En effet, en imposant une réduction minimale de l’hétérogénéité lors de la
division d’un nœud, on peut empêcher la division d’un nœud qui ne va lui-même pas conduire à
une forte réduction de l’hétérogénéité mais qui aurait conduit à des futurs nœuds performants.
Pour pallier à ce problème, on choisit de réduire l’arbre en partant d’un modèle saturé, que l’on
remonte en partant des feuilles et en supprimant les nœuds qui n’améliorent pas significativement
le pouvoir prédictif de l’arbre sur l’échantillon de validation.

55
5.1.3 Recherche d’un arbre optimal
Construction d’un arbre quasi saturé
On commence par produire un arbre presque saturé modélisant la fréquence des sinistres. On
impose seulement un nombre minimum peu restrictif de données pour qu’un nouveau nœud
puisse être créé. L’arbre obtenu est le suivant:

Figure 5.2 Arbre de régression quasi-saturé

Cet arbre est très développé, et le risque de sur-ajustement est très élevé. On souhaite donc
l’élaguer.

Construction d’une suite d’arbres élagués


Entre le modèle saturé et l’arbre restreint à la racine qui est un estimateur souvent fortement
biaisé (la moyenne des valeurs observées de Y est la valeur prédite), l’objectif est de trouver
l’arbre optimal. Une première approche serait de tester l’ensemble des arbres possibles, mais le
nombre de modèles admissibles est exponentiel d’où une complexité algorithmique explosive.

56
On préfère analyser une suite de sous arbres emboîtés. Pour un arbre T donné, on note FT
le nombre de feuilles ou nœuds terminaux. FT est une mesure de la complexité de T . Avec nt
l’effectif du nœud t, la qualité d’ajustement d’un arbre T est mesurée par:
∑ 1 ∑
err(T ) = (yi − yt )2
t f euille de T
nt y ∈t
i

Afin de déterminer l’arbre optimal, on cherche à pénaliser la mesure de la qualité d’ajustement


de l’arbre par sa taille. A ce titre, on introduit un coefficient de complexité |α|. La variable à
minimiser, nommée le critère des moindres carrés pénalisés, est alors:

C(T ) = err(T ) + αFT

Le fonction est analogue au critère d’information d’Akaike. La fonction err mesure l’erreur
d’ajustement du modèle T aux données. C’est une fonction décroissante en fonction du nombre
de feuilles, autrement dit décroissante lorsque la complexité de l’arbre augmente. A l’inverse, FT
augmente lorsque le nombre de nœuds augmente. Le paramètre α définit le niveau de pénalisation
de la complexité de l’arbre: plus α est grand, plus les modèles complexes sont pénalisés. Ainsi,
pour α = 0, l’arbre saturé minimise C. En faisant augmenter α, les nœuds qui engendrent une
diminution de de l’erreur inférieures à αFT deviennent superflus. Ces nœuds sont donc élagués.
Suite à la première itération de la recherche de l’arbre optimal en fonction de la valeur de α
choisie, T FT devient T FT −1 . En augmentant progressivement la valeur de α, on obtient donc une
suite d’arbres:
T sat = T FT ⊂ T FT −1 ⊂ T FT −2 ⊂ ... ⊂ T 1
T 1 est l’arbre réduit au nœud racine. On peut alors tracer la variation du critère des moindres
carrés pénalisés C en fonction de la valeur de α définie:

57
Figure 5.3 Erreur de prédiction en fonction de la taille de l’arbre

Sélection de l’arbre optimal


On peut utiliser la validation croisée pour déterminer l’arbre optimal. L’erreur moyenne induite
par chaque arbre de la suite construite est calculée par validation croisée à n échantillons (dans
notre cas 10). On obtient alors un arbre largement simplifié par rapport à l’arbre saturé initialement
construit.

58
Figure 5.4 Arbre de régression optimal selon le critère choisi

59
5.2 Amélioration des performances
5.2.1 Bagging
L’algorithme génère aléatoirement e sous-ensembles d’entraînement Di , ..., De , chacun de taille
n, par échantillonnage avec remplacement sur la base de données. Des arbres sont construits
sur chacun de ces échantillons. Puis on effectue une moyenne des résultats obtenus pour les
modèles associés à chaque échantillon afin d’obtenir la valeur prédite de la variable modélisée.
Le bagging permet de corriger l’instabilité du modèle construit, car de petites modifications dans
l’ensemble d’apprentissage peuvent mener à des arbres significativement différents. Cependant,
cette méthode mène à une perte de lisibilité de l’arbre: on ne peut plus visualiser le modèle défini
sous forme d’un arbre simple.

5.2.2 Random Forest


La méthode des forêts aléatoires se distingue du bagging par le tirage aléatoire d’un sous-ensemble
de variables aléatoires testées à chaque nœud. Comme pour le bagging, chaque arbre est entraîné
sur un sous-ensemble d’entraînement sélectionné aléatoirement. La meilleure division sur ce
sous-ensemble est sélectionnée. L’objectif est de rendre plus indépendants les arbres agrégés en
ajoutant du hasard dans le choix des variables qui interviennent dans les modèles. Cela permet
d’augmenter la stabilité du modèle construit, plus encore qu’avec un simple bagging. A l’instar
du bagging, le modèle construit est difficilement interprétable, puisque le résultat final ne peut
pas être représenté sous forme d’un arbre unique. Afin de vérifier la convergence de l’algorithme,
on calcule l’out o f bag error qui est la moyenne de l’erreur sur les données non utilisées.

5.2.3 Gradient boosting


Une méthode de régression populaire dans les compétitions de Kaggle est le gradient boosting. Le
bagging consiste à faire une simple moyenne sur de nombreux modèles générés indépendamment
les uns des autres. Alors que le Boosting est un processus séquentiel dans lequel chaque nouveau
modèle est généré afin d’améliorer un peu le modèle précédent. Le gradient boosting permet
d’identifier les éléments pour lesquels le pouvoir prédictif du modèle construit est le moins
satisfaisant. Le modèle suivant se focalise sur l’étude de ces éléments afin de trouver un modèle
au pouvoir prédictif plus élevé.

5.3 Avantages des arbres de régression


Les principaux avantages des arbres de régression sont les suivants:

• le modèle s’adapte facilement aux structures des données

• aucune hypothèse concernant la distribution de la variable exogène n’est à formuler

• le problème de regroupement des modalités des variables catégorielles est directement


résolu par l’algorithme. Les variables qualitatives ne doivent pas obligatoirement être

60
transformées en de multiples variables binaires. Un ou plusieurs regroupements optimaux
peuvent être définis au niveau de différents nœuds

• le problème de l’expression des variables quantitatives sous forme de polynômes est traité
par l’algorithme. La difficulté est contournée en utilisant la variable explicative plusieurs
fois dans l’arbre, en la scindant en de multiples intervalles, et en attribuant un coefficient
de régression distinct pour chaque intervalle créé

• le mélange de variables qualitatives et quantitatives ne pose pas de problème

• la lecture du modèle et sa forme sont simples pour les arbres de régression unitaires

• l’information conditionnelle est utilisée efficacement car les nœuds sont construits selon un
algorithme récursif qui optimise la sélection successive des variables utilisées pour estimer
Y

• les valeurs aberrantes sont traitées de façon efficace, en permettant à l’arbre de définir un
coefficient de régression spécifique à une très petite catégorie de l’échantillon

• cette technique est particulièrement efficace quand le nombre de variables explicatives


candidates est élevé, car l’algorithme cherche à résumer le plus efficacement possible et
avec un nombre réduit de variables sélectionnées (en fonction des critères de sélection
appliqués) l’information utile à la prédiction de Y

61
Chapitre 6

Résultats de modélisation de la
prime de risque

6.1 Résultats de modélisation avec les GLM


6.1.1 Présentation des données
Nous présentons dans ce chapitre les résultats pratiques de la modélisation de la fréquence F des
sinistres en responsabilité civile pour les motocycles. La répartition de l’exposition par année
d’assurance en fonction du nombre de sinistres survenus sur le jeu de données utilisées est la
suivante:

Figure 6.1 Exposition par année d’assurance et par nombre de sinistres

La fréquence moyenne de la sinistralité en responsabilité civile est de 7.8% sur notre jeu de
données. Graphiquement, la distribution semble être compatible avec une distribution de Poisson
de moyenne la moyenne empirique:

63
Figure 6.2 Exposition par nombre de sinistres et par année comparée à la loi de Poisson

Les valeurs affichées dans les sections suivantes ont été rééchelonnées par rapport à l’année
2015 et légèrement modifiées pour respecter des impératifs de confidentialité. On examine la
dispersion des données par rapport à leur moyenne afin de valider l’hypothèse d’égalité de la
variance et de la moyenne sous-jacente à l’utilisation d’une distribution de Poisson. On a:

E(F) = 0.99

V(F) = 1.02

Le faible écart entre la moyenne et la variance laisse penser qu’il n’y a pas de sur-dispersion ou de
sous-dispersion. Afin de le vérifier avec plus de détail, on peut recalculer ces valeurs pour chaque
modalité prise par une variable explicative. La variable année d’assurance est automatiquement
considérée comme la première variable sélectionnée dans nos modèles afin de neutraliser le
biais lié à la période d’observation. On se propose donc de calculer E(F) et V(F) par année
d’observation. Pour que le modèle de Poisson classique puisse être envisagé, il faut que les points
de coordonnées {moyenne, variance} soient proches de la droite y = x :

Figure 6.3 Variance et moyenne de la fréquence RC motocycles par année de survenance des sinistres

64
C’est ici le cas. L’utilisation d’une distribution de Poisson simple semble être valable pour
modéliser le nombre de sinistres avec la variable exposition comme variable offset. Nous
initialisons donc notre modèle.

6.1.2 Initialisation du modèle


Le jeu de données est séparé en sous échantillons d’entraînement, de validation et de test pour
sélectionner les variables explicatives selon un processus de validation simple:

Figure 6.4 Répartition des données en sous-échantillons d’entraînement, validation et test

Nous mettons en place notre GLM en imposant la variable Année de survenance comme
variable offset afin de neutraliser l’influence des IBNR et des évolutions tendancielles de la
fréquence au cours du temps. Elles sont prises dans le cadre de l’estimation de la prime technique.
Le modèle de référence initial superpose les valeurs prédites et observées par année de survenance:

Figure 6.5 Modèle de référence initial

La qualité prédictive du modèle initial ne contenant que les variables offset exposition et
année de survenance sur l’échantillon de validation est mesurée via les indicateurs suivants:

AICc = 201244

Déviance = 233519

65
Ce modèle est sous-ajusté. Nous cherchons à intégrer d’autres variables pour améliorer la qualité
prédictive du modèle.

6.1.3 Sélection des variables explicatives


Selon la répartition de la fréquence en fonction de la variable testée, différents regroupements de
modalités et différents polynômes peuvent être testés. Examinons la répartition de la fréquence
des sinistres en fonction du nombre d’années écoulées depuis l’obtention du permis de conduire.
Le premier graphe compare les valeurs observées aux valeurs prédites sur le jeu d’entraînement
lorsque l’on utilise un polynôme de degré 1 entre 0 et 10 ans, et un autre polynôme de degré 1
entre 10 et 60 ans et plus comme variable explicative:

Figure 6.6 Fréquence en fonction de l’expérience du conducteur - premier polynôme testé

On observe que la tendance semble être concave décroissante entre 0 et 10 ans. On observe
également une hausse de la fréquence à partir de 47 ans. on effectue donc un deuxième test de
régression avec un polynôme de degré 2 entre 0 et 10 ans, un polynôme de degré 1 entre 10 et 47
ans et un autre polynôme de degré 1 entre 47 et 65 ans et plus:

Figure 6.7 Fréquence en fonction de l’expérience du conducteur - deuxième polynôme testé

66
Chaque variable explicative candidate est testée en utilisant les regroupements de modalités
et les polynômes qui semblent être les plus appropriés. Les résultats sont répertoriés dans la table
suivante:

Figure 6.8 Résultats lors de la première itération du processus de sélection des variables explicatives

Le risque de sur-ajustement du modèle est à priori important avec le deuxième polynôme


car il teste une variable très transformée. Mais nous observons que c’est cette variable qui
minimise la déviance sur l’échantillon de validation. C’est donc la première variable explicative
sélectionnée dans notre modèle. A l’inverse, la variable business type peut déjà être supprimée du
jeu des variables explicatives candidates. La p-value associée au test d’indépendance avec F sur
l’échantillon d’entraînement est de 60.1% et l’amélioration de la déviance sur l’échantillon de
validation est nulle.

67
D’autres types de transformations des variables candidates que des mises sous forme polynô-
miale sont établies dans le cadre du processus de sélection des variables explicatives. Prenons
le cas de la variables géographique code postal du conducteur principal. La répartition de la
fréquence des sinistres responsabilité civile en fonction de cette variable est représentée sur la
carte suivante:

Figure 6.9 Fréquence RC des motocycles par code postal du conducteur principal

Afin d’éviter le sur-ajustement de notre modèle, un lissage des coefficients est mis en place.
Nous établissons tout d’abord un lissage faible des coefficients de régression. Les coefficients
de régression sont lissés en fonction des valeurs prises par les coefficients de régression sur les
codes postaux voisins:

68
Figure 6.10 Coefficients de régression par code postal - lissage faible

D’autres lissages, plus forts ou plus faibles, sont testés afin de déterminer la transformation
qui optimise le pouvoir prédictif de la variable candidate. Un lissage relativement fort engendre
par exemple les coefficients de régression suivants:

69
Figure 6.11 Coefficients de régression par code postal - lissage fort

Parmi les différents lissages testés, le lissage faible de la première carte crée la variable
explicative qui minimise la déviance sur l’échantillon de validation. C’est même la meilleure
variable explicative selon ce critère de sélection parmi toutes les variables candidates. Nous
sélectionnons donc le code postal d’habitation du conducteur principal avec un lissage faible
comme deuxième variable explicative de notre modèle.

Puis nous réitérons le processus de sélection des variables explicatives jusqu’à ce qu’aucune
variable candidate n’améliore significativement le modèle. Les résultats obtenus lors de la dixième
itération sont les suivants:

70
Figure 6.12 Résultats lors de la dixième itération du processus de sélection des variables explicatives

A ce stade, aucune variable additionnelle n’améliore de façon significative la qualité prédictive


du modèle. Nous arrêtons le processus de sélection de variables explicatives simples et testons
maintenant les termes d’interaction entre les variables explicatives choisies. Le tableau suivant
donne la déviance sur l’échantillon de validation suite à l’intégration d’un terme d’interaction:

Figure 6.13 Déviance obtenue avec l’ajout d’un terme d’interaction

Le seul facteur d’interaction qui fait baisser la déviance sur l’échantillon test est la variable
Expérience X Age du contrat. Cependant, cette baisse est marginale. Nous intégrons le terme
d’interaction Expérience X Age du contrat dans le modèle mais nous souhaitons vérifier qu’il n’y
a pas de sur-ajustement suite à cet ajout.

71
6.1.4 Validation du modèle
L’amélioration de la déviance par rapport au modèle de référence sur l’échantillon de validation
en fonction du nombre de variables explicatives inclues dans le modèle est donnée par le graphe
suivant:

Figure 6.14 Déviance sur l’échantillon de validation en fonction du nombre de variables explicatives

Nous remarquons qu’à partir de l’intégration de la sixième variable explicative, la baisse de


la déviance sur l’échantillon de validation est faible. Nous voulons vérifier la qualité prédictive
des facteurs inclus dans le modèle. Pour ce faire, nous mesurons la déviance sur l’échantillon test
en fonction du nombre de variables inclues dans le modèle:

72
Figure 6.15 Déviance sur l’échantillon test en fonction du nombre de variable explicatives

Les deux derniers facteurs n’améliorent pas la déviance sur l’échantillon de validation. Nous
choisissons donc de les supprimer. Puis nous remettons en place des tests de significativité sur
les facteurs d’interaction des 9 variables restantes. Aucun terme n’améliore la déviance sur
l’échantillon de validation. Le modèle final choisi est donc celui contenant les 9 premières
variables explicatives sans facteur d’interaction.

Le graphe des résidus standardisés studentisés sous-jacents au modèle final sur l’échantillon
test est ensuite tracé:

73
Figure 6.16 Résidus

Graphiquement, les résidus semblent être normalement distribués et indépendant des valeurs
prédites de F. Le modèle construit est à priori valable. Nous souhaitons maintenant comparer sa
qualité prédictive avec des modèles obtenus par arbres de régression.

6.2 Résultats de modélisation avec les arbres de régression


6.2.1 Résultats avec les forêts d’arbres décisionnels
La même variable cible est modélisée, avec les mêmes données. La fonction randomForest a
été utilisée sous R pour établir les modèles. L’algorithme lance la construction de 500 arbres. A
priori, ce nombre d’arbres est suffisant car à partir de 200 arbres construits, l’erreur du modèle
sur l’échantillon test reste stable:

74
Figure 6.17 Erreur sur l’échantillon test en fonction du nombre d’arbres construits

Afin de valider la suffisance du nombre d’arbres, on lance l’algorithme en construisant 1000


arbres. Nous souhaitons également mesurer l’influence du nombre de variables testées à chaque
division, contrôlé avec le paramètre mtry, sur la qualité prédictive du modèle construit. Les
résultats obtenus sont les suivants:

Figure 6.18 Erreur quadratique moyenne sur l’échantillon test en fonction des paramètres testés

Le meilleur modèle selon l’erreur quadratique moyenne sur l’échantillon test est celui établi à
partir de 500 arbres, en testant 10 variables explicatives à chaque nœud. Examinons les variables
explicatives inclues dans ce modèle par ordre d’importance. Pour ce faire on mesure la baisse
d’hétérogénéité de la fréquence induite par chaque variable sur la suite d’arbres construits. On
obtient le graphe suivant:

75
Figure 6.19 Résidus

Il y a 30 variables explicatives contre 9 pour le modèle linéaire généralisé, la première étant


le ratio puissance sur poids du véhicule. La variable expérience du conducteur n’arrive qu’en
sixième position, alors que c’est la première variable explicative choisie avec les modèles linéaires
généralisés.

6.2.2 Résultats avec les gradient boosting


Nous souhaitons également mesurer le pouvoir prédictif du modèle construit avec les gradient
boosting. Les quinze premières variables explicatives obtenues par odre d’importance sont les
suivantes:

76
Figure 6.20 Résidus

Afin de déterminer le modèle optimal, on mesure la déviance en fonction du nombre


d’itérations de l’algorithme de construction de l’arbre:

77
Figure 6.21 Erreur en fonction du nombre d’itérations

L’arbre optimale est celui obtenu à la huitième itération du processus de construction, les
arbres suivants engendrent du sur-ajustement. L’erreur quadratique moyenne sur l’échantillon
test est de:
MS Egradient boosting = 0.1376

6.3 Choix du modèle


Afin de comparer la qualité prédictive du random forest et du modèle linéaire généralisé, on
mesure l’erreur quadratique moyenne sur l’échantillon test avec le GLM. On obtient:

MS EGLM = 0.1265

C’est inférieur à l’erreur quadratique moyenne obtenue avec les forêt d’arbres décisionnels et
le gradient boosting. Nous préférons donc modéliser la fréquence en responsabilité civile avec
les modèles linéaires généralisés. Afin de rester cohérent, les modèles linéaires généralisés ont
été utilisés pour tous les modèles tarifaires sur le périmètre véhicules à moteur. La sévérité et la
prime de risque des autres garanties ont donc été modélisées avec cette même méthode. Notons
cependant qu’avec une autre mesure d’erreur que l’erreur quadratique moyenne, le classement
des modèles en fonction de leur pouvoir prédictif pourrait être différent. On pourrait par exemple
utiliser la moyenne de l’erreur en valeur absolue comme critère final de sélection. Cependant,
nous souhaitons un modèle dont la variance des termes d’erreur est faible, d’où l’utilisation de
l’erreur quadratique moyenne. Par ailleurs, de l’aléa est induit lors du partitionnement de notre
échantillon en sous échantillons d’entraînement, validation et test. Un autre partitionnement

78
pourrait modifier les résultats au point de changer le classement de nos modèles. Le modèle
linéaire généralisé est donc le meilleur modèle dans un contexte très précis, qui dépend des
critères de sélection utilisés, du partitionnement des données et des modèles testés.

79
Chapitre 7

Développement du tarif technique


du portefeuille des motocycles

7.1 Coût projeté des sinistres


7.1.1 Composantes du coût projeté des sinistres
Une fois la prime pure calculée, le coût projeté des sinistres par profil doit être déterminé en
ajoutant les coûts annexes. Pour le ième profil de risque, on pose:

CPS i = PRi × (1 + F IBNeRi + F IBNyRi ) × (1 + v f rq)t × (1 + in f )t × (1 + f ext)

avec:

• CPS le coût projeté des sinistres

• PR la prime de risque calculée dans le chapitre précédent

• F IBNeR le facteur d’ajustement qui intègre les IBNeR

• F IBNyR le facteur d’ajustement qui intègre les IBNyR

• v f rq la variation de fréquence attendue annuellement, qui peut être positive ou négative

• in f le facteur d’inflation annuelle des sinistres attendue, qui peut être positif ou négatif

• f ext le facteur d’ajustement qui prend en compte l’impact de différents facteurs externes.
Cette valeur peut être positive ou négative

• PR la prime de risque calculée dans le chapitre précédent

• t la différence temporelle entre la date moyenne attendue des payements des sinistres pour
lesquels la nouvelle structure tarifaire s’applique, et la date de moyenne de survenance des
sinistres survenus durant l’année de référence du modèle

81
Les facteurs d’ajustement liés aux IBNR doivent être estimés par apport à l’année de survenance
définie comme année de référence lorsque la variable année a été définie comme variable offset
du modèle.

Figure 7.1 Exemple d’une décomposition du coût projeté des sinistres

Le coût projeté des sinistres est une estimation du coût ultime des sinistres pour un risque
assuré pendant une période d’un an. Dans le cadre du monitoring du portefeuille, ce montant est
comparé à la prime commerciale (PC) afin d’estimer le ratio sinistre/prime ultime attendu. Pour
le ième profil tarifaire, on a:

Loss Ratio Pro jetéi = CPS i /PCi

7.1.2 Intégration du coût des IBNR


Les facteurs d’ajustement utilisés pour inclure l’impact des IBNyR et des IBNeR permettent de
prendre en compte l’impact des sinistres non reportés ou insuffisamment provisionnés au moment
de l’extraction des données tarifaires, et qui sont survenus durant l’horizon temporel sélectionné.
Une méthode d’estimation du développement des sinistres est détaillée dans le chapitre 1. Elle
permet de déterminer le coût des IBNR. Ce coût peut être intégré additivement à la prime pure,
ou en pourcentage de celle-ci si l’on considère qu’il existe une relation de proportionnalité. On
préfère cette dernière méthode afin de mieux prendre en compte les variations d’exposition liées
au portefeuille assuré.

7.1.3 Estimation des changements de la fréquence des sinistres et de


l’inflation des coûts
Les variations tendancielles de fréquence des sinistres et du coût moyen d’un sinistre doivent être
prises en compte dans le calcul du coût projeté des sinistres afin d’améliorer l’estimateur.

Les variations de la fréquence des sinistres peuvent être dues à des modifications de la
qualité du réseau routier, des caractéristiques des nouveaux véhicules vendus, et à une hausse

82
des fraudes pendant les périodes de crise économique. La modification des caractéristiques des
produits vendus, telles que les franchises, peut également impacter la fréquence attendue. Ces
variations peuvent être estimées par jugement d’expert. La variation liée à des facteurs internes
(respectivement externes) est prise en compte via le facteur v f rq (respectivement f ext).

Les variations de la sévérité des sinistres sont principalement dues à la variation des coûts de
réparation des véhicules, que ce soit des pièces ou de la main d’œuvre, ou à des modifications
de couverture. Pour estimer les variations des coûts de réparation, on peut se référer au Swiss
Wage Index et à des indices des prix à la consommation liés à l’entretien et à la réparation des
véhicules. L’inflation peut également être estimée sur la base de données internes. L’inflation doit
être estimée à partir de la date moyenne de survenance des sinistres durant l’année de référence,
jusqu’à la date de réparation moyenne prévue pour la nouvelle période tarifaire. La variation liée
à des facteurs internes est prise en compte via le facteur in f .

7.2 Le coût économique des sinistres


Le coût économique des sinistres est calculé à partir du coût projeté des sinistres. Ce montant
représente le coût total lié au risque sous-jacent assuré. Il est obtenu en ajoutant les frais, les
commissions et les coûts liés à la réassurance au coût projeté des sinistres. Ainsi, pour le ième
profil de risque, on a:

CEi = (CPS i + c f rais fi ) × (1 + c f raisv ) × (1 + c) × (1 + r))

avec:

• CEi le coût économique des sinistres

• c f rais f le coût liés aux frais fixes

• c f raisv le taux lié aux frais variables

• c le taux de commission

• r le taux lié au résultat attendu avec le programme de réassurance

Les commissions de rémunération du travail des agents ou des courtiers sont en général
calculées en pourcentage de la prime commerciale qu’ils apportent. C’est pourquoi un facteur
d’ajustement c f raisv est intégré dans le calcul du coût économique des sinistres. Les frais
fixes qu’une compagnie d’assurance doit assurer sont également inclus dans l’estimation coût
économique des sinistres via le facteur c f rais f . Parmi ces frais, les plus importants sont:

• les frais administratifs liés à la gestion des contrats

• le coût des locaux

• les salaires et les frais de publicité

83
• les ULAE (Unaloccated Loss Adjustment Expenses), qui sont les frais liés au traitement
des sinistres mais qui ne sont pas directement attribuables à un sinistre spécifique

La réassurance implique souvent un coût, et parfois un gain pour la compagnie d’assurance.


C’est pourquoi un chargement doit être inclus dans le coût économique. À des fins de simplicité,
on suppose que les programmes de réassurance du portefeuille sont stables. On peut estimer le
résultat lié à la réassurance par une moyenne empirique sur les dernières années de la variation du
résultat de la compagnie lié à la réassurance. Le résultat de réassurance est souvent volatile, aussi
un avis d’expert peut être combiné à l’estimation empirique. Le résultat de réassurance attendu
par rapport à la prime de risque est donné par:

Prime de risque − recouvrements auprès du réassureur
n annes
résultat de réassurance attendu =
n
L’impact du programme de réassurance sur le ratio combiné du portefeuille peut être estimé par:
résultat de réassurance attendu
r= ∑
Prime de risque

Le schéma suivant montre l’impact de ces différents éléments sur le coût économique des
sinistres:

Figure 7.2 Exemple d’une décomposition du coût économique des sinistres

L’estimation de l’écart entre la prime commerciale et le cout économique des sinistres pour
un risque donné se calcule via l’équation suivante:

PPsu fi = CEi /PCi − 1

avec:

• PPsu fi le coefficient de prime projetée suffisante pour le risque i

84
• CEi le coût économique des sinistres et PCi la prime commerciale du profil de risque i,
décrits ci-dessus
Le coefficient de prime projetée suffisante représente le taux de variation de la prime commerciale
qui permet d’atteindre le coût économique pour le ième risque.

Les taxes et autres chargements qui augmentent systématiquement les couts liés à l’activité
d’assurance ne sont généralement pas inclus dans le calcul du coût économique, ainsi que dans
le calcul de la prime commerciale. Par exemple, le montant payé pour indemniser les victimes
d’accidents de la route avec délit de fuite n’est pas pris en compte.

7.3 Le tarif technique


Le coût du capital ajouté au coût économique des sinistres permet d’obtenir le tarif technique. En
notant:
• PT la prime technique
• k le chargement lié au coût du capital
on a pour le ième profil de risque:
CEi
PT i =
1−k
Le coefficient k lié au coût du capital est calculée pour un portefeuille donné en prenant le ratio
de son capital de solvabilité net requis (ou S CR pour Solvency Capital Requirement) et la prime
de risque sur un portefeuille d’assurance donné (suivant la granularité de calcul établie), multiplié
par le coût du capital. On obtient:
S CR net × coût du capital
k=
Prime de risque
Le ratio capital de risque sur primes (SCR net/ GWP) représente le risque relatif au produit tarifé.
Le coût du capital représente le taux lié au coût théorique, pour couvrir ce risque, de la collecte
de capitaux supplémentaires sur le marché.

7.4 Résumé du calcul de la prime technique à partir de la


prime de risque
Pour développer le tarif technique, on commence par estimer la prime pure avec les modèles
linéaires généralisés ou des méthodes alternatives. Puis on estime le coût projeté des sinistres en
utilisant la formule suivante:
CPS i = PRi × (1 + F I BNeRi + F I BNyRi ) × (1 + v f rq)t × (1 + in f )t × (1 + f ext)
A partir du coût projeté des sinistres, on peut estimer le coût économique des sinistres:
CEi = (CPS i + c f rais f ) × (1 + c f raisv × (1 + c) × (1 + r)

85
On détermine ensuite la prime technique pour chaque profil d’assuré:

CEi
T Pi =
1−k
Pour passer directement de la prime pure à la prime technique, on utilise l’expression suivante:

[PRi (1 + F IBNRi )(1 + v f rq)t (1 + in f )t (1 + f ext) + c f rais f ixes ] × (1 + c f raisv ) × (1 + c) × (1 + r)


T Pi =
S CR net × coût du capital
( )
1− PR

Figure 7.3 Exemple d’une décomposition de la prime technique

7.5 Impact du nouveau tarif


7.5.1 Analyse prédictive du ratio combiné
Une fois le nouveau tarif technique développé, il est important de quantifier la variation totale
requise des primes commerciales des polices en vigueur qui permettrait d’atteindre la rentabilité
attendue. Afin d’estimer cette exigence de prime, il faut tout d’abord estimer la prime commerciale
réelle qui devrait être facturée si le nouveau modèle tarifaire n’était pas pris en compte. Cet
estimateur est calculé pour les polices en vigueur au moment où le nouveau tarif sera implémenté
en prenant en compte les divers éléments qui peuvent l’affecter, comme par exemple:

• le bonus ou le malus (BM) appliqué

86
• la nouvelle stratégie commerciale définie

• la variation de certains facteurs liés au temps, tels que l’âge du véhicule ou l’âge du
conducteur, etc.

Le processus à suivre est le suivant:

1. extraire du portefeuille les polices en vigueur qui, si elles ne sont pas résiliées, se renouvel-
leront lors de la mise en place du nouveau tarif technique. Puis, calculer la somme de la
prime technique sur l’ensemble de ces polices

2. calculer l’effet de l’application de l’échelle bonus/malus à l’aide de simulations

3. appliquer les changements de primes attendus liés aux nouvelles stratégies commerciales
de l’entreprise

4. calculer le taux lié à la nouvelle exigence de prime en calculant le ratio entre la prime
technique qui devrait être demandée sur le portefeuille assuré et la prime commerciale
globale du portefeuille après simulation de l’effet bonus/malus

Si l’estimation de l’effet de la nouvelle stratégie tarifaire est assez simple, l’estimation de l’impact
de l’application de l’échelle bonus/malus peut être relativement complexe. Pour l’estimer, on peut
utiliser la probabilité d’occurrence d’un sinistre à partir du modèle prédictif de la fréquence des
sinistres. En partant de l’ancien coefficient bonus/malus, on trouve deux nouveaux coefficients
bonus/malus avec une probabilité associée. Le premier coefficient bonus/malus est celui lié
à une sinistralité nulle, le second à une sinistralité non nulle. Ce calcul permet d’estimer le
ratio combiné attendu sur le portefeuille d’affaires renouvelé en t+1. On introduit les notations
suivantes pour une police:

• PS t la probabilité d’un sinistre en t

• PNS t la probabilité qu’il n’y ait pas de sinistre en t

• Prbonus la probabilité de renouvellement d’une affaire en t+1 sachant que l’assuré n’a pas
eu de sinistre en t

• Pnrbonus la probabilité de non renouvellement d’une affaire en t+1 sachant que l’assuré n’a
pas eu de sinistre en t

• Prmalus la probabilité de renouvellement d’une affaire en t+1 sachant que l’assuré a eu un


malus suite à un sinistre en t

• Pnrmalus la probabilité de non renouvellement d’une affaire en t+1 sachant que l’assuré a
eu un malus suite à un sinistre en t

• PC B la prime commerciale en t+1 après bonus

• PC M la prime commerciale en t+1 après un malus

87
• PT la prime technique

• CoRnt le CoR ciblé avec le nouveau tarif

Dans le cas général, le ratio combiné pour une police renouvelée est donné par:
(PS t × Prmalus + PNS t × Prbonus ) × PT
CoRattendu ren = × CoRnt
PS t × Prmalus × PC M + PNS t × Prbonus × PC B
Pour une police particulière extraite du portefeuille, on a les données suivantes:

Figure 7.4 Simulation de l’effet bonus-malus

La prime technique du nouveau tarif a été modélisée en intégrant un chargement pour que
l’espérance du ratio combiné soit de 93%. Cette prime technique est de 370 CHF pour la police
16513. On obtient donc:
(9% × 96% + 91% × 91%) × 370
CoRattendu16513 = × 93%
9% × 96% × 447 + 91% × 91% × 350
soit:
CoRattendu16513 = 95, 8%
En appliquant ces analyses sur l’ensemble du portefeuille en vigueur, on peut obtenir le ratio
combiné attendu sur le portefeuille renouvelé. Par ailleurs, nous formulons les hypothèses
suivantes basées sur l’analyse historique du portefeuille:

• Pour les nouvelles affaires, E(Prime commerciale / Prime technique) = 1

• Le volume de primes sur les nouvelles affaires sera de 7 millions de CHF l’année suivant
la mise en place du nouveau tarif

• Le volume de primes sur les affaires renouvelées sera de 145 millions de CHF

A partir des calculs menés plus haut et de ces hypothèses, on obtient les paramètres de la table
suivante:

88
Figure 7.5 Rentabilité et volume de primes attendus en t+1

Ce qui nous permet d’estimer le ratio combiné attendu sur l’ensemble du portefeuille:
7 × 93, 0% + 145 × 94, 1%
CoRattendut+1 =
7 + 145
soit
CoRattendut+1 = 94, 0%
Cet indicateur prédictif est important pour la gestion du portefeuille et la communication avec le
siège du groupe Generali car il permet de définir la stratégie de l’entreprise et d’être transparent
avec les actionnaires. Plusieurs mois après la mise en place d’un nouveau tarif, d’autres indicateurs
empiriques sont étudiés afin d’analyser l’impact sur le portefeuille. Des résultats pratiques sont
présentés dans la section suivante.

7.5.2 Analyse ad-hoc du tarif


Une analyse du loss ratio est mise en place pour étudier l’évolution du ratio sinistres sur primes
suite à l’implémentation d’un nouveau tarif. On introduit les notations suivantes:
• attrt (respectivement attrt+1 ) le montant de sinistres attritionnels survenus durant l’année t
(respectivement t + 1)
• nbattrt (respectivement nbattrt+1 ) le nombre de sinistres attritionnels survenus durant l’année
t (respectivement t + 1)
• expt (respectivement expt+1 ) l’exposition des contrats en années d’assurance au cours de
l’année t (respectivement t + 1)
• PACQt (respectivement PACQt+1 ) la prime acquise au cours de l’année t (respectivement
t + 1)
• S Pattr t le ratio sinistres sur primes attritionnel en t
On calcule les indicateurs suivants:
expt nbattr t+1 1
∆ f réquence = attrt × × × − S Pattr t
expt+1 nbattr t PACQt
nbattrt 1
∆ sévérité = attrt+1 × × − S Pattr t
nbattrt+1 PACQt
expt+1 1
∆ prime moyenne = attrt × × − S Pattr t
expt PACQt+1

89
Nous utilisons les sinistres attritionnels afin d’exclure des distorsions qui ne seraient dues qu’à
quelques rares sinistres larges. On obtient les résultats suivants sur le portefeuille de véhicules à
moteur:

Figure 7.6 Variation du ratio sinistres sur primes suite à l’implémentation du nouveau tatif

Suite à l’implémentation du nouveau tarif, sur l’ensemble du portefeuille, la baisse de la


fréquence a entraîné une diminution de 1.3% du ratio sinistres attritionnels sur primes. La baisse
de la sévérité a conduit à une baisse de 0.8% de ce même ratio. Le risque d’antisélection semble
donc être réduit. Afin de mieux isoler l’effet du nouveau tarif, on peut regarder le ratio sinistres
sur primes des nouvelles affaires. Il est de 37.70%:

Figure 7.7 Ratio sinistres sur primes attritionnel par segment de portefeuille et année d’assurance

C’est inférieur au ratio sinistres sur primes de l’année précédant la mise en place du nouveau
tarif et c’est également inférieur au ratio calculé en 2017 sur les affaires renouvelées, sur
lesquelles s’applique l’ancien tarif. Tous les indicateurs montrent donc que le nouveau tarif
augmente la qualité du portefeuille. La prime moyenne par année d’assurance a légèrement
diminué, impactant à la hausse (+0.3%) le ratio sinistres attritionnels sur primes. Mais cette

90
baisse de prime n’est pas aléatoirement distribuée sur le portefeuille, et elle a été attribuée à des
risques dont le potentiel de rentabilité est supérieur au portefeuille en vigueur en 2016.

La mise en place d’un nouveau tarif a pour but d’améliorer la rentabilité du portefeuille,
mais également de générer de la croissance. Idéalement, un nouveau tarif doit créer de la
croissance rentable. Pour analyser l’impact du nouveau tarif sur le chiffre d’affaires, une analyse
de l’évolution des primes annuelles nettes est établie. Sous forme graphique, pour le segment des
motocycles, on obtient:

Figure 7.8 Développement des primes pour motocycles entre Q4 2016 et Q4 2017

On remarque tout d’abord que les annulations sont moins élevées en 2017 (1.8 MCHF) qu’en
2016 (2.0 MCHF). Le montant des primes annuelles nettes pour motocycles était de 14.9 MCHF
fin 2015. On a donc 13.4% de primes annulées courant 2016, contre 12.0% courant 2017. Par
ailleurs, les nouvelles affaires sont en forte augmentation en 2017 (+2.4MCHF) par apport à
2016 (+1.6 MCHF). Ces phénomènes peuvent notamment s’expliquer par la baisse de la prime
moyenne par unité d’exposition, qui permet d’avoir un tarif plus attractif pour les clients. Et
puisque cette baisse de la prime moyenne est combinée à une amélioration de la rentabilité du
portefeuille, l’analyse ad-hoc du nouveau tarif démontre la sur-performance de ce dernier par
rapport à l’ancien tarif. La qualité supérieure du nouveau tarif est donc validée.

91
Chapitre 8

Apports des nouvelles


technologies sur les modèles
tarifaires

8.1 Télématique et assurance pour véhicules à moteur


Les modèles tarifaires des produits d’assurance pour véhicules à moteur sont traditionnellement
basés sur des informations transmises par l’assuré. Le variables tarifaires le plus couramment
utilisées sont l’âge du conducteur, le nombre d’années depuis l’obtention du permis de conduire,
le lieu d’habitation (par exemple le code postal), la puissance et le type d’utilisation du véhicule,
et enfin l’historique de sinistralité dans le cadre de la tarification à postériori. Ces variables ne
reflètent pas le comportement au volant des conducteurs lors de leurs trajets les plus récents. Or
intuitivement, ce comportement devrait être la variable explicative la plus importante.

Les technologies télématiques permettent de palier à ce problème. La télématique est définie


comme l’ensemble des services de nature ou d’origine informatique pouvant être fournis à travers
un réseau de télécommunications. Le mot télématique apparaît pour la première fois en 1978
dans le rapport Nora-Minc, rapport sur l’informatisation de la société publié en décembre 1977
par Simon Nora et Alain Minc. Dans ce rapport sont inventés le mot et le concept de télématique
(et le lancement du réseau Minitel y est préfiguré). Les données comportementales couramment
recueillies par les outils de télématique sont les suivantes:

• la distance parcourue

• la durée pendant laquelle le conducteur a conduit

• l’heure de conduite

• le type d’axe sur lequel l’usager se déplace (route de campagne, route de ville, autoroute
etc.)

93
• les conditions de circulation (trafic dense ou fluide)

• la vitesse de conduite

• la limite de vitesse sur l’axe où se déplace le conducteur

• l’accélération longitudinale

• l’accélération latérale

• La façon dont l’usager braque le volant (de façon fluide ou saccadée)

• l’habileté de l’usager à se garer

8.2 Dispositifs d’aide à la conduite et assurance véhicules à


moteur
Les primes d’assurance pour véhicules à moteur suivent une tendance haussière au niveau
mondial. Cette tendance est principalement due à l’augmentation du nombre de véhicules en
circulation dans les économies émergentes. L’analyse comportementale du comportement de
l’assuré pour le calcul de la prime d’assurance devrait améliorer les comportements sur la route,
et donc diminuer la prime d’assurance moyenne. Mais ce sont surtout les systèmes d’aide à
la conduite automobile (en abrégé ADAS, pour Automated Driver Assistance Systems) qui
devraient ralentir la croissance des primes d’assurance pour les véhicules à moteur au niveau
mondial.

Une aide à la conduite automobile est un système de sécurité active d’information ou


d’assistance du conducteur pour:

• éviter l’apparition d’une situation dangereuse risquant d’aboutir à un accident

• libérer le conducteur d’un certain nombre de taches qui pourraient atténuer sa vigilance

• assister le conducteur dans sa perception de l’environnement (détecteurs de dépassement,


de risque de gel, de piéton, etc.)

• permettre au véhicule de percevoir le risque et de réagir de manière anticipée par rapport


aux réflexes du conducteur

Tout système allégeant et facilitant la tâche du conducteur peut être considéré comme une
aide à la conduite automobile. De nombreux dispositifs sont d’ores et déjà disponibles. La liste
suivante décrit de façon non exhaustive ces technologies.

94
Figure 8.1 Evolution attendue du volume de prime d’assurance pour les véhicules à moteur en fonction de
l’impact de la technologie

Le régulateur de vitesse adaptatif


Cette technologie d’assistance au conducteur est particulièrement utile sur l’autoroute, où les
conducteurs doivent surveiller en permanence leurs systèmes de régulation de vitesse pour des
raisons de sécurité. Avec le régulateur de vitesse avancé, un véhicule ralentira ou accélérera
automatiquement en réponse aux actions de la voiture ou du camion devant lui. La plupart de
ces systèmes s’arrêtent automatiquement en dessous d’un certain seuil de vitesse, mais d’autres
peuvent même être utilisés dans les embouteillages.

Les systèmes de contrôle de la lumière adaptative


Ils sont conçus pour aider les conducteurs à voir mieux et plus loin dans l’obscurité. Cette
technologie avancée d’assistance au conducteur permet aux phares de pivoter et de pivoter pour
mieux éclairer la chaussée dans les virages et dans d’autres circonstances.

Le freinage automatique
Cette technologie est conçue pour réduire la gravité des collisions à grande vitesse en cas d’oubli
de la part du conducteur. Bien que certains systèmes de freinage automatique puissent réellement

95
prévenir les collisions, ils ont généralement pour but de ralentir le véhicule afin de causer moins
de dommages et d’accidents mortels.

Les aides au stationnement


Certains systèmes de stationnement peuvent effectuer l’ensemble du travail de stationnement
automatiquement. D’autres fournissent simplement des conseils afin que le conducteur sache
quand tourner le volant et quand s’arrêter.

Les systèmes de détection des angles morts


Les systèmes de détection des angles morts utilisent une variété de capteurs pour fournir au
conducteur des informations vitales qui seraient difficiles ou impossibles à obtenir par d’autres
moyens. Certains de ces systèmes émettront une alarme s’ils détectent la présence d’un objet
dans un angle mort, et d’autres incluent des caméras qui peuvent transmettre une image à l’unité
principale ou à un autre moniteur.

Les systèmes anti-collision


Ces systèmes utilisent des capteurs pour déterminer si un véhicule risque de heurter un autre
objet. Ces systèmes peuvent généralement détecter la proximité d’autres véhicules, de piétons,
d’animaux et de diverses obstructions routières. Lorsque le véhicule risque de heurter un autre
objet, le système anticollision prévient le conducteur. Certains de ces systèmes peuvent également
prendre d’autres mesures préventives, telles que le ralentissement du véhicule ou l’application de
tension sur les ceintures de sécurité.

La détection de somnolence du conducteur


Les systèmes de détection de la somnolence utilisent un certain nombre de moyens différents pour
déterminer si l’attention du conducteur commence à errer. Certains de ces systèmes recherchent
la tête du conducteur pour détecter un mouvement révélateur qui indiquerait la somnolence,
et d’autres utilisent une technologie semblable aux systèmes d’avertissement de détection de
déviation de la voie.

Les systèmes de navigation GPS


Les systèmes de navigation GPS remplacent efficacement les cartes papier encombrantes. Ces
appareils sont souvent capables de fournir des instructions vocales, ce qui évite au conducteur
d’avoir à regarder l’écran. Certains systèmes de navigation GPS fournissent également des
données de trafic en direct, que les conducteurs devaient auparavant obtenir en écoutant les
nouvelles stations de radio.

Le contrôle de descente
Le contrôle de descente est une technologie avancée d’assistance au conducteur qui facilite
la descente des pentes raides. Ces systèmes fonctionnent en activant les freins pour ralentir

96
automatiquement le véhicule. Certains systèmes de contrôle en descente permettent de modifier
la vitesse via le système de régulation de vitesse, et ils peuvent généralement être neutralisés en
appuyant sur le frein ou sur l’accélérateur.

L’adaptation intelligente de la vitesse


Ce système avancé d’assistance au conducteur dépend d’une variété d’informations pour aider le
conducteur à maintenir une vitesse légale. Comme ces systèmes surveillent la vitesse actuelle et
la comparent avec la limite de vitesse locale, ils ne fonctionnent que dans certaines zones.

Les systèmes d’avertissement de changement de voie


Les systèmes d’avertissement de changement de voie utilisent une variété de capteurs pour
s’assurer qu’un véhicule ne quitte pas accidentellement sa voie. Si le système détermine que le
véhicule est à la dérive, il émet une alarme afin que le conducteur puisse prendre une mesure
corrective à temps pour éviter de heurter une autre voiture ou de quitter la route. Les systèmes
d’assistance au maintien de la voie vont plus loin et sont en fait capables de prendre de petites
mesures correctives sans aucune intervention du conducteur.

Les systèmes améliorés de vision nocturne


Les systèmes de vision nocturne permettent aux conducteurs de voir des choses qui seraient
autrement difficiles ou impossibles à distinguer la nuit. Ils projettent la lumière infrarouge ou
utilisent l’énergie thermique qui émane des voitures, des animaux et d’autres objets.

Les systèmes de surveillance de la pression des pneus


Ils fournissent au conducteur des informations sur le niveau de gonflage de chaque pneu. Puisque
la seule autre façon de découvrir la pression des pneus consiste à sortir de la voiture, à descendre
au sol et à vérifier physiquement chaque pneu avec une jauge, cela représente une amélioration
en terme de commodité.

Dans les marchés saturés tels que la Suisse ou plus largement l’Europe occidentale, le nombre
de véhicules en circulation stagne. À long terme, les primes d’assurance individuelle devraient
diminuer, et les primes d’assurance pour les couvertures en responsabilité civile des fabricants
de véhicules devraient augmenter, car les voitures deviennent de plus en plus automatisées. Le
risque devient lié à la fiabilité de la technologie embarquée, plutôt qu’à la conduite du conducteur.
Les assureurs doivent donc développer des capacités d’analyse des technologies embarquées afin
de pouvoir évaluer cette nouvelle forme de risque en assurance pour véhicules à moteur.

97
Chapitre 9

Conclusion

La première étape du processus de tarification dans laquelle l’actuaire est impliqué est la
préparation des données. Il doit mettre en place des analyses univariées approfondies par
rapport aux différentes variables explicatives candidates. Parfois, un nettoyage des données est
nécessaire, et des regroupements de modalités doivent être envisagés afin d’assurer la qualité des
modèles. L’actuaire doit ensuite sélectionner un modèle théorique compatible avec le risque qu’il
souhaite modéliser.

La stratégie la plus classique consiste à modéliser séparément la fréquence et de la sévérité


des sinistres avec des modèles linéaires généralisés, en sélectionnant en général une distribution
de Poisson pour la fréquence des sinistres et une loi Gamma pour leur sévérité. Une des
alternatives les plus courantes consiste à modéliser directement le coût annuel moyen des sinistres
avec une distribution de Tweedie. L’usage de méthodes alternatives aux modèles linéaires
généralisés devient de plus en plus courant dans le cadre de la tarification en assurance non-vie.
On peut citer notamment les arbres de régression, en particulier les forêts d’arbres aléatoires. Ces
différentes techniques permettent de déterminer le montant de prime pure par profil de risque, qui
correspond au montant de sinistres attendu (hors ou avec IBNR en fonction de la méthodologie
adoptée). L’actuaire doit ensuite intégrer les différents coûts annexes liés à l’activité d’assurance
pour définir le tarif technique.

Historiquement, les assureurs ont utilisé des variables liées aux caractéristiques du véhicule
et de ses usagers pour estimer le la prime pure. L’émergence de la télématique va permettre aux
actuaires d’avoir une approche plus précise, avec l’utilisation de variables mesurant la qualité
de conduite de l’assuré. Par exemple, les données collectées avec un accéléromètre peuvent être
utilisées par l’assureur et ainsi, la prime des conducteurs qui ont la conduite la moins risquée
diminue. Surtout, la société au sens large devrait bénéficier de la télématique car les conducteurs
sont incités à améliorer leur comportement au volant. Des conseils de conduite peuvent leur
être transmis afin de favoriser une conduite plus souple réduisant les risques d’accident, et par
la même occasion la pollution en optimisant la consommation de carburant. Mais l’analyse
du comportement au volant des conducteurs pourrait rapidement devenir caduque, du fait de

99
l’émergence de systèmes d’aide à la conduite de plus en plus perfectionnés. Le risque n’est alors
plus vraiment lié au conducteur, mais à la fiabilité de la technologie embarquée.

100
Bibliographie

BELLINA R. [2014] « Méthodes d’apprentissage appliquées à la tarification non-vie »

BROWNLEE J. [2016] « Bagging and Random Forest Ensemble Algorithms for


Machine Learning »

BURNECKI K., MISIOREK A., WERON R. [2010] « Loss Distributions »

CHAPMAN S. [2016] « How Telematics Can Support Accurate Insurance Pricing


»

CHARPENTIER A. [2013] « Cours Partie 5 - Régression Poissonienne et surdisper-


sion »

CZADO C. [2004] « Introduction to GLM’s »

DENUIT M., CHARPENTIER A. [2004] « Mathématiques de l’assurance non vie


», Tome 1 : Principes fondamentaux de théorie du risque. Economica

DENUIT M., CHARPENTIER A. [2005] « Mathématiques de l’assurance non vie


», Tome 2 : Tarification et Provisionnement. Economica

GENUER R., POGGI J.M. « Arbres CART et Forêts aléatoires, Importance et sé-
lection de variables »

KABAKOFF R. I. [2017]: « Tree-Based Models »

KELLER A., TRANSCHEL F. [2017] « Swiss re - Telematics: connecting the dots


»

101
KELLY R. [2014]: « Bagging, Random Forests, Boosting »

LENOIR J. « Modèles Linéaires Généralisés »

MEYERS G. [2009] « Predictive Modeling with the Tweedie Distribution »

PARTRAT C. [2007] « Provisionnement technique en assurance non-vie », Economica

ROUVIERE L. « Régression logistique avec R »

STAIB D., PAIN D. [2017] « Swiss Re sigma report »

STYRUD L. [2017] « Risk Premium Prediction of Car Damage Insurance using


Artificial Neural Networks and Generalized Linear Models »

TARIGAN B. [2016] « Prediction & Feature Selection in GLM »

TEMPLE S. D. [2018] « The Tweedie Index Parameter and Its Estimator. An Introduction
with Applications to Actuarial Ratemaking »

XACUR O. A. Q. [2011] « Property and Casualty Premiums based on Tweedie


Families of Generalized Linear Models »

YAN J. [2011] « Loss Cost Modeling vs. Frequency and Severity Modeling »

YBARRA J. [2017] « Happy Anniversary: The First Auto Insurance Policy Was
Sold Over 120 Years Ago This Week To A Massachusetts Man »

102
Table des figures

2.1 Volume des primes directes émises par région en 2016 . . . . . . . . . . . . . . . 12


2.2 Les 8 premiers marchés d’Europe en volumes de primes en 2016 . . . . . . . . . . 12
2.3 Densité et pénétration de l’assurance dans les marchés avancés en 2016 . . . . . . 13
2.4 Variables du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Processus de tarification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1 Triangle de liquidation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27


3.2 Fonction moyenne des excès des sinistres en responsabilité civile . . . . . . . . . . 29
3.3 Validation croisée simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Validation croisée multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1 Régression polynômiale de la fréquence des sinistres RC par l’expérience du conducteur 38


4.2 Zone de rejet d’une loi du Khi-deux à 6 degrés de liberté . . . . . . . . . . . . . . 40
4.3 Fonctions de masse de la loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Densité de la loi Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.5 Distributions de Tweedie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.1 Exemple de la représentation graphique d’un arbre de régression . . . . . . . . . . 53


5.2 Arbre de régression quasi-saturé . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3 Erreur de prédiction en fonction de la taille de l’arbre . . . . . . . . . . . . . . . . 58
5.4 Arbre de régression optimal selon le critère choisi . . . . . . . . . . . . . . . . . . 59

6.1 Exposition par année d’assurance et par nombre de sinistres . . . . . . . . . . . . . 63


6.2 Exposition par nombre de sinistres et par année comparée à la loi de Poisson . . . . 64
6.3 Variance et moyenne de la fréquence RC motocycles par année de survenance des
sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.4 Répartition des données en sous-échantillons d’entraînement, validation et test . . . 65
6.5 Modèle de référence initial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.6 Fréquence en fonction de l’expérience du conducteur - premier polynôme testé . . 66
6.7 Fréquence en fonction de l’expérience du conducteur - deuxième polynôme testé . 66

103
6.8 Résultats lors de la première itération du processus de sélection des variables explica-
tives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.9 Fréquence RC des motocycles par code postal du conducteur principal . . . . . . . 68
6.10 Coefficients de régression par code postal - lissage faible . . . . . . . . . . . . . . 69
6.11 Coefficients de régression par code postal - lissage fort . . . . . . . . . . . . . . . 70
6.12 Résultats lors de la dixième itération du processus de sélection des variables explicatives 71
6.13 Déviance obtenue avec l’ajout d’un terme d’interaction . . . . . . . . . . . . . . . 71
6.14 Déviance sur l’échantillon de validation en fonction du nombre de variables explicatives 72
6.15 Déviance sur l’échantillon test en fonction du nombre de variable explicatives . . . 73
6.16 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.17 Erreur sur l’échantillon test en fonction du nombre d’arbres construits . . . . . . . 75
6.18 Erreur quadratique moyenne sur l’échantillon test en fonction des paramètres testés 75
6.19 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.20 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.21 Erreur en fonction du nombre d’itérations . . . . . . . . . . . . . . . . . . . . . . 78

7.1 Exemple d’une décomposition du coût projeté des sinistres . . . . . . . . . . . . . 82


7.2 Exemple d’une décomposition du coût économique des sinistres . . . . . . . . . . 84
7.3 Exemple d’une décomposition de la prime technique . . . . . . . . . . . . . . . . 86
7.4 Simulation de l’effet bonus-malus . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.5 Rentabilité et volume de primes attendus en t+1 . . . . . . . . . . . . . . . . . . . 89
7.6 Variation du ratio sinistres sur primes suite à l’implémentation du nouveau tatif . . 90
7.7 Ratio sinistres sur primes attritionnel par segment de portefeuille et année d’assurance 90
7.8 Développement des primes pour motocycles entre Q4 2016 et Q4 2017 . . . . . . . 91

8.1 Evolution attendue du volume de prime d’assurance pour les véhicules à moteur en
fonction de l’impact de la technologie . . . . . . . . . . . . . . . . . . . . . . . . 95

104
Appendix A

Théorème de la variance totale

On veut montrer le théorème de la variance totale: si X et Y sont deux variables aléatoires sur un
même espace de probabilité, et si la variance de Y est finie, alors:

V(Y) = V(E(Y|X)) + E(V(Y|X)) (1)

Le théorème de la variance totale peut être démontré en utilisant la formule des espérances totales.
Tout d’abord, par définition de la variance:

V(Y) = E(Y 2 ) − E(Y)2 (2)

On a donc:
V(Y) = E(E(Y 2 |X)) − E(E(Y|X))2 (3)
Par ailleurs, en appliquant le développement de (2) à l’équation (3), on a:

V(E(Y|X)) = E(E(Y|X)2 ) − E(E(Y|X))2

On obtient donc:
V(Y) = V(E(Y|X)) + E(E(Y 2 |X)) − E(E(Y|X)2 )
Or on a:
E(V(Y|X)] = E[(E(Y 2 |X)) − (E(Y|X)2 )]
(1) est donc vérifiée.

105
Appendix B

Espérance et variance d’une


variable appartenant à la famille
exponentielle

Dans cette annexe, nous démontrons les expressions de l’espérance et de la variance d’une
variable aléatoire Y dont la densité de probabilité fY appartient à la famille exponentielle. On
part de l’égalité: ∫
fY (y; θ, ϕ)dy = 1
y

Sous condition d’intégrabilité de la dérivée, on a:

∂ ∂
∫ ∫
fY (yi ; θi , ϕi )dy = fY (yi ; θi , ϕi )dy
∂θ y y ∂θ i

Soit:


0= fYi (yi ; θi , ϕi )dy
y ∂θ


1
0= fYi (yi ; θi , ϕi ) fYi (yi ; θi , ϕi )dy
y fYi (yi ; θi , ϕi ) ∂θ


0= ln[ fYi yi ; θi , ϕi )] fYi (yi ; θi , ϕi )dy
y ∂θ
yi − b′ (θi )

0= fY (y; θ, ϕ)dy
y ai (ϕ)
1
0= [E(Yi ) − b′ (θi )]
a(ϕ)
On obtient donc:
E(Yi ) = b′ (θi )

107
En dérivant une seconde fois, on obtient:

∂ ∂
∫ 2 ∫
ln[ fYi (yi ; θi , ϕi )] fYi (yi ; θi , ϕi )dy + ln[ fYi (yi ; θi , ϕi )]2 fYi (yi ; θi , ϕi )dy = 0
y ∂ θ y ∂θ
2

Calculons les deux termes à gauche de l’égalité. Le premier terme peut s’écrire:



A= (yi − b′ (θi ) fYi (yi ; θi , ϕi )dy
y ∂θ

1
=− b′′ (θ) fYi (yi ; θi , ϕi )dy
a(ϕ) y

En utilisant l’égalité E(Yi ) = b′ (θi ), le second terme peut s’écrire:



1
B= 2
(yi − b′ (θi )) fYi (yi ; θi , ϕi )dy
a(ϕ) y
1
= V(Y)
a(ϕ)2
On obtient alors:
V(Yi ) = a(ϕ)b′′ (θi )

108
Appendix C

Estimation des coefficients de


régression

On pose:
yi × θi − b(θi )
li; θi , ϕ (yi ) = + c(yi , ϕ)
ai (ϕ)
La log-vraisemblance du modèle linéaire généralisé s’écrit:
n n
∑ yi × θi − bi (θi ) ∑
lθi , ϕ (y) = + c(yi , ϕ) = li; θi , ϕ (yi )
i=1
ai (ϕ) i=1

On cherche à maximiser chaque terme de la somme de l: on veut trouver l’estimateur β̂ de


β tel que ∀i, li soit un maximum global. Les conditions nécessaires pour que β = β̂ soit un
maximum local sont donc:
n
∑ ∂li; θ , ϕ (yi )
∀ j ∈ [1, p], i
= 0 (1)
i=1
∂β j
On calcule:
∂li ∂li ∂θi dµi ∂ηi
= (2)
∂β j ∂θi ∂µi dηi ∂β j
Or on a:
yi × θi − bi (θi )
li (θi ) = × wi + c(yi , ϕ)
ϕ
et
p

ηi (β j ) = β j × xi, j
j=1

Par ailleurs, on a: ∫
f (yi ; θi , ϕ)dyi = 1

109
donc


f (yi ; θi , ϕ)dyi = 0
∂θi
Sous des conditions de régularités, on a:


f (yi ; θi , ϕ)dyi = 0
∂θi
soit:
yi − b′ (θi )
∫ ( )
exp yi θi − b(θi )ai (ϕ) + c(yi , ϕ) dyi = 0
ai (ϕ)
d’où:
E(yi ) = b′ (θi )
Et avec b bijective, on a les relations:

θi = b′−1 (µi ), expression qui permet d’estimer le paramètre naturel







⎪ ′
b′−1 (θi ) = b′′ (b′−1
1



⎩ (µ ))
i

Les expressions de (2) obtenues sont donc:



∂li yi −E(yi )
=



∂θi


⎨ ai (ϕ)

∂θi

= 1


∂µi

b′′ (θi )

(2) devient donc:


∂li yi − µi 1 dµi
= xi, j
∂β j ai (ϕ) b′′ (θi ) dηi
Avec Vi = Var(Yi ) = ai (ϕ) × b′′ (θi ) (démonstration en annexe B), on trouve:
∂li yi − µi dµi
= xi, j
∂θ j Vi dηi
On pose:
1
Wi = dηi 2
Vi ( dµi
)
On a g(µi ) = ηi , on a donc:
dηi
= g′ (µi )
dµi
Or on a également:
dµi ′ 1 1
= g−1 (ηi ) = ′ −1 =
dηi g ◦ g (ηi ) g′ (µi )
On peut donc écire:
( )2
dµi
Wi = /Vi
dηi

110
Le système (1) que l’on cherche à résoudre devient:
n
∑ dηi
∀ j ∈ [1, p], s j (β) = Wi (yi − µi ) xi, j = 0
i=1
dµi

Sous forme matricielle, le système à résoudre s’écrit:


⎡ ⎤ ⎡ ⎤
⎢⎢⎢ ⎥ ⎢ ⎥
⎢⎢⎢ s1 (β)⎥⎥⎥⎥⎥ ⎢⎢⎢⎢⎢0⎥⎥⎥⎥⎥
⎢⎢⎢ ⎥⎥⎥ ⎢⎢⎢ ⎥⎥⎥
⎢⎢⎢ ⎥ ⎢ ⎥
⎢⎢⎢ s2 (β)⎥⎥⎥⎥⎥ ⎢⎢⎢⎢⎢0⎥⎥⎥⎥⎥
⎢⎢⎢ . ⎥⎥⎥⎥⎥ = ⎢⎢⎢⎢⎢ . ⎥⎥⎥⎥⎥ (3)
⎢⎢⎢ ⎥ ⎢ ⎥
⎢⎢⎢⎢ .. ⎥⎥⎥⎥ ⎢⎢⎢⎢ .. ⎥⎥⎥⎥
⎢⎢⎢ ⎥⎥⎥ ⎢⎢⎢ ⎥⎥⎥
⎢⎢⎢ ⎥ ⎢ ⎥
⎣ s p (β)⎥⎥⎦ ⎢⎢⎣0⎥⎥⎦

Résolution du problème de MV par la méthode de Newton-Raphson


Le système que l’on cherche à résoudre est donc:

∀ j ∈ [1, p], s j (β) = 0

Posons β = ζ la solution du système, et ζ0 une valeur proche de ζ. Avec un développement de


Taylor d’ordre 1, on a:

0 = s j (ζ)  s j (ζ0 ) + (ζ − ζ0 ) × Ds j (ζ0 )


⇒ ζ = ζ0 − Ds−1
j (ζ0 )s j (ζ0 ) (4)

On cherche à faire converger l’algorithme itératif à partir de la valeur initiale ζ0 . La formule


récursive de cet algorithme qui permet de converger vers la solution s’écrit:

ζi+1 = ζi − Ds−1
j (ζi )s j (ζi )

Pour trouver la solution ζ, il faut calculer Ds:


⎡ ⎤ ⎡ ⎤
⎢⎢⎢ ∂s1 ∂s1 ⎥⎥⎥ ⎢⎢ ∂2 l1 ∂2 l1 ⎥⎥⎥
⎢⎢⎢⎢ ∂β1 ... ∂β p ⎥⎥⎥⎥ ⎢⎢⎢⎢⎢ ∂β1 ∂β1 ... ∂β1 ∂β1 ⎥⎥⎥⎥
. . ⎥⎥ ⎢⎢ . ..
⎢⎢⎢ ⎥ ⎢ ⎥⎥⎥
Ds(ζ) = ⎢⎢⎢⎢⎢ .. ... .. ⎥⎥⎥⎥⎥ = ⎢⎢⎢⎢⎢ .. ... .
⎥⎥⎥ = Matrice Hessienne
⎥⎥⎥⎥
⎢⎢⎢ ⎥⎥⎥ ⎢⎢⎢ ⎥⎥⎥
⎢⎢⎢ ∂s ∂s
⎥⎥ ⎢⎢⎢ ∂2 l ∂2 l p
⎣ p ... p⎥ ⎦ ⎣ p ...
⎥⎦
∂β1 ∂β p ∂β1 ∂β1 ∂β1 ∂β1

On a:
n
∂2 l ∂ ∑ (yi − µi ) dµi
= xi, k
∂β j ∂βk ∂βk i=1 Vi dηi
n
∑ ∂ Vi−1 dηi ∂ V −1 dηi
= (yi − µi ) xi, j + (yi − µi ) i xi, j
i=1
∂βk dµi ∂βk dµi

111
et avec:
∂ ∂ dµi dηi dµi
(yi − µi ) = − (µi ) = − =− xi, k
∂βk ∂βk ηi βk ηi
on obtient:
n n
∂2 l ∂
[ ] ∑
−1 dηi dµi

= (yi − µi ) Vi xi, j − Vi−1 xi, k xi, j
∂β j ∂βk i=1
∂βk dµi i=1
dηi
Ces équation sont fortement dépendantes des valeurs individuelles yi de Y. Pour assurer une
meilleure convergence de l’algorithme, on utilise l’espérance de la dérivée seconde, et avec
E( ni=1 yi − µi ) = 0, on trouve:

⎡ n ⎤
∂ l
[ 2 ]
⎢⎢⎢∑ −1 dµi
= −E ⎢⎢⎣ Vi
⎥⎥
E xi, k xi, j ⎥⎥⎥⎦
∂β j ∂βk i=1
dηi
L’algorithme à résoudre est alors l’algorithme de Fisher scoring.

Algorithme Fisher scoring


On remplace dans le cadre de l’algorithme Fisher scoring ∂β∂j ∂βl k par son espérance. On trouve:
2

⎡ n ⎤
∂ l
[ 2 ]
⎢⎢⎢∑ −1 dµi
= −E ⎢⎣ Vi
⎥⎥
E xi, k xi, j ⎥⎥⎥⎦
∂β j ∂βk

i=1
dηi
n

=− Wi xi, k xi, j
i=1

La matrice associée, matrice des covariances nommée matrice d’information de Fisher, s’écrit
donc sous la forme:
∂2 l
[ ]
A(β) = −E = X T WX
∂β j ∂βk j, k∈[1, p]
Soit βr l’estimation de β lors de la rème itération. A partir du développement de Taylor établit
précédemment, l’algorithme itératif d’estimation des coefficients de régression s’écrit:
βr+1 = βr + A−1 (βr )s(βr ) ∈ R p
Il est appliqué jusqu’à ce que l’on considère l’écart |βr+1 − βr | comme suffisamment petit pour
pouvoir prétendre que l’algorithme a convergé et que βr est très proche de β. L’algorithme utilisé
pour estimer β est le suivant:

Initialisation: r = 0
Etape 1: Soit βr l’estimateur actuel de β. On calcule:
Etape 2: Calcule de βr+1 à partir de l’équation:
βr+1 = βr + A−1 (βr )s(βr ) ∈ R p
Puis on retourne à l’étape 1 jusqu’à ce que l’écart |βr+1 − βr | soit considéré comme suffisamment
petit.

112

Vous aimerez peut-être aussi